ИНСТИТУТ ПРОБЛЕМ ПРОЕКТИРОВАНИЯ В МИКРОЭЛЕКТРОНИКЕ РАН (ИППМ) Способы регулирования вычислений в параллельной потоковой вычислительной системе Д.Н. Змеев, А.В. Климов, Н.Н. Левченко, А.С. Окунев
2 x4–> M1.b{9,4}x2–> M1.b{7,6} x3–>M2.c{8,6} x1–>M1.a{7,6} M1(x1,x2){7,6} Программа на DFL = набор узлов … node M1(a,b) {i,j} begin … a*b –> M2.c{i+1,j}; … end … i j пакет токены входы узла заголовок узла программа узла Ассоциативная память Сопоставление токенов (при одинаковом контексте) Сопоставление токенов (при одинаковом контексте) формирование пакета ожидание «парного» токена ожидание «парного» токена формирование и посылка токена формирование и посылка токена поступает на вход узла node M1(a,b){i,j} контекст узла имя узла M1(x1,x2){7,6} пакет
3 Память Получатель Парадигма «СБОРА» (C, Fortran, и др.) Парадигма «РАЗДАЧИ» (DFL) Источник Получатель значение, адрес получателя Источник значение, адрес в памяти адрес в памяти, адрес получателя адрес получателя, значение Источник сохраняет свой результат в памяти по некоторому адресу, откуда его запрашивает потребитель по мере надобности. В DFL узел-источник сам знает (вычисляет) адреса всех потребителей, на которые и рассылает свой результат. Это облегчает работу аппаратуры при распределенном выполнении.
4... коммутатор токенов пакет токен... ПС k-1 ИУ r-1 ИУ 0 внутренний коммутатор пакетов ПС 0 токен пакет токен пакет ЯДРО ВЫЧИСЛИТЕЛЬНЫЙ МОДУЛЬ внутренний коммутатор токенов... пакет токен пакет токен пакет ЯДРО ВЫЧИСЛИТЕЛЬНЫЙ МОДУЛЬ ИУ m-r ПС n-k ПС n-1 ИУ m-1 внутренний коммутатор пакетов внутренний коммутатор токенов
Аппаратная поддержка мелкозернистого параллелизма Аппаратная поддержка мелкозернистого параллелизма Аппаратная синхронизация вычислительных процессов по данным Аппаратная синхронизация вычислительных процессов по данным Способность аппаратного (автоматического) выявления неявного параллелизма задачи Способность аппаратного (автоматического) выявления неявного параллелизма задачи Высокий показатель реальной производительности Высокий показатель реальной производительности Архитектура суперкомпьютерной системы Архитектура суперкомпьютерной системы 5 Аппаратная ассоциативная память Аппаратное распределение ресурсов Выполнение программы вычислительного узла не прерывается на подкачку данных Начинать работу можно до полного формирования данных (массива)
Классические dataflow системы Языки высокого уровня Sisal, Id, VAL и др. «работают» в парадигме «сбора». Заранее (статически) создается граф выполнения программы. Процессора сопоставления не было (примитивные команды). Не были решены проблемы управления локализацией и планирования вычислений. Были трудности с реализацией ассоциативной памяти ключей и токенов большого объема. Не была реализована поддержка динамического формирования контекста. Целевые узлы определялись в основном статически (были только элементы динамики). Модель вычислений ППВС Новая парадигма программирования – парадигма «раздачи», выраженная в языке DFL. Граф выполнения программы создается (разворачивается) в процессе вычислений. Имеется процессор сопоставления с развитой системой команд. Развитые (удобные) средства управления локализацией и планированием вычислений. Благодаря реализации функций управления локализацией и планированием вычислений удалось избежать построения физической памяти большого объема (иерархия памяти). Реализована аппаратная поддержка динамического формирования контекста и функций взаимодействия (формирование токенов и пакетов). Динамический выбор целевых узлов в узлах-источниках. 6
7 распределение вычислений по пространству (локализация по вычислительным ядрам); распределение вычислений во времени (локализация по этапам); изменение алгоритма работы буферов токенов и пакетов; управление с помощью различных методов ввода данных в систему; ограничение числа активных временных этапов (активаций) итераций или функций.
ИНСТИТУТ ПРОБЛЕМ ПРОЕКТИРОВАНИЯ В МИКРОЭЛЕКТРОНИКЕ РАН (ИППМ) Спасибо за внимание!