Расширение возможностей МП «Эльбрус» по обработке вещественных чисел в арифметических каналах ядра студент 515 группы Поляков Н.Ю. научный руководитель.

Презентация:



Advertisements
Похожие презентации
Разработка контроллера встроенного интерфейса AXI в составе системы на кристалле «Эльбрус-S2» Студент: Поляков Н.Ю., ФРТК, 515 гр. Научный руководитель:
Advertisements

Адаптация буферизующего коммутатора данных МП «Эльбрус-S2» Студент: Рогов А.С., ФРТК, 613 гр. Научный руководитель: Костенко В.О. Выпускная квалификационная.
Разработка модулей коммутации данных в микропроцессоре « Эльбрус -4 С +» Выпускная квалификационная работа на соискание степени бакалавра студента 816.
Разработка 4-х канального контроллера оперативной памяти DDR3 SDRAM с интерфейсом AXI Студент: Кожин А.С., ФРТК, 515 гр. Научный руководитель: д.т.н.,
Доработка контроллера памяти DDR2 SDRAM МП Эльбрус-S для МП Эльбрус-S2 Научный руководитель: Шерстнёв Андрей Кожин Алексей, ФРТК 513 гр.
Пятое Поколение и Суперкомпьютеры. Основные требования к компьютерам 5-го поколения: Создание развитого человеко-машинного интерфейса (распознавание речи,
Интерфейсный блок AXI- коммутатора в составе системы на кристалле «Эльбрус-S2» Студент: Смольянов Павел 518 гр. Научный руководитель: Сахин Ю.Х.
Научный руководитель: Кожин А.С. Студент: Лавров А.В, ФРТК 816 гр.
Роль микропроцессора в организации работы компьютера.
Процессор УПРОЩЕННАЯ ЛОГИЧЕСКАЯ СХЕМА ОДНОЯДЕРНОГО ПРОЦЕССОРА Информационная магистраль (шина) Шина данных (8, 16, 32, 64 бита) Шина адреса (16, 20, 24,
Лекция 6. Способы адресации в микропроцессорных системах.
Студент: Перов Д.Ю., ФРТК, 816 группа Научный руководитель: д.т.н. Сахин Ю.Х.
МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ МОСКОВСКИЙ ФИЗИКО - ТЕХНИЧЕСКИЙ ИНСТИТУТ (государственный университет) Устройство управления вещественного.
Процессор – это блок, предназначенный для автоматического считывания команд программы, их расшифровки и выполнения.
Презентация. Микропроцессоры. Процессор Центральным устройством в компьютере является процессор. Он выполняет различные арифметические и логические операции,
Микропроцессоры. Процессор Центральным устройством в компьютере является процессор. Он выполняет различные арифметические и логические операции, к которым.
Разработка системного коммутатора для микропроцессора «MCST-4R» Выполнил: Студент 415 группы МФТИ Щербина Н.А. Научный руководитель: Черепанов С.А. Дипломная.
Московский физико-технический институт (государственный университет) Факультет радиотехники и кибернетики Кафедра информатики и вычислительной техники.
Разработка кэша справочника для вычислительного комплекса на базе микропроцессора Эльбрус – 2S Студент : Петров Игорь, ФРТК, 613 группа Научный руководитель:
Устройства деления вещественных и целых чисел для системы на кристалле «МЦСТ-4R» Работа выполнена Беляковой Ольгой Игоревной Научный руководитель Пивненко.
Транксрипт:

Расширение возможностей МП «Эльбрус» по обработке вещественных чисел в арифметических каналах ядра студент 515 группы Поляков Н.Ю. научный руководитель д.т.н., проф. МФТИ Сахин Ю.Х.

ОКР «Кубик-2» ЗАО «МЦСТ» и ЗАО НТЦ «Модуль» микропроцессор «Эльбрус-4С+» 4 универсальных ядра «Эльбрус» 4 ядра с архитектурой NeuroMatrix (DSP) производительность МП Gflops производительность 4 ядер «Эльбрус» - 90 Gflops

Производительность существующего ядра «Эльбрус» каждый арифметико-логический канал (АЛК) выполняет 4 операции за такт одно ядро содержит 6 АЛК, из которых 4 выполняют вещественные операции производительность МП с 4 ядрами «Эльбрус» на частоте 1 ГГц: 4 ядра х 4 АЛК х 4 оп/такт х 1 ГГЦ = 64 Gflops

Оценка пропускной способности каналов памяти ПроцессорАрх-раКол-во ядерПропускная спос-ть канала памяти, Гбайт/с Произв-ть МП на 64-битных числах, Gflops Отношение пропускной способности к произв-сти, байт/оп. Intel Core i7-970Nehalem ,33 Intel Core i7-2600Sandy Bridge AMD ThubanK Godson-3AGodson Эльбрус-SЭльбрус КубикЭльбрус Кубик-2Эльбрус

Цель работы Повышение производительности ядра «Эльбрус» за счёт увеличения числа арифметико-логических каналов, обрабатывающих вещественные числа, до 6

Структура ядра МП «ЭЛЬБРУС-S»

Арифметико-логические каналы одного кластера(А)

Вещественный блок АЛК Функции байпаса: подготовка операндов для ИУподготовка операндов для ИУ сбор, обработка и выдача результатов операцийсбор, обработка и выдача результатов операций

Содержание работы доработка вещественных байпасов для подготовки операндов доработка механизма сбора результатов в 2 и 5 каналах добавление в 2 и 5 каналы ИУ, выполняющих наиболее часто используемые операции: FPA (сложение) FPA (сложение) FPA_sec (трёхоперандные операции) FPA_sec (трёхоперандные операции) MUL (умножение) MUL (умножение) верификация АЛК

Подготовка операндов 1 этап 2 этап с учётом появления вещественных ИУ во 2 и 5 каналах модули bps_fp и rg_fp для 0, 1, 3 и 4 каналов доработаны, а для 2 и 5 каналов разработаны на их основе 1 этап: для каждого операнда из каждого формата (64, 80, 86) выбирается число, если оно должно стать операндом, или ноль в противном случае 2 этап приведение формата чисел к распакованному (86), окончательное мультиплексирование и выдача операндов в ИУ

Сбор результатов модули res_fp_pipe для 2 и 5 каналов разработаны на основе модулей для других каналов 1.результаты ИУ принимаются в очередь результатов и складываются в порядке поступления операций в канал 2.результат выдаётся из очереди в другие каналы кластера и записывается в RF

Сбор результатов Сбор результатов Очередь результатов максимальная скорость поступления операций в канал – 1 оп./такт максимальная скорость выдачи результатов из канала – 1 оп./такт время исполнения операций в ИУ одного канал неодинаково необходима очередь для сбора результатов без обратной связи Проблема: выбрать минимальную длину очереди, при которой не будет происходить потери результатов

Сбор результатов Выбор длины очереди результатов. Упрощенная задача S max = l max - l min за время max{ l i+1 – l i } Упрощенная задача: N исполнительных устройств каждое имеет фиксированную длительность выполнения операции l i тактов сводится к исходной, если заменить каждое устройство исходной задачи на подустройства (1 подустройство на одну длительность) и наложить ограничения на завершения операций в подустройствах одного устройства решение исходной задачи не больше S max

Сбор результатов Алгоритмы максимального заполнения очереди В итоге длина очередей для 0-4 каналов выбрана равной 7 для 5 канала выбрана равной 18 Значит, минимальная длина очереди для исходной задачи равна l max - l min

АЛК после доработки

Верификация АЛК «Эльбрус-S» новые АЛК

Результаты 1.Разработано Verilog-описание доработанных вещественных блоков АЛК, которые позволяют повысить производительность ядер на вещественных операциях на 50 % производительность одного ядра равна 6(каналов) х 4(операции/такт) х 1 ГГц = 24 Gflops производительность четырёхъядерного МП равна 96 Gflops 2.Произведена начальная верификация разработанных модулей в составе СНК «Эльбрус-S»

l i – длительность выполнения операции в устройстве a i (t) = 1,если в момент t операция поступает в i-ое устройство 0 иначе b i (t) = 1,если в момент t i-ое устройство выдаёт результат 0 иначе ai(t) равно 1, если операция поступает в i-ое ИУ в момент времени t, 0 иначе. bi(t) аналогично для результатов