Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВалерий Филялин
1 Расширение возможностей МП «Эльбрус» по обработке вещественных чисел в арифметических каналах ядра студент 515 группы Поляков Н.Ю. научный руководитель д.т.н., проф. МФТИ Сахин Ю.Х.
2 ОКР «Кубик-2» ЗАО «МЦСТ» и ЗАО НТЦ «Модуль» микропроцессор «Эльбрус-4С+» 4 универсальных ядра «Эльбрус» 4 ядра с архитектурой NeuroMatrix (DSP) производительность МП Gflops производительность 4 ядер «Эльбрус» - 90 Gflops
3 Производительность существующего ядра «Эльбрус» каждый арифметико-логический канал (АЛК) выполняет 4 операции за такт одно ядро содержит 6 АЛК, из которых 4 выполняют вещественные операции производительность МП с 4 ядрами «Эльбрус» на частоте 1 ГГц: 4 ядра х 4 АЛК х 4 оп/такт х 1 ГГЦ = 64 Gflops
4 Оценка пропускной способности каналов памяти ПроцессорАрх-раКол-во ядерПропускная спос-ть канала памяти, Гбайт/с Произв-ть МП на 64-битных числах, Gflops Отношение пропускной способности к произв-сти, байт/оп. Intel Core i7-970Nehalem ,33 Intel Core i7-2600Sandy Bridge AMD ThubanK Godson-3AGodson Эльбрус-SЭльбрус КубикЭльбрус Кубик-2Эльбрус
5 Цель работы Повышение производительности ядра «Эльбрус» за счёт увеличения числа арифметико-логических каналов, обрабатывающих вещественные числа, до 6
6 Структура ядра МП «ЭЛЬБРУС-S»
7 Арифметико-логические каналы одного кластера(А)
8 Вещественный блок АЛК Функции байпаса: подготовка операндов для ИУподготовка операндов для ИУ сбор, обработка и выдача результатов операцийсбор, обработка и выдача результатов операций
9 Содержание работы доработка вещественных байпасов для подготовки операндов доработка механизма сбора результатов в 2 и 5 каналах добавление в 2 и 5 каналы ИУ, выполняющих наиболее часто используемые операции: FPA (сложение) FPA (сложение) FPA_sec (трёхоперандные операции) FPA_sec (трёхоперандные операции) MUL (умножение) MUL (умножение) верификация АЛК
10 Подготовка операндов 1 этап 2 этап с учётом появления вещественных ИУ во 2 и 5 каналах модули bps_fp и rg_fp для 0, 1, 3 и 4 каналов доработаны, а для 2 и 5 каналов разработаны на их основе 1 этап: для каждого операнда из каждого формата (64, 80, 86) выбирается число, если оно должно стать операндом, или ноль в противном случае 2 этап приведение формата чисел к распакованному (86), окончательное мультиплексирование и выдача операндов в ИУ
11 Сбор результатов модули res_fp_pipe для 2 и 5 каналов разработаны на основе модулей для других каналов 1.результаты ИУ принимаются в очередь результатов и складываются в порядке поступления операций в канал 2.результат выдаётся из очереди в другие каналы кластера и записывается в RF
12 Сбор результатов Сбор результатов Очередь результатов максимальная скорость поступления операций в канал – 1 оп./такт максимальная скорость выдачи результатов из канала – 1 оп./такт время исполнения операций в ИУ одного канал неодинаково необходима очередь для сбора результатов без обратной связи Проблема: выбрать минимальную длину очереди, при которой не будет происходить потери результатов
13 Сбор результатов Выбор длины очереди результатов. Упрощенная задача S max = l max - l min за время max{ l i+1 – l i } Упрощенная задача: N исполнительных устройств каждое имеет фиксированную длительность выполнения операции l i тактов сводится к исходной, если заменить каждое устройство исходной задачи на подустройства (1 подустройство на одну длительность) и наложить ограничения на завершения операций в подустройствах одного устройства решение исходной задачи не больше S max
14 Сбор результатов Алгоритмы максимального заполнения очереди В итоге длина очередей для 0-4 каналов выбрана равной 7 для 5 канала выбрана равной 18 Значит, минимальная длина очереди для исходной задачи равна l max - l min
15 АЛК после доработки
16 Верификация АЛК «Эльбрус-S» новые АЛК
17 Результаты 1.Разработано Verilog-описание доработанных вещественных блоков АЛК, которые позволяют повысить производительность ядер на вещественных операциях на 50 % производительность одного ядра равна 6(каналов) х 4(операции/такт) х 1 ГГц = 24 Gflops производительность четырёхъядерного МП равна 96 Gflops 2.Произведена начальная верификация разработанных модулей в составе СНК «Эльбрус-S»
19 l i – длительность выполнения операции в устройстве a i (t) = 1,если в момент t операция поступает в i-ое устройство 0 иначе b i (t) = 1,если в момент t i-ое устройство выдаёт результат 0 иначе ai(t) равно 1, если операция поступает в i-ое ИУ в момент времени t, 0 иначе. bi(t) аналогично для результатов
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.