Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемИнга Руделева
1 АРХИТЕКТУРА СОВРЕМЕННЫХ ЭВМ Лекция 09: Нейрокомпьютеры и современные процессоры ВМиК МГУ им. М.В. Ломоносова, Кафедра АСВК Чл.-корр., профессор, д.ф.-м.н. Королёв Л.Н., Ассистент Волканов Д.Ю.
2 2 План лекции Биологический нейрон Модель нейровычислений Проблемы организации Примеры Современные микропроцессоры –Машины фон-Неймана –Потоковые машины (dataflow) Intel Core i7 (Nehalem) E2
3 3 Что такое нейрокомпьютер? Вычислительня система с MSIMD архитектурой Процессорный элемент упрощён до уровня нейрона Резко усложнены связи между элементами Программирование перенесено на изменение весовых коэффициентов связей между элементами
4 4 Биологический Нейрон Мозг содержит 10 миллиардов нейронов Тысячи типов нейронов соединены между собой 100 триллионов связей Нейрон может находиться, либо в спокойном, либо возбуждённом состоянии Порог перехода
5 5 Математическая модель нейрона Рисунок 1. Математическая модель нейрона
6 6 Имитатор Нейрона x1x1 x2x2 x3x3.... xdxd w1w1 w2w2 w3w3 wdwd w i. x i Функция f(x) y входной массив X=(x1,x2,...,xd) вектор весов W =(w1,w2,w3,....,wd) Сумма входов вектора X с весами W Выход y
7 7 Примеры функций
8 8 Многоуровневая нейронная сеть x1 x2 x3 xd Feature Vector Входной уровень Скрытый уровень Выходной уровень
9 9 Проблема обучения Обучение с готовыми ответами Обучение без ответов
10 10 Применение нейронных сетей Управление в реальном времен Распознавание образов Прогнозирование в реальном времени Оптимизация Обработка сигналов при наличии больших шумов Протезирование Психодиагностика
11 11 Варианты построения нейрокомпьютеров На основе обычных процессоров На основе DSP процессоров На специализированной аппаратной базе
12 12 Характеристики CUPS (connections update per second) - число измененных значений весов в секунду (оценивает скорость обучения). CPS (connections per second) - число соединений (умножений с накоплением) в секунду (оценивает производительность). CPSPW = CPS/Nw, где Nw - число синапсов в нейроне. CPPS - число соединений примитовов в секунду, CPPS=CPS*Bw*Bs, где Bw, Bs - разрядность весов и синапсов. MMAC - миллионов умножений с накоплением в секунду.
13 13 Особенности DSP процессоров Аппаратная поддержка программных циклов, кольцевых буферов Один или несколько операндов извлекаются из памяти в цикле исполнения команды Нет команд R,R->R Реализация однотактного умножения и команд, использующих в качестве операндов содержимое ячеек памяти
14 14 Особенности DSP процессоров (2) Сложение и умножение требуют: –произвести выборку двух операндов –выполнить сложение или умножение (обычно и то и другое) –сохранить результат или удерживать его до повторения Множественный доступ к памяти за один и тот же командный цикл.
15 Процессор NM Mhz RISC ядро 32-битные данные 32-битные операции регистров Векторное устройство Переменная разрядность До 2048 параллельных умноженей
16 16 RISC-ядро 5-ти ступенчатый 32-разрядный конвейер; 32- и 64-разрядные команды (обычно выполняется две операции в одной команде); Два адресных генератора, адресное пространство - 16 GB; Два 64-разрядных программируемых интерфейса с SRAM/DRAM-разделяемой памятью; Формат данных - 32-разрядные целые; Регистры: 8 32-разрядных регистров общего назначения; 8 32-разрядных адресных регистров; Специальные регистры управления и состояния; Два высокоскоростных коммуникационных порта ввода/вывода, Аппаратно совместимых с портами TMS320C4x.
17 17 VECTOR-сопроцессор Переменная 1-64-разрядная длина векторных операндов и результатов; Формат данных - целые числа, упакованные в 64-разрядные блоки, в форме слов переменной длины от 1 до 64 разрядов каждое; Поддержка векторно-матричных и матрично-матричных операций; Два типа функций насыщения на кристалле; Три внутренних 32x64-разрядных RAM- блока
18 18 Производительность Скалярные операции: –50 MIPS; –200 MOPS для 32-разрядных данных; Векторные операции: –от 50 до MMAC (миллионов умножений с накоплением в секунду); I/O и интерфейсы с памятью: –пропускная способность двух 64-разрядных интерфейсов с памятью - до 800 Мбайт/сек; I/O коммуникационные порты - до 20 Мбайт/сек кажд
19 19 Особенности NM64003 (1) Возможность работы с входными сигналами (синапсами) и весами переменной разрядности (от 1 до 64 бит), задаваемой программно, что обеспечивает уникальную способность нейропроцессора увеличивать производительность с уменьшением разрядности операндов; Быстрая подкачка новых весов на фоне вычислений; (24 операции умножения с накоплением за один такт при длине операндов 8 бит); V аппаратная поддержка эмуляции нейросетей большой размерности; Реализация функции активации в виде пороговой функции или функции ограничения;
20 20 Особенности NM64003 (2) Наличие двух широких шин (по 64 разряда) для работы с внешней памятью любого типа: до 4Мб SRAM и до 16 Гб DRAM; Наличие двух байтовых коммуникационных портов ввода/вывода, аппаратно совместимых с коммуникационными портами TMS320C4x для реализации параллельных распределенных вычислительных систем большой производительности. Возможность работать с данными переменной разрядности по различным алгоритмам, реализуемым с помощью хранящихся во внешнем ОЗУ программ
21 Системы на NM 6403 MC431 – однопроцессорная плата NM4 – четырехпроцессорная плата 6MCBO – 4 платы по 6 процессоров и платы для обработки входных сигналов
22 22 Схема нейровычислителя
23 23 Нейроускоритель МЦ 4.01
24 24 Преимущества нейрокомпьютеров Все алгоритмы нейроинформатики высокопараллельны Устойчивость нейросистем к помехам и разрушениям Устойчивые и надежные нейросистемы могут создаваться и из ненадежных элементов, имеющих значительный разброс параметров
25 25 Особенности нейрокомпьютеров Массовый параллелизм Распределённое представление информации и вычисления Способность к обучению и обобщению Адаптивность Свойство контекстуальной обработки информации Толерантность к ошибкам Низкое энергопотребление
26 26 План лекции Современные микропроцессоры –Машины фон-Неймана –Потоковые машины (dataflow) Intel Core i7 (Nehalem) E2
27 27 Фон-Нейман vs Dataflow x = y * a; z = y + b; z = z + b; y = x – z; a yb y *+ + - Поток сигналов управления vs Поток данных
28 28 Современные процессоры Конвейерная организация – многие сложные действия разбиваются на этапы с небольшим временем выполнения, каждый этап выполняется параллельно; Суперскалярная организация - на каждом этапе обрабатываются сразу несколько потоков инструкций в параллель; Внеочередное исполнение – операции не обязаны выполняться в ФУ строго в том порядке, который определен в программном коде; Спекулятивное выполнение – исполнение инструкций, которые не должны были выполняться (ошибочная ветвь исполнения); Предсказание переходов – предсказание программного адреса перехода и направления ветвления. 28
29 29 Схема современного процессора 29
30 30 Intel Core i7 (Nehalem)
31 31 Кирпичики Nehalem
32 32 Архитектура ядра
33 33 Loop Stream Detector
34 34 Функциональные устройства
35 35 HyperThreading
36 36 Иерархия памяти
37 37 Микросхема
38 38 Потоковые машины EDGE – Explicit Data Graph Execution Основная идея - прямая передача операндов, без записи в регистры; Операция выполняется сразу, как доступны все её операнды. Недостатки современных RISC процессоров –Много неэффективных и ресурсоемких структур, направленных на построение графа зависимостей по данным; –Много ресурсоемких операций доступа к регистрам. 38 RISC: ADD R1, R2, R3 EDGE: ADD T1, T2
39 39 E2 Особенности: Программа разделяется на блоки инструкций (как поток управления), но внутри инструкции исполняются в dataflow режиме; Два режима = скалярный + векторный; Объединение ядер – физические ядра могут объединяться в логические; Cпекулятивное исполнение. –между блоками; –внутри блока (предикатное выполнение). 39
40 40 Схема E2 40
41 41 Спасибо за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.