Архитектура AMD Opteron Курс Организация ЭВМ и систем Технология HyperThreading
Проблемы архитектуры х86 Нехватка 32-разрядного адресного пространства Нехватка регистров общего назначения Неудовлетворительные способности к масштабируемости Несовместимость 32- и 64-битных архитектур и приложений
Свойства AMD Opteron Одновременное исполнение 32- и 64- битного кода 64-битное* адресное пространство Усовершенствованное ядро Расширенный набор регистров Интегрированный контроллер памяти Технология HyperTransport * Реально меньше, см. дальше
На процессорах AMD Opteron построен суперкомпьютер Red Storm – Sandia, занимающий VI место в списке top500 (Ноябрь 2007)Red Storm – Sandia Название: Red Storm Компьютер: Sandia/ Cray Red Storm, Opteron 2.4 GHz dual core Процессор: AMD x86_64 Opteron Dual Core 2400 MHz (4.8 GFlops) Количество процессоров: Производительность (GFlops): –Максимальная: (Linpack) –Пиковая:
Системная Архитектура
L1 Icache 64KB Fetch Int Decode & Rename OPs 36-entry FP scheduler FADDFMISCFMUL Branch Prediction 44-entry Load/Store Queue L2 Cache Instruction Control Unit (72 entries) L1 Dcache 64KB Fastpath Microcode Engine Scan/Align FP Decode & Rename AGU ALU AGU ALU MULT AGU ALU Res Crossbar Memory Controller Hyper Transport TM System Request Queue Архитектура AMD Opteron
Интегрированный контроллер памяти
Увеличивается пропускная способность, уменьшается латентность памяти Доступная пропускная способность памяти масштабируется вместе с числом процессоров 128-разрядная шина памяти и интегрированный контроллер памяти DDR DRAM с поддержкой до 8 модулей памяти Доступная полоса пропускная способность памяти до 5,3 Гбайт/с на процессор
Технология HyperTransport
Масштабируемая пропускная способность при обмене информацией с другими процессорами, подсистемами ввода/вывода и прочими устройствами Поддержка до трех согласованных каналов HyperTransport (до 19,2 Гбайт/с) Пропускная способность одного канала (6,4 Гбайт/с) достаточна для PCI-X, DDR, InfiniBand и 10G Ethernet Низкое энергопотребление (1,2 В) уменьшает общее тепловыделение
Другие особенности 64-разрядные регистры 48-бит виртуальное адресное и 40-бит физическое адресное пространство Защита ECC для кэша и оперативной памяти имеющей защиту ECC Технологический процесс SOI (кремний на изоляторе) с проектной нормой 0,13 мкм Полная совместимость с технологией SSE2 Увеличенное число команд, выполняемых за такт (за счет увеличенных TLB, фильтров очистки конвейера и улучшенных алгоритмов предсказания переходов)
Подсистема памяти 64-разрядная виртуальная адресация Плоское адресное пространство 64-битные регистры –8 новых РОН (R8-R15) –8 новых регистров SSE (xmm8-xmm15) КЭШ L1: Кбайт, 2-ассоциативный КЭШ L2: 1024 Кбайт, 16-ассоциативный
Регистры x86-64 Added by x86-64 XMM8 XMM15 R8 R15 RAX 63 x87x87x87x In x86 XMM0 XMM7 SSESSESSESSE 1270 EIP 031 Program Counter AH EAX AL GPRGPRGPRGPR EAX EDI EAX AHAL
Режимы исполнения кода
Микроархитектура ядра Конвейер 12/17 стадий (int/fp) –3 устройства FPU: FAdd, FMul, FStore Поддержка x86, MMX, AMD64, 3DNow!, SSE, SSE2 128 бит контроллер памяти (+16 бит ECC) 3 шины HyperTransport (до 6.4 Гбит/с) Встроенная многопроцессорная логика TLB L1: 32 записи (общий, ассоциативный) TLB L2: 512 записей (общий, 4- ассоциативный)
Работа конвейера Выборка (FETCH) 16 байт/такт Распределение по 3 OP в планировщики из декодировщика (буфер 24 OP) Производительность FPU: –x87: 1 MUL + 1 ADD (1.9 FLOP/c max) –3DNow: 2 MUL + 2 ADD (3.4 FLOP/c max) Целочисленная производительность: –32 бита: 1 ADD + 1 MUL (3 такта) –64 бита: 1 ADD или 1 MUL (4 такта) Предсказание ветвлений:
Сравнение процессоров Opteron и Itanium2
Многопроцессорная система
Многопроцессорные системы на базе процессоров AMD Opteron и Intel-процессоров
HyperThreading Технология HyperThreading обеспечивает одновременное исполнение двух потоков с целью более полной загрузки функциональных устройств ядра процессора
Процессор, построенный по технологии Hyper-Threading и система с двумя процессорами IA-32
Два потока на разных процессорах Два потока на одном процессоре Два потока на одном процессоре с технологией HyperThreading
Загрузка процессоров 1.Выполнение 1 нити на обычном процессоре 2.Выполнение 2 нитей на 2 разных процессорах стандартной 2-процессорной системой 3.Одновременное выполнение 2 нитей на 1 процессоре с технологией HyperThreading 4.Выполнение 4 нитей на 2 процессорах 2-х процессорной системе с технологией HyperThreading
HyperThreading в Intel Pentium 4
КОНЕЦ
Ядро AMD64 (х86-64) Одновременное исполнение 32-разрядного и 64-разрядного кода. Преодолен барьер 4 Гбайт для памяти, присущий 32-разрядным системам. Интегрированный контроллер памяти DDR Увеличенная скорость выполнения приложений за счет существенного сокращения латентности оперативной памяти. Канал HyperTransport Пиковая пропускная способность до 19 Гбайт/с на процессор, что уменьшает узкие места в системе ввода/вывода. Технология HyperTransport масштабируется в зависимости от количества процессоров в многопроцессорной системе.
ТЕХНОЛОГИЯ HYPERTRANSPORT HyperTransport – это высокопроизводительный интерфейс, соединенный по принципу «точка-точка» (peer-to-peer). Это теоретически означает, что между собой могут быть соединены любые компоненты системы, причем без применения каких-либо коммутаторов или мостов. Каждое соединение состоит из субсоединения Передачи (Tx) и субсоединения Получения (Rx), работающих асинхронно. Передача данных организована в виде пакетов длиной до 64 байт. Пиковая производитель- ность до 12,8 Гб/c. Соединение HyperTransport может иметь магистраль шириной 2,4,8,16,32 или 64 бит в 100 МБ/сек для каждого направления.
ТЕХНОЛОГИЯ HYPERTRANSPORT 1 -- системная шина процессора; 2 -- интерфейс памяти; 3 -- межчиповое соединение; 4 -- интерфейсы ввода-вывода для шин.
Свойства HyperTransport Масштабируемая пропускная способность при обмене информацией с другими процессорами, подсистемами ввода/вывода и прочими устройствами. Поддержка до трех согласованных каналов HyperTransport, что обеспечивает пиковую пропускную одного процессора до 19,2 Гбайт/с. Пропускная способность одного канала, достигающая 6,4 Гбайт/с, является достаточной для поддержки новых технологий обмена данными, включая шину PCI-X, новые модели памяти DDR, архитектуру InfiniBand и сети 10G Ethernet. Низкое энергопотребление (напряжение питания – 1,2 В) уменьшает общее тепловыделение вычислительной системы.
Интегрированный контроллер памяти DDR DRAM Изменяет порядок доступа центрального процессора к оперативной памяти, в результате чего увеличивается пропускная способность, уменьшается латентность памяти и увеличивается производительность процессора. Доступная пропускная способность памяти масштабируется вместе с числом процессоров. 128-разрядная шина памяти и интегрированный контроллер памяти DDR DRAM с поддержкой до 8 модулей памяти типа registered DDR DIMM на процессор. Доступная полоса пропускная способность памяти до 5,3 Гбайт/с на процессор (при спецификации памяти PC2700).