Архитектура AMD Opteron Курс Организация ЭВМ и систем Технология HyperThreading.

Презентация:



Advertisements
Похожие презентации
The AMD Athlon (K7). Шина AMD Athlon AMD Opteron.
Advertisements

Примеры суперскалярных микропроцессоров. Pentium III.
Современные микропроцессоры Тенденции развития. Рассматриваемые процессоры Intel Itanium 2 Intel Core 2 Duo IBM Cell.
Core 2 Duo Двухъядерная 64-битная архитектура –За основу ядра взято ядро Pentium Pro Широкое динамическое исполнение Разделяемый КЭШ 2го уровня Поддержка.
Современные микропроцессоры. Технология Hyper- Threading Главная цель применения Hyper-Threading не выполнение двух (нескольких) задач одновременно, а.
Архитектура микропроцессоров И ее эволюция. Процессор и память: Команды и данные.
Контроллер динамической памяти Ядро процессора Hammer Гипер Транспорт HyperTrasport TM КЭШ команд первого уровня L1 КЭШ данных первого уровня L1 КЭШ второго.
Процессоры История платформы процессоров на архитектуре х86 Презентация: Бурдина Алексея Группы: 331.
Устройство управления ; Арифметико – логическое устройство. Регистры процессорной памяти.
Архитектуры с параллелизмом на уровне команд. Два класса Суперскалярные процессоры Процессоры с длинным командным словом.
Модульный принцип построения ЭВМ. Шинная архитектура 22 октября 2013 г.
Магитстрально- модульное построение компьютера. архитектурой ЭВМ называется описание структуры и принципов работы компьютера без подробностей технической.
Автор: учитель информатики Комкова Мария Сергеевна, г.Москва.
Процессоры История платформы х 86. Intel i386, AMD Am386 Поддержка защищенного режима параллельная работа некоторых блоков Шины данных и адреса 32 бит.
5 марта 2015 г. 5 марта 2015 г. 5 марта 2015 г. 5 марта 2015 г. 5 марта 2015 г.
Интерфейсный блок AXI- коммутатора в составе системы на кристалле «Эльбрус-S2» Студент: Смольянов Павел 518 гр. Научный руководитель: Сахин Ю.Х.
Устройство компьютера. 2 Системный блок Процессор (CPU = Central Processing Unit) – микросхема, которая обрабатывает информацию и управляет всеми устройствами.
Итак, начнём с самого интересного, со строения 4-ядерных процессоров AMD, которые предположительно будут носить рабочие названия Santa Rosa и Deerhound.
Архитектура персонального компьютера. Компьютер - представляет собой программируемое электронное устройство, способное обрабатывать данные и производить.
Введение в параллельную обработку. Уровни параллелизма в процессорах Параллелизм данных (DLP – Data Level Parallelism) Параллелизм команд (ILP – Instruction.
Транксрипт:

Архитектура AMD Opteron Курс Организация ЭВМ и систем Технология HyperThreading

Проблемы архитектуры х86 Нехватка 32-разрядного адресного пространства Нехватка регистров общего назначения Неудовлетворительные способности к масштабируемости Несовместимость 32- и 64-битных архитектур и приложений

Свойства AMD Opteron Одновременное исполнение 32- и 64- битного кода 64-битное* адресное пространство Усовершенствованное ядро Расширенный набор регистров Интегрированный контроллер памяти Технология HyperTransport * Реально меньше, см. дальше

На процессорах AMD Opteron построен суперкомпьютер Red Storm – Sandia, занимающий VI место в списке top500 (Ноябрь 2007)Red Storm – Sandia Название: Red Storm Компьютер: Sandia/ Cray Red Storm, Opteron 2.4 GHz dual core Процессор: AMD x86_64 Opteron Dual Core 2400 MHz (4.8 GFlops) Количество процессоров: Производительность (GFlops): –Максимальная: (Linpack) –Пиковая:

Системная Архитектура

L1 Icache 64KB Fetch Int Decode & Rename OPs 36-entry FP scheduler FADDFMISCFMUL Branch Prediction 44-entry Load/Store Queue L2 Cache Instruction Control Unit (72 entries) L1 Dcache 64KB Fastpath Microcode Engine Scan/Align FP Decode & Rename AGU ALU AGU ALU MULT AGU ALU Res Crossbar Memory Controller Hyper Transport TM System Request Queue Архитектура AMD Opteron

Интегрированный контроллер памяти

Увеличивается пропускная способность, уменьшается латентность памяти Доступная пропускная способность памяти масштабируется вместе с числом процессоров 128-разрядная шина памяти и интегрированный контроллер памяти DDR DRAM с поддержкой до 8 модулей памяти Доступная полоса пропускная способность памяти до 5,3 Гбайт/с на процессор

Технология HyperTransport

Масштабируемая пропускная способность при обмене информацией с другими процессорами, подсистемами ввода/вывода и прочими устройствами Поддержка до трех согласованных каналов HyperTransport (до 19,2 Гбайт/с) Пропускная способность одного канала (6,4 Гбайт/с) достаточна для PCI-X, DDR, InfiniBand и 10G Ethernet Низкое энергопотребление (1,2 В) уменьшает общее тепловыделение

Другие особенности 64-разрядные регистры 48-бит виртуальное адресное и 40-бит физическое адресное пространство Защита ECC для кэша и оперативной памяти имеющей защиту ECC Технологический процесс SOI (кремний на изоляторе) с проектной нормой 0,13 мкм Полная совместимость с технологией SSE2 Увеличенное число команд, выполняемых за такт (за счет увеличенных TLB, фильтров очистки конвейера и улучшенных алгоритмов предсказания переходов)

Подсистема памяти 64-разрядная виртуальная адресация Плоское адресное пространство 64-битные регистры –8 новых РОН (R8-R15) –8 новых регистров SSE (xmm8-xmm15) КЭШ L1: Кбайт, 2-ассоциативный КЭШ L2: 1024 Кбайт, 16-ассоциативный

Регистры x86-64 Added by x86-64 XMM8 XMM15 R8 R15 RAX 63 x87x87x87x In x86 XMM0 XMM7 SSESSESSESSE 1270 EIP 031 Program Counter AH EAX AL GPRGPRGPRGPR EAX EDI EAX AHAL

Режимы исполнения кода

Микроархитектура ядра Конвейер 12/17 стадий (int/fp) –3 устройства FPU: FAdd, FMul, FStore Поддержка x86, MMX, AMD64, 3DNow!, SSE, SSE2 128 бит контроллер памяти (+16 бит ECC) 3 шины HyperTransport (до 6.4 Гбит/с) Встроенная многопроцессорная логика TLB L1: 32 записи (общий, ассоциативный) TLB L2: 512 записей (общий, 4- ассоциативный)

Работа конвейера Выборка (FETCH) 16 байт/такт Распределение по 3 OP в планировщики из декодировщика (буфер 24 OP) Производительность FPU: –x87: 1 MUL + 1 ADD (1.9 FLOP/c max) –3DNow: 2 MUL + 2 ADD (3.4 FLOP/c max) Целочисленная производительность: –32 бита: 1 ADD + 1 MUL (3 такта) –64 бита: 1 ADD или 1 MUL (4 такта) Предсказание ветвлений:

Сравнение процессоров Opteron и Itanium2

Многопроцессорная система

Многопроцессорные системы на базе процессоров AMD Opteron и Intel-процессоров

HyperThreading Технология HyperThreading обеспечивает одновременное исполнение двух потоков с целью более полной загрузки функциональных устройств ядра процессора

Процессор, построенный по технологии Hyper-Threading и система с двумя процессорами IA-32

Два потока на разных процессорах Два потока на одном процессоре Два потока на одном процессоре с технологией HyperThreading

Загрузка процессоров 1.Выполнение 1 нити на обычном процессоре 2.Выполнение 2 нитей на 2 разных процессорах стандартной 2-процессорной системой 3.Одновременное выполнение 2 нитей на 1 процессоре с технологией HyperThreading 4.Выполнение 4 нитей на 2 процессорах 2-х процессорной системе с технологией HyperThreading

HyperThreading в Intel Pentium 4

КОНЕЦ

Ядро AMD64 (х86-64) Одновременное исполнение 32-разрядного и 64-разрядного кода. Преодолен барьер 4 Гбайт для памяти, присущий 32-разрядным системам. Интегрированный контроллер памяти DDR Увеличенная скорость выполнения приложений за счет существенного сокращения латентности оперативной памяти. Канал HyperTransport Пиковая пропускная способность до 19 Гбайт/с на процессор, что уменьшает узкие места в системе ввода/вывода. Технология HyperTransport масштабируется в зависимости от количества процессоров в многопроцессорной системе.

ТЕХНОЛОГИЯ HYPERTRANSPORT HyperTransport – это высокопроизводительный интерфейс, соединенный по принципу «точка-точка» (peer-to-peer). Это теоретически означает, что между собой могут быть соединены любые компоненты системы, причем без применения каких-либо коммутаторов или мостов. Каждое соединение состоит из субсоединения Передачи (Tx) и субсоединения Получения (Rx), работающих асинхронно. Передача данных организована в виде пакетов длиной до 64 байт. Пиковая производитель- ность до 12,8 Гб/c. Соединение HyperTransport может иметь магистраль шириной 2,4,8,16,32 или 64 бит в 100 МБ/сек для каждого направления.

ТЕХНОЛОГИЯ HYPERTRANSPORT 1 -- системная шина процессора; 2 -- интерфейс памяти; 3 -- межчиповое соединение; 4 -- интерфейсы ввода-вывода для шин.

Свойства HyperTransport Масштабируемая пропускная способность при обмене информацией с другими процессорами, подсистемами ввода/вывода и прочими устройствами. Поддержка до трех согласованных каналов HyperTransport, что обеспечивает пиковую пропускную одного процессора до 19,2 Гбайт/с. Пропускная способность одного канала, достигающая 6,4 Гбайт/с, является достаточной для поддержки новых технологий обмена данными, включая шину PCI-X, новые модели памяти DDR, архитектуру InfiniBand и сети 10G Ethernet. Низкое энергопотребление (напряжение питания – 1,2 В) уменьшает общее тепловыделение вычислительной системы.

Интегрированный контроллер памяти DDR DRAM Изменяет порядок доступа центрального процессора к оперативной памяти, в результате чего увеличивается пропускная способность, уменьшается латентность памяти и увеличивается производительность процессора. Доступная пропускная способность памяти масштабируется вместе с числом процессоров. 128-разрядная шина памяти и интегрированный контроллер памяти DDR DRAM с поддержкой до 8 модулей памяти типа registered DDR DIMM на процессор. Доступная полоса пропускная способность памяти до 5,3 Гбайт/с на процессор (при спецификации памяти PC2700).