ИВМ РАН - 4 марта 2009 г. Современные суперкомпьютерные технологии решения больших задач Вл.В.Воеводин НИВЦ МГУ имени М.В.Ломоносова Современные суперкомпьютерные.

Презентация:



Advertisements
Похожие презентации
Московский государственный университет им.М.В.Ломоносова Институт вычислительной математики РАН Воеводин В.В., Воеводин Вл.В. СУПЕРВЫЧИСЛЕНИЯ:
Advertisements

Суперкомпьютерное образование ВЫСОКОПРОИЗВОДИТЕЛЬНЫЕ ВЫЧИСЛЕНИЯ В НАУКЕ И ОБРАЗОВАНИИ Вл.В.Воеводин, А.В.Тихонравов 25 марта 2009 г.
Высокопроизводительные вычислительные системы: применения в биологии и практические аспекты решения некоторых задач.
Суперкомпьютер «УРАН» Андрей Созыкин Заведующий сектором суперкомпьютерных технологии ИММ УрО РАН Заведующий кафедрой высокопроизводительных.
М.Л. Цымблер, Л.Б. Соколинский Южно-Уральский государственный университет (Челябинск) Организация систем хранения данных на базе вычислительных кластеров.
Система в сборе 1. Кластер 2. ИБП 3. Стойка 14 U 4. Поставщик оборудования - компания Bevalex.
Схема экспериментальной сети T-Grid Института программных систем РАН Cуперкомпьютер Первенец-М (пиковая производительность 98 GFlops) - 16 узлов ( 2 x.
Суперкомпьютерный комплекс НИВЦ МГУ и перспективы его развития 12 ноября 2008 г. А.В.Тихонравов, Вл.В.Воеводин.
Основы параллельного программирования Посыпкин Михаил Анатольевич.
Текущее состояние проекта по строительству суперкомпьютера МГУ на 60 Тфлопс на 60 Тфлопс Директор НИВЦ, профессор А.В.Тихонравов.
Институт программных систем Российской академии наук 1 Суперкомпьютерная программа «СКИФ-ГРИД» Союзного государства Третий Форум проектов союзных программ.
Параллельные вычисления Лекция 6. y = 3x + 7x – 8x при x = 4 y1 = 3x(1 действие) y2 = 7x(2 действие) y3 = 8x(3 действие) y = y1 + y2 – y3(4 действие)
Введение в параллельную обработку. Уровни параллелизма в процессорах Параллелизм данных (DLP – Data Level Parallelism) Параллелизм команд (ILP – Instruction.
Методы построения и программное обеспечение вычислительных кластеров Дмитрий Лайком гр. 8ВМ23.
The AMD Athlon (K7). Шина AMD Athlon AMD Opteron.
Санкт-Петербургский Государственный Политехнический Университет Развитие высокопроизводительных вычислительных ресурсов вуза 21 ноября 2011 В.С. Синепол.
Институт программных систем Российской академии наук , Программы Союзного государства «СКИФ» и «СКИФ-ГРИД» Установлено более 60 суперкомпьютеров.
Принципы адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.М.Вишняков научный руководитель: д.т.н. А.В.Бухановский.
Решения компании «Т-Платформы» для высокопроизводительных вычислений: взаимовыгодное сотрудничество отечественной науки и бизнеса.
1. Этапы развития вычислительной техники и программного обеспечения. 2.Структура вычислительной системы. Ресурсы ВС- физические ресурсы, виртуальные ресурсы.
Транксрипт:

ИВМ РАН - 4 марта 2009 г. Современные суперкомпьютерные технологии решения больших задач Вл.В.Воеводин НИВЦ МГУ имени М.В.Ломоносова Современные суперкомпьютерные технологии решения больших задач Вл.В.Воеводин НИВЦ МГУ имени М.В.Ломоносова Научный семинар Глобальные изменения климата

Характеристики суперкомпьютеров IBM RoadRunner,6562 AMD Opteron DC IBM Cell, 1105 Tflop/s, ОП = 98 TB SGI Altix Ice 8200,51200 CPUs, Intel Xeon 2.66 GHz QC, 487 Tflop/s, ОП = 51 TB, диски = 900 TB IBM Blue Gene, CPUs, PowerPC 440, 478 Tflop/s, ОП = 74 TB Cray XT4,38642 CPUs, AMD Opteron 2.3 GHz QC, 266 Tflop/s, ОП = 77 TB, диски = 340 ТB G = 10 9, T = 10 12, P = 10 15

Суперкомпьютер СКИФ МГУ - Чебышев Создан МГУ, ИПС РАН и компанией Т-Платформы при поддержке компании Интел в рамках суперкомпьютерной программы СКИФ-ГРИД Союзного государства

Суперкомпьютер СКИФ МГУ - Чебышев 60 Tflop/s, 1250 процессоров Intel Xeon (*4 ядра)

Суперкомпьютер СКИФ МГУ - Чебышев

60 Tflop/s, Linpack = 47,17 Tflop/s ( ) 625 узлов, 1250 Intel Xeon E GHz (Harpertown), 5000 ядер, InfiniBand DDR GE ServNet+IPMI, Panasas 60 TB, 98 м 2 Суперкомпьютер СКИФ МГУ - Чебышев

Высокопроизводительные компьютерные системы (основные классы) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды Процессоры Векторные, суперскалярные, VLIW SMP, NUMA, ccNUMA MPP, кластеры

Высокопроизводительные компьютерные системы (степень параллелизма) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды Процессоры Степень параллелизма

Высокопроизводительные компьютерные системы (степень параллелизма) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды Процессоры Степень параллелизма Многоядерность

Высокопроизводительные компьютерные системы (степень параллелизма) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды Процессоры 2 – 4 – 8 – 12 … Степень параллелизма Многоядерность

Многоядерные процессоры: это навсегда 80-ядерный процессор Intel

Высокопроизводительные компьютерные системы (основные классы) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды FPGAs GP-GPU Cell … … Векторные Многоядерные Классические

Компьютеры с реконфигурируемой архитектурой (

FPGA Компьютеры с реконфигурируемой архитектурой (

FPGA Компьютеры с реконфигурируемой архитектурой (

РВС-5: установка в НИВЦ МГУ в середине 2009 года Разработчик – НИИ МВС ЮФУ, г.Таганрог

Графические процессоры и HPC (

ВидеокартаNVidia GeForce 8800 GTX AMD Radeon HD3870x2 AMD Radeon HD4850 Кол-во видеокарт211 Кол-во ГПУ на видеокарте 121 Разрядность вещественных вычислений 3232 / 64 Типы памяти видеоОЗУ константная разделяемая статическая регистровая видеоОЗУ константная кэш регистровая видеоОЗУ константная кэш регистровая Число и тип потоковых процессоров 128, скалярные64, векторные (float4) 160, векторные (float4) Пиковая производительность, ГФлопс (32 / 64 бит) 518 / –ГПУ: 421 / 84 Видеокарта: 842 / / 160 Техпроцесс90 нм55 нм Мощность145 Вт2 х 150 Вт150 Вт Энергоэффективность (32 / 64 бит), ГФлопс/Вт 3.57 / –2.80 / / 1.07 Графические процессоры и HPC (

Свойства распределенных вычислительных сред Свойства распределенных вычислительных сред Масштабность. Масштабность. Распределенность. Распределенность. Динамичность. Динамичность. Неоднородность. Неоднородность. Различная административная принадлежность. Различная административная принадлежность.

СВОЙСТВА ВЫЧИСЛИТЕЛЬНЫХ СРЕД Класс и свойства задач Структура процесса вычислений Программирование вычислительных сред Выполнение распределенных программ Использование вычислительных сред

Система метакомпьютинга X-COM (

Решение больших задач в распределенных вычислительных средах Центр Биоинженерия РАН. Определение скрытой периодичности в генетических последовательностях. Решена за 63 часа, 2 года на 1 CPU. 8 городов,10 организаций, 14 кластеров, 407 CPUs, Linux/Win. Режим работы узлов среды: монопольно. ПензГУ. Дифракция электромагнитного поля на тонких проводящих экранах. 300 CPUs, решена за 4 дня, 3.2 года на 1 CPU. 4 кластера СКЦ НИВЦ МГУ. Linux. Режим работы: монопольно + по незанятости. ИБМХ РАМН, Гематологический центр РАМН. Поиск молекул-ингибиторов для заданных белков-мишеней (тромбин). 270 CPUs, решена за 11 дней, 4.5 года на 1 CPU. 2 города, 3 кластера, учебный класс. Linux/Win. Режим работы: монопольно + по незанятости + системы очередей.

Система метакомпьютинга X-COM (

Куда мы планируем двигаться дальше? Следующий компьютер Московского университета будет установлен к концу 2009 года, производительность: 0.5 Pflops

Скорости растут, КПД падает…

Компьютерный дизайн лекарств (Intel -fast, исследование эффективности, Clovertown 2.66GHz) КПД процессора на задаче: 4% !!! Реальная производительность, Mflops

АНАЛИЗ АЛГОРИТМИЧЕСКОГО ПОДХОДА АНАЛИЗ СТРУКТУРЫ ПРИКЛАДНОЙ ПРОГРАММЫ АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМ РАЗРАБОТКИ ПО АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМНОГО ПО АНАЛИЗ КОНФИГУРАЦИИ КОМПЬЮТЕРА Анализ эффективности программ

Реальная производительность, Mflops Анализ эффективности программ

АНАЛИЗ АЛГОРИТМИЧЕСКОГО ПОДХОДА АНАЛИЗ СТРУКТУРЫ ПРИКЛАДНОЙ ПРОГРАММЫ АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМ РАЗРАБОТКИ ПО АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМНОГО ПО АНАЛИЗ КОНФИГУРАЦИИ КОМПЬЮТЕРА Анализ эффективности программ

Что снижает производительность современных кластеров? 1. Закон Амдала 2. Латентность передачи по сети 3. Пропускная способность каналов передачи данных 4. Особенности использования SMP-узлов 5. Балансировка вычислительной нагрузки 6. Возможность асинхронного счета и передачи данных 7. Особенности топологии коммуникационной сети 8.

Топология FatTree: СКИФ МГУ Чебышев

Что снижает производительность современных кластеров? 1. Закон Амдала 2. Латентность передачи по сети 3. Пропускная способность каналов передачи данных 4. Особенности использования SMP-узлов 5. Балансировка вычислительной нагрузки 6. Возможность асинхронного счета и передачи данных 7. Особенности топологии коммуникационной сети 8. Производительность отдельных процессоров 9....

Что влияет на производительность узлов кластеров? использование суперскалярности, неполная загрузка конвейерных функциональных устройств, пропускная способность кэшей, основной памяти, каналов передачи данных, объем кэш-памяти различных уровней и основной памяти, степень ассоциативности кэш-памяти различных уровней, несовпадение размера строк кэш-памяти различных уровней, несовпадение степени ассоциативности кэш-памяти различных уровней, стратегия замещения строк кэш-памяти различных уровней, стратегия записи данных, принятая при работе с подсистемами памяти, расслоение оперативной памяти (структура банков), частота работы оперативной памяти, частота FSB, ширина FSB, несоответствие базовых частот: процессора, FSB и оперативной памяти, влияние NUMA в серверах с архитектурой ccNUMA, влияние cc в серверах с архитектурой ccNUMA, влияние ОС (менеджер виртуальной памяти, накладные расходы на сборку мусора и выделение памяти).

Производительность на базовых операциях Производительность, Mflops

Масштабирование по частоте CPU? Производительность, Mflops 2,66 1,6 X * =

Реальное масштабирование на практике… Производительность, Mflops

Реальное масштабирование на практике… Clowertown – 1,6 GHz1,066 GHz Clowertown – 2,66 GHz1,333 GHz CPU / FSB – это число тактов процессора на каждый такт работы системной шины: для Clowertown 1,6 GHz – это 1,5 для Clowertown 2,66 GHz – это 2 1,5 / 2 = 0,75 – замедление работы с памятью (2,66 / 1,6 ) * 0,75 = 1,24 – реальное ускорение CPU FSB CPU FSB

Теория и практика масштабирования Производительность, Mflops

Эффективность, % КПД работы процессоров …

Процессоры и массивы…

Простой пример. Исходный текст for ( i = 1; i < N; i++) { for ( j = 1; j < N; j++) { for ( k = 1; k < N; k++) { DSUM[i][k] = DSUM[i][k] + S[k] * A[k][j][i] + P[i][j] * A[k][j][i–1] + P[i][k] * A[k][j–1][i] + P[j][k] * A[k–1][j][i]; } } }

Простой пример. Эффект от преобразований (перестановка циклов, раскрутка, Intel -fast)

Простой пример. Эффект от преобразований (перестановка циклов, раскрутка, PGI)

Сравнение компиляторов: Intel и PGI (простой пример, PGI/Intel)

Характеристики работы программно-аппаратной среды Количество задач в состоянии счёта на узле Число переключений контекста Процент использования CPU программами пользователя Процент использования CPU системой Процент использования CPU программами с приоритетом nice Процент простоя CPU Длина очереди процессов на счёт Объём памяти, занятой под системные кэши Объём памяти, свободной Объём памяти, используемой Общий объём памяти Количество принятых пакетов по сети Ethernet; Количество отправленных пакетов по сети Ethernet; Количество принятых байт по сети Ethernet; Количество отправленных байт по сети Ethernet; Количество ошибок типа carrier (отсутствие сигнала) в Ethernet; Количество ошибок типа collision (коллизия при передаче) в Ethernet; Количество ошибок типа drop (потеря пакета) в Ethernet; Количество ошибок типа err (прочие ошибки) в Ethernet; Количество ошибок типа fifo (переполнение буфера) в Ethernet; Количество ошибок типа frame (приём неверно сконструированного пакета) в Ethernet; Количество принятых блоков по NFS; Количество отправленных блоков по NFS; Число авторизаций на NFS сервере; Число операций на NFS сервере; Число перепосылок при общении с NFS сервере; Количество блоков, считанных из файла подкачки (paging); Количество блоков, записанных в файл подкачки (paging); Количество блоков, считанных из файла подкачки (swaping); Количество блоков, записанных в файл подкачки (swaping) Чтение с локального жёсткого диска; Запись на локальный жёсткий диск; Свободное место в /tmp

Исследование динамических свойств программ

Сертификация эффективности параллельных программ Эффективность последовательная Эффективность параллельная Объекты исследования: Задача – Алгоритм – Программа – Системное ПО – Компьютер Необходимы методика, технологии и программные инструменты сертификации эффективности и для пользователей, и для администраторов больших машин Необходима развитая инфраструктура ПО для решения задачи отображения программ и алгоритмов на архитектуру современных вычислительных систем Эффективность последовательная Эффективность параллельная Объекты исследования: Задача – Алгоритм – Программа – Системное ПО – Компьютер Необходимы методика, технологии и программные инструменты сертификации эффективности и для пользователей, и для администраторов больших машин Необходима развитая инфраструктура ПО для решения задачи отображения программ и алгоритмов на архитектуру современных вычислительных систем

Параллелизм – новый этап развития компьютерного мира ОБРАЗОВАНИЕ!

Учебный процесс и образование

Коллективный банк тестов СИГМА (по параллельным вычислениям)

Учебный процесс и образование