Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемwww.inm.ras.ru
1 ИВМ РАН - 4 марта 2009 г. Современные суперкомпьютерные технологии решения больших задач Вл.В.Воеводин НИВЦ МГУ имени М.В.Ломоносова Современные суперкомпьютерные технологии решения больших задач Вл.В.Воеводин НИВЦ МГУ имени М.В.Ломоносова Научный семинар Глобальные изменения климата
3 Характеристики суперкомпьютеров IBM RoadRunner,6562 AMD Opteron DC IBM Cell, 1105 Tflop/s, ОП = 98 TB SGI Altix Ice 8200,51200 CPUs, Intel Xeon 2.66 GHz QC, 487 Tflop/s, ОП = 51 TB, диски = 900 TB IBM Blue Gene, CPUs, PowerPC 440, 478 Tflop/s, ОП = 74 TB Cray XT4,38642 CPUs, AMD Opteron 2.3 GHz QC, 266 Tflop/s, ОП = 77 TB, диски = 340 ТB G = 10 9, T = 10 12, P = 10 15
4 Суперкомпьютер СКИФ МГУ - Чебышев Создан МГУ, ИПС РАН и компанией Т-Платформы при поддержке компании Интел в рамках суперкомпьютерной программы СКИФ-ГРИД Союзного государства
5 Суперкомпьютер СКИФ МГУ - Чебышев 60 Tflop/s, 1250 процессоров Intel Xeon (*4 ядра)
6 Суперкомпьютер СКИФ МГУ - Чебышев
15 60 Tflop/s, Linpack = 47,17 Tflop/s ( ) 625 узлов, 1250 Intel Xeon E GHz (Harpertown), 5000 ядер, InfiniBand DDR GE ServNet+IPMI, Panasas 60 TB, 98 м 2 Суперкомпьютер СКИФ МГУ - Чебышев
16 Высокопроизводительные компьютерные системы (основные классы) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды Процессоры Векторные, суперскалярные, VLIW SMP, NUMA, ccNUMA MPP, кластеры
17 Высокопроизводительные компьютерные системы (степень параллелизма) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды Процессоры Степень параллелизма
18 Высокопроизводительные компьютерные системы (степень параллелизма) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды Процессоры Степень параллелизма Многоядерность
19 Высокопроизводительные компьютерные системы (степень параллелизма) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды Процессоры 2 – 4 – 8 – 12 … Степень параллелизма Многоядерность
20 Многоядерные процессоры: это навсегда 80-ядерный процессор Intel
21 Высокопроизводительные компьютерные системы (основные классы) Компьютеры с общей памятью Компьютеры с распределенной памятью Распределенные вычислительные среды FPGAs GP-GPU Cell … … Векторные Многоядерные Классические
22 Компьютеры с реконфигурируемой архитектурой (
23 FPGA Компьютеры с реконфигурируемой архитектурой (
24 FPGA Компьютеры с реконфигурируемой архитектурой (
26 РВС-5: установка в НИВЦ МГУ в середине 2009 года Разработчик – НИИ МВС ЮФУ, г.Таганрог
27 Графические процессоры и HPC (
29 ВидеокартаNVidia GeForce 8800 GTX AMD Radeon HD3870x2 AMD Radeon HD4850 Кол-во видеокарт211 Кол-во ГПУ на видеокарте 121 Разрядность вещественных вычислений 3232 / 64 Типы памяти видеоОЗУ константная разделяемая статическая регистровая видеоОЗУ константная кэш регистровая видеоОЗУ константная кэш регистровая Число и тип потоковых процессоров 128, скалярные64, векторные (float4) 160, векторные (float4) Пиковая производительность, ГФлопс (32 / 64 бит) 518 / –ГПУ: 421 / 84 Видеокарта: 842 / / 160 Техпроцесс90 нм55 нм Мощность145 Вт2 х 150 Вт150 Вт Энергоэффективность (32 / 64 бит), ГФлопс/Вт 3.57 / –2.80 / / 1.07 Графические процессоры и HPC (
30 Свойства распределенных вычислительных сред Свойства распределенных вычислительных сред Масштабность. Масштабность. Распределенность. Распределенность. Динамичность. Динамичность. Неоднородность. Неоднородность. Различная административная принадлежность. Различная административная принадлежность.
31 СВОЙСТВА ВЫЧИСЛИТЕЛЬНЫХ СРЕД Класс и свойства задач Структура процесса вычислений Программирование вычислительных сред Выполнение распределенных программ Использование вычислительных сред
32 Система метакомпьютинга X-COM (
33 Решение больших задач в распределенных вычислительных средах Центр Биоинженерия РАН. Определение скрытой периодичности в генетических последовательностях. Решена за 63 часа, 2 года на 1 CPU. 8 городов,10 организаций, 14 кластеров, 407 CPUs, Linux/Win. Режим работы узлов среды: монопольно. ПензГУ. Дифракция электромагнитного поля на тонких проводящих экранах. 300 CPUs, решена за 4 дня, 3.2 года на 1 CPU. 4 кластера СКЦ НИВЦ МГУ. Linux. Режим работы: монопольно + по незанятости. ИБМХ РАМН, Гематологический центр РАМН. Поиск молекул-ингибиторов для заданных белков-мишеней (тромбин). 270 CPUs, решена за 11 дней, 4.5 года на 1 CPU. 2 города, 3 кластера, учебный класс. Linux/Win. Режим работы: монопольно + по незанятости + системы очередей.
34 Система метакомпьютинга X-COM (
35 Куда мы планируем двигаться дальше? Следующий компьютер Московского университета будет установлен к концу 2009 года, производительность: 0.5 Pflops
36 Скорости растут, КПД падает…
37 Компьютерный дизайн лекарств (Intel -fast, исследование эффективности, Clovertown 2.66GHz) КПД процессора на задаче: 4% !!! Реальная производительность, Mflops
38 АНАЛИЗ АЛГОРИТМИЧЕСКОГО ПОДХОДА АНАЛИЗ СТРУКТУРЫ ПРИКЛАДНОЙ ПРОГРАММЫ АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМ РАЗРАБОТКИ ПО АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМНОГО ПО АНАЛИЗ КОНФИГУРАЦИИ КОМПЬЮТЕРА Анализ эффективности программ
39 Реальная производительность, Mflops Анализ эффективности программ
40 АНАЛИЗ АЛГОРИТМИЧЕСКОГО ПОДХОДА АНАЛИЗ СТРУКТУРЫ ПРИКЛАДНОЙ ПРОГРАММЫ АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМ РАЗРАБОТКИ ПО АНАЛИЗ ЭФФЕКТИВНОСТИ СИСТЕМНОГО ПО АНАЛИЗ КОНФИГУРАЦИИ КОМПЬЮТЕРА Анализ эффективности программ
41 Что снижает производительность современных кластеров? 1. Закон Амдала 2. Латентность передачи по сети 3. Пропускная способность каналов передачи данных 4. Особенности использования SMP-узлов 5. Балансировка вычислительной нагрузки 6. Возможность асинхронного счета и передачи данных 7. Особенности топологии коммуникационной сети 8.
42 Топология FatTree: СКИФ МГУ Чебышев
43 Что снижает производительность современных кластеров? 1. Закон Амдала 2. Латентность передачи по сети 3. Пропускная способность каналов передачи данных 4. Особенности использования SMP-узлов 5. Балансировка вычислительной нагрузки 6. Возможность асинхронного счета и передачи данных 7. Особенности топологии коммуникационной сети 8. Производительность отдельных процессоров 9....
44 Что влияет на производительность узлов кластеров? использование суперскалярности, неполная загрузка конвейерных функциональных устройств, пропускная способность кэшей, основной памяти, каналов передачи данных, объем кэш-памяти различных уровней и основной памяти, степень ассоциативности кэш-памяти различных уровней, несовпадение размера строк кэш-памяти различных уровней, несовпадение степени ассоциативности кэш-памяти различных уровней, стратегия замещения строк кэш-памяти различных уровней, стратегия записи данных, принятая при работе с подсистемами памяти, расслоение оперативной памяти (структура банков), частота работы оперативной памяти, частота FSB, ширина FSB, несоответствие базовых частот: процессора, FSB и оперативной памяти, влияние NUMA в серверах с архитектурой ccNUMA, влияние cc в серверах с архитектурой ccNUMA, влияние ОС (менеджер виртуальной памяти, накладные расходы на сборку мусора и выделение памяти).
45 Производительность на базовых операциях Производительность, Mflops
46 Масштабирование по частоте CPU? Производительность, Mflops 2,66 1,6 X * =
47 Реальное масштабирование на практике… Производительность, Mflops
48 Реальное масштабирование на практике… Clowertown – 1,6 GHz1,066 GHz Clowertown – 2,66 GHz1,333 GHz CPU / FSB – это число тактов процессора на каждый такт работы системной шины: для Clowertown 1,6 GHz – это 1,5 для Clowertown 2,66 GHz – это 2 1,5 / 2 = 0,75 – замедление работы с памятью (2,66 / 1,6 ) * 0,75 = 1,24 – реальное ускорение CPU FSB CPU FSB
49 Теория и практика масштабирования Производительность, Mflops
50 Эффективность, % КПД работы процессоров …
52 Процессоры и массивы…
53 Простой пример. Исходный текст for ( i = 1; i < N; i++) { for ( j = 1; j < N; j++) { for ( k = 1; k < N; k++) { DSUM[i][k] = DSUM[i][k] + S[k] * A[k][j][i] + P[i][j] * A[k][j][i–1] + P[i][k] * A[k][j–1][i] + P[j][k] * A[k–1][j][i]; } } }
54 Простой пример. Эффект от преобразований (перестановка циклов, раскрутка, Intel -fast)
55 Простой пример. Эффект от преобразований (перестановка циклов, раскрутка, PGI)
56 Сравнение компиляторов: Intel и PGI (простой пример, PGI/Intel)
57 Характеристики работы программно-аппаратной среды Количество задач в состоянии счёта на узле Число переключений контекста Процент использования CPU программами пользователя Процент использования CPU системой Процент использования CPU программами с приоритетом nice Процент простоя CPU Длина очереди процессов на счёт Объём памяти, занятой под системные кэши Объём памяти, свободной Объём памяти, используемой Общий объём памяти Количество принятых пакетов по сети Ethernet; Количество отправленных пакетов по сети Ethernet; Количество принятых байт по сети Ethernet; Количество отправленных байт по сети Ethernet; Количество ошибок типа carrier (отсутствие сигнала) в Ethernet; Количество ошибок типа collision (коллизия при передаче) в Ethernet; Количество ошибок типа drop (потеря пакета) в Ethernet; Количество ошибок типа err (прочие ошибки) в Ethernet; Количество ошибок типа fifo (переполнение буфера) в Ethernet; Количество ошибок типа frame (приём неверно сконструированного пакета) в Ethernet; Количество принятых блоков по NFS; Количество отправленных блоков по NFS; Число авторизаций на NFS сервере; Число операций на NFS сервере; Число перепосылок при общении с NFS сервере; Количество блоков, считанных из файла подкачки (paging); Количество блоков, записанных в файл подкачки (paging); Количество блоков, считанных из файла подкачки (swaping); Количество блоков, записанных в файл подкачки (swaping) Чтение с локального жёсткого диска; Запись на локальный жёсткий диск; Свободное место в /tmp
58 Исследование динамических свойств программ
62 Сертификация эффективности параллельных программ Эффективность последовательная Эффективность параллельная Объекты исследования: Задача – Алгоритм – Программа – Системное ПО – Компьютер Необходимы методика, технологии и программные инструменты сертификации эффективности и для пользователей, и для администраторов больших машин Необходима развитая инфраструктура ПО для решения задачи отображения программ и алгоритмов на архитектуру современных вычислительных систем Эффективность последовательная Эффективность параллельная Объекты исследования: Задача – Алгоритм – Программа – Системное ПО – Компьютер Необходимы методика, технологии и программные инструменты сертификации эффективности и для пользователей, и для администраторов больших машин Необходима развитая инфраструктура ПО для решения задачи отображения программ и алгоритмов на архитектуру современных вычислительных систем
63 Параллелизм – новый этап развития компьютерного мира ОБРАЗОВАНИЕ!
64 Учебный процесс и образование
65 Коллективный банк тестов СИГМА (по параллельным вычислениям)
70 Учебный процесс и образование
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.