Нижегородский государственный университет им. Н.И.Лобачевского Факультет Вычислительной математики и кибернетики Лекция 4 Векторные расширения Intel Xeon.

Презентация:



Advertisements
Похожие презентации
Планирование выполнения инструкций для векторных процессоров с переменной длиной векторов Пантелеев Алексей Юрьевич Национальный исследовательский ядерный.
Advertisements

Использование языка Си для программирования ЦСП TMS320C67x.
Нижегородский государственный университет им. Н.И.Лобачевского Факультет Вычислительной математики и кибернетики Применение технологии Cilk для решения.
Лекция 6. Способы адресации в микропроцессорных системах.
Некоторые вопросы оптимизации.
Интернет Университет Суперкомпьютерных технологий Лекция 1 Основные понятия Учебный курс Введение в параллельные алгоритмы Якобовский М.В., д.ф.-м.н. Институт.
Теория компиляторов-2. Л.31 Теория компиляторов Часть II Лекция 2.
Учебный курс Принципы построения и функционирования ЭВМ Лекция 11 Микрокоманды и микрооперации профессор ГУ-ВШЭ, доктор технических наук Геннадий Михайлович.
Лекция 1 Классификация С++. Парадигмы программирования Императивная Функциональная Декларативная (логическая) Инструкция 1 Инструкция 2 Инструкция 3 Инструкция.
Интернет Университет Суперкомпьютерных технологий Лекция 3 Методы построения параллельных программ (продолжение) Учебный курс Введение в параллельные алгоритмы.
Архитектуры высокопроизводительной системы является достаточно широким, поскольку под архитектурой можно понимать и способ параллельной обработки данных,
Архитектура ЭВМ (лекция 7) проф. Петрова И.Ю. Курс Информатики.
Автор: учитель информатики Комкова Мария Сергеевна, г.Москва.
Интернет Университет Суперкомпьютерных технологий Лекция 4 Методы построения параллельных программ (продолжение) Учебный курс Введение в параллельные алгоритмы.
Машинная команда Энциклопедия учителя информатики Газета «Первое сентября»
RISC-архитектуры ( Reduced Instruction Set Computer)
Основная микросхема компьютера, в которой и производятся все вычисления. На процессоре установлен большой медный ребристый радиатор, охлаждаемый вентилятором.
Что нужно знать: динамическое программирование – это способ решения сложных задач путем сведения их к более простым задачам того же типа динамическое.
Набор инструкций. Набор команд это множество операций, которое исполняет процессор. Набор команд это та граница, где проектировщик компьютера и программист.
Параллельное программирование с использованием технологии OpenMP Аксёнов Сергей Владимирович к.т.н., доцент каф.ОСУ ТПУ Томский политехнический университет.
Транксрипт:

Нижегородский государственный университет им. Н.И.Лобачевского Факультет Вычислительной математики и кибернетики Лекция 4 Векторные расширения Intel Xeon Phi Программирование для Intel Xeon Phi Мееров И.Б. Кафедра математического обеспечения ЭВМ При поддержке компании Intel

2 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Введение Векторные расширения. Краткий обзор –Типы данных и регистровый пул –Обзор основных типов операций –Расширенная поддержка математических функций Векторизация в программах на языке высокого уровня Векторизация и математические функции Заключение Литература Содержание

Векторные расширения Intel Xeon Phi Н.Новгород, 2013 г. 3 Введение

4 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Начиная с середины XX века, программирование проделало большой путь и постоянно продолжает развиваться –программирование в машинных кодах, –программирование на ассемблере, –программирование на языках высокого уровня. Оптимизирующие компиляторы (Intel C/C++ Comiler, Intel Fortran Compiler и др.) умеют –использовать новые наборы команд; –генерировать код, ориентированный на современные центральные процессоры. Введение… Что это значит?

5 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Введение Парадигма SIMD – single instruction multiple data MMX, SSE, SSE2, SSE3…, SSE4, AVX, векторные расширения Intel Xeon Phi Специальные регистры, специальные векторные инструкции (арифметика, работа с памятью…). Как этим воспользоваться?

Векторные расширения Intel Xeon Phi Н.Новгород, 2013 г. 6 Векторные расширения. Краткий обзор

7 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Введение Векторные расширения присутствуют в наборах команд процессоров различных производителей и архитектур. –Intel: MMX – SSE – SSE2 – SSE3 – SSE4 – AVX – расширения в XeonPhi. –AMD: 3DNow! –ARM: NEON (во встраиваемых системах) Рассмотрим кратко векторные расширения, реализованные в Intel Xeon Phi, чтобы составить общее впечатление о сути вопроса для лучшего понимания того, как соотносится расчетный код на C/C++ и машинный/ассемблерный коды, порождаемые компилятором.

8 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Типы данных и регистровый пул В каждом ядре Xeon Phi сконструирован специальный модуль векторной обработки (VPU, vector processor unit) – разрядных zmm-регистра; двукратное увеличение размера по сравнению с AVX –векторный FMA, fused multiply–add: a = a + b * c с однократным округлением. Одновременные действия над битными целыми числами или 8 64-битными целыми числами или 16 числами с плавающей запятой одинарной точности или 8 числами с плавающей запятой двойной точности. Поддерживаются операции с комплексными данными. Большинство операций – тернарные (2 аргумента и один результат). По некоторым данным это приводит к 20% приросту производительности.

9 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Обзор основных типов операций Арифметические операции: сложение, вычитание, умножение, деление, FMA (для вычислений с плавающей запятой). Операции преобразования типов, позволяющие выполнять повышающие и понижающие преобразования согласно определенным правилам (см. [1, 3]). Логические операции, позволяющие выполнять векторные сравнения, находить минимум и максимум и т.д. Операции доступа к данным (загрузка/выгрузка память/регистр; scatter/gather, предвыборка, streaming stores). Могут применяться маскирование, swizzle, shuffle.

10 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Расширенная поддержка математических функций В рамках Intel Xeon Phi была реализована расширенная поддержка некоторых математических функций: Команды для вычисления в одинарной точности: sqrt(x), a x и деление могут быть вычислены при помощи указанных функций. Функция ЛатентностьПропускная способность 1/x41 1/sqrt(x)41 log 2 (x)41 2x2x 82

Векторные расширения Intel Xeon Phi Н.Новгород, 2013 г. 11 Векторизация в программах на языке высокого уровня

12 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Введение Вычислительные ядра Intel Xeon Phi могут выполнять однотипные вычисления, –оперируя векторами из целых чисел или чисел с плавающей запятой, –обладают широким спектром математических операций, логических операций, операций с битами, операций работы с памятью. Как написать программу, чтобы задействовать эти возможности?

13 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Способы векторизации 1. Использовать высокопроизводительные специализированные библиотеки, эффективно использующие векторные инструкции. 2. Написать программу на C/C++ или Fortran и откомпилировать ее тем транслятором, который «знает» про соответствующие наборы команд. 3. Использовать специальные ключи и директивы компилятора (подсказки). 4. Использовать возможности Array Notation и Elemental Function в рамках технологии Intel Cilk Plus. 5. Использовать классы интринсиков для SIMD. 6. Использовать векторные функции-интринсики. 7. Написать реализацию на ассемблере. Больше контроль. Сложнее в реализации

14 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Используем векторизованные библиотеки MKL и не только. Проблемы: –Не все, что нам нужно, есть в библиотеке. –Реализация, присутствующая в библиотеке, не всегда оптимальна для нашей конкретной задачи. –Сложности интеграции, поддержки, миграции на другие платформы.

15 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Используем C/C++ или Fortran в сочетании с оптимизирующим компилятором Intel Compliers (предпочтительно), gcc Крайне желательно минимизировать всевозможные зависимости по данным. Нежелательно вызывать функции в вычислительно трудоемких циклах. Однако вызов функции тоже не приговор. Компилятор может встроить код функции и успешно векторизовать цикл. Необходимо следить за выравниванием данных в памяти, то есть за их размещением с «правильных» адресов, кратным определенному числу байт (размеру кеш-линии, размеру векторного регистра). SSE: по 16, AVX: по 32, Xeon Phi: по 64 __declspec(aligned), __mm_malloc()…

16 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Используем C/C++ или Fortran в сочетании с оптимизирующим компилятором Необходимо стараться обеспечить однородный доступ к памяти, когда мы загружаем/выгружаем данные, лежащие последовательно (крайне желательно) либо с одинаковым шагом (допустимо). Необходимо сводить к минимуму смешивание объектов разных типов данных в выражениях. Необходимо по возможности избавляться от условных операторов в теле внутреннего цикла. Раньше компилятор в принципе отказывался векторизовывать такие циклы. Сейчас в ряде случаев ему удается это сделать. Примеры:

17 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Используем C/C++ или Fortran в сочетании с оптимизирующим компилятором Пример 1: #pragma simd #pragma vector aligned for (int i = 0; i < n; i++) { s = s + max(a[i],0); } Пример 2: #pragma simd #pragma vector aligned for (int i = 0; i < n; i++) if (a[i] == key) { Index = i; break; }

18 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Используем C/C++ или Fortran в сочетании с оптимизирующим компилятором по возможности не использовать объектно- ориентированные конструкции в расчетах; существуют способы умелого сочетания высокоуровневой объектно- ориентированной архитектуры и низкоуровневого программирования вычислительно трудоемких участков кода; стремиться к достаточно существенному объему работы во внутренних циклах; заметим, что компилятор преимущественно векторизует именно внутренние циклы, поэтому необходим простор для его деятельности.

19 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Используем C/C++ или Fortran в сочетании с оптимизирующим компилятором Пример кода, автоматически векторизуемого компилятором: void test(float * restrict a, float * restrict b, float * restrict c, int n) { for (int i = 0; i < n; i++) c[i] = a[i] * b[i] + a[i]; } restrict: мы говорим компилятору, что доступ в указанную память будет осуществляться только через указатель, использованный при объявлении. Не забываем ключ –restrict. Это необходимо, что компилятор зафиксировал факт отсутствия зависимостей по данным между массивами a, b и c и успешно векторизовал цикл.

20 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Используем ключи и директивы компилятора -O2, -O3 #pragma ivdep #pragma vector –always –aligned –nontemporal #pragma simd (с параметрами) –самый мощный на сегодняшний день инструмент; –необходимо пользоваться с осторожностью.

21 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Используем ключи и директивы компилятора #pragma ivdep #pragma vector always #pragma vector aligned for (int i = 0; i < n; i++) c[i] = a[i] * b[i] + a[i]; Или так: #pragma simd #pragma vector aligned for (int i = 0; i < n; i++) c[i] = a[i] * b[i] + a[i];

22 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Array Notation и Elemental Function в рамках технологии Intel Cilk Plus Технология Intel Cilk Plus позволяет разрабатывать эффективные параллельные программы для систем с общей памятью, по сравнению с OpenMP –упрощая обучение начинающих параллельному программированию, –предоставляя мощные, логичные и достаточно простые средства организации параллелизма с использованием механизма логических задач. Наряду с этим, в Cilk Plus добавлена так называемая Array Notation, что позволяет записывать вычисления в циклах как бы без самих циклов, явно показывая компилятору, что эти вычисления можно «положить» на векторную архитектуру.

23 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Array Notation и Elemental Function в рамках технологии Intel Cilk Plus void test(float * restrict a, float * restrict b, float * restrict c, int n) { c[0:n] = a[0:n] * b[0:n] + a[0:n]; } Кроме того, в Intel Cilk Plus вводится специальный вид функций, Elemental Function. Эти функции, описанные специальным образом, могут выполнять операции над единицей данных. Такие функции могут быть использованы для векторизации и распараллеливания циклов. Подробнее Array Notation и Elemental Functions рассматриваются в лекции 5.

24 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Векторизация. Интринсики и ассемблер Большой контроль: делаем ровно то, что хотим. Сложность разработки: нужно хорошо знать систему команд и особенности архитектуры, а также иметь опыт низкоуровневого программирования. Трудности с переносимостью кода на другие программно-аппаратные платформы. Изучение выходит за рамки данного курса.

Векторные расширения Intel Xeon Phi Н.Новгород, 2013 г. 25 Векторизация и математические функции

26 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Введение Отдельно необходимо обсудить важный вопрос о сочетании векторизации и математических функций, вызываемых в циклах, так как именно на вычисление этих функций приходится основное время работы значительного числа прикладных программ. Ранее мы установили факт наличия в наборе команд Intel Xeon Phi специальных инструкций для вычисления четырех математических функций. Как быть с остальными функциями?

27 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Пример void test(float * a, float * b, float * c, int n) { #pragma simd #pragma vector aligned for (int i = 0; i < n; i++) c[i] = a[i] * b[i] + sinf(a[i]); } Отчет: цикл векторизован. Вопрос: как векторизуется синус?

28 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Реализации математических функций LibM – модуль компилятора. ICC содержит быстрый LibM, оптимизированный под современные архитектуры. SVML (short vector math library) – модуль компилятора ICC. Используется, если цикл векторизован. Мат. функции реализованы с использованием SIMD, вычисляются для короткого вектора аргументов. Длина вектора соответствует длине xmm, ymm, zmm регистра. VML (vector math library) – часть библиотеки MKL. Используется при явном вызове функций (vsSin, vdSin…). Вычисляет значение функции в N точках.

29 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Реализации математических функций LibM (см. math.h). Перекомпиляция ICC в программах, активно использующих мат. функции, часто приводит к ускорению расчетов. SVML vs. VML VML может выигрывать у SVML на больших длинах, но не всегда (эффект существенно зависит от архитектуры). Не векторизован: LibM Векторизован: SVML VML: vsSin(n, a, c); for (int i = 0; i < n; i++) c[i] = a[i] * b[i] + sinf(a[i]);

30 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Реализации математических функций. Точность Настройки, влияющие на точность (ICC): -fp-model -fimf-domain-exclusion -fimf-precision Настройки, влияющие на точность (MKL/VML): Режимы High Accuracy (HA), Low Accuracy (LA), Enhanced Performance (EP). Могут быть настроены для конкретного вызова.

31 Н. Новгород, 2013 г. Векторные расширения Intel Xeon Phi Авторский коллектив Мееров Иосиф Борисович, к.т.н., доцент, зам. зав. кафедры Математического обеспечения ЭВМ факультета ВМК ННГУ