Использование графических ускорителей при решении задач обработки текстов Афонин С.А. Сыроватский Д.А. 1.11.2011 МГУ им.М.В.Ломоносова.

Презентация:



Advertisements
Похожие презентации
Разработка алгоритмов на базе FRiS-функции Лекция 6.
Advertisements

§ 13. Прямая в пространстве 1. Уравнения прямой в пространстве Пусть A 1 x+B 1 y+C 1 z+D 1 =0 и A 2 x+B 2 y+C 2 z+D 2 =0 – уравнения любых двух различных.
Принципы адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.М.Вишняков научный руководитель: д.т.н. А.В.Бухановский.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Принципы адаптации вычислительных алгоритмов под параллельную архитектуру графических акселераторов С.М.Вишняков научный руководитель: д.т.н. А.В.Бухановский.
Поиск ассоциативных правил Симашев Артем Симашева Зарина 2012.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
§ 4. Прямая в пространстве 1. Уравнения прямой в пространстве Пусть A 1 x+B 1 y+C 1 z+D 1 =0 и A 2 x+B 2 y+C 2 z+D 2 =0 – уравнения любых двух различных.
АРХИТЕКТУРА КОМПЬЮТЕРА При рассмотрении компьютерных устройств принято различать их архитектуру и структуру. Архитектурой компьютера называется его описание.
Планирование выполнения инструкций для векторных процессоров с переменной длиной векторов Пантелеев Алексей Юрьевич Национальный исследовательский ядерный.
Сравнение возможностей инструментария разработки программного обеспечения графических процессоров.
3. Взаимное расположение прямых в пространстве В пространстве две прямые могут: а) быть параллельны, б) пересекаться, в) скрещиваться. Пусть прямые 1 и.
Анализ данных Лекция 3 Визуализация данных. Визуальный анализ Наиболее быстрый анализ Относительно простое восприятие результатов Часто легко интерпретируемые.
Факультет прикладной математики и физики Кафедра вычислительной математики и программирования МОСКОВСКИЙ АВИАЦИОННЫЙ ИНСТИТУТ (национальный исследовательский.
Кластерный анализ. Цель работы ознакомление с проблемой кластерного анализа при интеллектуальной обработке данных в информационных системах; изучение.
Линейная алгебра и аналитическая геометрия Лектор Ефремова О.Н г. Тема: Прямая в пространстве.
11 класс, 2 урок. CPU RAM Информационная магистраль (шина) Шина данных (8, 16, 32, 64 бита) Шина адреса (16, 20, 24, 32, 36, 64 бита) Шина управления.
Статика – раздел механики, в котором изучается равновесие абсолютно твердых тел.
Python как инструмент Data Mining Лекция 4.4 Инструменты Data Mining Зырянов Александр Олегович.
Транксрипт:

Использование графических ускорителей при решении задач обработки текстов Афонин С.А. Сыроватский Д.А МГУ им.М.В.Ломоносова

План Что такое GPU и CUDA Алгоритмы анализа данных Задачи обработки текстов

GPU и CUDA GPU = Graphic Processing Unit CUDA = Computing Unified Device Architecture

Почему графические ускорители (GPU)?

2.1 TFLOPs FP TFLOPs FP32

Внешний вид

Графические процессоры

#2 in Top500: NEBULAE 1.27 PFlops Linpack 2.9 PFlops peak

CUDA – почти С Единственное отличие – добавления для работы с потоками

Архитектура CUDA SIMD мультипроцессоры (8 или 16 ядер) Мультипроцессор имеет регистры и разделяемую (локальную) память Задача разбивается на блоки, блоки на потоки Блоки назначаются на процессоры; выполненный блок невозможно запустить повторно

Общая для элементов блока Персональная для элемента блока

Персональная для элемента блока * 32bit byte B

Алгоритмы анализа данных Выявление ассоциативных зависимостей (Association rule mining, Apriori) Классификация (KNN) Кластеризация (K-means) Уменьшение размерности данных

Выявление зависимостей I={i1,...,im} множество атрибутов База данных набор записей вида (TID, i1,..., ip) Частотный k-набор k-подмножество I, элементы которого встречаются более чем в N записях Задача: найти все частотные k-наборы Зависимости: если набор содержит X, то от содержит и x' с вероятностью p

Алгоритм выявления Найти все частотные 1-наборы Для k=2,... и пока есть новые наборы – Построение k-кандидатов: объединение двух частотных (k-1)-наборов с общим (k-2)- префиксом – Фильтрация: к-кандидат удаляется, если он содержит не частотное (k-1) подмножество – Определение частотности кандидатов

Классификация Метод ближайших соседей – Задана выборка объектов с приписанными метками – Для нового объекта вычисляется расстояние до всех объектов выборки – Метка нового объекта самая частотная метка его K ближайших соседей из выборки

Понижение размерности На вход алгоритма поступает матрица расстояний, принцип действия следующий: На плоскости случайным образом фиксируются точки, попарно соединенные пружинами, длины ненапряженных состояний которых берутся из матрицы расстояний. Затем точки отпускаются, и действующие на них силы приводят потенциальную энергию систему к минимуму. Находятся варианты расположения точек, приводящие к минимуму потенциальной энергии и (или) лучше других удовлетворяющие другим формулам оценки качества распределения. Например, если матрица расстояний строилась по точкам, лежащим на плоскости, то в двумерное пространство точки восстановятся с точностью до поворота и смены знаков осей

Производительность на GPU: тысячи точек за секунды