МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЯДЕРНЫЙ УНИВЕРСИТЕТ МИФИ» (НИЯУ МИФИ) Саровский физико-технический институт (СарФТИ НИЯУ МИФИ) ФАКУЛЬТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ и ЭЛЕКТРОНИКИ КАФЕДРА ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ Доклад На тему: Интеллектуальный анализ данных Метод Data Mining – Text Mining ВЫПОЛНИЛ: Игонькин Максим Николаевич ГРУППА: ВТМ-16Д РУКОВОДИТЕЛЬ РАБОТЫ: доцент Макарец А.Б. ЗАВЕДУЮЩИЙ КАФЕДРОЙ: к.ф-м.н, доцент Холушкин В.С. г. Саров 2016
Актуальность работы: 2 Актуальность темы обусловлена умением оперировать, в первую очередь, аналитической обработкой сверхбольшими объемами информации, накапливаемой в современных хранилищах данных, применять к данным методы анализа данных, чтобы получить положительный результат.
в Объект и предмет исследования: 3 Объект исследования: технология интеллектуального анализа текста (Text – Mining), которая представляет собой одну из разновидностей методов интеллектуального анализа данных (Data – Mining). В качестве предмета исследования выступают процессы извлечения знаний и полезной информации из текстовых массивов данных.
Цель работы и задачи: Цель данной работы заключается в проведении исследования и изучения технологии Data-Mining – Text-Mining. Из представленной цели вытекают следующие задачи: Изучить историю возникновения Data-Mining; Изучить классификацию и области применения Data-Mining; Рассмотреть стандарты Data-Mining; Изучить историю развития, понятия и определения Text-Mining; Рассмотреть классификацию, кластеризацию технологии Text-Mining; Провести обзор программного обеспечения Text-Mining; Рассмотреть практическое применение Text-Mining в популярных поисковых системах. 4
Степень изученности проблемы В качестве отправного этапа развития методов анализа данных с целью извлечения полезных знаний можно рассматривать работы Паскаля и Ферма по применению вероятностных моделей к статистическим данным еще в 17 веке. В веках значительный вклад в развитие практической статистики внесли Гаусс, Кетле, а в 20 в. - К. Пирсон, Р. Фишер, У. Госсет (Стьюдент), Вальд, Э.Ф. Кодд, а также советские математики А.Н. Колмогоров, А. Я. Хинчин, Н.В. Смирнов, Б.В. Гнеденко, Д.А. Поспелов, В.Ф. Турчин, С. Маслов и другие. В становлении искусственного интеллекта как науки внесли вклад: Н. Винер, Д. Маккарти, А. Тьюринг и др. 5
Степень изученности проблемы В Российской науке, в области Data-Mining ведут исследования следующие институты: Санкт-Петербургский государственный университет (В. И. Галунов), Вычислительный центр РАН (Ю.И. Журавлев, В.Я. Чучупал), Московский государственный университет им. М. В. Ломоносова (О.Ф. Кривнова) и др. В Зарубежной науке, в области Data-Mining ведут исследования следующие университеты: Arizona State University, Bryant University, Carnegie Mellon University, Central Michigan University, Columbia University, DePaul University и др. Практические разработки в этой области ведут крупные международные компании как IBM, Philips, Google, Apple, Яндекс и др. 6
История возникновения интеллектуального анализа данных История создания интеллектуального анализа данных начинается с 1960-х годов. 7 Термин Data-Mining был введён Григорием Пятецким-Шапиро в 1989 году.
Понятие Data-Mining 8 Термин Data-Mining - получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Gregory Piatetsky-Shapiro
Деление Data – Mining на технологии обработки данных 9
Задачи анализа данных Data – Mining 10
Деление задач Data – Mining по назначению 11 Кластеризация; Поиск ассоциативных правил. Классификация; Регрессия.
Деление задач Data – Mining 12 Задача классификации; Регрессия. Кластеризация; Поиск ассоциативных правил.
Сферы применения Data – Mining (наука, бизнес, web-направление) 13 Применение Data Mining для решения бизнес-задач. Основные направления: банковское дело, финансы, страхование, производство, телекоммуникации, электронная коммерция, маркетинг, фондовый рынок и другие; Применение Data Mining для научных исследований. Основные направления: медицина, биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия, прикладная химия и другие; Применение Data Mining для решения Web-задач. Основные направления: поисковые машины (search engines), счетчики и другие.
Стандарты Data – Mining 14
Text – Mining Text – Mining – одна из технологий Data- Mining, направление в интеллектуальном анализе данных, целью которого является получение информации из коллекций текстовых документов. 15
Этапы Text – Mining 16
Задачи Text – Mining 17
Методы классификации Text Mining Методы формирования множества и построение правил Метод машинного обучения (предполагается наличие обучающей выборки документов, по которому строится множество F(C)) Экспертный метод (предполагает, что выделение признаков множества F(C) и составление правил производится экспертами) Методы классификации Text – Mining 18
Методы кластеризации Text Mining 19
Программные продукты и решения в области Text Mining 20
Практическое применение Text-Mining поисковых системах 21
Заключение: Исследован метод интеллектуального анализа данных (Data-Mining); Изучена классификация, стандарты, области применения Data-Mining Исследована технология Text – Mining; Рассмотрены задачи и основные элементы Text – Mining; Изучена программная реализация Text – Mining. 22
Спасибо за внимание!!! 2323
Методы иерархической кластеризации 24 Иерархические агломеративные методы (Agglomerative Nesting, AGNES). Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA).
Метод бинарной кластеризации (Алгоритм k-средних) 25
Метод нечеткой кластеризации C-средних 26 Метод нечеткой кластеризации C-средних (C-means) позволяет разбить имеющееся множество векторов (точек) мощностью p на заданное число нечетких множеств.
Применение Text-Mining в рейтинге Mail.ru 27 Посещение сайта hi-tech.mail.ru пользователем A21CE, а вторая строка посещение сайта horo.mail.ru.
Применение Text-Mining в рейтинге Mail.ru 28 Распределение пользователей по категориям дохода
Применение Text-Mining в рейтинге Mail.ru 29 Журнал посещения сайтов разными пользователями Признаки, относящиеся к каждой категории
Извлечение объектов и фактов из текстов в Яндексе 30 Разметка именованных сущностей
Извлечение объектов и фактов из текстов в Яндексе 31 Результат Коференции
Извлечение объектов и фактов из текстов в Яндексе 32 Синтаксическое дерево
Извлечение объектов и фактов из текстов в Яндексе 33 Процесс категоризации
Извлечение объектов и фактов из текстов в Яндексе 34 Построение гипотез
Google Trends: как средство анализа текста 35 Популярные запросы на
Google Trends: как средство анализа текста 36
Google Trends: как средство анализа текста 37 Поисковый запрос «ноутбук» для страны Россия
Google Trends: как средство анализа текста 38 Популярность поискового запроса «ноутбук» по регионам России
Google Trends: как средство анализа текста 39 Поисковые запросы: «Ноутбук» и «Планшетный компьютер»