МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ.

Презентация:



Advertisements
Похожие презентации
Технология Data Mining в экономических приложениях Выполнил Лашковский Евгений Александрович, студент 3 курса, специальность «Прикладная информатика (в.
Advertisements

Интеллектуальный анализ данных Бердов Валерий Мокшин Павел Гр
Компьютерная лингвистика как наука. 1. Определения компьютерной лингвистики 2. Компьютерная лингвистика и искусственный интеллект 3. Разделы компьютерной.
Тема урока: « Информационные системы. Классификация информационных систем »
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Технология извлечения знаний из использования Интернет.
PolyAnalyst PolyAnalyst Workplace PolyAnalyst. Аналитический инструментарий Моделирование Прогнозирование Кластеризация Классификация Текстовый анализ.
Белорусский государственный университет Механико-математический факультет Кафедра математических методов теории управления Федорович Марина Николаевна.
Интеллектуальный анализ данных. Методы DataMining позволяют решить многие задачи, с которыми сталкивается аналитик. Из них основными являются: классификация,
«Создаем интернет-сайт» Элективный курс классы Тетюшкина Е.Н., учитель информатики и ИКТ МОУ СОШ 1.
Информационные системы и системология План: 1.Что такое информационная система 2.Этапы разработки информационной системы 3.Основные понятия системологии.
Информационная система ( ИС ) – это система, построенная на базе компьютерной техники, предназначенная для хранения, поиска, обработки и передачи значительных.
Преподаватель: Купченко Е лена Владимировна. Технология это комплекс научных и инженерных знаний, реализованных в приемах труда, наборах материальных,
© ReignVox КЛАССИФИКАЦИЯ ИНФОРМАЦИОННЫХ СИСТЕМ
Министерство образования и науки Российской Федерации Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования.
Информационная система (ИС) это система, построенная на базе компьютерной техники, предназначенная для хранения, поиска, обработки и передачи значительных.
Направление «Информатика и вычислительная техника» Бакалавр по направлению подготовки Информатика и вычислительная техника науки должен решать следующие.
Кафедра «Кибернетика» Дипломная работа по направлению «Прикладная математика и информатика» на тему: Разработка приложения для управления.
Поиск, структурирование и анализ научно- технической информации В.М. Ефременкова Наука есть система отношений А. Пуанкаре.
Транксрипт:

МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ АВТОНОМНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ОБРАЗОВАНИЯ «НАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ЯДЕРНЫЙ УНИВЕРСИТЕТ МИФИ» (НИЯУ МИФИ) Саровский физико-технический институт (СарФТИ НИЯУ МИФИ) ФАКУЛЬТЕТ ИНФОРМАЦИОННЫХ ТЕХНОЛОГИЙ и ЭЛЕКТРОНИКИ КАФЕДРА ВЫЧИСЛИТЕЛЬНОЙ ТЕХНИКИ Доклад На тему: Интеллектуальный анализ данных Метод Data Mining – Text Mining ВЫПОЛНИЛ: Игонькин Максим Николаевич ГРУППА: ВТМ-16Д РУКОВОДИТЕЛЬ РАБОТЫ: доцент Макарец А.Б. ЗАВЕДУЮЩИЙ КАФЕДРОЙ: к.ф-м.н, доцент Холушкин В.С. г. Саров 2016

Актуальность работы: 2 Актуальность темы обусловлена умением оперировать, в первую очередь, аналитической обработкой сверхбольшими объемами информации, накапливаемой в современных хранилищах данных, применять к данным методы анализа данных, чтобы получить положительный результат.

в Объект и предмет исследования: 3 Объект исследования: технология интеллектуального анализа текста (Text – Mining), которая представляет собой одну из разновидностей методов интеллектуального анализа данных (Data – Mining). В качестве предмета исследования выступают процессы извлечения знаний и полезной информации из текстовых массивов данных.

Цель работы и задачи: Цель данной работы заключается в проведении исследования и изучения технологии Data-Mining – Text-Mining. Из представленной цели вытекают следующие задачи: Изучить историю возникновения Data-Mining; Изучить классификацию и области применения Data-Mining; Рассмотреть стандарты Data-Mining; Изучить историю развития, понятия и определения Text-Mining; Рассмотреть классификацию, кластеризацию технологии Text-Mining; Провести обзор программного обеспечения Text-Mining; Рассмотреть практическое применение Text-Mining в популярных поисковых системах. 4

Степень изученности проблемы В качестве отправного этапа развития методов анализа данных с целью извлечения полезных знаний можно рассматривать работы Паскаля и Ферма по применению вероятностных моделей к статистическим данным еще в 17 веке. В веках значительный вклад в развитие практической статистики внесли Гаусс, Кетле, а в 20 в. - К. Пирсон, Р. Фишер, У. Госсет (Стьюдент), Вальд, Э.Ф. Кодд, а также советские математики А.Н. Колмогоров, А. Я. Хинчин, Н.В. Смирнов, Б.В. Гнеденко, Д.А. Поспелов, В.Ф. Турчин, С. Маслов и другие. В становлении искусственного интеллекта как науки внесли вклад: Н. Винер, Д. Маккарти, А. Тьюринг и др. 5

Степень изученности проблемы В Российской науке, в области Data-Mining ведут исследования следующие институты: Санкт-Петербургский государственный университет (В. И. Галунов), Вычислительный центр РАН (Ю.И. Журавлев, В.Я. Чучупал), Московский государственный университет им. М. В. Ломоносова (О.Ф. Кривнова) и др. В Зарубежной науке, в области Data-Mining ведут исследования следующие университеты: Arizona State University, Bryant University, Carnegie Mellon University, Central Michigan University, Columbia University, DePaul University и др. Практические разработки в этой области ведут крупные международные компании как IBM, Philips, Google, Apple, Яндекс и др. 6

История возникновения интеллектуального анализа данных История создания интеллектуального анализа данных начинается с 1960-х годов. 7 Термин Data-Mining был введён Григорием Пятецким-Шапиро в 1989 году.

Понятие Data-Mining 8 Термин Data-Mining - получил свое название из двух понятий: поиска ценной информации в большой базе данных (data) и добычи горной руды (mining). Data Mining - это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Gregory Piatetsky-Shapiro

Деление Data – Mining на технологии обработки данных 9

Задачи анализа данных Data – Mining 10

Деление задач Data – Mining по назначению 11 Кластеризация; Поиск ассоциативных правил. Классификация; Регрессия.

Деление задач Data – Mining 12 Задача классификации; Регрессия. Кластеризация; Поиск ассоциативных правил.

Сферы применения Data – Mining (наука, бизнес, web-направление) 13 Применение Data Mining для решения бизнес-задач. Основные направления: банковское дело, финансы, страхование, производство, телекоммуникации, электронная коммерция, маркетинг, фондовый рынок и другие; Применение Data Mining для научных исследований. Основные направления: медицина, биология, молекулярная генетика и генная инженерия, биоинформатика, астрономия, прикладная химия и другие; Применение Data Mining для решения Web-задач. Основные направления: поисковые машины (search engines), счетчики и другие.

Стандарты Data – Mining 14

Text – Mining Text – Mining – одна из технологий Data- Mining, направление в интеллектуальном анализе данных, целью которого является получение информации из коллекций текстовых документов. 15

Этапы Text – Mining 16

Задачи Text – Mining 17

Методы классификации Text Mining Методы формирования множества и построение правил Метод машинного обучения (предполагается наличие обучающей выборки документов, по которому строится множество F(C)) Экспертный метод (предполагает, что выделение признаков множества F(C) и составление правил производится экспертами) Методы классификации Text – Mining 18

Методы кластеризации Text Mining 19

Программные продукты и решения в области Text Mining 20

Практическое применение Text-Mining поисковых системах 21

Заключение: Исследован метод интеллектуального анализа данных (Data-Mining); Изучена классификация, стандарты, области применения Data-Mining Исследована технология Text – Mining; Рассмотрены задачи и основные элементы Text – Mining; Изучена программная реализация Text – Mining. 22

Спасибо за внимание!!! 2323

Методы иерархической кластеризации 24 Иерархические агломеративные методы (Agglomerative Nesting, AGNES). Иерархические дивизимные (делимые) методы (DIvisive ANAlysis, DIANA).

Метод бинарной кластеризации (Алгоритм k-средних) 25

Метод нечеткой кластеризации C-средних 26 Метод нечеткой кластеризации C-средних (C-means) позволяет разбить имеющееся множество векторов (точек) мощностью p на заданное число нечетких множеств.

Применение Text-Mining в рейтинге Mail.ru 27 Посещение сайта hi-tech.mail.ru пользователем A21CE, а вторая строка посещение сайта horo.mail.ru.

Применение Text-Mining в рейтинге Mail.ru 28 Распределение пользователей по категориям дохода

Применение Text-Mining в рейтинге Mail.ru 29 Журнал посещения сайтов разными пользователями Признаки, относящиеся к каждой категории

Извлечение объектов и фактов из текстов в Яндексе 30 Разметка именованных сущностей

Извлечение объектов и фактов из текстов в Яндексе 31 Результат Коференции

Извлечение объектов и фактов из текстов в Яндексе 32 Синтаксическое дерево

Извлечение объектов и фактов из текстов в Яндексе 33 Процесс категоризации

Извлечение объектов и фактов из текстов в Яндексе 34 Построение гипотез

Google Trends: как средство анализа текста 35 Популярные запросы на

Google Trends: как средство анализа текста 36

Google Trends: как средство анализа текста 37 Поисковый запрос «ноутбук» для страны Россия

Google Trends: как средство анализа текста 38 Популярность поискового запроса «ноутбук» по регионам России

Google Trends: как средство анализа текста 39 Поисковые запросы: «Ноутбук» и «Планшетный компьютер»