Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте. - презентация

Презентация на тему: " Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте." — Транскрипт:

1 Text Mining. Анализ текстовой информации

2 Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных (набор документов, представляющих собой логически объединённый текст без каких либо ограничений на его структуру : web-страницы, электронная почта, нормативные документы и т.д.)

3 Этапы Text Mining

4 Предварительная обработка текста Удаление стоп-слов. Стоп- слов – вспомогательные слова, которые несут мало информации о содержании документа ( «так как», «кроме того»). Стэмминг - морфологический поиск. Преобразование каждого слова к его нормальной форме. («сжатие», «сжатый» -> «сжимать») Приведение регистра. «ТЕКСТ», «Текст» -> «текст»

5 Задачи Text Mining Классификация- определение для каждого документа одной и нескольких заранее заданных категорий, к которой этот документ относится. Кластеризация- автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества. Автоматическое аннотирование - позволяет сократить текст, сохраняя его смысл Извлечение ключевых понятий- идентификация фактов и отношений в тексте Навигация по тексту – позволяет перемещаться по документам относительно тем и значимых терминов Поиск ассоциаций- идентификация ассоциативных отношений между ключевыми понятиями

6 Извлечение ключевых понятий из текста Интерес представляют некоторые сущности, события, отношения. Извлечённые понятия анализируются и используются для вывода новых. Извлечение ключевых понятий – фильтрация больших объёмов информации: отбор документов из коллекции, пометка определённых терминов в тексте

7 Подходы к извлечению информации из текста Определение частых наборов слов и объединение их в ключевые понятия (Apriori) Идентификация фактов в текстах и извлечение их характеристик Факты- некоторые события или отношения Идентификация производится с помощью набора образцов. Образцы- возможные лингвистические варианты фактов Применение шаблонов

8 Извлечение ключевых понятий с помощью шаблонов Анализ понятий Извлечение отдельных фактов Интеграция извлечённых фактов и/или вывод новых фактов

9 Локальный анализ Лексический анализ. Текст делится на предложения и лексемы. Словарь должен включать специальные термины, имена людей, названия городов, префиксы компаний…(«ООО», «ЗАО», «АО») Лексемы: «Петр», «Иван» - имена, «ООО» - префикс фирмы Извлечение имён собственных (даты, денежные выражения). Имена идентифицируются с помощью образцов (регулярных выражений), которые строятся на основе частей речи, синтаксических и орфографических свойств.

10 Синтаксический анализ. Построение структур для групп имён существительных (имя сущ. + его модификации) и глагольных групп (глагол+ вспомогательные части) 1.Помечаются все основные группы имён сущ. меткой «сущ.» 2.Помечаются глагольные группы меткой «гл.» Локальный анализ Для каждой группы имён существительных создаётся сущность. В нашем примере их 6.

11 Наборы образцов используют для укрупнения групп имён существительных. Образцы объединяют 2 группы имён существительных и промежуточные слова в большую группу Образцы: описание фирмы, имя фирмы (фирма) е3 Локальный анализ

12 Стадия интеграции и вывода понятий Для извлечения событий и отношений используются образцы, которые получаются за счёт расширения образцов, описанные ранее. Событие преемственности должности извлекается с помощью следующих образцов : человек покинул должность, человек заменяется человеком Группа имён сущ. «человек», «должность» Глагольные группы. «покинул», «заменяется» Выделяют две структуры событий

13 Анализ ссылок. Разрешение ссылок, представленных местоимениями и описываемыми группами имён сущ. «Его»(сущность е5).

14 В результате последовательности действий можно получить следующие извлечённые ключевые понятия. Результат извлечения ключевых понятий из текста

15 Классификация текстовых документов Классификация(категоризация, рубрикация)- отнесение документов к одному из заранее известных классов

16

17

18 Методы классификации

19 Метод Naive Bayes Предполагает вычисление вероятностей принадлежности текстового документа к каждой рубрике. Решение о принадлежности принимается по максимальной вероятности

20 Спасибо за внимание =) Назовите пример неструктурированных текстовых данных Назовите два подхода к формированию множества F(C) - множества признаков для каждой категории, в задаче классификации.

Скачать бесплатно презентацию на тему "Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте." в формате .ppt (PowerPoint)

Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь

Вход в систему

Войти с помощью социльных сетей

Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте. - презентация

Похожие презентации

Похожие презентации

MyShared.ru - крупнейшая база готовых презентаций с возможностью предпросмотра. Загружай и скачивай презентации бесплатно!

О проекте

Обратная связь