Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.

Презентация:



Advertisements
Похожие презентации
ИСТОРИЧЕСКАЯ СПРАВКА Началом развития технологии Text Mining можно считать эпоху правления президента США Ричарда Никсона ( гг.). Тогда были.
Advertisements

ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Языконезависимое определение авторства текста на базе языковых моделей символьного уровня.
Тема 3 Знания. Организация базы знаний. Преподаватель –Юлия Александровна Грачёва.
ИСИДА-Т Интеллектуальная система извлечения и анализа данных из текстов.
Система извлечения информации из текстов ИСИДА-Т Цель: извлечь значимую информацию определенного типа из (больших массивов) текста для дальнейшей аналитической.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
Подход к автоматическому извлечению информации о назначениях и отставках лиц ( на материале новостных сообщений ) © Н. А. Власова Институт Программных.
Компьютерный анализ естественно-языкового текста Кафедра информационных систем в искусстве и гуманитарных науках.
ФЕДЕРАЛЬНОЕ ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ ОБРАЗОВАТЕЛЬНОЕ УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО ОБРАЗОВАНИЯ СТАВРОПОЛЬСКИЙ ГОСУДАРСТВЕННЫЙ АГРАРНЫЙ УНИВЕРСИТЕТ.
База данных – это совокупность структурированных данных определенного назначения. Структурирование данных – это объединение данных по определенным параметрам.
Информационно-поисковая система. Классификация информационно- поисковых систем.
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Извлечение информации из текста в системе ИСИДА-Т Д.А.Кормалев, Е.П.Куршев, Е.А.Сулейманова, И.В.Трофимов (Институт программных систем РАН) RCDL-2009.
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Возможности Больших Данных для корпоративных архивов Павловский Е.Н., к.ф.-м.н. Новосибирский государственный университет (НГУ) ООО «Исследовательские.
Транксрипт:

Text Mining. Анализ текстовой информации

Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте - это нетривиальный процесс обнаружения действительно новых, потенциально полезных и понятных шаблонов в неструктурированных текстовых данных (набор документов, представляющих собой логически объединённый текст без каких либо ограничений на его структуру : web-страницы, электронная почта, нормативные документы и т.д.)

Этапы Text Mining

Предварительная обработка текста Удаление стоп-слов. Стоп- слов – вспомогательные слова, которые несут мало информации о содержании документа ( «так как», «кроме того»). Стэмминг - морфологический поиск. Преобразование каждого слова к его нормальной форме. («сжатие», «сжатый» -> «сжимать») Приведение регистра. «ТЕКСТ», «Текст» -> «текст»

Задачи Text Mining Классификация- определение для каждого документа одной и нескольких заранее заданных категорий, к которой этот документ относится. Кластеризация- автоматическое выявление групп семантически похожих документов среди заданного фиксированного множества. Автоматическое аннотирование - позволяет сократить текст, сохраняя его смысл Извлечение ключевых понятий- идентификация фактов и отношений в тексте Навигация по тексту – позволяет перемещаться по документам относительно тем и значимых терминов Поиск ассоциаций- идентификация ассоциативных отношений между ключевыми понятиями

Извлечение ключевых понятий из текста Интерес представляют некоторые сущности, события, отношения. Извлечённые понятия анализируются и используются для вывода новых. Извлечение ключевых понятий – фильтрация больших объёмов информации: отбор документов из коллекции, пометка определённых терминов в тексте

Подходы к извлечению информации из текста Определение частых наборов слов и объединение их в ключевые понятия (Apriori) Идентификация фактов в текстах и извлечение их характеристик Факты- некоторые события или отношения Идентификация производится с помощью набора образцов. Образцы- возможные лингвистические варианты фактов Применение шаблонов

Извлечение ключевых понятий с помощью шаблонов Анализ понятий Извлечение отдельных фактов Интеграция извлечённых фактов и/или вывод новых фактов

Локальный анализ Лексический анализ. Текст делится на предложения и лексемы. Словарь должен включать специальные термины, имена людей, названия городов, префиксы компаний…(«ООО», «ЗАО», «АО») Лексемы: «Петр», «Иван» - имена, «ООО» - префикс фирмы Извлечение имён собственных (даты, денежные выражения). Имена идентифицируются с помощью образцов (регулярных выражений), которые строятся на основе частей речи, синтаксических и орфографических свойств.

Синтаксический анализ. Построение структур для групп имён существительных (имя сущ. + его модификации) и глагольных групп (глагол+ вспомогательные части) 1.Помечаются все основные группы имён сущ. меткой «сущ.» 2.Помечаются глагольные группы меткой «гл.» Локальный анализ Для каждой группы имён существительных создаётся сущность. В нашем примере их 6.

Наборы образцов используют для укрупнения групп имён существительных. Образцы объединяют 2 группы имён существительных и промежуточные слова в большую группу Образцы: описание фирмы, имя фирмы (фирма) е3 Локальный анализ

Стадия интеграции и вывода понятий Для извлечения событий и отношений используются образцы, которые получаются за счёт расширения образцов, описанные ранее. Событие преемственности должности извлекается с помощью следующих образцов : человек покинул должность, человек заменяется человеком Группа имён сущ. «человек», «должность» Глагольные группы. «покинул», «заменяется» Выделяют две структуры событий

Анализ ссылок. Разрешение ссылок, представленных местоимениями и описываемыми группами имён сущ. «Его»(сущность е5).

В результате последовательности действий можно получить следующие извлечённые ключевые понятия. Результат извлечения ключевых понятий из текста

Классификация текстовых документов Классификация(категоризация, рубрикация)- отнесение документов к одному из заранее известных классов

Методы классификации

Метод Naive Bayes Предполагает вычисление вероятностей принадлежности текстового документа к каждой рубрике. Решение о принадлежности принимается по максимальной вероятности

Спасибо за внимание =) Назовите пример неструктурированных текстовых данных Назовите два подхода к формированию множества F(C) - множества признаков для каждой категории, в задаче классификации.