Наполнение неструктурированного текста поясняющими ссылками на статьи Wikipedia подготовил Сергей Рябов.

Презентация:



Advertisements
Похожие презентации
Система TAGME подготовил Сергей Рябов. Постановка задачи Рассмотреть систему автоматического аннотирования коротких текстовых фрагментов TAGME Привести.
Advertisements

Методы извлечения ключевых фраз Рязанцев Дмитрий 428.
Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
3.1. Назначение онтологий. Информационный поиск..
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ В ЭКОНОМИКЕ Тема 1. ИНФОРМАЦИОННЫЕ ТЕХНОЛОГИИ Подготовил Иванов А.Н.
Определение новизны информации в новостном кластере.
Классификация и регрессия Доклад по курсу Интеллектуальный анализ данных Закирова А.Р. 1.
Детализированное восстановление фигуры и позы человека по изображениям Detailed Human Shape and Pose from Images 1.
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
Разработка и реализация проектов как средство формирования ключевых компетенций учащихся.
ПА 2012 РАЗРАБОТКА ТЕСТА СРЕДСТВАМИ MOODLE Салихов Сергей Валерьевич, ПЗ, 4 часа.
Метод выявления неявных связей объектов Снарский А.А., Ландэ Д.В., Женировский М. И. НТУУ «Киевский политехнический институт», Информационный центр «ЭЛВИСТИ»,
1 Средства автоматической интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.
Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ.
Стандарт IDEF1X Рассмотрим методологию IDEF1X. Методология IDEF1X представляет собой формализованный язык семантического (контекстного) моделирования данных,
Метод кластеризации текстов, основанный на попарной близости термов, характеризующих тексты, и его сравнение с метрическими методами кластеризации Михаил.
Лекция 11. Методы и алгоритмы анализа структуры многомерных данных. Кластерный анализ. Кластерный анализ предназначен для разбиения множества объектов.
Исследование CBR (Case Based Reasoning) метода при автоматизированном проектировании информационных систем.
Распознавание частей человеческого тела на сериях изображений Котков Е. Таланов П. Терентьев А. 3057/2 Выполнили:
Транксрипт:

Наполнение неструктурированного текста поясняющими ссылками на статьи Wikipedia подготовил Сергей Рябов

Постановка задачи Сегодня мы рассмотрим, как можно автоматически распознавать темы (topics), упомянутые в тексте, и связывать их ссылками с поясняющими статьями Википедии

Обзор связанных работ Алгоритм устранения неоднозначности ссылок Алгоритм нахождения ключевых слов Работа метода на документах «реального мира» Применения

R. Mihalcea и A. Csomai - Wikify Detection – определение слов и фраз, которые станут ссылками Disambiguation – определение значения слова или фразы, то есть подходящей статьи, на которую нужно ссылаться

Olena Medelyan Различия с предыдущей работой в фазе устранения неоднозначности. Схожие результаты достигаются значительно проще, путем сопоставления (a) вероятности (commonness) каждого значения и (b) того, как это значение соотносится с контекстом (relatedness)

Обзор связанных работ Алгоритм устранения неоднозначности ссылок Алгоритм нахождения ключевых слов Работа метода на документах «реального мира» Применения

Алгоритм устранения неоднозначности ссылок Всего 700 статей, 50 и более ссылок в каждой: 500 для обучения 100 для настройки 100 для окончательной оценки

Алгоритм устранения неоднозначности ссылок Основной подход – сопоставление commonness и relatedness значения фразы Commonness значения определяется тем, насколько часто в Википедии ссылаются именно на это значение Relatedness – взвешенное среднее семантических близостей искомого значения к каждому значению из контекста (контекстному термину, КТ)

Wikipedia Link-based Measure a и b – статьи, между которыми вычисляется семантическая близость, A и B – наборы всех статей, ссылающихся на a и b, соответственно, W – множество всех статей Википедии

Алгоритм устранения неоднозначности ссылок В качестве веса КТ берется среднее от его link probability и relatedness по отношению к документу Первое позволяет отсеять КТ, не являющиеся ссылками, и подчеркнуть те, которые встречаются практически всегда в качестве ссылок Второе помогает отсеивать КТ, слабо связанные с темой документа – Суть среднее семантических близостей данного КТ ко всем остальным КТ

Устранение неоднозначности термина tree, используя однозначные КТ

Алгоритм устранения неоднозначности ссылок Чтобы сопоставить commonness и relatedness, вводится еще одно свойство – полезность (goodness) контекста Goodness – суть сумма весов КТ Далее полученные свойства используются для обучения disambiguation classifierа, который сможет выделять подходящие смыслы На стадии конфигурации определяется минимальная допустимая вероятность смысла и классификационный алгоритм

Алгоритм устранения неоднозначности ссылок Производительность классификаторов Производительность алгоритма устранения неопределенности

Обзор связанных работ Алгоритм устранения неоднозначности ссылок Алгоритм нахождения ключевых слов Работа метода на документах «реального мира» Применения

Алгоритм нахождения ключевых слов Классификатор тренируется и конфигурируется на все тех же 500 и 100 статьях, соответственно. Собираем все термины в документе Все термины с link probability, превышающей пороговое значение, пропускаем через disambiguation classifier Полученные данные используем для обучения wikification classifierа На стадии конфигурации определяется минимальная допустимая link probability и классификационный алгоритм

Алгоритм нахождения ключевых слов

Свойства, на основе которых работает детектирующий классификатор: Link probability Relatedness Disambiguation confidence Generality Location and spread

Алгоритм нахождения ключевых слов Производительность классификаторов Производительность алгоритма нахождения ключевых слов

Обзор связанных работ Алгоритм устранения неоднозначности ссылок Алгоритм нахождения ключевых слов Работа метода на документах «реального мира» Применения

Работа метода на документах «реального мира» Для тестирования на документах «реального мира» использовались Механические Турки 50 новостных статей Система определила 449 ссылок Тест состоял из 2 частей: – Оценка найденных ссылок – Определение пропущенных ссылок Итог: (recall, precision, f-measure) = (73%, 76%, 75%)

Обзор связанных работ Алгоритм устранения неоднозначности ссылок Алгоритм нахождения ключевых слов Работа метода на документах «реального мира» Применения

Добавление поясняющих ссылок к документам – Наполнение блогов, новостных и образовательных статей ссылками – Помощь при создании новых статей Википедии Улучшение представления документов – Кластеризация документов – Topic indexing – Information retrieval

Применения

Спасибо за внимание Вопросы?