Система TAGME подготовил Сергей Рябов. Постановка задачи Рассмотреть систему автоматического аннотирования коротких текстовых фрагментов TAGME Привести.

Презентация:



Advertisements
Похожие презентации
Наполнение неструктурированного текста поясняющими ссылками на статьи Wikipedia подготовил Сергей Рябов.
Advertisements

Поиск данных. Все процессы обработки информации происходят по следующей схеме Исходная алгоритм информация обработки Итоговая информация (результаты)
Задания части А Задания части С. 1. Значения двух массивов A[1..100] и B[1..100] задаются с помощью следующего фрагмента программы. Сколько элементов.
ПА 2012 РАЗРАБОТКА ТЕСТА СРЕДСТВАМИ MOODLE Салихов Сергей Валерьевич, ПЗ, 4 часа.
ОЦЕНКА ЭФФЕКТИВНОСТИ РЕКОМЕНДАТЕЛЬНЫХ СИСТЕМ С.А.Амелькин Институт программных систем имени А.К.Айламазяна РАН.
Определение новизны информации в новостном кластере.
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
Арифметический квадратный корень Тест для 8 класса.
Решите уравнения. Решение линейного уравнения Решение квадратного уравнения.
Итоговая аттестация по английскому языку в начальной школе Ю.В. Дятлова, МОУ СОШ 20.
ПРОГРАММНОЕ ОБЕСПЕЧЕНИЕ «СИСТЕМА ОЦЕНКИ ПРОФЕССИОНАЛЬНЫХ ДОСТИЖЕНИЙ РАБОТНИКОВ ОБРАЗОВАТЛЬНЫХ УЧРЕЖДЕНИЙ» (ПО «РЕЙТИНГ»)
Распределение регистров при планировании инструкций для архитектуры Эльбрус Дипломная работа Иванова Д. С. Научный руководитель Шлыков С. Л. Москва 2008.
Задачи связности и реберной двусвязности на динамически меняющихся графах Автор: Сергей Копелиович, студент 545 группы Научный руководитель: старший преподаватель.
ВЫПОЛНИЛ : Рыбаков Никита Пономарёв Сергей. раздел информатики, изучающий алгоритмы для поиска и обработки информации как в структурированных, так и неструктурированных.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
Методы извлечения ключевых фраз Рязанцев Дмитрий 428.
Технология составления компьютерных тестов средствами Excel Хабибуллина Гузель Миннесагировна- учитель математики и информатики Хабибуллина Гузель Миннесагировна-
* Санкт-Петербург 2007 * Автоматическое выделение структур в тексте.
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Транксрипт:

Система TAGME подготовил Сергей Рябов

Постановка задачи Рассмотреть систему автоматического аннотирования коротких текстовых фрагментов TAGME Привести оценки её эффективности по сравнению с аналогичными системами

TAGME

Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка

Предварительная обработка Словарь анкеров (3M) является ли токен анкером ? Каталог страниц (2.7M) пары страница - набор анкеров из ведущих на неё ссылок Граф ссылок (147M)

Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка

Устранение многозначности precision = |retrieved relevant| / |retrieved| recall = |retrieved relevant| / |relevant|

Устранение многозначности если для p Pg(a) выполняется Pr(p|a)

Устранение многозначности relatedness подсчет « голосов » commonness

Устранение многозначности Disambiguation by Classifier (DC) классификатор на основе relatedness и commonness выбирает одно значение Disambiguation by Threshold (DT) для каждого анкера a отбирается e значений p с наилучшими показателями relatedness из этих e значений выбирается одно с максимальным показателем commonness

Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка

Удаление несущественных анкеров link-probability анкера - lp(a) coherence значения ( смысла ) a p с остальными уникальными значениями

Удаление несущественных анкеров (a p) – итоговая оценка либо среднее арифметическое либо линейная комбинация если выполняется (a p) < (NA), то аннотация удаляется

Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка

Milne & Witten выделение контекста мера связности страниц когерентность страницы с контекстом

Chakrabarti оценка аннотации a p двумя методами - локальная и глобальная оценки аннотирование – поиск такого соответствия анкеров и страниц, которое максимизирует суммарную оценку

Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка

Оценка Wiki-Disamb30 1.4M коротких фрагментов, около 30 слов в каждом 400K для обучения и 1M для тестов Wiki-Annot30 150K фрагментов, в среднем по 10 анкеров 50 K – обучение, 100K - тестирование

Оценка Производительность DT в зависимости от значений e и MC – Most Common (e = 100%) MR – Most Related (e = 0%) Производительность алгоритма устранения многозначности

Оценка Оценка производительности всей системы : аннотирование Оценка производительности всей системы : определение тем

Спасибо за внимание Вопросы ?