Система TAGME подготовил Сергей Рябов
Постановка задачи Рассмотреть систему автоматического аннотирования коротких текстовых фрагментов TAGME Привести оценки её эффективности по сравнению с аналогичными системами
TAGME
Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
Предварительная обработка Словарь анкеров (3M) является ли токен анкером ? Каталог страниц (2.7M) пары страница - набор анкеров из ведущих на неё ссылок Граф ссылок (147M)
Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
Устранение многозначности precision = |retrieved relevant| / |retrieved| recall = |retrieved relevant| / |relevant|
Устранение многозначности если для p Pg(a) выполняется Pr(p|a)
Устранение многозначности relatedness подсчет « голосов » commonness
Устранение многозначности Disambiguation by Classifier (DC) классификатор на основе relatedness и commonness выбирает одно значение Disambiguation by Threshold (DT) для каждого анкера a отбирается e значений p с наилучшими показателями relatedness из этих e значений выбирается одно с максимальным показателем commonness
Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
Удаление несущественных анкеров link-probability анкера - lp(a) coherence значения ( смысла ) a p с остальными уникальными значениями
Удаление несущественных анкеров (a p) – итоговая оценка либо среднее арифметическое либо линейная комбинация если выполняется (a p) < (NA), то аннотация удаляется
Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
Milne & Witten выделение контекста мера связности страниц когерентность страницы с контекстом
Chakrabarti оценка аннотации a p двумя методами - локальная и глобальная оценки аннотирование – поиск такого соответствия анкеров и страниц, которое максимизирует суммарную оценку
Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
Оценка Wiki-Disamb30 1.4M коротких фрагментов, около 30 слов в каждом 400K для обучения и 1M для тестов Wiki-Annot30 150K фрагментов, в среднем по 10 анкеров 50 K – обучение, 100K - тестирование
Оценка Производительность DT в зависимости от значений e и MC – Most Common (e = 100%) MR – Most Related (e = 0%) Производительность алгоритма устранения многозначности
Оценка Оценка производительности всей системы : аннотирование Оценка производительности всей системы : определение тем
Спасибо за внимание Вопросы ?