Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемТимофей Бахолдин
1 Система TAGME подготовил Сергей Рябов
2 Постановка задачи Рассмотреть систему автоматического аннотирования коротких текстовых фрагментов TAGME Привести оценки её эффективности по сравнению с аналогичными системами
3 TAGME
4 Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
5 Предварительная обработка Словарь анкеров (3M) является ли токен анкером ? Каталог страниц (2.7M) пары страница - набор анкеров из ведущих на неё ссылок Граф ссылок (147M)
6 Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
7 Устранение многозначности precision = |retrieved relevant| / |retrieved| recall = |retrieved relevant| / |relevant|
8 Устранение многозначности если для p Pg(a) выполняется Pr(p|a)
9 Устранение многозначности relatedness подсчет « голосов » commonness
10 Устранение многозначности Disambiguation by Classifier (DC) классификатор на основе relatedness и commonness выбирает одно значение Disambiguation by Threshold (DT) для каждого анкера a отбирается e значений p с наилучшими показателями relatedness из этих e значений выбирается одно с максимальным показателем commonness
11 Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
12 Удаление несущественных анкеров link-probability анкера - lp(a) coherence значения ( смысла ) a p с остальными уникальными значениями
13 Удаление несущественных анкеров (a p) – итоговая оценка либо среднее арифметическое либо линейная комбинация если выполняется (a p) < (NA), то аннотация удаляется
14 Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
15 Milne & Witten выделение контекста мера связности страниц когерентность страницы с контекстом
16 Chakrabarti оценка аннотации a p двумя методами - локальная и глобальная оценки аннотирование – поиск такого соответствия анкеров и страниц, которое максимизирует суммарную оценку
17 Предварительная обработка Устранение многозначности Удаление несущественных анкеров Обзор аналогичных работ Оценка
18 Оценка Wiki-Disamb30 1.4M коротких фрагментов, около 30 слов в каждом 400K для обучения и 1M для тестов Wiki-Annot30 150K фрагментов, в среднем по 10 анкеров 50 K – обучение, 100K - тестирование
19 Оценка Производительность DT в зависимости от значений e и MC – Most Common (e = 100%) MR – Most Related (e = 0%) Производительность алгоритма устранения многозначности
20 Оценка Оценка производительности всей системы : аннотирование Оценка производительности всей системы : определение тем
21 Спасибо за внимание Вопросы ?
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.