Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемmodis.ispras.ru
1 Методы извлечения ключевых фраз Рязанцев Дмитрий 428
2 План доклада Зачем нужны ключевые фразы Общая схема работы Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз Особенности оценки систем Системы выделения ключевых фраз Kea HUMB KP-Miner
3 Зачем нужны ключевые фразы ? Возможность разделения документов по категориям Быстрый поиск документов по ключевым фразам Связывание разных документов между собой
4 Общая схема работы Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз
5 Выделение кандидатов в ключевые фразы Выделение всех последовательностей длиной не более чем n слов (n-грамма) Стемминг Две группы подходов к сокращению количества кандидатов Без словаря Со словарем
6 Без словаря Выделение n-грамм только из первых m слов документа Не учитываются слова, начинающиеся и заканчивающиеся на «стоп слова» Можно также учитывать: Частоту вхождения n-граммы в документ Место, где встречается n-грамма
7 Со словарем Проверка на наличие в словаре всех n-грамм из текста Примеры словарей: GRISP – база технических у научных обозначений Wikipedia
8 Общая схема выделения Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз
9 Расчет веса выделенной фразы Необходимо определить вероятность того, что фраза – ключевая Введем набор атрибутов, с помощью которых будем учитывать оценивать фразы
10 Основные атрибуты TFxIDF TF(term frequency) - частота употребления фразы в документе IDF(inverse document frequency) Расстояние от начала документа. Длина фразы
11 Специфические атрибуты Раздел, в котором встречается фраза Keyphraseness И другие…
12 Методы учета атрибутов С обучением Обучение классификатора и дальнейшее его применение Без обучения Применение формулы от значения атрибутов
13 Общая схема выделения Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз
14 Отбор ключевых фраз из взвешенного множества После просчета атрибутов получаем множество фраза-число Как отобрать нужное количество фраз ? Фиксированный порог Плавающий порог
15 Особенности оценки систем Специфические оценки качества работы Точность (precision) – отношение количества правильно определенных фраз к общему числу выделенных фраз. Полнота (recall) – отношения количества правильно определенных фраз, к общему числу ключевых фраз. F – мера (F - measure) – среднее между полнотой и точностью. Зависимость от входных данных Научные статьи Документы общей тематики Блоги и т.д.
16 Системы выделения ключевых фраз. Kea Нет ориентации на определенный тип статей Выделение n-грамм длины не более чем 3, за исключением: имен собственных начинающихся со стоп слов содержащих в себе знаки препинания Атрибуты TFxIDF Расстояния от начала документа Байесовский классификатор
17 Системы выделения ключевых фраз. Kea. Результаты
18 Системы выделения ключевых фраз. HUMB Система выделения ключевых фраз из научных и технических статей. Выделение n-грамм длины не более чем 5, за исключением: начинающихся со стоп слов содержащих в себе знаки препинания и математические символы Атрибуты Место первого вхождения фразы Phraseness Мера сплоченности слов во фразе Информативность (Informativeness) Используется TFxIDF Keywordness Как часто фраза является ключевой в документах коллекции
19 Системы выделения ключевых фраз. HUMB Is in GRISP* Бинарный атрибут, показывающий есть ли данная фраза в GRISPe Wikipedia keyphraseness Как часто фраза является ссылкой из статьи википедии Длина фразы (в словах) Обучение классификаторов C4.5, SVN Постобработка Определение степени связанности фраз
20 Системы выделения ключевых фраз. HUMB. Результаты
21 Системы выделения ключевых фраз. KP-miner Выделения ключевых фраз из английских и арабских документов. Выделение n-грамм из первых m слов текста, за исключением: начинающихся со стоп слов содержащих в себе знаки препинания появляющихся менее k раз в тексте Атрибуты TFxIDF B – коэффициент уравновешивания значимости длинных фраз P – атрибут основанный на положении фразы в документе
22 Системы выделения ключевых фраз. KP-miner W = tf*idf*B*P W – вес фразы Отбор: Фиксированный порог Пересчет TF, для выбранных фраз, являющихся подфразами других
23 Системы выделения ключевых фраз. KP-miner. Результаты Результаты тестирования на SemEval-2010
24 Вопросы ?
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.