Методы извлечения ключевых фраз Рязанцев Дмитрий 428.

Презентация:



Advertisements
Похожие презентации
Наполнение неструктурированного текста поясняющими ссылками на статьи Wikipedia подготовил Сергей Рябов.
Advertisements

Кластеризация статей кафедральной базы знаний студент 4 курса И.И. Савин 1 руководитель: И.С. Игнатьев.
3.1. Назначение онтологий. Информационный поиск..
Выделение терминов из документов с заданным тематическим делением Голомазов Денис Дмитриевич Механико - математический факультет МГУ 5 курс 15 апреля 2008.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Информационный поиск в Интернете Павел Морозов
ЭТО РАЗЛИЧНЫЕ СВЕДЕНИЯ, ЗНАНИЯ ОБ ОКРУЖАЮЩЕМ МИРЕ.
ТЕРМИНОЛОГИЧЕСКИЙ АНАЛИЗ ТЕКСТА НА ОСНОВЕ ЛЕКСИКО-СИНТАКСИЧЕСКИХ ШАБЛОНОВ Ефремова Н.Э., Большакова Е.И., Носков А.А., Антонов В.Ю. МГУ имени М.В. Ломоносова,
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Говоря о двух последних «умениях» компьютера, необходимо помнить, что почти во всех существующих системах автоматического реферирования в качестве основных.
Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru Текстовое ранжирование в Яндексе. Особенности подхода TF*IDF.
Ачинский район, 2010 г. Районный конкурс педагогических работников – молодых специалистов «ПОЗИТИВ» Богданова Дарья Вячеславовна, учитель информатики МОУ.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Тема Структура представления информации в мировых информационных сетях.
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
А БСОЛЮТНАЯ, ОТНОСИТЕЛЬНАЯ И СМЕШАННАЯ ССЫЛКИ.. 1.В электронной таблице основной элемент рабочего листа – это: ячейка; строка; столбец; формула. 2. В.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Легенды и мифы российских оптимизаторов Сергей Людкевич, руководитель департамента Интернет-маркетинга.
Транксрипт:

Методы извлечения ключевых фраз Рязанцев Дмитрий 428

План доклада Зачем нужны ключевые фразы Общая схема работы Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз Особенности оценки систем Системы выделения ключевых фраз Kea HUMB KP-Miner

Зачем нужны ключевые фразы ? Возможность разделения документов по категориям Быстрый поиск документов по ключевым фразам Связывание разных документов между собой

Общая схема работы Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз

Выделение кандидатов в ключевые фразы Выделение всех последовательностей длиной не более чем n слов (n-грамма) Стемминг Две группы подходов к сокращению количества кандидатов Без словаря Со словарем

Без словаря Выделение n-грамм только из первых m слов документа Не учитываются слова, начинающиеся и заканчивающиеся на «стоп слова» Можно также учитывать: Частоту вхождения n-граммы в документ Место, где встречается n-грамма

Со словарем Проверка на наличие в словаре всех n-грамм из текста Примеры словарей: GRISP – база технических у научных обозначений Wikipedia

Общая схема выделения Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз

Расчет веса выделенной фразы Необходимо определить вероятность того, что фраза – ключевая Введем набор атрибутов, с помощью которых будем учитывать оценивать фразы

Основные атрибуты TFxIDF TF(term frequency) - частота употребления фразы в документе IDF(inverse document frequency) Расстояние от начала документа. Длина фразы

Специфические атрибуты Раздел, в котором встречается фраза Keyphraseness И другие…

Методы учета атрибутов С обучением Обучение классификатора и дальнейшее его применение Без обучения Применение формулы от значения атрибутов

Общая схема выделения Выделение кандидатов в ключевые фразы Расчет веса на основании атрибутов Отбор ключевых фраз

Отбор ключевых фраз из взвешенного множества После просчета атрибутов получаем множество фраза-число Как отобрать нужное количество фраз ? Фиксированный порог Плавающий порог

Особенности оценки систем Специфические оценки качества работы Точность (precision) – отношение количества правильно определенных фраз к общему числу выделенных фраз. Полнота (recall) – отношения количества правильно определенных фраз, к общему числу ключевых фраз. F – мера (F - measure) – среднее между полнотой и точностью. Зависимость от входных данных Научные статьи Документы общей тематики Блоги и т.д.

Системы выделения ключевых фраз. Kea Нет ориентации на определенный тип статей Выделение n-грамм длины не более чем 3, за исключением: имен собственных начинающихся со стоп слов содержащих в себе знаки препинания Атрибуты TFxIDF Расстояния от начала документа Байесовский классификатор

Системы выделения ключевых фраз. Kea. Результаты

Системы выделения ключевых фраз. HUMB Система выделения ключевых фраз из научных и технических статей. Выделение n-грамм длины не более чем 5, за исключением: начинающихся со стоп слов содержащих в себе знаки препинания и математические символы Атрибуты Место первого вхождения фразы Phraseness Мера сплоченности слов во фразе Информативность (Informativeness) Используется TFxIDF Keywordness Как часто фраза является ключевой в документах коллекции

Системы выделения ключевых фраз. HUMB Is in GRISP* Бинарный атрибут, показывающий есть ли данная фраза в GRISPe Wikipedia keyphraseness Как часто фраза является ссылкой из статьи википедии Длина фразы (в словах) Обучение классификаторов C4.5, SVN Постобработка Определение степени связанности фраз

Системы выделения ключевых фраз. HUMB. Результаты

Системы выделения ключевых фраз. KP-miner Выделения ключевых фраз из английских и арабских документов. Выделение n-грамм из первых m слов текста, за исключением: начинающихся со стоп слов содержащих в себе знаки препинания появляющихся менее k раз в тексте Атрибуты TFxIDF B – коэффициент уравновешивания значимости длинных фраз P – атрибут основанный на положении фразы в документе

Системы выделения ключевых фраз. KP-miner W = tf*idf*B*P W – вес фразы Отбор: Фиксированный порог Пересчет TF, для выбранных фраз, являющихся подфразами других

Системы выделения ключевых фраз. KP-miner. Результаты Результаты тестирования на SemEval-2010

Вопросы ?