Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ МГУ Лукашевич Н.В.
Автоматическое составление обзорного реферата Одна из важнейших практических задач автоматической обработки текста Обзорный реферат это совокупность предложений, позволяющих пользователю за небольшое время ознакомиться с основным содержанием тематически связанного набора документов К обзорному реферату предъявляются требования По содержанию По читабельности
Постановка задачи Разработка модели кластеризации предложений с учетом информации об отношениях между словами, описанной в тезаурусе РуТез Проведение оценки качества кластеризации предложений Создание системы автоматического составления обзорного реферата на основе метода кластеризации предложений для обеспечения: полноты покрытия содержания набора документов снижения повторяемости информации в реферате. Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов. Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.
Исходные данные Набор новостных статей Статьи с единой темой Результаты графематического анализа Размеченные предложения Результаты морфологического анализа Слова, приведенные к начальной форме Выделенные концепты набора статей Концепт – слово, определение которого найдено в тезаурусе Связи концептов в тезаурусе Мексика – Государство Колумбия – страна Латинской Америки
Описание метода кластеризации предложений - 1 Определение меры близости для каждой пары предложений Векторное представление предложения Мера близости пары предложений
Описание метода кластеризации предложений - 2 Мера близости по отношениям концептов Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов. Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.
Описание метода кластеризации предложений - 3 Описание алгоритма агломеративной кластеризации Каждое предложение – отдельный кластер, 1. Определение R max 2. threshold
Оценка кластеризации Ручная кластеризация Попарное сравнение Вычисление F-меры Предложение Ручная кластеризация Автоматическая кластеризация Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов ++ Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.
Составление аннотации Определение наиболее важных кластеров Выбор кластеров с наибольшим количеством предложений Определение и извлечение центра кластера Определение порядка выбранных предложений
Программная реализация Используемые инструментальные средства: СУБД Microsoft Access Язык программирования Microsoft Visual Basic
Описание эксперимента Дано 10 наборов по 30 новостных статей в каждом Необходимо вычислить значения параметров наилучшей кластеризации Составить аннотацию на основе полученных значений параметров
Результаты эксперимента Улучшение F measure на 7% при точности P > 0.7 Пример составленной аннотации Стэнфорд попытался арендовать частный самолет, однако из-за того, что его счета заморозили, компания-авиаперевозчик не приняла к оплате его кредитную карту. Властям США неизвестно место нахождения миллиардера Аллена Стэнфорда, которого обвиняют в мошенничестве в крупных размерах. Ассоциация крикета Англии и Уэльса отказалась от спонсорских отношений со Стэнфордом до окончания расследования. В США техасский миллиардер обвиняется в мошенничестве на сумму около 8 млрд долл. По данным Комиссии по ценным бумагам и биржам США, в течение последних 15 лет принадлежащая миллиардеру компания Stanford Financial Group реализовывала мошенническую схему продажи ценных бумаг, суливших инвесторам получение высоких доходов. Тем временем латиноамериканские издания отмечают, что паника началась в Мексике, Панаме, Колумбии, Эквадоре, Перу и некоторые филиалы (Эквадор и Перу) были вынуждены на неопределенное время приостановить свою работу. max_distpenaltylambdathresholdF measure
Заключение В ходе выполнения дипломной работы: Предложена модель кластеризации предложений с учетом тезаурусной информации Реализована программная система, производящая кластеризацию предложений и составляющая обзорный реферат Произведено тестирование созданной программной системы на различных наборах новостных статей В ходе эксперимента были проанализированы и выбраны оптимальные параметры метода Показано улучшение кластеризации предложений за счет тезаурусных знаний на 7%