Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ.

Презентация:



Advertisements
Похожие презентации
НАЗВАНИЕ Работу выполнил: ст. 4 курса ФИО Научный руководитель: Должность, ФИО Г. Пермь, 2009 ГОУ ВПО Пермский государственный университет Физический факультет.
Advertisements

Оценка достигнутой научной квалификации при помощи метода ПРИНН и сопоставлении с реальным уровнем выполненных работ. Автор: Новик А.Б. Руководитель проекта:
Кластеризация Кластеризация – это автоматическое разбиение элементов некоторого множества (объекты, данные) на группы (кластеры) по принципу схожести.
Определение новизны информации в новостном кластере.
Управление проектами Лекция 2. Структурное планирование.
1 Информационные системы в экономике Информационное обеспечение.
1 Разработка автоматизированной системы анализа платежеспособности заемщика по программам потребительского кредитования коммерческого банка Исполнитель:
Доклад на тему: «Модификация алгоритма поиска пути Jump Point Search для робота Robotino» Выполнил: Курченков Н.И. Руководитель: Дацун Н.Н.
Отчет по преддипломной практике Выполнил Студент гр. ИСЗ – С 05 Кудаков Д.Ю.
Организация самостоятельной работы студента с использованием программно- методической системы по изучению грамматической темы английского языка Reported.
Текстовая кластеризация алгоритмом ROCK студент 4 курса МИЭМ, каф. ИКТ Иван Савин 1.
Советы привели к «бизнес плану». Бизнес план – это? Краткое, точное, доступное и понятное описание предполагаемого бизнеса План создания и развития бизнеса.
Четко сформулировать задачу – означает извлечь из информации об изучаемом явлении или объекте исходные данные, определить, что будет результатом.
МЕТОД ЭКСПЕРТНЫХ ОЦЕНОК. ЭКСПЕРТИЗА В УПРАВЛЕНИИ Роль экспертов в управлении: Основные трудности, связанные с информацией, возникающие при выработке сложных.
1 Исследование алгоритмов решения задачи k коммивояжеров Научный руководитель, проф., д.т.н. Исполнитель, аспирант Ю.Л. Костюк М.С. Пожидаев Томский государственный.
РАЗРАБОТКА ПРОГРАММНОГО ОБЕСПЕЧЕНИЯ ДЛЯ МОДЕЛИРОВАНИЯ КОНКУРЕНТНОГО РЫНКА НА КЛАСТЕРНЫХ СИСТЕМАХ Авторы: Е.В. Болгова, А.С. Кириллов, Д.В. Леонов Научный.
Основные этапы моделирования. Моделирование – исследование объектов путем построения и изучения их моделей. Моделирование – творческий процесс, и поэтому.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
Тема: «Алгоритмизация и программирование». 11 класс Учитель Кравченко Лора Викторовна Тема: «Алгоритмизация и программирование». 11 класс Учитель Кравченко.
ЭТАПЫ МОДЕЛИРОВАНИЯ. Цель урока: рассмотреть основные этапы моделирования. Задачи: 1. Повторить понятия «модель», «моделирование». 2. Определить место.
Транксрипт:

Автоматическое составление обзорного реферата на основе кластеризации предложений Гнездилов Дмитрий, гр. 524 Научный руководитель к.ф.-м.н., с.н.с. НИВЦ МГУ Лукашевич Н.В.

Автоматическое составление обзорного реферата Одна из важнейших практических задач автоматической обработки текста Обзорный реферат это совокупность предложений, позволяющих пользователю за небольшое время ознакомиться с основным содержанием тематически связанного набора документов К обзорному реферату предъявляются требования По содержанию По читабельности

Постановка задачи Разработка модели кластеризации предложений с учетом информации об отношениях между словами, описанной в тезаурусе РуТез Проведение оценки качества кластеризации предложений Создание системы автоматического составления обзорного реферата на основе метода кластеризации предложений для обеспечения: полноты покрытия содержания набора документов снижения повторяемости информации в реферате. Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов. Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.

Исходные данные Набор новостных статей Статьи с единой темой Результаты графематического анализа Размеченные предложения Результаты морфологического анализа Слова, приведенные к начальной форме Выделенные концепты набора статей Концепт – слово, определение которого найдено в тезаурусе Связи концептов в тезаурусе Мексика – Государство Колумбия – страна Латинской Америки

Описание метода кластеризации предложений - 1 Определение меры близости для каждой пары предложений Векторное представление предложения Мера близости пары предложений

Описание метода кластеризации предложений - 2 Мера близости по отношениям концептов Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов. Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.

Описание метода кластеризации предложений - 3 Описание алгоритма агломеративной кластеризации Каждое предложение – отдельный кластер, 1. Определение R max 2. threshold

Оценка кластеризации Ручная кластеризация Попарное сравнение Вычисление F-меры Предложение Ручная кластеризация Автоматическая кластеризация Тысячи людей в Мексике, Панаме, Колумбии с раннего утра занимали очередь в банк, чтобы как можно быстрее снять деньги со своих счетов ++ Напуганные вкладчики из стран Латинской Америки выстаивают громадные очереди, чтобы снять свои вклады из банка.

Составление аннотации Определение наиболее важных кластеров Выбор кластеров с наибольшим количеством предложений Определение и извлечение центра кластера Определение порядка выбранных предложений

Программная реализация Используемые инструментальные средства: СУБД Microsoft Access Язык программирования Microsoft Visual Basic

Описание эксперимента Дано 10 наборов по 30 новостных статей в каждом Необходимо вычислить значения параметров наилучшей кластеризации Составить аннотацию на основе полученных значений параметров

Результаты эксперимента Улучшение F measure на 7% при точности P > 0.7 Пример составленной аннотации Стэнфорд попытался арендовать частный самолет, однако из-за того, что его счета заморозили, компания-авиаперевозчик не приняла к оплате его кредитную карту. Властям США неизвестно место нахождения миллиардера Аллена Стэнфорда, которого обвиняют в мошенничестве в крупных размерах. Ассоциация крикета Англии и Уэльса отказалась от спонсорских отношений со Стэнфордом до окончания расследования. В США техасский миллиардер обвиняется в мошенничестве на сумму около 8 млрд долл. По данным Комиссии по ценным бумагам и биржам США, в течение последних 15 лет принадлежащая миллиардеру компания Stanford Financial Group реализовывала мошенническую схему продажи ценных бумаг, суливших инвесторам получение высоких доходов. Тем временем латиноамериканские издания отмечают, что паника началась в Мексике, Панаме, Колумбии, Эквадоре, Перу и некоторые филиалы (Эквадор и Перу) были вынуждены на неопределенное время приостановить свою работу. max_distpenaltylambdathresholdF measure

Заключение В ходе выполнения дипломной работы: Предложена модель кластеризации предложений с учетом тезаурусной информации Реализована программная система, производящая кластеризацию предложений и составляющая обзорный реферат Произведено тестирование созданной программной системы на различных наборах новостных статей В ходе эксперимента были проанализированы и выбраны оптимальные параметры метода Показано улучшение кластеризации предложений за счет тезаурусных знаний на 7%