Эксперимент по автоматической оценке качества обзорного реферирования по метрике ROUGE-RUS © С.Д. Тарасов
Оценка качества обзорного реферирования Ручная –связность –краткость (лаконичность) –грамматическая правильность –сложность восприятия –содержание Автоматическая Автоматизированная
ROUGE Recall-Oriented Understudy for Gisting Evaluaion
ROUGE Простота использования Высокая скорость Дешевизна Возможность производить оценки в автоматическом режиме Высокая корреляция с ручными оценками
ROUGE Автоматическая оценка качества обзорного реферирования Сравнительная оценка различных методов обзорного реферирования Исследование и оптимизация отдельно взятого метода
ROUGE-RUS Русская морфология, список стоп-слов для русского языка Возможность учитывать синонимы (с использованием концептов тезауруса) Усреднение (а не максимум) значения при наличии нескольких ручных аннотаций
ROUGE-RUS Общий вид системы по оценке метрики ROUGE-RUS
ROUGE-RUS Результаты вычисления величины ROUGE-RUS
Эксперимент Исходные данные Google.News ноябрь-декабрь кластеров («Россия», «Культура», «Происшествия», «Спорт» и др.) 21 источник («РБК», «РИА Новости», «Российская Газета» и т.д.) 613 документов
Эксперимент Построение аннотаций 67 человек (студенты 5 курса БГТУ «Военмех» по специальности АСУ) 2385 ручных аннотаций Каждая аннотация: 4 предложения Отобрано: N=50, M > 40
Распределение ROUGE-RUS Распределение величины ROUGE-1 при сравнении одной ручной аннотации со всеми остальными для произвольного кластера. Значения отсортированы по убыванию
ROUGE-RUS Ручные рефераты, порожденные разными пользователями, слабо согласуются друг с другом Использование одного ручного реферата для оценки недостаточно В ручных рефератах, порожденных разными пользователями, практически отсутствует кластеризация Использование морфологии, списка стоп- слов и словаря синонимов положительно сказывается на пологости кривой
ROUGE-RUS Зависимость дисперсии величины ROUGE-RUS по всем кластерам от K (количества ручных аннотаций)
ROUGE-RUS К δ Метод Максимума, %δ Метод усреднения, % ROUGE-1ROUGE-2ROUGE-3ROUGE-4ROUGE-LROUGE-1ROUGE-2ROUGE-3ROUGE-4ROUGE-L
Исследование и оптимизация параметров алгоритма обзорного реферирования на основе метрики ROUGE-RUS Алгоритм Manifold Ranking Базовое значение величины ROUGE- RUS на кластере (среднее и максимум)
Результат работы базового алгоритма Manifold Ranking Красным выделено среднее значение ROUGE-1 Зеленым выделено максимальное значение метрики ROUGE-1 на кластере Желтым выделено среднее значение метрики ROUGE-1 на кластере Голубым цветом показаны величины ROUGE-1 сравнения автоматической аннотации, порожденной алгоритмом, с каждой из 10 ручных
Сравнение с Basic Lines BL1 – 4 первых предложения 1-го документа BL2 – первые предложения 4-х первых документов BL3 – последние предложения 4-х первых документов BL4 – заголовки 4-х первых документов BL5 – 4 первых предложения последнего документа BL6 – последние предложения 4-х первых документов BL7 – последние предложения 4-х последних документов BL8 – заголовки 4-х последних документов
Подбор базовых параметров ПараметрDUCРеализация α0,60,9 λ10,3 λ210,8 ω810 «Игнорировать темы»-Да Мин. кол-во слов в предложении-3 Мин. дистанция до анафоры-4
Подбор базовых параметров
Ограничение длины документов
Влияние выбора темы
Выбор темы Не удалось выявить зависимость от Дата публикации Кол-во слов в предложении Кол-во существительных в предложении Модифицированный алгоритм Использование нескольких тем
Модифицированный алгоритм Заголовки всех документов Заголовки из первых двух документов Заголовки из первых четырех документов Заголовки из последних двух документов Заголовки из последних четырех документов
Результаты Выбор темы ROUGE-1ROUGE-2ROUGE-L Заголовок одного документа Заголовки всех документов Заголовки из первых двух документов Заголовки из первых четырех документов Заголовки из последних двух документов Заголовки из последних четырех документов
Результаты ROUGE-1ROUGE-2ROUGE-L Базовое значение метрики (среднее) Базовое значение метрики (максимум) Базовый алгоритм MR BL BL BL BL BL BL BL BL Модифицированный алгоритм
Заключение Метрика ROUGE-RUS Эксперимент Исследование метрики ROUGE-RUS Оптимизация параметров алгоритма Manifold Ranking Модифицированный алгоритм