1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко
2 План –Что такое Яндекс.Новости? Автоматическая кластеризация сообщений в сюжеты Ранжирование новостных сюжетов Автоматическое аннотирование сюжета: выбор заголовка, текста, картинки –Выделение объектов из текста –Аннотирование кластера документов (сюжета) Выбор наиболее релевантных объектов и фактов Выбор предложений для аннотации
3 Яндекс.Новости Автоматическая кластеризация новостных сообщений в сюжеты – новости об одном событии. - Определение ключевых слов документа - Поиск для каждого документа по его ключевым словам близких документов - Многопроходная кластеризация документов по специально построенным из документа и по пользовательским запросам Ранжирование сюжетов - количество сообщений - новизна - пользовательский интерес «новостные» запросы «кликабельность» сюжетов
4 Яндекс.Новости. Страница рубрики
5 Яндекс.Новости. Страница сюжета Заголовок - Соответствие лексическому ядру - «Красота»: длина, синтаксическая полнота - Новизна Картинка Аннотация Сюжет в лицах, Карта к сюжету Список сообщений, составляющих сюжет - Отсортирован по времени - Релевантные, не дублирующиеся сообщения
6 Яндекс.Новости. Страница сюжета
7 Извлечение фактов из текстов сюжета Извлекаемые объекты и факты - ФИО - названия организаций - географические объекты - даты и числа - цитаты Справочная информация адрес – ссылка на карту фио – ссылка на пресс-портрет новостной источник – ссылка на сайт/статью
8 Извлечение фактов из текста 12 марта этого года задержан заместитель главного бухгалтера финансово-экономического управления УВД Хабаровского края Владимир Дуничев, похитивший более 10 миллионов рублей.
9 Отбор предложений для аннотации отождествление объектов одного типа из разных документов сюжета приписывание объектам весов по упоминаемости и по типу выбор всех предложений из всех документов, содержащих ключевые слова сюжета взвешивание предложений по входящим в них ключевым словам и входящим в них фактам
10 Отбор предложений для аннотации просев полученных предложений : - по шинглам – удаление лексических дублей 4 апреля гособвинение потребовало приговорить Ульмана и Перелевского к 23 годам тюрьмы, а Воеводина и Калаганского - к 18 годам. Гособвинение требует приговорить Эдуарда Ульмана и Алексея Перелевского к 23 годам лишения свободы каждого, Александра Калаганского - к 18 годам. - по объектам – удаление содержательных дублей На процессе в Северо-Кавказском военном суде объявлен перерыв до 13 апреля из-за неявки троих обвиняемых Эдуарда Ульмана, Александра Калаганского и Владимира Воеводина. Подсудимые по делу о расстреле чеченских жителей Эдуард Ульман, Александр Калаганский и Владимир Воеводин не явились в четверг на заседание Северо-Кавказского военного суда. - выбор из дублирующихся самого раннего выбор N самых весомых предложений
11 Пути развития Учет сценария события для определения необходимых составляющих аннотации –Футбольный матч –Пожар –Принятие нового закона Улучшение связности текста аннотации
12 Спасибо!