Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 10 лет назад пользователемprofyclub
1 1 Фактографическое аннотирование новостных сюжетов Лев Гершензон, Александр Головко
2 2 План –Что такое Яндекс.Новости? Автоматическая кластеризация сообщений в сюжеты Ранжирование новостных сюжетов Автоматическое аннотирование сюжета: выбор заголовка, текста, картинки –Выделение объектов из текста –Аннотирование кластера документов (сюжета) Выбор наиболее релевантных объектов и фактов Выбор предложений для аннотации
3 3 Яндекс.Новости Автоматическая кластеризация новостных сообщений в сюжеты – новости об одном событии. - Определение ключевых слов документа - Поиск для каждого документа по его ключевым словам близких документов - Многопроходная кластеризация документов по специально построенным из документа и по пользовательским запросам Ранжирование сюжетов - количество сообщений - новизна - пользовательский интерес «новостные» запросы «кликабельность» сюжетов
4 4 Яндекс.Новости. Страница рубрики
5 5 Яндекс.Новости. Страница сюжета Заголовок - Соответствие лексическому ядру - «Красота»: длина, синтаксическая полнота - Новизна Картинка Аннотация Сюжет в лицах, Карта к сюжету Список сообщений, составляющих сюжет - Отсортирован по времени - Релевантные, не дублирующиеся сообщения
6 6 Яндекс.Новости. Страница сюжета
7 7 Извлечение фактов из текстов сюжета Извлекаемые объекты и факты - ФИО - названия организаций - географические объекты - даты и числа - цитаты Справочная информация адрес – ссылка на карту фио – ссылка на пресс-портрет новостной источник – ссылка на сайт/статью
8 8 Извлечение фактов из текста 12 марта этого года задержан заместитель главного бухгалтера финансово-экономического управления УВД Хабаровского края Владимир Дуничев, похитивший более 10 миллионов рублей.
9 9 Отбор предложений для аннотации отождествление объектов одного типа из разных документов сюжета приписывание объектам весов по упоминаемости и по типу выбор всех предложений из всех документов, содержащих ключевые слова сюжета взвешивание предложений по входящим в них ключевым словам и входящим в них фактам
10 10 Отбор предложений для аннотации просев полученных предложений : - по шинглам – удаление лексических дублей 4 апреля гособвинение потребовало приговорить Ульмана и Перелевского к 23 годам тюрьмы, а Воеводина и Калаганского - к 18 годам. Гособвинение требует приговорить Эдуарда Ульмана и Алексея Перелевского к 23 годам лишения свободы каждого, Александра Калаганского - к 18 годам. - по объектам – удаление содержательных дублей На процессе в Северо-Кавказском военном суде объявлен перерыв до 13 апреля из-за неявки троих обвиняемых Эдуарда Ульмана, Александра Калаганского и Владимира Воеводина. Подсудимые по делу о расстреле чеченских жителей Эдуард Ульман, Александр Калаганский и Владимир Воеводин не явились в четверг на заседание Северо-Кавказского военного суда. - выбор из дублирующихся самого раннего выбор N самых весомых предложений
11 11 Пути развития Учет сценария события для определения необходимых составляющих аннотации –Футбольный матч –Пожар –Принятие нового закона Улучшение связности текста аннотации
12 12 Спасибо!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.