Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемwww.dialog-21.ru
1 Автоматическое распознавание тематики сверхкоротких текстов Андрей Белов, Михаил Волович «Ашманов и Партнеры», «Поисковые технологии»
2 Система распознавания тематики обычных текстов Успешно используется более двух лет Предназначена для автоматического распознавания тематики текстов на русском языке: веб-страниц, новостей, рекламных объявлений и т. д. Пример использования: новостной поисковик «Новотека» (
3 Система распознавания тематики обычных текстов Описания рубрик создаются вручную Более полутора тысяч предметных и более трехсот географических рубрик Более двухсот тысяч терминов Русский язык (ряд рубрик – также английский)
4 Присвоение рубрики тексту Описание рубрики – список терминов (слов и словосочетаний) Чтобы тексту была присвоена рубрика, он должен набрать по ней достаточный вес Вес текста складывается из весов найденных в нем терминов с учетом коэффициентов Учитываются: вес термина, длина (в словах), количество вхождений в текст, позиция (в заголовке или нет), а тж. длина текста и др.
5 Термины Всё, что может характеризовать рубрику четырехмегапиксельная камера четырехмегапиксельный цифровая зеркалка формат сохранения снимков выбор цифровой камеры Pentax 750 Z Unlimited Consecutive Shooting в эквиваленте для 35 мм обычный цифровой фотоаппарат Только специфические для рубрики
6 Что делать со сверхкороткими текстами? Сверхкороткие тексты: от 2-3 слов до 1-2 фраз поисковые запросы короткие объявления заголовки реплики ссылки ключевые слова Для них подсчет весов не работает: хорошо, если встретятся один-два термина, шансов набрать нужный вес нет
7 Преимущества краткости Зато чем короче текст, тем меньше вероятность случайного попадания в него маркеров тематики Наличие даже одного термина из описания рубрики в заголовке, запросе и т. п. может быть достаточным для их отнесения к этой рубрике Решение: срабатывание рубрики по одному термину
8 Вложение терминов Термин, соотносимый с рубрикой сам по себе, перестает иметь к ней отношение в ряде контекстов «обои» – Строительство и ремонт / Отделочные материалы / Настенные покрытия / Обои «обои для рабочего стола» – Техника и наука / Компьютеры / Программное обеспечение / Скринсейверы, обои Объемлющий термин блокирует вложенный
9 База терминов для работы со сверхкороткими текстами Использованы тот же рубрикатор и та же база терминов, что и для обычных текстов Однако – были существенно повышены требования к их наполнению Веса всех терминов – абсолютные Некоторые термины отбрасываются: не учитываются при работе со сверхкороткими
10 Адаптация базы терминов к работе со сверхкороткими текстами Чистка базы – удаление ошибок, терминов, недостаточно надежно связанных со своими рубриками Особое внимание к омонимичным и многозначным терминам Блокирование тематически бессодержательных выражений, в состав которых входят термины базы
11 Эффективность распознавания Материал тестирования: запросов из «Прямого эфира» Яндекса Предварительно база прошла техническую чистку (удалено 2107 запросов – названия доменов, номера телефонов, запросы с опечатками) Полнота на очищенной базе – 60% (на неоднословных запросах 66%) Точность высокая: 2-3% ложных срабатываний
12 Возможные применения Увеличение полноты рубрикации новостей и веб-страниц Уточнение области поиска в поисковых системах Показ контекстной рекламы в поисковых системах Показ контекстной рекламы посетителям, пришедшим с поисковых систем
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.