Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru Текстовое ранжирование в Яндексе. Особенности подхода TF*IDF.

Презентация:



Advertisements
Похожие презентации
Особенности регионального ранжирования Яндекса. Украинская формула Сергей ЛЮДКЕВИЧ, начальник отдела исследований и аналитики.
Advertisements

Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
О фильтре «ТЫ СПАМНЫЙ». Оптимизируем тексты под новые требования Яндекса Елена Камская Seolib.ru 24 марта 2010.
Тексты в поисковой оптимизации. Оптимизация сайта ключевой элемент построения продаж в интернете 2 Тексты в поисковой оптимизации Тексты серьезно влияют.
Бесплатное продвижение возможно, или внутренняя оптимизация сайта. Якимов Василий телефон:
Информационный поиск. План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения.
Региональное ранжирование в эпоху MatrixNet Сергей ЛЮДКЕВИЧ, начальник отдела аналитики.
Страничные факторы ранжирования Михаил Костин, Mail.ru.
Легенды и мифы российских оптимизаторов Сергей Людкевич, руководитель департамента Интернет-маркетинга.
3.1. Назначение онтологий. Информационный поиск..
ТЕХНОЛОГИЯ ПОЛНОТЕКСТОВОГО ПОИСКА В МУЛЬТИЯЗЫЧНЫХ СЕТЕВЫХ РЕСУРСАХ Д.В. Ландэ 1,2, д.т.н., В.В. Жигало 2 1 Институт проблем регистрации информации НАН.
Информационный поиск в Интернете Павел Морозов
Методы извлечения ключевых фраз Рязанцев Дмитрий 428.
Разница продвижения ГНЗ и ГЗ запросов. Экспресс-анализ выдачи Яндекса после Обнинска. Елена Камская Вячеслав Ляхов
Текстовые факторы ранжирования: от анализа до разработки сайта Трофименко Евгений Александрович (495) Корпорация.
Факторы ранжирования Яндекса Сергей ЛЮДКЕВИЧ, начальник отдела аналитики.
© ElVisti Лекция 7 Кластерный анализ и информационный поиск Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
ПРОДВИЖЕНИЕ САЙТОВ В ПОИСКОВЫХ СИСТЕМАХ. МЕТОДЫ И СПОСОБЫ Рустем Гараев, Руководитель BulgarPromo.
Ранжирование документов в поисковых машинах Сергей Людкевич, руководитель департамента Интернет-маркетинга.
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Транксрипт:

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru Текстовое ранжирование в Яндексе. Особенности подхода TF*IDF.

Подход TF*IDF Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru Произведение TF*IDF определяет уровень соответствия документа запросу. Множитель TF – прямая частота вхождения запроса в документ (отвечает за встречаемость термина в содержании документа), можем влиять Множитель IDF – обратная частота термина в коллекции (отвечает за редкость употребления запроса во всех документах коллекции, в нашем случае базы поисковой системы), не можем влиять

Классический случай подхода TF*IDF Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru где - количество употреблений i-го однословника, знаменатель – общая длина документа в словах где D – общее количество документов в коллекции, в нашем случае поисковой базе, знаменатель - число документов, содержащих i-й однословник Выводы: рулит плотность вхождения

Подход TF*IDF в Яндексе образца г. Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru где - количество употреблений i- го однословника, – количество вхождений в документ самого частотного однословника где TotalLemms – общее количество терминов в коллекции, в нашем случае длина поисковой базы в словах, – количество вхождений туда i-го однословника

Анализ подхода TF*IDF образца г. Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru 1) рулит встречаемость однословника в документе; 2) максимальная текстовая релевантность, когда 3) плотность вхождения однословника в документ не влияет на ранжирование; 4) ресурс текстовой релевантности неограничен и растет в лучшем случае

Гипотеза текущего подхода TF*IDF в Яндексе Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru Предпосылки: 1) документы с огромными псевдо-естественными текстами и высокой плотностью содержания в них продвигаемых запросов; 2) небольшие тексты с высокой плотностью содержания ключевых запросов. Формула с РОМИП 2006: где - количество употреблений i-го однословника, Doclength – длина документа в словах, - некоторые постоянные числовые коэффициенты

Анализ формулы для TF Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru 1) Чем выше плотность вхождения однословника в документ при фиксированной его длине, тем больше TF и выше текстовая релевантность Doclength = 3000 слов, =1, =1/350 Но TF ограничена и, начиная с некоторого значения плотности вхождения однословника, увеличивается слабо плотность в долях

Анализ формулы для TF Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru 2) Чем больше длина документа при фиксированной плотности вхождения однословника, тем выше TF и текстовая релевантность Плотность однословника равна 0.05 (5%), =1, =1/350 Но TF ограничена и, начиная с некоторой длины документа, увеличивается слабо Doclength

Выводы и рекомендации Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru 1) ресурс использования текстовой релевантности ограничен; 2) анализ формулы согласуется с предпосылками; 3) правило один запрос – одна страница еще более актуально в такой модели для TF; 4) рулят объемные тексты с высокой плотностью содержания ключевых запросов (но не стоит переоптимизировать)

Денис Бессонов, руководитель отдела продвижения «Илма Груп», автор сео-блога mexboy.ru Спасибо за внимание! Пожалуйста, вопросы. Пишите на или в блог если остались вопросы.