"Информационные технологии, Интернет и мультимедиа на службе Церкви и религиозного образования" 1. Принципы работы поисковых систем - Концепция web поиска и поведение пользователей. - Индексация сайта поисковыми машинами. - Особенности морфологии. - Методы ранжирования. - Релевантность выдачи. 2. Семантическое ядро - Составление списка запросов. - Частота запросов. - Запросы с ошибками. 3. Внутренние факторы ранжирования - Вхождение ключевых слов в текст документа. - Метатеги. - Заголовки. Теги разметки. - Внутренние ссылки. Сквозные ссылки. 4. Внешние факторы ранжирования - Авторитетность и индивидуальность документа. - Классический Page Rank. 4.1 Ссылочное ранжирование. 4.2 Методы получения внешних ссылок.
:: 1. Принцип работы поисковых систем Поисковые машины имеют 3 основные составляющие: Модуль индексирования (поисковые роботы). База данных (индекс). Поисковый сервер (система выдачи результатов).
:: Модуль индексирования (поисковые роботы) Модуль индексирования состоит из 3 вспомогательных программ- роботов: Spider (паук) – программа, предназначенная для скачивания веб- страниц. «Паук» обеспечивает скачивание страницы и извлекает все внутренние ссылки с этой страницы. Crawler («путешествующий» паук) – программа, которая автоматически проходит по всем ссылкам, найденным на странице. Indexer (робот- индексатор) - программа, которая анализирует веб- страницы, скаченные пауками. Индексатор разбирает страницу на составные части и анализирует их, применяя собственные лексические и морфологические алгоритмы.
:: База данных (индекс) Индекс представляет собой базу данных, которая содержит копию каждой найденной страницы. Обновление базы происходит каждый раз, когда поисковый робот находит новые страницы. :: Поисковый сервер (система выдачи результатов) Поисковый сервер является важнейшим элементом всей системы, так как от алгоритмов, которые лежат в основе ее функционирования, напрямую зависит качество и скорость поиска. Поисковый сервер работает следующим образом: Получение запроса, морфологический анализ. Передача входных параметров специальному модулю ранжирования Дополнительные параметры (например, «расширенный поиск»). Генерация сниппета. Полученные результаты поиска передаются пользователю в виде SERP.
:: Концепция web поиска и поведение пользователей Поисковая система - это программно-аппаратный комплекс, предназначенный для осуществления поиска в сети Интернет и реагирующий на запрос пользователя. Первоочередная задача любой поисковой системы – доставлять людям именно ту информацию, которую они ищут. А научить пользователей делать «правильные» запросы к системе, т.е. запросы, соответствующие принципам работы поисковых систем, невозможно. Поэтому разработчики создают такие алгоритмы и принципы работы поисковых систем, которые бы позволяли находить пользователям искомую ими информацию.
:: Индексация сайта поисковыми машинами Поисковая система может узнать о вновь созданном сайте двумя путями: Ручное добавление адреса сайта через соответствующую форму поисковой системы. В этом случае вы сами сообщаете поисковой системе о новом сайте и его адрес попадает в очередь на индексацию. Предоставить поисковому роботу самостоятельно найти ваш сайт. Если на ваш новый ресурс есть хотя бы одна внешняя ссылка с других ресурсов, уже проиндексированных поисковой системой, то поисковый робот в короткие сроки сам посетит и проиндексирует ваш сайт.
:: Особенности морфологии
:: Методы ранжирования Статические (не зависящие от запроса). Как правило, это некий агрегированный показатель, который носит название статического ранга или авторитетности документа и зависит от количества и ранга документов, ссылающихся на данный документ. Он является внешним фактором, так зависит только от внешних показателей, не принимая во внимание содержимое документа. Динамические (зависящие от запроса) внутренние (страничные). Они учитывают степень соответствия запросу содержимого самого документа. Динамические (зависящие от запроса) внешние (ссылочные). Как правило, они учитывают степень соответствия запросу текста ссылок на документ (в среде русскоязычных специалистов по оптимизации такой фактор носит название "ссылочное ранжирование"). Также одним из факторов может быть динамический (т.е. зависящий от запроса) ранг документа.
:: PageRank Четко прослеживается уменьшение значения PageRank со спуском по иерархической лестнице (уровни A, B-C и D-E-F-G) и стремление к выравниванию показателей PageRank у более плотно перелинкованных документов (связка С-F-G по сравнению со связкой B-D-E).
:: Методы ранжирования ВИЦ – взвешенный индекс цитирования – аналог PageRank, применяемый поисковой системой Яндекс. Значения ВИЦ нигде не публикуются и известны только Яндексу. Поскольку узнать ВИЦ нельзя, следует просто помнить, что у Яндекса есть собственный алгоритм оценки «важности» страниц. ТИЦ – тематический индекс цитирования – рассчитывается для сайта в целом и показывает авторитетность ресурса относительно других, тематически близких ресурсов (а не всех сайтов Интернета в целом). ТИЦ используется для ранжирования сайтов в каталоге Яндекса и не влияет на результаты поиска в самом Яндексе.
:: 2. Семантическое ядро Релевантность. Поисковые машины рассчитывают релевантность текста, строя частотный ряд из слов. Чем чаще слово встречается в тексте, тем большую, по отношению к запросу пользователя, релевантность оно получает. Объем потенциальной аудитории. Ключевые слова должны подбираться с учетом частоты их использования, при поиске информации. Как правило, люди используют первые пришедшие в голову слова. Именно на эти слова и нужно ориентироваться. Конкурентоспособность. Чем большую релевантность имеют ключевые слова, тем большую конкурентоспособность они придают документу. Но уровень релевантности конкурирующих ресурсов, из-за ряда внешних факторов (популярность, количество внешних ссылок), может оцениваться поисковыми машинами более высоко. В этом случае необходимо использовать синонимы или слова близкие по смыслу.
:: 3. Внутренние факторы ранжирования Объем текста на странице. Число ключевых слов на странице. Плотность ключевых слов. Расположение ключевых слов на странице. Стилистическое оформление текста. Тег «TITLE». Мета-тег Desciption. Мета-тег Keywords. Ключевые слова в тексте ссылок. Теги «ALT» изображений. Число страниц сайта. Навигационное меню. Ключевое слово в названии страницы. Главная страница сайт.
:: 3. Внутренние факторы ранжирования Распространенные ошибки: Графический заголовок. Графическое навигационное меню. Навигация через скрипты. Идентификатор сессии. Редиректы. Скрытый текст. Однопиксельные ссылки.