Мировые информационные ресурсы Поисковые системы
Литература 1. Селетков С.Н., Хорошилов А.В. Мировые информационные ресурсы: Учебное пособие. СПб: Питер, Мировые информационные ресурсы. Интернет: практикум. Учебное пособие для ВУЗов; под ред. Акинина П.В. Кно Рус, А. В. Хорошилов, С. Н. Селетков, Н. В. Днепровская. – М. : Финансы и статистика, 2006
Принципы работы поисковых систем
Критерии профессионального поиска: контроль полноты охвата ресурсов; контроль достоверности информации, полученной из Сети; высокая скорость проведения поиска.
Компоненты поисковой системы SEARCH ENGINE Поисковая система SEARCH ENGINE Поисковая система spider (паук) crawler indexer (индексатор) search engine results engine (система выдачи результатов): the database (база данных)
Компоненты поисковой системы SEARCH ENGINE Поисковая система SEARCH ENGINE Поисковая система spider (паук) crawler indexer (индексатор) search engine results engine (система выдачи результатов): the database (база данных) Браузероподобная программа скачивания web-страниц «путешествующий» паук, который автоматически идет по всем ссылкам, найденным на странице хранилище скачанных и обработанных страниц программа, которая анализирует веб-страницы, скачанные пауками извлекает результаты поиска из базы данных
Метод, по которому поисковая система (ПС) принимает решение называется алгоритмом. ПC осуществляет отбор на основании постоянно меняющихся критериев: Title (заголовок): Имеется ли ключевое слово в заголовке? Domain/URL (Домен/адрес): Имеется ли ключевое слово в имени домена / в адресе страницы? Style (стиль): (STRONG или B), Курсив (EM или I), Заголовки HEAD.
Density (плотность): Количество ключевых слов относительно всего текста страницы называется плотностью ключевого слова. MetaInformation (мета данные): - мета ключевые слова (meta keywords) и мета описания (meta description). Outbound Links (ссылки наружу): Какие ссылки есть на странице и содержит ли они и ключевое слово?
Inbound Links (внешние ссылки): Имеются ли в Интернет ссылки на данный сайт? Каков текст ссылки? Это называется «вне страничный» критерий (автор страницы не всегда может им управлять). Insite Links (ссылки внутри страницы): Какие ссылки на страницы данного сайта содержит эта страница? Т.о., поисковой системе необходимо делать множество уточняющих запросов, используя страницу целиком.
Непосредственный Тематические каталоги Архивы файлов Энциклопедии Словари Базы данных Электронные каталоги библиотек Поиск в соответствии с видом представления
Технология проведения информационного поиска Определение географических регионов поиска; Составление тезауруса; При составлении тезауруса необходимо предусмотреть обработку синонимов, омонимов и морфологических вариаций ключевых слов. Тезаурус - список ключевых слов, организованный с учетом семантических отношений между ними.
Отбор поисковых машин. Устанавливается последовательность использования поисковых машин в соответствии с убыванием ожидаемой эффективности поиска с применением каждой машины.
Составление и выполнение запросов к поисковым машинам. Это наиболее сложный и трудоемкий этап, связанный с обработкой большого количества информации (в основном шумовой).
Эффективность поиска Семантические показатели. Основаны на оценке релевантности между документами и ззапросами Устанавливается экспертным путем Релевантность – объективно существующее смысловое соответствие между содержанием документа и ззапроса.
Эффективность поиска Характеристики, влияющие на позицию в списке ответов: -наличие слов на сайте; -частота слов; -форматирование; -близость слов друг к другу; -количество ссылок с других страниц на данную; -качество ссылок; -соответствие тематик сайта и ззапроса; -регистрация в каталоге, связанном с ПС.
Семантические показатели: Полнота выдачи (ПВ) Где: а – множество релевантных и выданных системой документов в – множество релевантных, но не выданных системой документов
Семантические показатели: Точность выдачи (ТВ) Где: а – множество релевантных и выданных системой документов б – множество нерелевантных, но выданных системой документов
Эффективность поиска Семантические показатели: Потери информации (ПИ) Где: а – множество релевантных и выданных системой документов в – множество релевантных, но не выданных системой документов
Эффективность поиска Семантические показатели: Информационный шум (ИШ) Где: а – множество релевантных и выданных системой документов б – множество нерелевантных, но выданных системой документов
Эффективность поиска Прагматические показатели. Определяются абонентами системы по оценке пертинентности выданных документов. Пертинентность – субъективно оцениваемое соответствие содержания документов или текстов информационным интересам потребителя.
Технология поиска Уточнение ззапроса (отсечение нерелевантных результатов) Анализ полученных результатов Формирование запроса Формирование ззапроса Составление тезауруса Отбор поисковых машин
Правильный набор ключевых слов имеет очень важное значение для задания ззапроса. Слова, встречающиеся с максимальной частотой - это предлоги, частицы, местоимения, в английском языке – артикли. Их называют «стоп- слова». Для отбора ключевых слов используют процедуру, основанную на применении законов Зипфа. Текст оценивается по частоте появления каждого слова. Слова ранжируются по частоте.
Виды поиска в ПС 1. Простой поиск. В поле ззапроса вводится одно или несколько слов, которые могут характеризовать содержание документа.
2. Расширенный поиск. Подразумевает запрос из группы слов. В большинстве случаев разрешается связывать ключевые слова логическими операторами AND (И), OR (ИЛИ), NOT (HE) и другими. Правила записи ключевых слов и логических операторов в разных системах очень похожи.
3. Контекстный поиск. Требуется точное совпадение фразы или группы слов, например « Все смешалось в доме Облонских».
4. Специальный поиск. С помощью команд специального поиска разыскивают дополнительную информацию. Н-р, такие команды позволяют определить, как часто в Сети встречаются гиперссылки, указывающие на какой-либо ресурс, с их помощью можно найти ключевые слова, входящие в заголовки Web-страниц и т. п. Как правило, команды специального поиска в различных поисковых системах свои.
Яндекс позволяет искать в отдельных элементах страницы или в связанной с ней информации.
Метапоисковые системы Приложения, позволяющие передавать запрос пользователя сразу в несколько поисковых систем. Метапоисковая система имеет те же преимущества перед поисковой системой, что и поиск в нескольких справочниках перед поиском в одном. ДИСКо Искатель" (Разработка фирмы "ДИСКо"
Спасибо за внимание!