Поиск информации. Борисов В.А. Красноармейский филиал ГОУ ВПО «Академия народного хозяйства при Правительстве РФ» Красноармейск 2009 г.
2 Поиск информации Задача, которую человечество решает уже многие столетия.
3 Все найденные за много лет средства и приемы поиска информации доступны и эффективны и при поиске информации в Интернет.
4 ПЕРТИНЕНТНЫЙ ДОКУМЕНТ Слово пертинентный происходит от английского pertinent, что значит относящийся к делу, подходящий по сути.
5 Цель информационного поиска Найти все пертинентные и только пертинентные документы (мы хотим найти только то, что хотим, и ничего больше). Эта цель - идеальна и пока недостижима.
6 Для того, чтобы было с чем сравнивать, необходимо некоторое количество непертинентных документов. Эти документы называются - ШУМ.
7 Когда документов много, используется информационно-поисковая система (ИПС). В этом случае информационная потребность должна быть выражена средствами, которые понимает ИПС - должен быть сформулирован ЗАПРОС.
8 РЕЛЕВАНТНОСТЬ Степень соответствия документа запросу.
9 Виды информационно поисковых систем
10 Классификационные ИПС В классификационных ИПС используется иерархическая (древовидная) организация информации, которая называется КЛАССИФИКАТОРОМ.
11 Разделы классификатора называются РУБРИКАМИ. Библиотечный аналог классификационной ИПС - систематический каталог.
12 Предметная ИПС Web-кольца Поиск названия нужного предмета своего интереса (предметом может быть и нечто невещественное, например, индийская музыка), а с названием связаны списки соответствующих ресурсов Интернет.
13 Словарные ИПС Основная идея словарной ИПС - создать словарь из слов, встречающихся в документах Интернет, в котором при каждом слове будет храниться список документов, из которых взято данное слово.
14 Два основных алгоритма работы словарных ИПС: -с использованием ключевых слов, -с использованием дескрипторов.
15 Использование ключевых слов Для оценки содержимого документа используются только те слова, которые в нем встречаются, и по запросу ИПС сопоставляет слова из запроса со словами документа, определяя по количеству, расположению, весу слов из запроса в документе его релевантность.
16 Использование дескрипторов Индексируемые документы переводятся на некоторый дескрипторный информационный язык. Дескрипторный информационный язык, как и любой другой язык, состоит из алфавита (символов), слов, средств выражения парадигматических и синтагматических отношений между словами.
17 Ранжирование результатов поиска Все ИПС в настоящее время уделяют основное внимание именно алгоритму ранжирования полученных ссылок.
18 Критерии при ранжировании в ИПС наличие слов из запроса в документе, их количество, близость к началу документа, близость друг к другу; наличие слов из запроса в заголовках и подзаголовках документов; количество ссылок на данный документ с других документов; «респектабельность» ссылающихся документов.
19 Современные проблемы поисковых систем Когда эти технологии разрабатывались никто из разработчиков не представлял себе, что Интернет станет глобальной информационной средой.
20 Архитектура crawler (сборщик) - осуществляет сканирование Интернет ресурсов в поисках изменений на страницах; indexer (индексатор) - индексирует ресурсы, строит базы данных по ключевым словам, хранит эти базы данных в виде, удобном для поиска по ним; gateway (шлюз) - осуществляет прием запросов от пользователей и выдачу им информации из базы данных.
21 Алгоритмы поиска и ранжирования Основной проблемой современных поисковых систем является то, что по причине фактически устаревшей архитектуры они не могут обеспечить качественный поиск информации.
22 Основные моменты новой архитектуры ИПС Переход к распределенной модели вычислений; Переход от модели «один поиск на всех» к модели персонального поиска; Переход от критериев релевантности к критерию пертинентности; Переход от поиска только текстовой информации к распознаванию и поиску мультимедийной информации.