© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах
© ElVisti2 Информационно-поисковые системы Информационно-поисковая система (ИПС) – система, выполняющая функции: - хранения больших объемов информации; - быстрого поиска требуемой информации; - добавления, удаления и изменения хранимой информации; - вывода информации в удобном для человека виде. (Глоссарий.ru) Первые ИПС использовались преимущественно в библиотечном деле и в системах научно-технической информации.
© ElVisti3 Из истории информационно- поисковых систем 1965 – Dialog, - MARK, - STAIRS 1990 – Z GALILEO - WAIS … - RetrievalWare - Autonomy - AltaVista - Яндекс - Google…
© ElVisti4 Сетевые ИПС
© ElVisti5 Особенности языков запросов Не существует стандартного универсального языка запросов. Отличие от SQL особенностями: интерпретация операций, зависящих от порядка расположения слов в тексте (операций контекстной близости слов и др.) реализация вычисления близости найденных документов запросам (релевантности) для представления результатов поиска применение нестандартных функций, требующих, например, использования методов искусственного интеллекта (нахождение документов по принципу подобия, построение дайджестов из фрагментов документов и др.)
© ElVisti6 Коэффициент полноты: p = a / (a + c) Коэффициент точности: n = a / (a + b) Коэффициент осадков: q = b / (a + b) Коэффициент специфичности: k = d / (b + d) Ошибка: Error = (b+c) / (a+b+c+d) F-мера: F = 2 / (1/p + 1/r) Коэффициент полноты: p = a / (a + c) Коэффициент точности: n = a / (a + b) Коэффициент осадков: q = b / (a + b) Коэффициент специфичности: k = d / (b + d) Ошибка: Error = (b+c) / (a+b+c+d) F-мера: F = 2 / (1/p + 1/r) Характеристики ИПС (TREC)
© ElVisti7 11-точечный график TREC (РОМИП) 11-точечный график полноты/точности отражает изменение точности в зависимости от требований к полноте и дает более полную информацию, чем единая метрика в виде одной цифры. По оси абсцисс на графике откладываются значения полноты, по оси ординат – значение точности при условии, что рассматривается начальный отрезок результатов запроса, на котором достигается заданный уровень полноты. Пример (из отчета TREC- 2003): коллекция документов содержит 20 документов, 4 из которых релевантны запросу. Система выдает в качестве результатов запроса все эти документы, ранжированные так, что релевантными являются первый, второй, четвертый и пятнадцатый.
© ElVisti8 Два аспекта полноты сетевых ИПС
© ElVisti9 Понятие пертинентности Понятие пертинентности как характеристики информационно- поисковой системы, означающее соответствие полученной информации информационной потребности.
© ElVisti10 Дополнительные технологические характеристики - скорость обработки запросов - полнота охвата ресурсов - вероятность получения ответа от системы - нахождение документов, подобных найденным - возможность уточнения запросов - возможность применения разных критериев ранжирования выдачи - возможность подключения переводчиков …
© ElVisti11 Недостатки традиционных ИПС - недостаточная оперативность - зависимость от выбора источников - слабые поисковые возможности - отсутствие средств уведомления о нахождении новой информации - невозможность работы с мультимедиа - недостаточная защита данных - слабо развитые средства обобщения данных
© ElVisti Спасибо за внимание!