3.1. Назначение онтологий. Информационный поиск.
Информационный поиск Поиск информации (Information Retrieval) и задача извлечения документов (Document Retrieval)
Постановка задачи DR Дано: 1) Коллекция документов на естественном языке - ЕЯ (одном или нескольких); 2) Запрос на ЕЯ. Требуется: Выбрать из коллекции документы релевантные запросу и только их. И, возможно, упорядочить выборку по релевантности.
Возникли вопросы? Откуда взялись документы? Чем отличается естественный язык от искусственного? Кто и как формулирует запрос? Что такое релевантность? Ответы – далее...
Основные понятия (1) Коллекция документов множество текстов, описывающих некоторую область знаний и собранных вместе (коллекция текстов по гидродинамике) локальные и глобальные коллекции экстремальный случай – коллекция документов, доступных по Internet (область знаний?)
Основные понятия (2) Естественный язык используется для общения людей многозначный был и останется основным языком представления знаний человека Искусственный язык в отличие от ЕЯ, сконструирован целенаправленно как правило, не многозначен
Основные понятия (3) Информационная потребность внутреннее состояние психики человека причина возникновения: несоответствие между тем, что есть и тем, что хотелось бы иметь (в плане информации) выражается на ЕЯ словами «Хотелось бы знать...» реализуется в виде поискового запроса по коллекции документов
Основные понятия (4) Запрос к поисковой системе может быть задан на ЕЯ, но чаще задается на некотором ИЯ. обычный вопрос: «Как проехать в аэропорт?» запрос к Яндекс, Google: «аэропорт проезд». Поисковик не способен понимать ЕЯ. Он способен обрабатывать только поисковые образы – внутренние представления запросов (ПОЗ) и документов (ПОД) на информационно-поисковом языке.
Основные понятия (5) Релевантность мера близости документа и запроса может определяться человеком (экспертом), но обычно вычисляется поисковой машиной релевантные запросу документы формируют релевантную выборку но удовлетворяют ли они информационную потребность пользователя? К сожалению, удовлетворение информационной потребности это – не задача, а проблема (трудно формализовать понятие «инф. потребность»)
Существующие подходы к решению задачи DR Обработка документов и запросов Индексирование по ключевым словам Двоичный поиск Ранжированный поиск (vector-space model) Вероятностная модель
Индексирование по ключевым словам Информационный поиск начинается не с написания запроса, а с индексирования документов. Каждому документу сопоставляется ПОД. Пример: документ – книга, ПОД – алфавитный указатель в конце книги.
Инвертированный словарь каждая запись содержит: термин, количество документов коллекции, в которых термин появился, частоту появления в документах коллекции, ссылку на структуру, описывающую появление термина в каждом из документов.
Двоичный поиск ПОЗ – формула. Термины и логические связки (AND, OR, NOT) ПОЗ можно рассматривать как двоичную маску. Способ наложения маски: каждому операнду сопоставляется подмножество документов, затем над множествами выполняются соответствующие операции (пересечение, объединение, дополнение) Ровно 2 значения релевантности: true, false.
Ранжированный поиск (vector space model) ПОД и ПОЗ представляют собой векторы в пространстве терминов значения элементов векторов задаются некоторой функцией наиболее популярна tf*idf Релевантность – близость векторов ПОД и ПОЗ в пространстве терминов (косинус угла между ними)
Вероятностная модель Основана на вычислении вероятности того, что документ релевантен запросу. Делается ряд допущений: документ либо релевантен запросу, либо нет термины распределены по документам коллекции независимо релевантность одного документа не зависит от других В целом качество поиска не лучше, чем у модели vector space
Оценка качества поисковых систем конференции TREC, CLEF, РОМИП важные параметры качества поиска полнота (recall, R) – доля релевантных документов в выборке, по отношению ко всем релевантным документам коллекции точность (precision, P) – доля релевантных документов в выборке, по отношению ко всем документам в выборке. N – число документов в коллекции n – число релевантных документов в коллекции m – число документов в выборке А – число релевантных документов в выборке R = A / n;P = A / m
Как улучшить поиск? Отказ от идеи независимости («ортогональности») терминов: понятия могут быть связаны в семантические сети (представлены как тезаурусы или онтологии) Использование онтологий и тезаурусов расширение запроса было «бегемот» стало «бегемот, гиппопотам» недостатки подхода: «поисковый шум»
Вопросы к лекции Перечислите традиционные подходы к решению задачи DR. Чем критерий полноты отличается от критерия точности? Назовите способы улучшения поиска при помощи тезаурусов и онтологий.