ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав Научный руководитель : к. т. н., доцент кафедры ПМиК доцент Насадкина О. Ю.
В связи с увеличением количества изданий в Электронной библиотеке Республики Карелия (более 1500 электронных публикаций), возникли следующие проблемы, связанные с эффективностью поиска, реализованного на сайте: Проблематика Занимает длительное время; Нет ранжирования в порядке релевантности; Результаты могут содержать ошибки; Существуют запросы на которых поиск не работает.
Цель: Исследование существующих моделей информационного поиска ресурсов, которые могут быть использованы для реализации поиска изданий в ЭБ РК Задачи: Исследовать существующие модели поиска, их плюсы и минусы Выбрать наиболее подходящую для ЭБ РК модель поиска При необходимости доработать и адаптировать выбранную модель
Модели поиска теоретико - множественные ( булевская, нечетких множеств, расширенная булевская ) алгебраические ( векторная, обобщенная векторная, латентно - семантическая, нейросетевая ) вероятностные
Булевская и расширенная булевская модель простая, легко понимаемая структура запроса ; простота реализации ; недостаточно возможностей для описания сложных запросов ; результатов запроса либо слишком много, либо слишком мало ; ранжирование результатов в большинстве случаев невозможно.
Вероятностная модель Можно отметить следующие преимущества данной модели : хорошее теоретическое обоснование при имеющейся информации дают наилучшие предсказания релевантности могут быть реализованы аналогично векторным моделям В то же время есть ряд недостатков : требуется информация о релевантности или ее приближенные оценки оптимальные результаты получаются только в процессе обучения на основе информации о релевантности
Векторная модель Документы и запросы представляются в виде векторов в N-мерном евклидовом пространстве Компоненты вектора соответствуют N терминам, образующим пространство.
Векторная модель достоинства : учет весов повышает эффективность поиска позволяет оценить степень соответствия документа запросу косинусная метрика удобна при ранжировании имеет преимущество перед другими моделями ввиду простоты и изящества недостатки : нет достаточного теоретического обоснования для построения пространства терминов поскольку термины не являются независимыми друг от друга, то они не могут быть полностью ортогональными
Реализация векторной модели в ЭБ РК После изучения различных моделей, с учетом их достоинств и недостатков, для реализации в ЭБ РК была выбрана векторная модель. Координаты для документа – TF*IDF Мерой близости документа и запроса служит косинусная метрика : Все метаданные были проиндексированы, сохранены в таблицы БД Oracle. Вычислены координаты. Реализован интерфейс поиска в соответствии с моделью
Реализация
Заключение Таким образом, в процессе работы выполнено следующее : Исследованы основные модели информационного поиска. Для каждой модели определены основные преимущества и недостатки. Обозначены общие подходы к практической реализации моделей информационного поиска. Реализован поиск для ЭБ РК на основе векторной модели.
Спасибо за внимание!!!