3.1. Назначение онтологий. Информационный поиск..

Презентация:



Advertisements
Похожие презентации
Информационный поиск в Интернете Павел Морозов
Advertisements

© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах.
Анализ данных Введение в информационный поиск. План оставшихся лекций 1.Введение в информационный поиск 2.Нормализация и извлечение информации из текста.
© ElVisti Лекция 2 Общие сведения об информационно-поисковых системах Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Linguistic tools Лекция 5. ПОИСКОВЫЕ СИСТЕМЫ: предыстория Библейские индексы и конкордансы 1247 – Hugo de St. Caro – было задействовано 500 монахов для.
Информационный поиск Лидия Михайловна Пивоварова Системы понимания текста.
Информационный поиск. План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения.
ИНТЕГРАЦИЯ ЛИНГВИСТИЧЕСКИХ И СТАТИСТИЧЕСКИХ МЕТОДОВ ПОИСКА В ПОИСКОВОЙ МАШИНЕ «EXACTUS» к.т.н. Тихомиров Илья Александрович 14-я международная конференция.
Конструирование информационных систем на основе интероперабельных сред информационных ресурсов.
Лекция 21 Лекция 21 Логическая и физическая схема организации пространства в документальных БД. Примеры моделей хранения и организации доступа.
Введение в Информационный Поиск Денис Турдаков ИСП РАН / ВМиК МГУ.
© Московский центр Интернет-образования. Белкин П.Ю., Общие вопросы организации поиска информации в Internet.
Воспроизведение лучших результатов ad hoc поиска семинара РОМИП Romip-base project Красильников Павел, Механико-математический факультет МГУ им. Ломоносова.
Поиск информации – одна из самых востребованных на практике задач, которую приходится решать любому пользователю Интернета. Существуют три основных способа.
Поисковая оптимизация (SEO) – введение Поисковые машины Сервисы статистики, оценка трафика Обзор основных инструментов.
М.И. Скорик Презентация на тему: «Виды документальных информационных систем»
Теория экономических информационных систем Семантические модели данных.
ИССЛЕДОВАНИЕ МОДЕЛЕЙ ИНФОРМАЦИОННОГО ПОИСКА РЕСУРСОВ В ЭЛЕКТРОННОЙ БИБЛИОТЕКЕ РЕСПУБЛИКИ КАРЕЛИЯ Выполнил : студент 3 курса, гр , Банкет Вячеслав.
Учебная дисциплина «Базы данных» для студентов специальности Бизнес-информатика (бакалавриат) ЛЕКЦИЯ 3 ВВЕДЕНИЕ В РЕЛЯЦИОННУЮ МОДЕЛЬ ДАННЫХ Вопрос.
Множини. 2 Множества Множество это структурированный тип данных, представляющий собой набор взаимосвязанных по какому- либо признаку объектов, которые.
Транксрипт:

3.1. Назначение онтологий. Информационный поиск.

Информационный поиск Поиск информации (Information Retrieval) и задача извлечения документов (Document Retrieval)

Постановка задачи DR Дано: 1) Коллекция документов на естественном языке - ЕЯ (одном или нескольких); 2) Запрос на ЕЯ. Требуется: Выбрать из коллекции документы релевантные запросу и только их. И, возможно, упорядочить выборку по релевантности.

Возникли вопросы? Откуда взялись документы? Чем отличается естественный язык от искусственного? Кто и как формулирует запрос? Что такое релевантность? Ответы – далее...

Основные понятия (1) Коллекция документов множество текстов, описывающих некоторую область знаний и собранных вместе (коллекция текстов по гидродинамике) локальные и глобальные коллекции экстремальный случай – коллекция документов, доступных по Internet (область знаний?)

Основные понятия (2) Естественный язык используется для общения людей многозначный был и останется основным языком представления знаний человека Искусственный язык в отличие от ЕЯ, сконструирован целенаправленно как правило, не многозначен

Основные понятия (3) Информационная потребность внутреннее состояние психики человека причина возникновения: несоответствие между тем, что есть и тем, что хотелось бы иметь (в плане информации) выражается на ЕЯ словами «Хотелось бы знать...» реализуется в виде поискового запроса по коллекции документов

Основные понятия (4) Запрос к поисковой системе может быть задан на ЕЯ, но чаще задается на некотором ИЯ. обычный вопрос: «Как проехать в аэропорт?» запрос к Яндекс, Google: «аэропорт проезд». Поисковик не способен понимать ЕЯ. Он способен обрабатывать только поисковые образы – внутренние представления запросов (ПОЗ) и документов (ПОД) на информационно-поисковом языке.

Основные понятия (5) Релевантность мера близости документа и запроса может определяться человеком (экспертом), но обычно вычисляется поисковой машиной релевантные запросу документы формируют релевантную выборку но удовлетворяют ли они информационную потребность пользователя? К сожалению, удовлетворение информационной потребности это – не задача, а проблема (трудно формализовать понятие «инф. потребность»)

Существующие подходы к решению задачи DR Обработка документов и запросов Индексирование по ключевым словам Двоичный поиск Ранжированный поиск (vector-space model) Вероятностная модель

Индексирование по ключевым словам Информационный поиск начинается не с написания запроса, а с индексирования документов. Каждому документу сопоставляется ПОД. Пример: документ – книга, ПОД – алфавитный указатель в конце книги.

Инвертированный словарь каждая запись содержит: термин, количество документов коллекции, в которых термин появился, частоту появления в документах коллекции, ссылку на структуру, описывающую появление термина в каждом из документов.

Двоичный поиск ПОЗ – формула. Термины и логические связки (AND, OR, NOT) ПОЗ можно рассматривать как двоичную маску. Способ наложения маски: каждому операнду сопоставляется подмножество документов, затем над множествами выполняются соответствующие операции (пересечение, объединение, дополнение) Ровно 2 значения релевантности: true, false.

Ранжированный поиск (vector space model) ПОД и ПОЗ представляют собой векторы в пространстве терминов значения элементов векторов задаются некоторой функцией наиболее популярна tf*idf Релевантность – близость векторов ПОД и ПОЗ в пространстве терминов (косинус угла между ними)

Вероятностная модель Основана на вычислении вероятности того, что документ релевантен запросу. Делается ряд допущений: документ либо релевантен запросу, либо нет термины распределены по документам коллекции независимо релевантность одного документа не зависит от других В целом качество поиска не лучше, чем у модели vector space

Оценка качества поисковых систем конференции TREC, CLEF, РОМИП важные параметры качества поиска полнота (recall, R) – доля релевантных документов в выборке, по отношению ко всем релевантным документам коллекции точность (precision, P) – доля релевантных документов в выборке, по отношению ко всем документам в выборке. N – число документов в коллекции n – число релевантных документов в коллекции m – число документов в выборке А – число релевантных документов в выборке R = A / n;P = A / m

Как улучшить поиск? Отказ от идеи независимости («ортогональности») терминов: понятия могут быть связаны в семантические сети (представлены как тезаурусы или онтологии) Использование онтологий и тезаурусов расширение запроса было «бегемот» стало «бегемот, гиппопотам» недостатки подхода: «поисковый шум»

Вопросы к лекции Перечислите традиционные подходы к решению задачи DR. Чем критерий полноты отличается от критерия точности? Назовите способы улучшения поиска при помощи тезаурусов и онтологий.