Information retrieval and the Semantic Web Докладчик: Кийко Александр
План доклада Ранжирование в информационном поиске Основные подходы к обработке семантических документов Прототипы Заключение
1. Схема работы поисковой машины (ПМ) Коллекция документов ПМ Индексирование Поисковый запрос ПМ Документ 1Документ 2Документ 3Документ R … Функция ранжирования
Ранжирование в информационном поиске (абстрактно) Запрос: «Получение свидетельства пенсионного страхования» Документ 1: «… Вчера получил пенсионное свидетельство на работе…» Документ 2: «… Пенсионное страхование будет осуществляться частными компаниями…» Документ 3: «Свидетельство пенсионного страхования… помощь в получении водительских прав…отставка Лужкова»
Векторная модель Абажур…Свидетельств…Страхован…Ярмарка 0.0…0.5…0.9…0.0 …0.3…0.6… … … … Мера близости – косинус угла между векторами запроса и документа Терминам назначаются веса
Принципы назначения весов терминам Меньший вес присваивается терминам, которые встречаются во многих документах; Больший вес присваивается терминам, которые много раз встречаются в одном документе; Меньший вес присваивается документам, содержащим много различных терминов.
Ранжирование в информационном поиске (формально) f d,t – частота встречаемости термина в документе f t – число документов в которых встречается термин
2. Технологии Semantic Web Документ Метаданные Документ Семантическая разметка Документ Семантическая разметка Документ Метаданные Google? ?
Языки разметки RDF (Resource Description Framework) OWL (Web Ontology Language) DAML+OIL
Пример RDF файла Cal Cal Henderson
RDF - триплеты SubjectPredicateObject genid:ARP rdf-syntax-ns#type /0.1/Person genid:ARP k "Cal" genid:ARP me "Cal Henderson" genid:ARP rdf-schema#seeAlso m/foaf.xml genid:me ows genid:ARP40722
RDF – триплеты (2) Каждый RDF-триплет состоит из subject, predicate, object. Каждый RDF-триплет описывает уникальный факт
Компоненты системы Поисковая машина Метаданные в формате RDF Система обработки RDF-файлов (включая построение логического вывода) ?
Задачи Кодирование и декодирование RDF Индексирование Ранжирование Использование семантики
Использование поисковых систем для поиска по семантическим документам (Semantic web document)
Тестовые системы OWLIR Swangler
Осуществляет преобразование документа в формате RDF в документ с аннотациями, который может быть индексирован поисковой машиной Предоставляет интерфейс поиска, запросы должны иметь специальный формат
Область применения Существует большое количество RDF и OWL документов, то есть большое количество семантических сетей Стандарт HTML не позволяет добавить разметку к тексту Поисковые машины могут на самом деле индексировать такие документы, но делать это некорректно
Пример работы RDF - триплет ( > (7 различных комбинаций, в которых отдельные параметры заменяются на значение «любой», результат хэшируется) BE52HVKU5GD5DHRA7JYEKRBFVQ WS4KYRWMO3OR3A6TUAR7IIIDWA 2THFC7GHXLRMISEOZV4VEM7XEQ HO2H3FOPAEM53AQIZ6YVPFQ2XI 6P3WFGOWYL2DJZFTSY4NYUTI7I N656WNTZ36KQ5PX6RFUGVKQ63A IIVQRXOAYRH6GGRZDFXKEEB4PY
OWLIR Система поиска по документам, содержащим текст и семантическую разметку (RDF, DAML+OIL или OWL) Работает с разными поисковыми машинами, тестировалась на двух: two- HAIRCUT и WONDIR Создана для фильтрации университетских событий (спортивные матчи, открытые лекции и т.д.)
Описание OWLIR: события
Система построения логических выводов Используется Java Expert System Shell Пример вывода: ->Событие: фильм Очень страшное кино можно сделать вывод о жанре, используя IMDB ->Жанр: комедия ->Будет сгенерировано несколько терминов и добавлено к документу перед индексированием
Схема работы OWLIR
Запрос к системе Запрос отображается в документ, содержащий RDF – триплеты и текст 'UMBC Blood Drive!! Office of Student Life launches its annual Blood Drive for the Red Cross on Mon, Nov 20 in the UC Ballroom from 10am - 4pm. triple(charity_001)( _001_place', 'University Center').
Интеграция Логические системы дают хорошие результаты, но очень плохо масштабируются Во время операции поиска находятся документы, содержащие термины из запроса Логическая система применяется к небольшому набору данных для поиска подходящего решения
Ранжирование Каждый RDF-триплет отображается в 1 терм Релевантность определяется по тем же формулам, что и в классическом поиске Sim(q, d) – косинус угла между векторами запроса и документа, но размерность вектора равна N + M – N – количество терминов в документах – M – количество RDF-триплетов
Результаты
3.Swangling Как осуществлять преобразование семантических элементов в обычные термы (swangling)? Когда применять логические выводы? – Применять к документу перед индексированием – Применять к запросу во время поиска Какова должны быть глубина вывода?
Использование поисковых машин Crowlers Ограничения – Индексируемые символы – Длина запроса
Заключение Рассмотрены подходы, с помощью которых семантические документы могут быть индексированы и запрошены из традиционных поисковых машин Рассмотрены демонстрационные системы: OWLIR, Swangler.