Information retrieval and the Semantic Web Докладчик: Кийко Александр.

Презентация:



Advertisements
Похожие презентации
XML-ТЕХНОЛОГИИ Лекция 5 Семантический Веб: микроформаты RDF, OWL и FOAF.
Advertisements

Современные направления интеллектуализации глобальной сети Интернет Сорокин Арсений Николаевич Вологда, 2008.
Информационный поиск. План Векторная модель Ранжирование документов на основе весов, метаданных Определение весов на основе машинного обучения.
3.1. Назначение онтологий. Информационный поиск..
1 Концепция Web 3.0 Web как семантическая паутина : традиционные информационные ресурсы + метаданные, описывающие семантические связи в информационных.
Реляционная база данных электронной библиотеки в Semantic Web. Представление метаданных в виде связанных данных Новицкий А.В. Институт программных систем.
1 Средства автоматической интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.
БАЗЫ ДАННЫХ ЛЕКЦИЯ 14. тема: XML-ТЕХНОЛОГИИ В БАЗАХ ДАННЫХ.
Архитектура метаданных WWW. Язык RDF Архитектура метаданных WWW RDF.
Исследование применения онтологических моделей для семантического поиска Цель: определение основных способов и средств построения онтологических моделей.
Лекция 3. Тема «СТРУКТУРА HTML-ДОКУМЕНТА». 1.История развития HTML 2.Принципы гипертекстовой разметки 3.Группы тэгов 4.Структура HTML-документа 5.Элементы.
Инструменты построения информационных систем на основе Wiki-технологии и онтологий предметных областей Шестаков Владимир Научный руководитель: Загорулько.
Введение в Информационный Поиск Денис Турдаков ИСП РАН / ВМиК МГУ.
От сложного – к простому. От непонятного – к понятному.
Использование онтологий при анализе предметных областей и проектировании научных информационно-вычислительных систем Фазлиев А.З.
7.1. Редакторы онтологий Классификация редакторов Protégé.
© ElVisti Лекция 13 Основные сведения о концепции Семантического Web Дмитрий Владимирович ЛАНДЭ МЕЖДУНАРОДНЫЙ СОЛОМОНОВ УНИВЕРСИТЕТ.
Поисковая система на основе семантики Пермский Государственный Университет Рабчевский Евгений.
Практические применения семантических вычислений. Поиск по графу, контролируемый естественный язык Сергей Горшков, «Бизнес Семантика»
3.2. Назначение онтологий. Интеграция разнородных источников данных. SemanticWeb. Интеграция разнородных источников данных Онтологии как часть Semantic.
Транксрипт:

Information retrieval and the Semantic Web Докладчик: Кийко Александр

План доклада Ранжирование в информационном поиске Основные подходы к обработке семантических документов Прототипы Заключение

1. Схема работы поисковой машины (ПМ) Коллекция документов ПМ Индексирование Поисковый запрос ПМ Документ 1Документ 2Документ 3Документ R … Функция ранжирования

Ранжирование в информационном поиске (абстрактно) Запрос: «Получение свидетельства пенсионного страхования» Документ 1: «… Вчера получил пенсионное свидетельство на работе…» Документ 2: «… Пенсионное страхование будет осуществляться частными компаниями…» Документ 3: «Свидетельство пенсионного страхования… помощь в получении водительских прав…отставка Лужкова»

Векторная модель Абажур…Свидетельств…Страхован…Ярмарка 0.0…0.5…0.9…0.0 …0.3…0.6… … … … Мера близости – косинус угла между векторами запроса и документа Терминам назначаются веса

Принципы назначения весов терминам Меньший вес присваивается терминам, которые встречаются во многих документах; Больший вес присваивается терминам, которые много раз встречаются в одном документе; Меньший вес присваивается документам, содержащим много различных терминов.

Ранжирование в информационном поиске (формально) f d,t – частота встречаемости термина в документе f t – число документов в которых встречается термин

2. Технологии Semantic Web Документ Метаданные Документ Семантическая разметка Документ Семантическая разметка Документ Метаданные Google? ?

Языки разметки RDF (Resource Description Framework) OWL (Web Ontology Language) DAML+OIL

Пример RDF файла Cal Cal Henderson

RDF - триплеты SubjectPredicateObject genid:ARP rdf-syntax-ns#type /0.1/Person genid:ARP k "Cal" genid:ARP me "Cal Henderson" genid:ARP rdf-schema#seeAlso m/foaf.xml genid:me ows genid:ARP40722

RDF – триплеты (2) Каждый RDF-триплет состоит из subject, predicate, object. Каждый RDF-триплет описывает уникальный факт

Компоненты системы Поисковая машина Метаданные в формате RDF Система обработки RDF-файлов (включая построение логического вывода) ?

Задачи Кодирование и декодирование RDF Индексирование Ранжирование Использование семантики

Использование поисковых систем для поиска по семантическим документам (Semantic web document)

Тестовые системы OWLIR Swangler

Осуществляет преобразование документа в формате RDF в документ с аннотациями, который может быть индексирован поисковой машиной Предоставляет интерфейс поиска, запросы должны иметь специальный формат

Область применения Существует большое количество RDF и OWL документов, то есть большое количество семантических сетей Стандарт HTML не позволяет добавить разметку к тексту Поисковые машины могут на самом деле индексировать такие документы, но делать это некорректно

Пример работы RDF - триплет ( > (7 различных комбинаций, в которых отдельные параметры заменяются на значение «любой», результат хэшируется) BE52HVKU5GD5DHRA7JYEKRBFVQ WS4KYRWMO3OR3A6TUAR7IIIDWA 2THFC7GHXLRMISEOZV4VEM7XEQ HO2H3FOPAEM53AQIZ6YVPFQ2XI 6P3WFGOWYL2DJZFTSY4NYUTI7I N656WNTZ36KQ5PX6RFUGVKQ63A IIVQRXOAYRH6GGRZDFXKEEB4PY

OWLIR Система поиска по документам, содержащим текст и семантическую разметку (RDF, DAML+OIL или OWL) Работает с разными поисковыми машинами, тестировалась на двух: two- HAIRCUT и WONDIR Создана для фильтрации университетских событий (спортивные матчи, открытые лекции и т.д.)

Описание OWLIR: события

Система построения логических выводов Используется Java Expert System Shell Пример вывода: ->Событие: фильм Очень страшное кино можно сделать вывод о жанре, используя IMDB ->Жанр: комедия ->Будет сгенерировано несколько терминов и добавлено к документу перед индексированием

Схема работы OWLIR

Запрос к системе Запрос отображается в документ, содержащий RDF – триплеты и текст 'UMBC Blood Drive!! Office of Student Life launches its annual Blood Drive for the Red Cross on Mon, Nov 20 in the UC Ballroom from 10am - 4pm. triple(charity_001)( _001_place', 'University Center').

Интеграция Логические системы дают хорошие результаты, но очень плохо масштабируются Во время операции поиска находятся документы, содержащие термины из запроса Логическая система применяется к небольшому набору данных для поиска подходящего решения

Ранжирование Каждый RDF-триплет отображается в 1 терм Релевантность определяется по тем же формулам, что и в классическом поиске Sim(q, d) – косинус угла между векторами запроса и документа, но размерность вектора равна N + M – N – количество терминов в документах – M – количество RDF-триплетов

Результаты

3.Swangling Как осуществлять преобразование семантических элементов в обычные термы (swangling)? Когда применять логические выводы? – Применять к документу перед индексированием – Применять к запросу во время поиска Какова должны быть глубина вывода?

Использование поисковых машин Crowlers Ограничения – Индексируемые символы – Длина запроса

Заключение Рассмотрены подходы, с помощью которых семантические документы могут быть индексированы и запрошены из традиционных поисковых машин Рассмотрены демонстрационные системы: OWLIR, Swangler.