Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемВиктория Щанникова
1 Information retrieval and the Semantic Web Докладчик: Кийко Александр
2 План доклада Ранжирование в информационном поиске Основные подходы к обработке семантических документов Прототипы Заключение
3 1. Схема работы поисковой машины (ПМ) Коллекция документов ПМ Индексирование Поисковый запрос ПМ Документ 1Документ 2Документ 3Документ R … Функция ранжирования
4 Ранжирование в информационном поиске (абстрактно) Запрос: «Получение свидетельства пенсионного страхования» Документ 1: «… Вчера получил пенсионное свидетельство на работе…» Документ 2: «… Пенсионное страхование будет осуществляться частными компаниями…» Документ 3: «Свидетельство пенсионного страхования… помощь в получении водительских прав…отставка Лужкова»
5 Векторная модель Абажур…Свидетельств…Страхован…Ярмарка 0.0…0.5…0.9…0.0 …0.3…0.6… … … … Мера близости – косинус угла между векторами запроса и документа Терминам назначаются веса
6 Принципы назначения весов терминам Меньший вес присваивается терминам, которые встречаются во многих документах; Больший вес присваивается терминам, которые много раз встречаются в одном документе; Меньший вес присваивается документам, содержащим много различных терминов.
7 Ранжирование в информационном поиске (формально) f d,t – частота встречаемости термина в документе f t – число документов в которых встречается термин
8 2. Технологии Semantic Web Документ Метаданные Документ Семантическая разметка Документ Семантическая разметка Документ Метаданные Google? ?
9 Языки разметки RDF (Resource Description Framework) OWL (Web Ontology Language) DAML+OIL
10 Пример RDF файла Cal Cal Henderson
11 RDF - триплеты SubjectPredicateObject genid:ARP rdf-syntax-ns#type /0.1/Person genid:ARP k "Cal" genid:ARP me "Cal Henderson" genid:ARP rdf-schema#seeAlso m/foaf.xml genid:me ows genid:ARP40722
12 RDF – триплеты (2) Каждый RDF-триплет состоит из subject, predicate, object. Каждый RDF-триплет описывает уникальный факт
13 Компоненты системы Поисковая машина Метаданные в формате RDF Система обработки RDF-файлов (включая построение логического вывода) ?
14 Задачи Кодирование и декодирование RDF Индексирование Ранжирование Использование семантики
15 Использование поисковых систем для поиска по семантическим документам (Semantic web document)
16 Тестовые системы OWLIR Swangler
17 Осуществляет преобразование документа в формате RDF в документ с аннотациями, который может быть индексирован поисковой машиной Предоставляет интерфейс поиска, запросы должны иметь специальный формат
18 Область применения Существует большое количество RDF и OWL документов, то есть большое количество семантических сетей Стандарт HTML не позволяет добавить разметку к тексту Поисковые машины могут на самом деле индексировать такие документы, но делать это некорректно
19 Пример работы RDF - триплет ( > (7 различных комбинаций, в которых отдельные параметры заменяются на значение «любой», результат хэшируется) BE52HVKU5GD5DHRA7JYEKRBFVQ WS4KYRWMO3OR3A6TUAR7IIIDWA 2THFC7GHXLRMISEOZV4VEM7XEQ HO2H3FOPAEM53AQIZ6YVPFQ2XI 6P3WFGOWYL2DJZFTSY4NYUTI7I N656WNTZ36KQ5PX6RFUGVKQ63A IIVQRXOAYRH6GGRZDFXKEEB4PY
20 OWLIR Система поиска по документам, содержащим текст и семантическую разметку (RDF, DAML+OIL или OWL) Работает с разными поисковыми машинами, тестировалась на двух: two- HAIRCUT и WONDIR Создана для фильтрации университетских событий (спортивные матчи, открытые лекции и т.д.)
21 Описание OWLIR: события
22 Система построения логических выводов Используется Java Expert System Shell Пример вывода: ->Событие: фильм Очень страшное кино можно сделать вывод о жанре, используя IMDB ->Жанр: комедия ->Будет сгенерировано несколько терминов и добавлено к документу перед индексированием
23 Схема работы OWLIR
24 Запрос к системе Запрос отображается в документ, содержащий RDF – триплеты и текст 'UMBC Blood Drive!! Office of Student Life launches its annual Blood Drive for the Red Cross on Mon, Nov 20 in the UC Ballroom from 10am - 4pm. triple(charity_001)( _001_place', 'University Center').
25 Интеграция Логические системы дают хорошие результаты, но очень плохо масштабируются Во время операции поиска находятся документы, содержащие термины из запроса Логическая система применяется к небольшому набору данных для поиска подходящего решения
26 Ранжирование Каждый RDF-триплет отображается в 1 терм Релевантность определяется по тем же формулам, что и в классическом поиске Sim(q, d) – косинус угла между векторами запроса и документа, но размерность вектора равна N + M – N – количество терминов в документах – M – количество RDF-триплетов
27 Результаты
28 3.Swangling Как осуществлять преобразование семантических элементов в обычные термы (swangling)? Когда применять логические выводы? – Применять к документу перед индексированием – Применять к запросу во время поиска Какова должны быть глубина вывода?
29 Использование поисковых машин Crowlers Ограничения – Индексируемые символы – Длина запроса
30 Заключение Рассмотрены подходы, с помощью которых семантические документы могут быть индексированы и запрошены из традиционных поисковых машин Рассмотрены демонстрационные системы: OWLIR, Swangler.
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.