Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 12 лет назад пользователемrcdl2009.krc.karelia.ru
1 Поисковая система на основе семантики Пермский Государственный Университет Рабчевский Евгений
2 Кафедра компьютерных систем и телекоммуникаций физического факультета ПГУ Специальность: мат моделирование, числ. методы и комплексы программ Научный руководитель: д-р ф.м.н., профессор, Михаил Андреевич Марценюк
3 SEUS: search engine using semantics Поисковая машина с использованием семантики Поиск по русско-язычным коллекциям данных Модифицированная векторная модель На базе библиотеки Lucene и анализатора Dictum
4 План доклада Постановка задачи, идея работы поисковой машины SEUS Работа SEUS на практике SEUS на РОМИП Результаты
5 Постановка задачи Пусть коллекция документов состоит из двух документов: D1. Стоимость полетов в космос превышает стоимость жд билета в Москву. D2. Пункт продажи жд билетов в Москве находится здесь. А пользователь задает следующий запрос. Q: купить жд билет в Москве.
6 Постановка задачи Отранжировать документы на основе семантики документов и вычислений на базе векторной модели
7 Векторная модель ранжирования Текст представляется набором термов (слов текста, приведенных к нормальной форме) Запрос и документы коллекции представляются векторами, координатами которых являются относительные частоты соответствующих термов Ранжирование проводится на основании поиска наименьшего угла между вектором запроса и векторами документов коллекции
8 Триплетное представление данных RDF модель как основа для представления данных RDF триплет – тройка RDF ресурсов: субъект, предикат и объект
9 Модель поиска SEUS Текст представляется набором триплетов Запрос и документы коллекции представляются векторами, координатами которых являются коэффициенты доверия соответствующих триплетов Ранжирование проводится на основании поиска наименьшего угла между вектором запроса и векторами документов коллекции
10 Представление текста в виде RDF графа Текст каждого предложения представляется графом, полученным с помощью полного синтаксического анализа В результирующий граф включаются все подграфы главного графа
11 Триплетное представление документа 1 1Стоимость полетов в космос1 превышать2 стоимость жд билета в Москву3 2полеты в космос4 стоимость (стоить)5 величина стоимости6 3тот кто способен летать7 полететь в8 Космос9 4полет10 в (направление движения)11 космос9 5жд билет в Москву12 стоимость (стоить)5 величина стоимости6 6жд билет13 в (направление движения)11 Москва14
12 Триплетное представление документа 2 7Пункт продажи жд билетов в Москве15 место расположения16 Здесь17 8Пункт продажи жд билетов18 В (место расположения)16 Москва14 9Продажа жд билетов19 в (место проведения)20 Москва14 10Продажа жд билетов19 Имеет атрибут21 Пункт22 11тот кто продает23 Продажа - продавать24 ЖД билет13 12Продажа24 в (место проведения)20 Москва14
13 Триплетное представление запроса 13покупка жд билетов25 в (место проведения)20 Москва14 14Тот кто покупает26 покупка - покупать27 Жд билеты13 15покупка27 в (место проведения)20 Москва14
14 Лингвистическая онтология Покупка и продажа - инверсные понятия 16тот кто покупает26 покупка27 тот кто продает23 17тот кто продает23 продажа24 тот кто покупает26
15 Триплетное представление документов, запроса и онтологии D D Q O
16 Логический вывод 1 Триплет разложили на триплеты Значит первый (при желании) можно не рассматривать
17 Логический вывод 2 Используя инверсные свойства Покупка и Продажа, из триплетов запроса Получим триплеты
18 Вывод Все триплеты отражающие смысл запроса полностью содержатся в RDF графе (наборе триплетов), отражающем смысл документа D2. Что не выполняется для документа D1. Значит документ D2 более релевантен запросу Q. Для точной оценки можно подсчитать углы между соответствующими векторами
19 Модель SEUS на практике Триплетное представление текста Коэффициенты доверия триплетов Логический вывод
20 Триплетное представление текста RDF данные извлекаются при помощи: GRDDL извлечения из микроформатов (например RDF/A) Извлекаются из текста при помощи лексико- синтаксических шаблонов
21 Лексико-синтаксические шаблоны Позволяют извлекать семантику текста на основе особенностей языка Тело шаблона состоит из входной и выходной схем. Входная схема – характерное описание части предложения, по которому в сочетании с входным текстом, можно однозначно построить выходную семантическую модель, соответствующую анализируемому тексту. Выходная семантическая модель представляется набором RDF триплетов, состоящих из субъекта, объекта и предиката.
22 Пример шаблона Студент - это человек, который учится в университете
23 LSPL (ПГУ) XML основанный язык формализации шаблонов LSPL (не путать с LSPL Большаковой) Элементы входной схемы: литерал, словоформа, часть речи, синтаксическая группа, знаки препинания Выходная схема – набор триплетов со с ссылками на элементы входной схемы
24 Полный текст шаблона noun - это noun, который verb
25 Интерпретатор языка LSPL Для обеспечения семантики языка LSPL использовался синтаксический анализатор DictaScope. Java библиотека PatternLib: Взаимодействие с синтаксическим анализатором Обработка шаблонов и применение их тексту Работа с RDF данными через RDF store библиотеки Jena Визуализация полученных RDF графов с помощью библиотеки GraphViz Взаимодействие с клиентскими программами
26 Online анализатор vlet/ vlet/ Вводится текст Выбираются шаблоны После анализа выводятся триплеты в декларативном и графическом виде
27 Триплетное представление документа 1 1Стоимость полетов в космос1 превышать2 стоимость жд билета в Москву3 2полеты в космос4 стоимость (стоить)5определяется только величина стоимости6субъект и предикат 3тот кто способен летать7 полететь в8 Космос9 4полет10 в (направление движения)11 космос9 5жд билет в Москву12 стоимость (стоить)5 величина стоимости6 6жд билет13 в (направление движения)11 Москва14
28 Триплетное представление документа 2 7Пункт продажи жд билетов в Москве15 место расположения16 Здесь17 8Пункт продажи жд билетов18 В (место расположения)16 Москва14 9Продажа жд билетов19 в (место проведения)20 Москва14 10Продажа жд билетов19 Имеет атрибут21 Пункт22 11тот кто продает23 Продажа - продавать24 ЖД билет13 12Продажа24 в (место проведения)20 Москва14
29 Семантический словарь Для эффективного триплетного представления текста необходим семантический словарь Статьи словаря можно оформлять в виде таких же лексико-синтаксических шаблонов
30 Коэффициенты доверия триплетов Для триплетов, полученных с помощью шаблонов, суть вероятности валидной работы шаблона Для этого разработан валидатор шаблонов
31 Валидатор шаблонов 1/3 Позволяет оценивать работу шаблонов на коллекции документов Сейчас залиты коллекции РОМИП2009 (legal, by.web и km.ru)
32 Валидатор шаблонов 2/3 Пользователь выбирает шаблон из базы имеющихся шаблонов и может Пользователь применяет готовый шаблон к коллекции документов, и система выдает лексикализации данного шаблона Результат представляется в виде таблицы из лексикализации шаблона и соответствующего RDF графа
33 Валидатор шаблонов 3/3 Планируется реализовать интерфейс для отметки качества работы шаблонов пользователем и механизм расчета коэффициентов доверия шаблонов
34 Коэффициенты доверия триплетов Для триплетов, полученных с помощью логического вывода, специализированного под информационный поиск, суть вероятности валидной работы правила логического вывода Возможны случаи когда значение коэффициенты доверия триплета существенно зависят от контекста (наличия других триплетов) – сейчас это не предусмотрено
35 Логический вывод Стандартный - при помощи стандартных машин вывода (например машина вывода RDFS или OWL в библиотеке Jena) Адаптированный под информационный поиск с учетом лингвистики (нужна лингвистическая онтология)
36 Работа с RDF данными Полученные триплеты хранятся в RDF store библиотеки Jena Jena хранит RDF графы в виде моделей Физически модель может храниться в СУБД, в XML файлах на диске и т.д. В нашем случае – СУБД MySQL
37 Семантический индекс 1/2 В БД Jena моделей RDF графов добавлены поля: Идентификатора триплета Ссылка на документ источник Вместо термов коллекции в индексе хранятся идентификаторы триплетов
38 Семантический индекс 2/2 Модификация Lucene: Изменениям были подвергнуты методы класса Similarity библиотеки Lucene: метод обработки отдельного терма метод обработки коллекции термов.
39 SEUS на РОМИП GRDDL – в коллекциях РОМИП отсутствуют микроформаты Лексико-синтаксические шаблоны на данный момент дают очень плохие результаты Адаптированный под информационный поиск не разработан
40 SEUS в прогонах семинара Поиск по коллекции нормативно правовых документов и веб коллекции Взята стандартная библиотека Lucene Русскоязычный стеммер Snowball из поставки Lucene
41 Результаты SEUS
42 Результаты 1/3 LSPL - создан язык для формализации средств, позволяющих представлять текст в виде RDF графов. Интерпретатор LSPL - создан инструмент для применения языка LSPL Валидатор шаблонов – создан инструмент для работы по наполнению базы шаблонов или семантического словаря (для лингвиста)
43 Результаты 2/3 Модификация Lucene – создана модель для поиска документов представленных в виде RDF графов. Модель реализована. SEUS на РОМИП2009 1/2 – получена оценка «эталонной модели поиска» - оценка стандартной поставки Lucene SEUS на РОМИП2009 2/2 – получены коллекции данных, запросы и таблицы релевантности, с помощью которых впоследствии можно будет оценить качество работы семантической поисковой машины *
44 Результаты 3/3 Семантический словарь – не создан Созданных шаблонов – очень мало Логический вывод для информационного поиска - не реализован Лингвистическая онтология – не создана Предметная область коллекций документов – не выбрана
45 Спасибо за внимание! Mail me:
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.