ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ ШАБЛОНОВ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин Максим Владимирович Смоляков Алексей Леонидович Черепанов Дмитрий Геннадьевич Санкт-Петербургский Государственный Университет Докладчик Смоляков Алексей Леонидович Научный руководитель Сафонов Владимир Олегович, проф., д.т.н.
Цели проекта Легко расширяемый каркас Поддержка разных языков Интеграция с Knowledge.Net
Алгоритм работы Получение документов и первичный анализ текста Морфологический анализ текстовых блоков Семантический анализ наборов сущностей с применением шаблонов Анализ построенного графа Сохранение результата
Получение документов и первичный анализ текста Получение документов отпоставщиков Разбиение документа на статьи (текст, список, таблица и т.д.) Разбиение текста на блоки … Текстовый формат – это очень гибкий путь для описания различных типов информации… 1) Один 2) Два 3) Три Страна. Столица. Англия. Лондон. Украина. Киев.
Морфологический анализ текста Определение языка Определение морфологической формы слов Создание сущностей Слово(«Знания») «Знания» текущая м. ф.: существительное среднего рода, множественное число, вн. падеж «Знание» основная м. ф.: существительное среднего рода, единственное число, им. падеж РусскийEnglish … MRDXML … Сущность Класс(«Знание»)
Морфологический анализ > Типы сущностей >Простые сущности Сущность "разделитель" (separator). Например «.,;:!?()[]{}…» Сущность "неизвестная" (unknown). Сущность "меняющаяся" (changeable). Например «17-го АВГУСТА» Сущность "связь" (relationship). Например «Земля МЕНЬШЕ Солнца»
Морфологический анализ > Типы сущностей >Настоящие сущности Сущность "класс" (class). Например «знание». Сущность "свойство" (property). Например «полезное». Сущность "тип данных" (datatype). Дата и время (datetime) Целое число (Integer)
Семантический анализ > Цели Создание отношений между сущностями Создание новых сущностей Добавление настоящих сущностей в граф Свойство(«удобный») Класс(«дом») Класс(«строение») Свойство(«кирпичный») Подкласс Свойство-Класс
Семантический анализ > Типы отношений Отношение между свойством и классом Отношение подкласс Отношение подсвойство Отношение эквивалентность Отношение между двумя классами Отношение условное правило
Семантический анализ > Описание шаблона Приоритет Паттерн Обработчики
Семантический анализ > Описание паттернов Логические операнды: «&»(и), «|»(или), «^»(не). Встречаемость: не указано, «+», «*», «?» #E.P, #E.C, #E.S, #E.U, #E.Int, #E.DateTime #M.Noun, #M.Adjective, #M.Verb, … #W.Month, #W.Number, … - держатель слов #H.Class, …- держатель клауз [#E.P #M.Adjective]+ [#E.C #M.Noun]
Семантический анализ > Описание паттернов > Держатель слов Держатель Клауз...
Семантический анализ > Обработчики Заменить (replace) Создать сущность время Создать отношение «свойство-класс» Создать отношение «подкласс» Создать отношение «подсвойство» Создать отношение «условное правило» Создать отношение «класс-класс»
Семантический анализ > Создание отношений Класс(«полезное»)Класс(«знание») + = Свойство(«полезное»)Класс(«знание») Отношение «свойство-класс»
Семантический анализ > Создание новых сущностей Число(«17»)Класс(«ноябрь») +
Анализ построенного графа Удаление избыточных отношений типа подкласс. Удаление избыточных отношений между свойствами и классами. Класс(«автобус») Класс(«транспорт»)Свойство(«быстрое») ПодклассСвойство-Класс Класс(«средство передвижения») Подкласс Свойство-Класс
Сохранение результата Сохранение знаний в формат Knowledge.Net Сохранение в формат OWL Сохранение и извлечение знаний из бинарного файла
Текущее состояние проекта Разработан работающий прототип Созданы тестовые шаблоны для анализа сущностей Подключен «Mrd» словарь русского и английского языка
Планы Поддержка создания «составных» сущностей (состоящих из нескольких слов: «творение рук человека») Расширение функциональности (добавление новых сущностей, отношений, шаблонов, обработчиков, …) Программа генерации шаблонов Разработка наглядных примеров
? Контактная информация: