ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин Максим Владимирович Смоляков Алексей Леонидович Черепанов Дмитрий Геннадьевич Санкт-Петербургский Государственный Университет Докладчик Смоляков Алексей Леонидович Научный руководитель Сафонов Владимир Олегович, проф., д.т.н.
Цели проекта Легко расширяемый каркас Поддержка разных языков Поддержка разных типов документов (txt, doc, pdf,…) Возможность непрерывной (потоковой) работы Интеграция с Knowledge.Net
Алгоритм работы Получение документов и первичный анализ текста Морфологический анализ текстовых блоков Семантический анализ наборов сущностей Анализ построенного графа Сохранение результата
Получение документов и первичный анализ Получение документов от поставщиков Разбиение документа на статьи Разбиение каждой статьи на текстовые блоки
Морфологический анализ текста Определение языка Создание сущностей из текстовых блоков с помощью словарей
Морфологический анализ > Типы сущностей (1) Entity – простая сущность. Сущности этого типа не представляют интереса как результат извлечения знаний, но участвуют в дальнейшем анализе. Они не могут быть добавлены в граф знаний. TrueEntity – «настоящая» сущность. Из сущностей этого вида состоит граф знаний. Эти сущности и связи между ними являются результатом работы программы
Морфологический анализ > Типы сущностей (2) > Простые сущности Сущность "разделитель" (separator) Сущность "неизвестная" (unknown). Сущность "меняющаяся" (changeable) Сущность "связь" (relationship)
Морфологический анализ > Типы сущностей (3) > «Настоящие» сущности Сущность "класс" (class) Сущность "свойство" (property) Сущность "тип данных" (datatype) Сущность "индивидуал" (individual)
Семантический анализ наборов сущностей Создание новых сущностей Создание отношений между сущностями Создание правил Работа осуществляется при помощи «правил построения графа знаний»
Семантический анализ > Типы отношений Отношение между свойством иклассом Отношение подкласс Отношение подсвойство Отношение эквивалентность Отношение между двумя классами
Семантический анализ > Правила Простые правила (If-Then-Else) Данный этап находится в стадии анализа
Семантический анализ > Правила построения графа знаний > Шаблоны обработки набора сущностей Приоритет Шаблон Обработчики
Анализ построенного графа Удаление избыточных отношений типа подкласс. Удаление избыточных отношений между свойствами и классами. Другие виды «оптимизации» графа знаний
Сохранение результата Сохранение знаний в формат Knowledge.Net. Сохранение знаний в формат OWL. Сохранение знаний в тестовый формат. Сохранение и извлечение знаний из бинарного файла.
Демонстрация
Текущее состояние проекта Разработан работающий прототип Созданы тестовые шаблоны для анализа сущностей Подключен «Mrd» словарь русского и английского языка
Планы Расширение функциональности (добавление новых правил, сущностей, связей, шаблонов, обработчиков, …) Анализ достаточности данной архитектуры для решения задачи Разработка наглядных примеров
? Контактная информация: