Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемДемид Чуфаров
1 ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин Максим Владимирович Смоляков Алексей Леонидович Черепанов Дмитрий Геннадьевич Санкт-Петербургский Государственный Университет Докладчик Смоляков Алексей Леонидович Научный руководитель Сафонов Владимир Олегович, проф., д.т.н.
2 Цели проекта Легко расширяемый каркас Поддержка разных языков Поддержка разных типов документов (txt, doc, pdf,…) Возможность непрерывной (потоковой) работы Интеграция с Knowledge.Net
3 Алгоритм работы Получение документов и первичный анализ текста Морфологический анализ текстовых блоков Семантический анализ наборов сущностей Анализ построенного графа Сохранение результата
4 Получение документов и первичный анализ Получение документов от поставщиков Разбиение документа на статьи Разбиение каждой статьи на текстовые блоки
5 Морфологический анализ текста Определение языка Создание сущностей из текстовых блоков с помощью словарей
6 Морфологический анализ > Типы сущностей (1) Entity – простая сущность. Сущности этого типа не представляют интереса как результат извлечения знаний, но участвуют в дальнейшем анализе. Они не могут быть добавлены в граф знаний. TrueEntity – «настоящая» сущность. Из сущностей этого вида состоит граф знаний. Эти сущности и связи между ними являются результатом работы программы
7 Морфологический анализ > Типы сущностей (2) > Простые сущности Сущность "разделитель" (separator) Сущность "неизвестная" (unknown). Сущность "меняющаяся" (changeable) Сущность "связь" (relationship)
8 Морфологический анализ > Типы сущностей (3) > «Настоящие» сущности Сущность "класс" (class) Сущность "свойство" (property) Сущность "тип данных" (datatype) Сущность "индивидуал" (individual)
9 Семантический анализ наборов сущностей Создание новых сущностей Создание отношений между сущностями Создание правил Работа осуществляется при помощи «правил построения графа знаний»
10 Семантический анализ > Типы отношений Отношение между свойством иклассом Отношение подкласс Отношение подсвойство Отношение эквивалентность Отношение между двумя классами
11 Семантический анализ > Правила Простые правила (If-Then-Else) Данный этап находится в стадии анализа
12 Семантический анализ > Правила построения графа знаний > Шаблоны обработки набора сущностей Приоритет Шаблон Обработчики
13 Анализ построенного графа Удаление избыточных отношений типа подкласс. Удаление избыточных отношений между свойствами и классами. Другие виды «оптимизации» графа знаний
14 Сохранение результата Сохранение знаний в формат Knowledge.Net. Сохранение знаний в формат OWL. Сохранение знаний в тестовый формат. Сохранение и извлечение знаний из бинарного файла.
15 Демонстрация
16 Текущее состояние проекта Разработан работающий прототип Созданы тестовые шаблоны для анализа сущностей Подключен «Mrd» словарь русского и английского языка
17 Планы Расширение функциональности (добавление новых правил, сущностей, связей, шаблонов, обработчиков, …) Анализ достаточности данной архитектуры для решения задачи Разработка наглядных примеров
18 ? Контактная информация:
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.