ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин Максим Владимирович.

Презентация:



Advertisements
Похожие презентации
ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ ШАБЛОНОВ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин.
Advertisements

ИНТЕГРАЦИЯ МЕТОДОВ ИНЖЕНЕРИИ ЗНАНИЙ И ИНЖЕНЕРИИ ПРОГРАММ СИСТЕМА УПРАВЛЕНИЯ ЗНАНИЯМИ KNOWLEDGE.NET Участники проекта Новиков Антон Владимирович Сигалин.
Абрамович Максим, 545 группы Научный руководитель: Тузов Виталий Алексеевич Морфологический анализ русского языка.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
Редактор знаний Knowledge.NET Санкт-Петербургский Государственный Университет Докладчик Черепанов Дмитрий Научный руководитель Сафонов Владимир Олегович,
Расширение технологии UniTESK средствами генерации структурных тестов Дмитрий Воробьев
Проверка эквивалентности срединной и линейной осей многоугольника Дипломная работа студента 545 группы Подколзина Максима Валериевича Санкт-Петербургский.
Компонента KIFConverter проекта KNOWLEDGE.NET Санкт-Петербургский Государственный Университет Докладчик Сигалин Максим Владимирович Научный руководитель.
Ижевский Государственный Технический Университет Факультет информатики и вычислительной техники Кафедра АСОИУ.
Компонента KIF Converter проекта KNOWLEDGE.NET Санкт-Петербургский Государственный Университет Докладчик Сигалин Максим Владимирович Научный руководитель.
Декомпозиция сложных дискретных систем, формализованных в виде вероятностных МП-автоматов. квалификационная работа Выполнил: Шляпенко Д.А., гр. ИУ7-83.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
ELSA-сервисы для гибкого создания электронной библиотеки Соколова Наталия Викторовна Директор Кедрин Андрей Владимирович Ведущий программист Институт корпоративных.
ABBYY FlexiCapture 9.0 – новый продукт для извлечения больших объемов данных Протасенко Богдан.
Программная инженерия направление магистратура Санкт-Петербургский государственный университет μ.
ПРОГРАММНАЯ СИСТЕМА ИЗВЛЕЧЕНИЯ ИНФОРМАЦИИ ИЗ ТЕКСТОВ (ПС INEX) Исследовательский центр искусственного интеллекта Института программных систем РАН г. Переславль-Залесский.
Бакалов Михаил, гр. 544 Научный руководитель : Терехов А. Н. Рецензент: Замышляев А. Н. Эффективная реализация расширяемой метамодели CASE- средства на.
I. Развитие инструментария onto.pro как библиотеки отраслевых справочных данных.
Транксрипт:

ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин Максим Владимирович Смоляков Алексей Леонидович Черепанов Дмитрий Геннадьевич Санкт-Петербургский Государственный Университет Докладчик Смоляков Алексей Леонидович Научный руководитель Сафонов Владимир Олегович, проф., д.т.н.

Цели проекта Легко расширяемый каркас Поддержка разных языков Поддержка разных типов документов (txt, doc, pdf,…) Возможность непрерывной (потоковой) работы Интеграция с Knowledge.Net

Алгоритм работы Получение документов и первичный анализ текста Морфологический анализ текстовых блоков Семантический анализ наборов сущностей Анализ построенного графа Сохранение результата

Получение документов и первичный анализ Получение документов от поставщиков Разбиение документа на статьи Разбиение каждой статьи на текстовые блоки

Морфологический анализ текста Определение языка Создание сущностей из текстовых блоков с помощью словарей

Морфологический анализ > Типы сущностей (1) Entity – простая сущность. Сущности этого типа не представляют интереса как результат извлечения знаний, но участвуют в дальнейшем анализе. Они не могут быть добавлены в граф знаний. TrueEntity – «настоящая» сущность. Из сущностей этого вида состоит граф знаний. Эти сущности и связи между ними являются результатом работы программы

Морфологический анализ > Типы сущностей (2) > Простые сущности Сущность "разделитель" (separator) Сущность "неизвестная" (unknown). Сущность "меняющаяся" (changeable) Сущность "связь" (relationship)

Морфологический анализ > Типы сущностей (3) > «Настоящие» сущности Сущность "класс" (class) Сущность "свойство" (property) Сущность "тип данных" (datatype) Сущность "индивидуал" (individual)

Семантический анализ наборов сущностей Создание новых сущностей Создание отношений между сущностями Создание правил Работа осуществляется при помощи «правил построения графа знаний»

Семантический анализ > Типы отношений Отношение между свойством иклассом Отношение подкласс Отношение подсвойство Отношение эквивалентность Отношение между двумя классами

Семантический анализ > Правила Простые правила (If-Then-Else) Данный этап находится в стадии анализа

Семантический анализ > Правила построения графа знаний > Шаблоны обработки набора сущностей Приоритет Шаблон Обработчики

Анализ построенного графа Удаление избыточных отношений типа подкласс. Удаление избыточных отношений между свойствами и классами. Другие виды «оптимизации» графа знаний

Сохранение результата Сохранение знаний в формат Knowledge.Net. Сохранение знаний в формат OWL. Сохранение знаний в тестовый формат. Сохранение и извлечение знаний из бинарного файла.

Демонстрация

Текущее состояние проекта Разработан работающий прототип Созданы тестовые шаблоны для анализа сущностей Подключен «Mrd» словарь русского и английского языка

Планы Расширение функциональности (добавление новых правил, сущностей, связей, шаблонов, обработчиков, …) Анализ достаточности данной архитектуры для решения задачи Разработка наглядных примеров

? Контактная информация: