ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ ШАБЛОНОВ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин.

Презентация:



Advertisements
Похожие презентации
ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин Максим Владимирович.
Advertisements

ИНТЕГРАЦИЯ МЕТОДОВ ИНЖЕНЕРИИ ЗНАНИЙ И ИНЖЕНЕРИИ ПРОГРАММ СИСТЕМА УПРАВЛЕНИЯ ЗНАНИЯМИ KNOWLEDGE.NET Участники проекта Новиков Антон Владимирович Сигалин.
Компонента KIF Converter проекта KNOWLEDGE.NET Санкт-Петербургский Государственный Университет Докладчик Сигалин Максим Владимирович Научный руководитель.
Компонента KIFConverter проекта KNOWLEDGE.NET Санкт-Петербургский Государственный Университет Докладчик Сигалин Максим Владимирович Научный руководитель.
Редактор знаний Knowledge.NET Санкт-Петербургский Государственный Университет Докладчик Черепанов Дмитрий Научный руководитель Сафонов Владимир Олегович,
Абрамович Максим, 545 группы Научный руководитель: Тузов Виталий Алексеевич Морфологический анализ русского языка.
Алгоритмические основы разработки поисковой системы Трегубов А.А., Кононова Т.С. Таганрогский Государственный Радиотехнический университет Факультет информационной.
Декомпозиция сложных дискретных систем, формализованных в виде вероятностных МП-автоматов. квалификационная работа Выполнил: Шляпенко Д.А., гр. ИУ7-83.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Ижевский Государственный Технический Университет Факультет информатики и вычислительной техники Кафедра АСОИУ.
Тема 2. Концептуальное проектирование. Лекция 1. Уровни моделей и этапы проектирования.
Задачи проектирования ИПС: Анализ предметной области Определение структуры ИПС Определение видов поиска документов в ИПС Разработка структуры БД для ИПС.
"Электронные библиотеки " Дубна Россия Метаданные в системе управления многоязычной лингвистической базой знаний Н.В. Лунева Институт.
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Проверка пройденного материала Определите вид списка: Естественные языки: русский; английский; немецкий. 1) нумерованный; 2) маркированный; 3) многоуровневый.
gismapserver Шелковников Сергей Иннокентьевич, директор, Компания ШЕЛС gis mapdraw server.
Языки и методы программирования Преподаватель – доцент каф. ИТиМПИ Кузнецова Е.М. Лекция 7.
Бакалов Михаил, гр. 544 Научный руководитель : Терехов А. Н. Рецензент: Замышляев А. Н. Эффективная реализация расширяемой метамодели CASE- средства на.
« Формирование запросов на выборку в БД » « Формирование запросов на выборку в БД » Цель– научиться создавать простые запросы на выборку информации.
ABBYY FlexiCapture 9.0 – новый продукт для извлечения больших объемов данных Протасенко Богдан.
Транксрипт:

ИЗВЛЕЧЕНИЕ ЗНАНИЙ ИЗ ТЕКСТОВОЙ ИНФОРМАЦИИ С ПОМОЩЬЮ ШАБЛОНОВ. KNOWLEDGE PROSPECTOR.NET Участники проекта (Knowledge.Net) Новиков Антон Владимирович Сигалин Максим Владимирович Смоляков Алексей Леонидович Черепанов Дмитрий Геннадьевич Санкт-Петербургский Государственный Университет Докладчик Смоляков Алексей Леонидович Научный руководитель Сафонов Владимир Олегович, проф., д.т.н.

Цели проекта Легко расширяемый каркас Поддержка разных языков Интеграция с Knowledge.Net

Алгоритм работы Получение документов и первичный анализ текста Морфологический анализ текстовых блоков Семантический анализ наборов сущностей с применением шаблонов Анализ построенного графа Сохранение результата

Получение документов и первичный анализ текста Получение документов отпоставщиков Разбиение документа на статьи (текст, список, таблица и т.д.) Разбиение текста на блоки … Текстовый формат – это очень гибкий путь для описания различных типов информации… 1) Один 2) Два 3) Три Страна. Столица. Англия. Лондон. Украина. Киев.

Морфологический анализ текста Определение языка Определение морфологической формы слов Создание сущностей Слово(«Знания») «Знания» текущая м. ф.: существительное среднего рода, множественное число, вн. падеж «Знание» основная м. ф.: существительное среднего рода, единственное число, им. падеж РусскийEnglish … MRDXML … Сущность Класс(«Знание»)

Морфологический анализ > Типы сущностей >Простые сущности Сущность "разделитель" (separator). Например «.,;:!?()[]{}…» Сущность "неизвестная" (unknown). Сущность "меняющаяся" (changeable). Например «17-го АВГУСТА» Сущность "связь" (relationship). Например «Земля МЕНЬШЕ Солнца»

Морфологический анализ > Типы сущностей >Настоящие сущности Сущность "класс" (class). Например «знание». Сущность "свойство" (property). Например «полезное». Сущность "тип данных" (datatype). Дата и время (datetime) Целое число (Integer)

Семантический анализ > Цели Создание отношений между сущностями Создание новых сущностей Добавление настоящих сущностей в граф Свойство(«удобный») Класс(«дом») Класс(«строение») Свойство(«кирпичный») Подкласс Свойство-Класс

Семантический анализ > Типы отношений Отношение между свойством и классом Отношение подкласс Отношение подсвойство Отношение эквивалентность Отношение между двумя классами Отношение условное правило

Семантический анализ > Описание шаблона Приоритет Паттерн Обработчики

Семантический анализ > Описание паттернов Логические операнды: «&»(и), «|»(или), «^»(не). Встречаемость: не указано, «+», «*», «?» #E.P, #E.C, #E.S, #E.U, #E.Int, #E.DateTime #M.Noun, #M.Adjective, #M.Verb, … #W.Month, #W.Number, … - держатель слов #H.Class, …- держатель клауз [#E.P #M.Adjective]+ [#E.C #M.Noun]

Семантический анализ > Описание паттернов > Держатель слов Держатель Клауз...

Семантический анализ > Обработчики Заменить (replace) Создать сущность время Создать отношение «свойство-класс» Создать отношение «подкласс» Создать отношение «подсвойство» Создать отношение «условное правило» Создать отношение «класс-класс»

Семантический анализ > Создание отношений Класс(«полезное»)Класс(«знание») + = Свойство(«полезное»)Класс(«знание») Отношение «свойство-класс»

Семантический анализ > Создание новых сущностей Число(«17»)Класс(«ноябрь») +

Анализ построенного графа Удаление избыточных отношений типа подкласс. Удаление избыточных отношений между свойствами и классами. Класс(«автобус») Класс(«транспорт»)Свойство(«быстрое») ПодклассСвойство-Класс Класс(«средство передвижения») Подкласс Свойство-Класс

Сохранение результата Сохранение знаний в формат Knowledge.Net Сохранение в формат OWL Сохранение и извлечение знаний из бинарного файла

Текущее состояние проекта Разработан работающий прототип Созданы тестовые шаблоны для анализа сущностей Подключен «Mrd» словарь русского и английского языка

Планы Поддержка создания «составных» сущностей (состоящих из нескольких слов: «творение рук человека») Расширение функциональности (добавление новых сущностей, отношений, шаблонов, обработчиков, …) Программа генерации шаблонов Разработка наглядных примеров

? Контактная информация: