ОНТОРЕДАКТОР КАК КОМПЛЕКСНЫЙ ИНСТРУМЕНТ ОНТОЛОГИЧЕСКОЙ ИНЖЕНЕРИИ Рубашкин В. Ш., Пивоварова Л. М. Санкт-Петербургский государственный университет Кафедра информационных систем факультета филологии и искусств
Онторедактор – инструментальная среда, предназначенная для создания онтологии или работы с ней.
Основные проблемы которые должна решать инструментальная среда: 1)Методология формализации знаний 2)Унификация онтологий 3)Пополнение онтологий 4)Достоверность и целостность
InTez – еще один онторедактор? (Protégé, ODE, … + еще 92?) 2 подхода: Инструмент для "выравнивания", слияния, (merging & mapping) и пополнения разнородных и даже основанных на разных моделях знаний частных онтологий. Инструментальная среда, ориентированная на: 1) определенную функциональность онтологии; 2) определенную модель знаний; 3) построение единой "многодоменной" онтологии, опирающейся на онтологию верхнего уровня (TopLevel)
1)Функциональность онтологии Унификация терминологии Представление и логическая обработка таксономических отношений Представление и логическая обработка отношений объемной совместимости/несовместимости Представление и логическая обработка предметно- ассоциативных отношений Поддержка представления и логической обработки количественных данных Регламентация процедур описания объектов Аксиоматизация описаний процессов, причинных связей, процедур
2)Модель знаний Модель знаний - язык представления знаний (ЯПЗ) вместе с некоторым набором схем аксиом, определяющих дополнительные возможности системы вывода. Используется для формального описания понятийно- терминологической системы: термины и связи между ними представляются как конструкты выбранного ЯПЗ (в идеале – как логические формулы некоторого логического исчисления). Отсутствует разработанная методология формализации знаний.
Что, в часности, требует последовательной формализации в ЯПЗ: Ограничения на сочетаемость терминов: * жидкая пирамида, *идеи спят,*медь смертна Систематическое описание связи признаков по условиям применимости Порядок деления на классы (расхожий пример: пол и возраст) vs фасетизация Различение семантических примитивов и терминов, вводимых формальными толкованиями; средства определения терминов в ЯПЗ.
Конкретный пример – определение несовместимости понятий через использование таких конструкций как DisjointWith, DisjointUnionOf и др. Создается явное впечатление, что предлагается описывать отношение объемной несовместимости способом «каждый с каждым»
Что следовало бы сделать: Продукты питания по консистенции: Твердые Жидкие (напитки) Кашеобразные Неоднородной консистенции* культивируемость: Культурного происхождения Природного происхождения
по происхождению: Животного происхождения Виды продуктов животного происхождения: Мясо /птица, говядина, свинина, …/ Продукты водной среды (животного происхождения) Молочные продукты Яйца Растительного происхождения Виды продуктов растительного происхождения: Овощи /зеленые, красные, другие; листовые, плодовые, корнеплоды; …/ Фрукты Смешанные Синтетические
NB: Внетаксономические импликативы: Мясо Твердая консистенция Дичь = df Мясо & Природного происхождения Водка – алкогольный напиток Мясо Водка
Функциональность онторедактора Общие характеристики: операционная среда (СУБД) графический редактор таксономий толковый словарь представление связей
Функциональность онторедактора Навигация и поиск: Вербальный поиск концепта Просмотр дерева признаков Установка фильтров Навигация по связям Навигация по лексическим вариантам
Функциональность онторедактора Ввод и редактирование «Ручной» ввод концептов Пакетный ввод концептов Ввод связей между концептами Ввод лексических вариантов концепта Графическое редактирование Редактирование словарных описаний Логический контроль данных при вводе
Обеспечение достоверности Формальная и содержательная правильность Процедура ввода должна обнаруживать и блокировать ввод, например, концепта, определяемого И-толкованием вида Тигр животное And металлический (определяющие концепты должны быть объемно совместимы) Но: Лед квазиобъект And цилиндрической формы - формально правильно (содержательная ошибка)..
Формальная и содержательная правильность Еще пример: формально неправильно: БАЗОВЫЙ ПРИЗНАК (метр) = перемещение -категориальная ошибка (базовым признаком может быть только концепт класса наименование признака сочетающееся с числом); правильно: БАЗОВЫЙ ПРИЗНАК (метр) = линейный размер Но: БАЗОВЫЙ ПРИЗНАК (метр) = масса - формально правильно (содержательная ошибка).
Условия формальной достоверности 1)Неизбыточность и полнота описания - должны предъявляться и определяться те и только те словарные признаки, которые релевантны для концептов данного типа 2)Непротиворечивость описания - словарные характеристики не должны противоречить друг другу. (в терминах OWL – не должны находиться в отношении Disjoint). 3)Правильность означивания - вводимые значения определяемых словарных признаков должны принадлежать области их допустимых значений.
Обеспечение достоверности Конечная цель при проектировании процедур ввода состоит в том, чтобы полностью исключить формально определимые ошибки. При этом технологически "хорошее" решение будет состоять не в том, чтобы уметь обнаруживать формальные ошибки post factum, а в том, чтобы сама процедура ввода была спроектирована так, чтобы ввод логически некорректных элементов описания оказывался вообще невозможным.
Тестирование Проверить содержательную правильность описаний концептов можно только путем организации "лабораторных" испытаний и экспертной оценки их результатов администратором. Окончательную проверку и отладку ("бета-тестирование") онтология может пройти в рамках целевых информационных технологий. "Тестирование" отдельных концептов сводится к просмотру и проверке содержимого словарных статей и, следовательно, относится к компетенции подсистемы навигации и броузинга. Собственно тестирование как отличающаяся от броузинга процедура может состоять только в тестировании отношений между концептами – как объемных, так и ассоциативных.