ОНТОРЕДАКТОР КАК КОМПЛЕКСНЫЙ ИНСТРУМЕНТ ОНТОЛОГИЧЕСКОЙ ИНЖЕНЕРИИ Рубашкин В. Ш. Пивоварова Л. М. Чуприн Б. Ю. кафедра информационных систем в искусстве и гуманитарных науках Факультет филологии и искусств СПбГУ
1.Gomez-Perez A., Fernando-Lopez M., Corcho O. Ontology Engineering. – Springer – Ferlag, Staab Steffen, Studer Rudi (eds). Handbook on Ontologies. – BerlinHeidelberg: SpringerVerlag, Nirenburg S., Raskin V. Ontological Semantics. – Cambridge, MA: MIT Press, Denny M. Ontology Tools Survey, Revisited – ========================= 1. Гаврилова Т. А., Хорошевский В. Ф. Базы знаний интеллектуальных систем. – СПб.: Питер, С. 271 – Рубашкин В. Ш. Представление и анализ смысла в интеллектуальных информационных системах. - М.: Наука, 1989
6. Рубашкин В. Ш. Универсальный понятийный словарь: функциональность и средства ведения // КИИ Восьмая национальная конференция по искусственному интеллекту с международным участием. Труды конференции. М., С. 231 – Рубашкин В. Ш., Лахути Д.Г. Семантический (концептуальный) словарь для информационных технологий. // Научно- техническая информация. - Сер. 2. Часть N 1. - С. 19 – 24; Часть N 5. - С Часть N 7. - С. 1 – 9 8. Рубашкин В. Ш., Лахути Д.Г. Онтология: от натурфилософии к научному мировоззрению и инженерии знаний // Вопросы философии 1, С. 64 – Guarino Nicola. Formal Ontology and Information Systems // Formal Ontology in Information Systems. Proceedings of FOIS98, Trento, Italy, 6-8 June Amsterdam, IOS Press, pp
6. Русский семантический словарь. Толковый словарь, систематизированный по классам слов и значений / РАН. Ин-т рус. яз.; Под общей ред. Н.Ю.Шведовой. – М.: Азбуковник. Том I.-1998; Том II ; Том III. – Толковый словарь русских глаголов: Идеографическое описание. Английские эквиваленты. Синонимы. Антонимы. – М.: АСТ- ПРЕСС, 1999.
Wiki: Ontology editors are applications designed to assist in the creation or manipulation of ontologies.
Онтология Том Грубер (1991): T. R. Gruber. The Role of Common Ontology in Achieving Sharable, Reusable Knowledge Bases // Principles of Knowledge Representation and Reasoning: Proceedings of the Second International Conference, An ontology is an explicit specification of a conceptualisation. Michael Denny. Ontology Tools Survey, 2004 : Ontologies are a way of specifying the structure of domain knowledge in a formal logic designed for machine processing.
Существенны три пункта: 1)Концептуальная структура 2)Формальная модель 3)Информационно-вычислительный ресурс
Онтология 1)Концептуальная структура а) единицы – понятия, а не слова! б) система, включающая множество понятий и набор утверждений об этих понятиях. (классификация понятий, отношения между понятиями; в частности иерархии понятий по отношениям общее – частное и часть - целое) Проблема выбора и уровня детализации единиц; граница между понятиями и лексическими вариантами. - линейный размер, цвета и оттенки
Онтология Формальная модель (Модель знаний) Формализованное (посредством некоторого ЯПЗ) описание концептуальной системы, специфицирующее: а) используемую классификацию концептов б) набор допустимых парадигматических отношений между концептами в) аксиомы и правила вывода Принципиальная важность выбора той или иной модели знаний OKBC – фреймовая модель: концепты (классы), экземпляры, слоты, фасеты OWL – классы, экземпляры, свойства (datatype property, object property) InfoL – концепты, их словарные характеристики, связи между концептами; дерево признаков.
3)Информационно-вычислительный ресурс (а не просто словарь!) Технически – исполняемый модуль (напр., dll библиотека, COM-объект), обладающий некоторой функциональностью и стандартным образом подключаемый к любым информационным технологиям. Формально – это набор функций вида : F (D), F (D 1, D 2 ) =========================== Поэтому ближайшим и непосредственным предшественником можно считать информационно-поисковые тезаурусы (ИПТ), а переход к онтологиям интерпретировать как процесс интеллектуализации ИПТ.
Наша мотивировка функциональности онтологии – семантический анализ текста вопрос – ответные соответствия (цвет - красный); представление числовых данных; кореференция; предикат – актанты; Функциональность: полный набор объемных отношений (тигр – охотник - повар); предметно –ассоциативные отношения (тигр – лапа); функциональные отношения (кг - масса)
Представление данных и операционная среда онтологии: СУБД как "естественная операционная среда". Варианты: продукционная система.
Онторедактор – не просто средство ввода и редактирования, но интегрированная среда разработки и использования (integrated development environment - IDE) Функциональность онтологии (использование) vs функциональность фоторедактора (создание и поддержка) Онтология предоставляет программный интерфейс приложениям; фоторедактор реализует человеко-машинный интерфейс, обеспечивающий администрирование онтологий. NB: Для реализации части функций фоторедактора должна использоваться функциональность самой онтологии.
Функциональность фоторедактора Функциональный стандарт еще только формируется. Традиционные функции: навигация, броузинг и поиск; ввод и редактирование. Нетрадиционные: тестирование онтологии; экспорт – импорт; интеграция разнородных концептуальных систем (ontology merging); (полу)автоматическое пополнение онтологий; определение взаимного соответствие концептов и единиц ЕЯ ("Лексикон"); работа с описаниями экземпляров, являющихся "примерами" (instance) концептов. (+ Функциональность онтологии)
Специфика навигации, браунинга, поиска Просмотр и навигация предполагают некоторую "естественную" упорядоченность материала. "Естественный порядок в концептуальной системе = ???! –по алфавиту? –по ключу? –в порядке "физического" следования? - Поиск как средство навигации -"Лексическая" навигация -Классификационные фильтры и фильтры администрирования
"Естественной" для концептуальной системы можно считать, скорее, таксономическую (общее - частное) упорядоченность концептов; она образует ядро всякой концептуальной модели. Просмотр "сверху вниз" (от общего к частному). А также, возможно, просмотр групп концептов связанных иерархическими связями другого типа (например, целое - часть).
Отсюда - потребность графического представления всех или некоторых связей между концептами и поддержки процедур графического редактирования. Вопрос об объеме графического представления связей: –только общее – частное? –+ целое – часть? –+ другие виды связей? (артефакт – функция: судно – плыть; единица измерения – признак: ватт – мощность и т.д.) Складывающееся решение: в графике представляется только таксономия.
Специфика ввода и редактирования a)"ручной" ввод (собственно ввод); b)автоматический или автоматизированный ввод на основе анализа корпуса текстов; c)автоматизированный ввод с использованием традиционной лексикографической информации (энциклопедических и толковых словарей). Главные проблемы: достоверность; эргономичность.
Конечная цель при проектировании процедур собственно ввода – максимально исключить формально определимые ошибки. Самое плохое решение – неконтролируемый ввод. Не лучшее решение - обнаруживать ошибки post factum. Технологически "хорошее" решение - процедура ввода должна быть организована так, чтобы ввод некорректных элементов описания оказался вообще невозможным.
Требование достоверности ввода – конкретизация: 1)Неизбыточность и полнота описания – должны быть определены те и только те словарные признаки, которые релевантный для концептов данного типа. 2) Непротиворечивость описания – элементы словарных характеристик не должны противоречить друг другу. Пример: Для концепта, определяемого конъюнкцией (пересечением объектных классов; в других терминах – класс, определяемый через множественное наследование), определяющие концепты должны быть совместимы (в терминах OWL –не должны находиться в отношении Disjoint): 'слон' 'животное' And 'металлический' ??? NB: Вызов машины вывода!
3) Правильность означивания – значения определяемых словарных признаков должны принадлежать области их допустимых значений. Пример 1: Формально неправильно: БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'нагрев' ??? правильно: БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'линейный размер' (допустим только концепт класса 'наименование числового признака', подкласс 'сочетающийся с числом'). Пример 2 : 'лед' 'агрегатное состояние' And 'химический состав' ??? -категориальная ошибка: формальное толкование типа "конъюнкция" для объектного термина может содержать только объектные термины, либо означенные признаки.
4) Содержательная правильность – вводимые словарные характеристики должны быть адекватны смыслу добавляемого или редактируемого концепта. Примеры: ОБОБЩАЮЩИЙ_ПРИЗНАК ( 'цвет' ) = 'химические свойства вещества' ??? БАЗОВЫЙ_ПРИЗНАК ( 'метр' ) = 'температура' ??? 'лед' 'отверстие' And 'цилиндрической формы' ??? - определение является формально правильным. Такого рода ошибки не являются формально контролируемыми; они могут оставаться не выявленными, пока онтология не начнет использоваться в приложениях, для которых именно эта связь окажется существенной.
Решение задач формального контроля обусловлено возможностью построить формальное описание системы словарных признаков. a)определение области значений каждого признака; b)установление отношений зависимости по условиям применимости между признаками.
Тестирование Тестирование как проверка формальной корректности (вместо контроля ввода) vs тестирование как содержательный экспертный контроль. Предмет тестирования во 2-м случае = ? Формальный ответ: проверка отдельного концепта = просмотр словарной статьи; собственно тестирование как экспертный контроль связей: объемные отношения; ассоциативные отношения; функциональные отношения.
Тестирование Терминология [Gomez-Perez]: evaluation - общее название для процедур проверки; verification - whether the ontology is building correctly validation – whether the ontology definitions really model the real world assessment – judging the ontology from the user's & application's point of view
Автоматизация пополнения Интеграция онтологий (ontology merging) Собственно пополнение (ontology learning) - по корпусу текстов - из традиционных словарей (+WordNet ?)
Интеграция номологических и фактографических знаний (представление экземпляров) Онтология – знание о применимости признаков к классу объектов. Фактография (напр., БД) – знание о значениях признаков для конкретного объекта. Относительность разделения на классы и экземпляры (ср. марки и автомобили).