Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр информационных исследований МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр
Смысловой поиск научно-технической информации обеспечение поиска, основанного на знаниях, использование синонимов, автоматическое расширение запроса, автоматический анализ результатов запроса помощь в интерактивном поиске Естественные науки – математика, физика, химия, геология, география и технологии
Традиционные средства тематического поиска - информационно-поисковые тезаурусы Основные понятия ПО – дескрипторы Условные синонимы – аскрипторы Отношения между дескрипторами: -- ВЫШЕ-НИЖЕ – транзитивно, несимметрично -- АССОЦИАЦИЯ – симметрично -- Три-четыре уровня иерархии Разработано множество тезаурусов в различных областях Однако: Предназначены для ручного индексирования Проблемы в автоматических режимах
Традиционные ИП тезаурусы и автоматическая обработка текстов Процесс индексирования базируется на знаниях эксперта –Удобство для эксперта, относительно небольшая величина –Дескрипторы нужны для описания основной темы –Нехватка знаний о понятиях и языке предметной области Отношения –Проблема с автоматическим расширением запроса –Особенно отношение ассоциации Semantic Web: Онтологии??
Виды онтологий по составу Онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории Словарь с определениями Простая таксономия Тезаурус (таксономия с терминами) Модель с произвольным набором отношений Таксономия и произвольный набор отношений Полностью аксиоматизированная теория (фундаментальная онтология)
Виды онтологий по применению Фундаментальные онтологии Прикладные онтологии (application ontologies) – легкие онтологии (lightweight ontologies) тахономии, ассоциативные тезаурусы Лингвистические онтологии – понятия онтологии связаны со значениями языковых выражений (слов, именных групп и т.п.)
Разработка Онтологии для научных областей Развитие фундаментальных онтологий невозможно: - очень большие - области продолжают развитие Традиционные средства информационного поиска – тезаурусы –Формализация недостаточна для работы в автоматических режимах Легкая онтология для информационного поиска – Какие свойства?
Онтология по естественным наукам и технологиям Лингвистическая онтология –Понятия, соответствующие значениям терминов –Имя понятия – однозначное выражение –Подробные синонимические ряды - специальные усилия Очень подробная и большая Приложения в течение нескольких лет Один из важных вопросов: –Какие отношения между понятиями??
Отношения в онтологии для информационного поиска Как изменить систему тезаурусных отношений –Произвольный набор предикатов? –Набор тематических отношений? Но очень ограниченные возможности автоматических систем обрабатывать неограниченные связные тексты Практика, стандарты разработки тезаурусов и учебники: отношения должны быть независимы от контекста –Таксономия –Некоторые виды отношений часть-целое –Отношения онтологической зависимости: –ЛЕС зависит_от ДЕРЕВО; БРОМИРОВАНИЕ зависит_от БРОМ; –АНТИСТАТИК зависит_от СТАТИЧЕСКОЕ ЭЛЕКТРИЧЕСТВО –СТЕРЕОХИМИЯ зависит_от ИЗОМЕРЫ
Лингвистическая онтология по естественным наукам: сочетание трех традиций 1)разработки информационно-поисковых тезаурусов (описание терминов, многословные термины, простой набор отношений) 2)разработки лингвистических ресурсов типа WordNet (связь понятия со значением, многоступенчатое построение лексико-терминологической системы, описание многозначности терминов) 3)созданий формальных онтологий (иерархическая система понятий, отношения онтологической зависимости, свойства транзитивности и наследования)
Отправная точка Информационно-поисковый тезаурус по общественно- политической тематике РуТез (Общественно-политический тезаурус) 32 тысячи понятий 79 тыс. русскоязычных текстовых входов 80 тыс. англоязычных текстовых входов Автоматическая обработка текстов Автоматическое концептуальное индексирование Автоматическая рубрикация Автоматическое аннотирование Общая лексика Специальная лексика Промежуточная зона Специальная лексика Общая лексика Специальная лексика авиа комп. безопасность
Этапы разработки: набор коллекции текстов Для каждой науки (математика, физика, химия, биология, геология) – коллекции документов (от 3000 до 8000 документов, от 50 до 90 Мб) Источники коллекций - документы, доступные в Интернет: материалы школьных уроков; рефераты; университетские лекции; материалы специализированных сайтов
Этапы разработки: автоматическое извлечение терминов из текстов извлечение именных групп (2-3 слова) определенной синтаксической структуры (зависимое прилагательное и/или существительное в родительном падеже) извлечение именных групп произвольной структуры и длины на основе анализа частотных характеристик сопоставление с имеющимися ресурсами
Отбор терминологии Верхние части частотных списков по каждой из наук (10 тысяч слов, 15 тысяч словосочетаний) Просмотр экспертами Отбрасывание явных ошибок, общеязыковых выражений, составных конструкций, состоящих из терминов величина результирующего списка – 32 тысячи слов и словосочетаний Ручная разметка поддеревьев Пересечение отобранных терминов и Общественно-политического тезауруса Замыкание отношений – добавление вышестоящих по таксономии Использование знаний, описанных в Общественно-политическом тезаурусе
Эксперты Эксперты в ПО vs. Инженеры по знаниям дать определение описать таксономические отношения выделить общее для разных школ провести ФОРМАЛЬНЫЙ АНАЛИЗ Примеры: горная порода, руда, минеральное образование (бывает еще и на зубах), природное минеральное образование национальный парк, лесопарк, парк Эксперты-лингвисты – лингвистическая онтология – работа с текстами и значениями
Работа экспертов - 1 Источники –Загруженные списки («кандидаты»), надо либо перевести «кандидата» в основной список, либо удалить –Энциклопедии, словари, учебники –Интернет Операции (на основе материала источников) –Ввод нового понятия, –Описание его текстовых вариантов (макс. полно) –Таксономические отношения –Отношения зависимости понятий (на основе анализа определений, употребления в тексте
Работа экспертов - 2 1) Ввод нового понятия Список «кандидатов» Энциклопедии, книги 2) Поиск определения Энциклопедии, Интернет Анализ определения (анализ контекста употребления) проверка определения – разные определения, старые определения неполно выраженные, только в смысле текущего документа или в смысле подобласти Выделение связанных понятий 3) Проверки Употребляемость (Интернет, списки «кандидатов») Анализ лексической многозначности эвтектика (сплав vs. точка эвтектики) триасс (эпоха vs. пласт)
Уже можно использовать с существующим ПО
Текущее состояние Онтологии Объем онтологии –30 тысяч понятий –70 тысяч терминов Уровни описания –Терминология среднего школьного образования и начального вузовского Математика Физика Геология Химия Биология
Заключение Описаны основные принципы создания Онтологии по естественным наукам и технологиям Технология построения онтологии сочетает традиции разработки трех видов ресурсов –Информационных-поисковых тезаурусов –Ресурсов типа wordnet, –Формальных онтологий Сочетание этих трех методологий позволяет создавать большие онтологии для широких предметных областей В 2008 году: Свободное распространение Онтологии по естественным наукам и технологиям для некоммерческого применения.