Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр.

Презентация:



Advertisements
Похожие презентации
Б.В. Добров, Н.В. Лукашевич, М.Н. Синицын, В.Н. Шапкин Разработка лингвистической онтологии по естественным наукам для решения задач информационного поиска.
Advertisements

Онтологии: понятие, методы, применение. Онтологии предметных областей. Лекция 5.
Н.В.Лукашевич, Д.С Чуйко Автоматическое разрешение лексической многозначности на основе тезаурусных знаний АНО Центр информационных исследований МГУ им.
Выполнила студентка группы ТУ-501 Полозова Ю.О. Виды документальных информационных систем Документальная информационная система (ДИС) единое хранилище.
Автоматизированное индексирование описаний музейных предметов на базе русскоязычной версии Тезауруса по архитектуре и искусству (Тезауруса AAT) Добров.
Text Mining. Анализ текстовой информации. Text Mining- методы анализа неструктурированного текста Обнаружение знаний в тексте Обнаружение знаний в тексте.
Эволюция понятий «Тезаурус» и «Онтология» Альперин Борис, Новосибирск, 2013.
Б.В.Добров, Н.В.Лукашевич Разрешение лексической многозначности на основе тезауруса предметной области АНО Центр информационных исследований МГУ им. М.В.Ломоносова.
Секция 2. Онтологии и метаинформация в системах поиска Председатель: Е.Б. Кудашев Институт космических исследований РАН Механико-математический факультет.
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
1 Средства автоматической интеграции разнородных онтологий Панасенко Алексей, 525 группа Научный руководитель Большакова Е.И.
О РАЗРАБОТКЕ РУССКО-АНГЛИЙСКОГО ТЕЗАУРУСА ПО КОМПЬЮТЕРНОЙ ЛИНГВИСТИКЕ Загорулько Ю.А., Боровикова О.И., Кононенко И.С., Соколова Е.Г. Институт систем информатики.
1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН.
ПОСТРОЕНИЕ ОНТОЛОГИЧЕСКОГО СПРАВОЧНИКА ОТРАСЛЕВОГО УРОВНЯ С УЧЕТОМ РЕКОМЕНДАЦИЙ СТАНДАРТА ISO
Исследование применения онтологических моделей для семантического поиска Цель: определение основных способов и средств построения онтологических моделей.
Доклад на тему «Создание онтологической базы знаний рекрутинговой системы» Подготовил : Нифталиев В.Э. Руководитель: Привалов М.В.
От сложного – к простому. От непонятного – к понятному.
Использование компьютерных технологий для экспертизы терминологического словаря в области государственного финансового контроля АНО Центр информационных.
Экспертные системы (ЭС). Характеристика и назначение. Лекция 1.
XXXIX Неделя науки СПбГПУ XXXIX Неделя науки СПбГПУ 2010 Визуальное редактирование запросов к поисковой системе с использованием онтологии WordNet А.Н.
Транксрипт:

Б.В. Добров, Н.В. Лукашевич, Лингвистическая онтология по естественным наукам и технологиям: основные принципы разработки и текущее состояние АНО Центр информационных исследований МГУ им. М.В.Ломоносова Научно-исследовательский вычислительный центр

Смысловой поиск научно-технической информации обеспечение поиска, основанного на знаниях, использование синонимов, автоматическое расширение запроса, автоматический анализ результатов запроса помощь в интерактивном поиске Естественные науки – математика, физика, химия, геология, география и технологии

Традиционные средства тематического поиска - информационно-поисковые тезаурусы Основные понятия ПО – дескрипторы Условные синонимы – аскрипторы Отношения между дескрипторами: -- ВЫШЕ-НИЖЕ – транзитивно, несимметрично -- АССОЦИАЦИЯ – симметрично -- Три-четыре уровня иерархии Разработано множество тезаурусов в различных областях Однако: Предназначены для ручного индексирования Проблемы в автоматических режимах

Традиционные ИП тезаурусы и автоматическая обработка текстов Процесс индексирования базируется на знаниях эксперта –Удобство для эксперта, относительно небольшая величина –Дескрипторы нужны для описания основной темы –Нехватка знаний о понятиях и языке предметной области Отношения –Проблема с автоматическим расширением запроса –Особенно отношение ассоциации Semantic Web: Онтологии??

Виды онтологий по составу Онтология - это система, состоящая из набора понятий и набора утверждений об этих понятиях, на основе которых можно строить классы, объекты, отношения, функции и теории Словарь с определениями Простая таксономия Тезаурус (таксономия с терминами) Модель с произвольным набором отношений Таксономия и произвольный набор отношений Полностью аксиоматизированная теория (фундаментальная онтология)

Виды онтологий по применению Фундаментальные онтологии Прикладные онтологии (application ontologies) – легкие онтологии (lightweight ontologies) тахономии, ассоциативные тезаурусы Лингвистические онтологии – понятия онтологии связаны со значениями языковых выражений (слов, именных групп и т.п.)

Разработка Онтологии для научных областей Развитие фундаментальных онтологий невозможно: - очень большие - области продолжают развитие Традиционные средства информационного поиска – тезаурусы –Формализация недостаточна для работы в автоматических режимах Легкая онтология для информационного поиска – Какие свойства?

Онтология по естественным наукам и технологиям Лингвистическая онтология –Понятия, соответствующие значениям терминов –Имя понятия – однозначное выражение –Подробные синонимические ряды - специальные усилия Очень подробная и большая Приложения в течение нескольких лет Один из важных вопросов: –Какие отношения между понятиями??

Отношения в онтологии для информационного поиска Как изменить систему тезаурусных отношений –Произвольный набор предикатов? –Набор тематических отношений? Но очень ограниченные возможности автоматических систем обрабатывать неограниченные связные тексты Практика, стандарты разработки тезаурусов и учебники: отношения должны быть независимы от контекста –Таксономия –Некоторые виды отношений часть-целое –Отношения онтологической зависимости: –ЛЕС зависит_от ДЕРЕВО; БРОМИРОВАНИЕ зависит_от БРОМ; –АНТИСТАТИК зависит_от СТАТИЧЕСКОЕ ЭЛЕКТРИЧЕСТВО –СТЕРЕОХИМИЯ зависит_от ИЗОМЕРЫ

Лингвистическая онтология по естественным наукам: сочетание трех традиций 1)разработки информационно-поисковых тезаурусов (описание терминов, многословные термины, простой набор отношений) 2)разработки лингвистических ресурсов типа WordNet (связь понятия со значением, многоступенчатое построение лексико-терминологической системы, описание многозначности терминов) 3)созданий формальных онтологий (иерархическая система понятий, отношения онтологической зависимости, свойства транзитивности и наследования)

Отправная точка Информационно-поисковый тезаурус по общественно- политической тематике РуТез (Общественно-политический тезаурус) 32 тысячи понятий 79 тыс. русскоязычных текстовых входов 80 тыс. англоязычных текстовых входов Автоматическая обработка текстов Автоматическое концептуальное индексирование Автоматическая рубрикация Автоматическое аннотирование Общая лексика Специальная лексика Промежуточная зона Специальная лексика Общая лексика Специальная лексика авиа комп. безопасность

Этапы разработки: набор коллекции текстов Для каждой науки (математика, физика, химия, биология, геология) – коллекции документов (от 3000 до 8000 документов, от 50 до 90 Мб) Источники коллекций - документы, доступные в Интернет: материалы школьных уроков; рефераты; университетские лекции; материалы специализированных сайтов

Этапы разработки: автоматическое извлечение терминов из текстов извлечение именных групп (2-3 слова) определенной синтаксической структуры (зависимое прилагательное и/или существительное в родительном падеже) извлечение именных групп произвольной структуры и длины на основе анализа частотных характеристик сопоставление с имеющимися ресурсами

Отбор терминологии Верхние части частотных списков по каждой из наук (10 тысяч слов, 15 тысяч словосочетаний) Просмотр экспертами Отбрасывание явных ошибок, общеязыковых выражений, составных конструкций, состоящих из терминов величина результирующего списка – 32 тысячи слов и словосочетаний Ручная разметка поддеревьев Пересечение отобранных терминов и Общественно-политического тезауруса Замыкание отношений – добавление вышестоящих по таксономии Использование знаний, описанных в Общественно-политическом тезаурусе

Эксперты Эксперты в ПО vs. Инженеры по знаниям дать определение описать таксономические отношения выделить общее для разных школ провести ФОРМАЛЬНЫЙ АНАЛИЗ Примеры: горная порода, руда, минеральное образование (бывает еще и на зубах), природное минеральное образование национальный парк, лесопарк, парк Эксперты-лингвисты – лингвистическая онтология – работа с текстами и значениями

Работа экспертов - 1 Источники –Загруженные списки («кандидаты»), надо либо перевести «кандидата» в основной список, либо удалить –Энциклопедии, словари, учебники –Интернет Операции (на основе материала источников) –Ввод нового понятия, –Описание его текстовых вариантов (макс. полно) –Таксономические отношения –Отношения зависимости понятий (на основе анализа определений, употребления в тексте

Работа экспертов - 2 1) Ввод нового понятия Список «кандидатов» Энциклопедии, книги 2) Поиск определения Энциклопедии, Интернет Анализ определения (анализ контекста употребления) проверка определения – разные определения, старые определения неполно выраженные, только в смысле текущего документа или в смысле подобласти Выделение связанных понятий 3) Проверки Употребляемость (Интернет, списки «кандидатов») Анализ лексической многозначности эвтектика (сплав vs. точка эвтектики) триасс (эпоха vs. пласт)

Уже можно использовать с существующим ПО

Текущее состояние Онтологии Объем онтологии –30 тысяч понятий –70 тысяч терминов Уровни описания –Терминология среднего школьного образования и начального вузовского Математика Физика Геология Химия Биология

Заключение Описаны основные принципы создания Онтологии по естественным наукам и технологиям Технология построения онтологии сочетает традиции разработки трех видов ресурсов –Информационных-поисковых тезаурусов –Ресурсов типа wordnet, –Формальных онтологий Сочетание этих трех методологий позволяет создавать большие онтологии для широких предметных областей В 2008 году: Свободное распространение Онтологии по естественным наукам и технологиям для некоммерческого применения.