1 Exactus Expert - система интеллектуального поиска и анализа научных публикаций Смирнов Иван Валентинович с.н.с. ИСА РАН
2 Назначение системы Информационно-аналитическая поддержка научно-технической деятельности от этапа формирования тематики конкурсов до этапа оценки результативности НИР и ОКР Поиск точек роста науки Помощь исследователям при выполнении НИР, написании диссертаций
3 Основные решаемые с помощью системы задачи Анализ состояния дел в заданной научной области Оценка перспективности научных направлений Поиск коллективов, работающих в научных направлениях, и оценка их потенциала Прогнозирование развития научных направлений, коллективов Все задачи решаются на основе анализа полных текстов научных публикаций
4 Научная публикация - первичный научный текст Приемлемая первичная научная публикация – первое публичное представление существенной информации об исследовании в форме, которая позволяет (1) коллегам оценить исследование, (2) воспроизвести эксперименты, (3) оценить интеллектуальный процесс, приведший к выводам Такой текст содержит информацию о предмете, методах, целях и результатах научного исследования, проведённого в соответствии с методологическими принципами объективности и системности
5 Семантический анализ текста Основан на понятии синтаксемы – минимальной семантико-синтаксической единицы текста Значение синтаксемы передаёт элементарный смысл высказывания Примеры синтаксем: –Субъект (исследование показало перспективность…) –Каузатив (гипертония приводит к поражению артерий) –Объект (сделан выбор направления исследований) –Результатив (гипертония приводит к поражению артерий)
6 Реляционно-ситуационный анализ научных текстов Коммуникативная грамматика русского языка Морфологический, синтаксический, семантический анализ текста Установление значений синтаксем на основе словаря предикатных слов или контекстных правил Реляционно-ситуационная модель текста, формализующая семантику текста в виде неоднородной семантической сети
7 Семантическая сеть Пример
8 Учёт семантики текстов Сравнение семантических образов текстов Порождение семантических конструкций - шаблонов, позволяющих извлекать информацию из текста
9 Функции системы (1) Автоматическое наполнение коллекций научных публикаций, в том числе из открытых источников Автоматическое извлечение метаинформации – авторов, названия, года публикации
10 Функции системы (2) Высокоточный семантический поиск научных публикаций по запросу на естественном языке Поиск близких публикаций к заданной публикации Выделение ключевых слов, характеризующих содержание публикации Резюмирование – составление краткого изложения публикации
11 Функции системы (3) Определение качества научных публикаций, включая: –проверку соответствия структуры публикации формальным требованиям – проверка наличия разделов «постановка проблемы», «методы решения», «эксперименты» и т.д. –выявление наличия квазинаучной и лженаучной лексики
12 Метод анализа структуры Состоит в поиске в тексте семантических конструкций (маркеров) типа, характерных для каждого раздела Порождение таких конструкций основано на машинном обучении по размеченным корпусам научных публикаций
13 Анализ структуры публикации Маркеры структурного компонента «постановка проблемы»
14 Анализ структуры публикации Маркеры структурного компонента «выводы»
15 Функции системы (4) Выделение результатов, представленных в научных публикациях Разделение результатов на теоретические и прикладные
16 Метод выделения результатов Состоит в поиске в тексте семантических конструкций типа, характерных для описания результатов Порождение таких конструкций основано на машинном обучении по размеченным корпусам научных публикаций
17 Выделение результатов
18 Функции системы (5) Выделение авторских терминов Разработаны семантико-синтаксические шаблоны, задающие формулировки дефиниций в тексте
19 Примеры шаблонов для выделения терминов
20 Функции системы (6) Выделение научных направлений Выделение научных коллективов Основаны на кластеризации публикаций по ключевым словам и авторам Разработана алгоритм распределённой кластеризации масштабных коллекций
21 Показ системы