Проект электронной библиотеки методик и результатов исследований текстовых коллекций для системы «Источник» Каргинова Н.В., Кравцов И.В., Москин Н.Д., Варфоломеев А.Г. RCDL Петрозаводский государственный университет
Введение RCDL Существуют сетевые сообщества исследователей в области истории и лингвистики, которые основаны на общих коллекциях текстов. Следующий шаг – предоставление сообществу описаний проведенных исследований. Традиционные публикации: не являются машиночитаемыми, сложно осуществлять функции поиска и сравнения. =>=> Необходим стандартный формат для записи методик и результатов исследований
Существующие технологии RCDL Стандарты представления бизнес-правил, в виде которых могут быть записаны научные выводы, гипотезы, формулы и алгоритмы ( Стандарты представления бизнес-правил, в виде которых могут быть записаны научные выводы, гипотезы, формулы и алгоритмы ( Язык PMML, служащий для записи регрессионных и других предиктивных моделей анализа данных ( Язык PMML, служащий для записи регрессионных и других предиктивных моделей анализа данных ( Форматы группы MKM для обмена математическими результатами ( Форматы группы MKM для обмена математическими результатами ( Язык RuleML, позволяющий записывать различные виды правил ( Язык RuleML, позволяющий записывать различные виды правил ( «Если (условие), то (вывод)» Методику и выводы исследователей можно представить в виде правил:
ИС «Источник» RCDL формулярный анализ средневековых текстов Графическое изображение XML PDF Анализ
Формулярный анализ RCDL Распоряжение Просьба Действия адресата Выполнение адресатом распоряжения
Новые функции ИС «Источник» RCDL интерфейсы для разметки текстов, записи правил разметки, методики исследования (правил вывода) и результатов накапливание коллекций текстов, а также библиотеки правил и выводов поиск и сравнение методик и результатов разных исследователей автоматическая генерация гипотез на основе данных и правил публикация методик и результатов в машиночитаемой форме
Формализация процесса исследования RCDL Разметка текста на логические фрагменты 2.Представление структуры текста Тип блокаХарактеристика блока 1А20 2В25 ……… 3.Анализ текста с помощью правил вывода
Схема процесса исследования RCDL Библиотека правил База знаний сообщества Библиотека разметок Исследователь: текст Разметка Анализ Результаты исследований Представление в виде объекта результаты
Факты и правила в системе RCDL Заданные изначально факты, функции, шаблоны compare_structure(структура 1, структура 2) = n % ЕСЛИ текст 1 – структура 1, текст 2 – структура 2, …. текст n – структура n, (текст 2, …, текст n) имеют тип 1 (структура 1, структура 2, …, структура n) похожи на m% m больше порогового значения ТО текст 1 имеет тип 1 - Формирующиеся по ходу работы исследователей
Пример шаблона на языке Datalog (ядро RuleML) RCDL text 2 type of text type 1 text 1 type of text type 1 text 1 structure of text structure 1 text 2 structure of text structure 2 structure 1 is like structure 2 m %
Бесёдные песни и их теоретико-графовые модели модели RCDL Рассмотрим один из мотивов бесёдной песни «Все мужовья до жон добры», записанной Ф. Студитским в 1841 году: Все мужовья до жон добры, Покупили жонам тафты; Ещё мой муж не доброй до меня, Он купил, мутил, Коровушку купил, Жены лишнюю работу снарядил.
Первый мотив песни «Все мужовья до жон добры» RCDL
Граф сюжета песни «Все мужовья до жон добры» RCDL Из книги «Народные песни Вологодской и Олонецкой губерний, собранные Ф. Студитским». – Санкт-Петербург, С. 67.
Граф сюжета песни «Уж ты Ванюша, Иван» RCDL Из книги «Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях». Сост. В. Дашков. СПб., С
Граф сюжета песни «Широкая борода» RCDL Из книги «Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях». Сост. В. Дашков. СПб., С
Граф сюжета песни «Девушка в горенке сидела» RCDL Из книги «Описание Олонецкой губернии в историческом, статистическом и этнографическом отношениях». Сост. В. Дашков. СПб., С
Граф сюжета песни «Тропинкою шла» RCDL Из книги Лысанова В. Д. «Досюльная свадьба, песни, игры и танцы в Заонежье Олонецкой губернии». Петрозаводск, С. 72.
Пример (1) закономерности, полученной при анализе фольклорных песен RCDL Если «в графе песни число вершин m>14 и число ребер n>17», то «эта песня с большой вероятностью исполнялась в быстром темпе».
Представление правила на языке RuleML RCDL имеет темп песня быстрый с большой вероятностью больше число вершин 14 больше число ребер 17
Пример (2) закономерности, полученной при анализе фольклорных песен RCDL Если «в песне часто встречаются объекты групп «разные предметы» и «конструкции», а объекты группы «проявление качеств человека» встречаются редко», то «эта песня с большой вероятностью имеет семейную тему».
Представление правила на языке RuleML RCDL имеет тему песня семейная с большой вероятностью часто встречаются песня вершины группы «разные предметы» часто встречаются песня вершины группы «конструкции» редко встречаются песня вершины группы «проявление качеств человека»
Хранение правил и реализация вывода RCDL Необходимо обеспечить логический вывод, следовательно нужна машина логического вывода. 1.Внутренний формат хранения правил CLIPS, SWI-Prolog RuleML – для обмена с другими сообществами и системами 2.RuleML в качестве внутреннего формата хранения правил Bossam – приложения в рамках концепции Semantic Web, OO jDREW – библиотека на Java, DR-DEVICE – рассуждения в условиях неполной и противоречивой информации
RCDL