Решение задач визуали- зации и поиска мотивов в электронной библиотеке фольклорных текстов Н.Д. Москин (Петрозаводский государственный университет)

Презентация:



Advertisements
Похожие презентации
Проект электронной библиотеки методик и результатов исследований текстовых коллекций для системы «Источник» Каргинова Н.В., Кравцов И.В., Москин Н.Д.,
Advertisements

Двусвязность Лекция 14. Связность компонент Граф G называется k-связным (k 1), если не существует набора из k-1 или меньшего числа узлов V` V, такого,
База данных – это совокупность структурированных данных определенного назначения. Структурирование данных – это объединение данных по определенным параметрам.
Теория графов Основные определения. Задание графов Графический способ – Привести пример графического задания графа, состоящего из вершин А, В и С, связанных.
Даталогическое проектирование. 1. Представление концептуальной модели средствами модели данных СУБД Общие представления о моделях данных СУБД С одной.
Базы данных. Системы управления базами данных (СУБД)
Урок 3. Формы представления данных (таблицы, формы, запросы, отчеты)
Теория графов. Теория графов – обширный самостоятельный раздел дискретной математики. Используется при проектировании компьютерных сетей, трубопроводов,
Двумерные массивы. В математике часто используют многомерные массивы, т.е. массивы массивов. Особенно широкое распространение получили двумерные массивы.
ХНУРЭ, кафедра ПО ЭВМ, Тел , Лекции Н.В. Белоус Факультет компьютерных наук Кафедра ПО ЭВМ, ХНУРЭ Компьютерная.
Алгоритмы сканирования и обхода Лекция 3. Алгоритм сканирования графа Input: Орграф (граф) G и вершина s. Output: Множество R вершин, достижимых из s,
БАЗЫ ДАННЫХ ЛЕКЦИЯ 14. тема: XML-ТЕХНОЛОГИИ В БАЗАХ ДАННЫХ.
Давыдов Е. С.. Иерархическая модель данных является наиболее простой среди всех даталогических моделей. Исторически она появилась первой среди всех даталогических.
Программирование типовых алгоритмов вычислений Информатика.
МЕТОДЫ ОПТИМИЗАЦИИ § 1. Основные понятия. Под оптимизацией понимают процесс выбора наилучшего варианта из всех возможных В процессе решения задачи оптимизации.
M-чередующаяся декомпозиция Лекция 10. Нечетная декомпозиция Теорема 9.7 (Lovász [1972] ) Граф является фактор-критическим тогда и только тогда, когда.
1 Лекция 2 Математическое описание сетей связи. 2 Вопросы лекции 2 1. Морфологическое описание сети с помощью графа 2. Морфологическое описание в матричной.
Введение в теорию графов. ЗАДАЧА ПРОКЛАДКИ КОММУНИКАЦИЙ
Массивы 9 класс. Основные теоретические сведения Примеры решения задач.
АЛГОРИТМЫ НАХОЖДЕНИЯ КРАТЧАЙШИХ ПУТЕЙ НА ГРАФАХ..
Транксрипт:

Решение задач визуали- зации и поиска мотивов в электронной библиотеке фольклорных текстов Н.Д. Москин (Петрозаводский государственный университет)

Введение В данной работе рассмотрены вопросы хранения и визуализации теоретико- графовых моделей фольклорных текстов, а также методика обнаружения схожих мотивов, основанная на структурном соответствии графов и подграфов.

Фольклорные коллекции Корпус бесёдных песен Заонежья XIX – начала XX века; Духовные стихи о Голубиной книге и былины из сборника «Песни, собранные П. Н. Рыб- никовым»; Лужские песни из сборника «Песни горо- денского хора». Новгород, 1990; Записи о народных святых Нижегородского края.

Пример беседной песни Рассмотрим фрагмент бесёдной песни «Как назябло, навеяло лицо» из сборника В. Д. Лысанова (1916 г.): Красна девица во тереме сидит, да Жемчужное ожерельицо садит; да Разсыпалось ожерельицо, да По всему высоку терему. Да Не собрать, не собрать жемчуга, да Что ль ни батюшку, ни матушки, да Что ль ни братцам, ни ясным соколам, да Ни сестрицам, белым лебедям, да А собрать соберет жемчужок, да Разудалый, добрый молодец.

Теоретико-графовая модель

XML-форматы представления графов Одним из предшественников XML-форматов является язык GML (Graph Modelling Language), который до сих пор поддерживается многими прикладными программами и библиотеками для работы с графами. Также можно выделить GraphXML, GraphML (Graph Markup Language), XGMML (eXtensible Graph Markup and Modeling Language), GXL (Graph eXchange Language) и др. Однако данные форматы предназначены для описания произвольных графов и графовых моделей, не привязанных к тексту.

TextGML Для хранения фольклорных текстов коллекции и их теоретико-графовых моделей предусмотрен специальный формат TextGML (Textual Graph Modelling Language), разработанный на основе XML. Этот формат позволяет сохранить исходный текст и его характеристики, объекты и отношения в тексте, описать упорядоченность элементов семантической структуры, ее иерархическую организацию, выделить фольклорные мотивы и предоставить возможности для дальнейшего анализа.

Элементы TextGML tgml – корневой элемент. text – элемент, определяющий границы текста. Элемент text имеет два атрибута: name – название текста и type – тип текста (например, «стихотво- рение», «басня», «статья», «эссе» и т. д.). text_parameter – характеристики текста (например, автор, год и место издания), которые определяются в виде элементов parameter. Каждому параметру соответствует два атрибута: id – идентификатор параметра и name – название параметра.

Элементы TextGML graph – граф, соответствующий тексту. Каждый граф задается набором вершин (node) и ребер (link), соединяющих эти вершины. У элемента graph три атрибута: id – идентификатор графа, name – название графа (например, «дерево зависимостей первого предложения»), type – тип графа и directed – индикатор, указывающий, является ли граф ориентированным.

Элементы TextGML node – структурные единицы текста. У этого элемента пять атрибутов: id – идентификатор вершины, name – название вершины (например, «основная форма слова»), type – тип вершины, order – порядок вершины в графе и id_graph – ссылка на идентификатор графа-потомка. Последний параметр позволяет организовать в тексте иерархию уровней графа, где граф низшего уровня является вершиной графа более высокого уровня.

Элементы TextGML link – отношения между единицами текста. У данного элемента семь параметров: id – идентификатор ребра, name – название ребра, source и target – ссылки на идентификаторы вершины-источника и вершины-приемника, type – тип ребра (например, «однородность слов»), cost – сила связи и order - порядок ребра в графе.

Фрагмент текста в формате TextGML …. Красна девица во тереме сидит, да Жемчужное ожерельицо садит; да ….

Визуализация теоретико- графовых моделей При создании, редактировании и исследовании теоретико-графовых моделей фольклорных текстов необходимо иметь инструменты их визуализации. Рассмотрим модификацию метода, основанного на физических аналогиях:

Сила растяжения f e – сила растяжения, действующая на вершину u из-за пружины (u, v). x-я координата силы f e вычисляется по формуле: где обозначает расстояние между u и v, - коэффициент жесткости (упругости) пружины между u и v.

Естественная длина пружины Чем больше сила растяжения, тем сильнее пружина стремится установить расстояние между u и v, равным: где p(u) и p(v) – номера слов в тексте, соответ- ствующие объектам u и v, - минимальная длина пружины, коэффициент характеризует значимость данного критерия.

Сила отталкивания Силу отталкивания, существующую между вершинами u и v, определим по формуле: где – число ребер, инцидентных верши- не u, - коэффициент отталкивания, пос- тоянный для всех вершин.

Сила, устанавливающая порядок ребер Чтобы учитывать порядок появления связей в сюжете фольклорного текста, для каждого ребра e=(u, v) введем дополнительную силу h e :

Сила, устанавливающая порядок ребер Эта сила будет стремиться расположить ребра графа как можно ближе к установленным заранее упорядоченным точкам : где - центральная точка ребра (центр ребра), координаты которой вычисляются как среднее арифметическое координат вершин u и v. - коэффициент силы притяжения между и.

Алгоритм визуализации Алгоритм визуализации работает в два этапа: 1. Вершины размещаются на плоскости случайным образом. 2. Затем выполняется последовательность итераций до стабилизации, на каждой из которых для всех вершин u вычисляется сила F(u) и происходит перемещение вершины в направлении этой силы на расстояние, пропорциональное модулю силы.

Процедура выбора фольклорно- го текста, выполненная на PHP 5

Отображение теоретико-графо- вой модели в окне браузера

Алгоритм визуализации В результате настройки данных коэффициентов алгоритм показал достаточно хорошие результаты: пересечения ребер появляются тогда, когда их нельзя избежать, ребра графа упорядочены по мере появления связей в сюжете, длины ребер соответствуют расстоянию между объектами в фольклорном тексте. Недостатком алгоритма является то, что результат визуализации достаточно сильно зависит от начального (случайного) распределения вершин на плоскости.

Визуализация иерархических графов

Поиск мотивов в электронной коллекции фольклорных текстов Мотивы – это композиционные фрагменты, которые повторяются в других песнях (не всегда в одной и той же последовательности) и служат исходными элементами для построения новых текстов. По выражению известного фольклориста Б. Н. Путилова мотив является «узловой категорией художественной организации произведения фольклора».

Пример мотива беседной песни Рассмотрим фрагмент беседной песни, записанной Ф. Студитским в 1841 году: На матушке на Неве Гуси, лебеди сидели, Серы утки налетели, Свежу воду помутили.

Поиск мотивов в электронной коллекции фольклорных текстов Самый простой способ – это поиск по ключевым словам: гуси, лебеди, Нева, серы утки, вода. Однако это решение будет недостаточным по следующим причинам. Во-первых, автор, исполняя произведение, мог заменить существительные, прилагательные и глаголы синонимами или близкими по звучанию словами. Во-вторых, наличие в тексте ключевых слов еще не говорит об их семантической связности, тем более о наличие схожего мотива.

Теоретико-графовая модель мотива 1) гуси, лебеди сидели на Неве; 2) серы утки налетели к Неве; 3) серы утки помутили свежу воду; 4) вода есть (принадлежит) в Неве.

Алгоритм Ульмана поиска изоморфизма подграфу Другое решение основано на использовании графов. В этом случае задача поиска мотива в коллекции сводится к задаче поиска изоморфного подграфа, которая дополняет поиск по ключевым словам. Пусть дан граф с множеством вершин и множеством ребер. Функции,. Задают метки вершинам и ребрам G соответственно.

Матрица смежностей Граф можно представить с помощью матрицы смежностей:, где и для.

Матрица перестановок Матрица M является не единственным представлением графа G: где P – матрица перестановок, P T – транспонированная матрица P, то M также является матрицей смежности.

Матрица перестановок Матрица называется мат- рицей перестановок, если выполняют- ся следующие условия: для

Матрица S k, m (M) Матрица размерности k×m полу- чается из M путем удаления строк с но- мерами k+1, …, n и столбцов m+1, …, n.

Понятие изоморфизма подграфу Сформулируем понятие изоморфизма подграфу в терминах матриц смежностей и перестановок. Пусть G 1 и G 2 – графы с матрицами смежностей M 1 и M 2 размерности m×m и n×n соответственно, где m

Функция Backtrack Рассмотрим рекурсивную процедуру Backtrack. На входе:, M и M I – матрицы смежностей для G и G I соответственно. P=(p ij ) – матрица перестановок n×n. k=1 – счетчик.

Алгоритм Procedure Backtrack: 1. if k>m then 2. // P определяет изоморфизм подграфу от G I к G. 3. Print (P); 4. return; 5. end if; 6. for i:=1 to n do 7. p ki :=1; 8. for ji do 9. p kj :=0; 10. end for; 11. if S k,k (M I )=S k,n (P)M(S k,n (P)) T then 12. Backtrack(M, M I, P, k+1); 13. end if; 14. end for; 15. return.

Алгоритм Алгоритм основан на идее поиска всех изоморфизмов подграфу с помощью последовательного определения строка за строкой матрицы перестановок P. Рекурсивная процедура Backtrack начинается установкой первого элемента p 11 =1, а всех остальных элементов первой строки 0. Если S 1,n (P) - неполное соответствие, которое представляет изоморфизм подграфу, тогда процедура Backtrack рекурсивно вызывается еще раз и т.д.

Процедура поиска мотивов

При проведении подобного анализа программа способна обнаружить «скрытые» мотивы, которые сложно обнаружить традиционными методами. Например, в бесёдной песне «Девушка в горенке сидела» объект «коса» встречается как в начале текста (девушка плела русу косу), так и в конце (коса повысушила парня, с ног сронила), образую два мотива. С другой стороны, эти мотивы взаимосвязаны и их можно рассматривать как единый мотив, разбитый в тексте на несколько частей.

Усовершенствование процедуры Для того чтобы данный метод давал лучшие результаты, его необходимо дополнить поиском по ключевым словам. Также можно ввести ограничения: на принадлежность объектов к определенной группе; на тип связей; порядок появления связей в тексте; нечеткий поиск.

Спасибо за внимание!