Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемrcdl2009.krc.karelia.ru
1 Решение задач визуали- зации и поиска мотивов в электронной библиотеке фольклорных текстов Н.Д. Москин (Петрозаводский государственный университет)
2 Введение В данной работе рассмотрены вопросы хранения и визуализации теоретико- графовых моделей фольклорных текстов, а также методика обнаружения схожих мотивов, основанная на структурном соответствии графов и подграфов.
3 Фольклорные коллекции Корпус бесёдных песен Заонежья XIX – начала XX века; Духовные стихи о Голубиной книге и былины из сборника «Песни, собранные П. Н. Рыб- никовым»; Лужские песни из сборника «Песни горо- денского хора». Новгород, 1990; Записи о народных святых Нижегородского края.
4 Пример беседной песни Рассмотрим фрагмент бесёдной песни «Как назябло, навеяло лицо» из сборника В. Д. Лысанова (1916 г.): Красна девица во тереме сидит, да Жемчужное ожерельицо садит; да Разсыпалось ожерельицо, да По всему высоку терему. Да Не собрать, не собрать жемчуга, да Что ль ни батюшку, ни матушки, да Что ль ни братцам, ни ясным соколам, да Ни сестрицам, белым лебедям, да А собрать соберет жемчужок, да Разудалый, добрый молодец.
5 Теоретико-графовая модель
6 XML-форматы представления графов Одним из предшественников XML-форматов является язык GML (Graph Modelling Language), который до сих пор поддерживается многими прикладными программами и библиотеками для работы с графами. Также можно выделить GraphXML, GraphML (Graph Markup Language), XGMML (eXtensible Graph Markup and Modeling Language), GXL (Graph eXchange Language) и др. Однако данные форматы предназначены для описания произвольных графов и графовых моделей, не привязанных к тексту.
7 TextGML Для хранения фольклорных текстов коллекции и их теоретико-графовых моделей предусмотрен специальный формат TextGML (Textual Graph Modelling Language), разработанный на основе XML. Этот формат позволяет сохранить исходный текст и его характеристики, объекты и отношения в тексте, описать упорядоченность элементов семантической структуры, ее иерархическую организацию, выделить фольклорные мотивы и предоставить возможности для дальнейшего анализа.
8 Элементы TextGML tgml – корневой элемент. text – элемент, определяющий границы текста. Элемент text имеет два атрибута: name – название текста и type – тип текста (например, «стихотво- рение», «басня», «статья», «эссе» и т. д.). text_parameter – характеристики текста (например, автор, год и место издания), которые определяются в виде элементов parameter. Каждому параметру соответствует два атрибута: id – идентификатор параметра и name – название параметра.
9 Элементы TextGML graph – граф, соответствующий тексту. Каждый граф задается набором вершин (node) и ребер (link), соединяющих эти вершины. У элемента graph три атрибута: id – идентификатор графа, name – название графа (например, «дерево зависимостей первого предложения»), type – тип графа и directed – индикатор, указывающий, является ли граф ориентированным.
10 Элементы TextGML node – структурные единицы текста. У этого элемента пять атрибутов: id – идентификатор вершины, name – название вершины (например, «основная форма слова»), type – тип вершины, order – порядок вершины в графе и id_graph – ссылка на идентификатор графа-потомка. Последний параметр позволяет организовать в тексте иерархию уровней графа, где граф низшего уровня является вершиной графа более высокого уровня.
11 Элементы TextGML link – отношения между единицами текста. У данного элемента семь параметров: id – идентификатор ребра, name – название ребра, source и target – ссылки на идентификаторы вершины-источника и вершины-приемника, type – тип ребра (например, «однородность слов»), cost – сила связи и order - порядок ребра в графе.
12 Фрагмент текста в формате TextGML …. Красна девица во тереме сидит, да Жемчужное ожерельицо садит; да ….
13 Визуализация теоретико- графовых моделей При создании, редактировании и исследовании теоретико-графовых моделей фольклорных текстов необходимо иметь инструменты их визуализации. Рассмотрим модификацию метода, основанного на физических аналогиях:
14 Сила растяжения f e – сила растяжения, действующая на вершину u из-за пружины (u, v). x-я координата силы f e вычисляется по формуле: где обозначает расстояние между u и v, - коэффициент жесткости (упругости) пружины между u и v.
15 Естественная длина пружины Чем больше сила растяжения, тем сильнее пружина стремится установить расстояние между u и v, равным: где p(u) и p(v) – номера слов в тексте, соответ- ствующие объектам u и v, - минимальная длина пружины, коэффициент характеризует значимость данного критерия.
16 Сила отталкивания Силу отталкивания, существующую между вершинами u и v, определим по формуле: где – число ребер, инцидентных верши- не u, - коэффициент отталкивания, пос- тоянный для всех вершин.
17 Сила, устанавливающая порядок ребер Чтобы учитывать порядок появления связей в сюжете фольклорного текста, для каждого ребра e=(u, v) введем дополнительную силу h e :
18 Сила, устанавливающая порядок ребер Эта сила будет стремиться расположить ребра графа как можно ближе к установленным заранее упорядоченным точкам : где - центральная точка ребра (центр ребра), координаты которой вычисляются как среднее арифметическое координат вершин u и v. - коэффициент силы притяжения между и.
19 Алгоритм визуализации Алгоритм визуализации работает в два этапа: 1. Вершины размещаются на плоскости случайным образом. 2. Затем выполняется последовательность итераций до стабилизации, на каждой из которых для всех вершин u вычисляется сила F(u) и происходит перемещение вершины в направлении этой силы на расстояние, пропорциональное модулю силы.
20 Процедура выбора фольклорно- го текста, выполненная на PHP 5
21 Отображение теоретико-графо- вой модели в окне браузера
22 Алгоритм визуализации В результате настройки данных коэффициентов алгоритм показал достаточно хорошие результаты: пересечения ребер появляются тогда, когда их нельзя избежать, ребра графа упорядочены по мере появления связей в сюжете, длины ребер соответствуют расстоянию между объектами в фольклорном тексте. Недостатком алгоритма является то, что результат визуализации достаточно сильно зависит от начального (случайного) распределения вершин на плоскости.
23 Визуализация иерархических графов
24 Поиск мотивов в электронной коллекции фольклорных текстов Мотивы – это композиционные фрагменты, которые повторяются в других песнях (не всегда в одной и той же последовательности) и служат исходными элементами для построения новых текстов. По выражению известного фольклориста Б. Н. Путилова мотив является «узловой категорией художественной организации произведения фольклора».
25 Пример мотива беседной песни Рассмотрим фрагмент беседной песни, записанной Ф. Студитским в 1841 году: На матушке на Неве Гуси, лебеди сидели, Серы утки налетели, Свежу воду помутили.
26 Поиск мотивов в электронной коллекции фольклорных текстов Самый простой способ – это поиск по ключевым словам: гуси, лебеди, Нева, серы утки, вода. Однако это решение будет недостаточным по следующим причинам. Во-первых, автор, исполняя произведение, мог заменить существительные, прилагательные и глаголы синонимами или близкими по звучанию словами. Во-вторых, наличие в тексте ключевых слов еще не говорит об их семантической связности, тем более о наличие схожего мотива.
27 Теоретико-графовая модель мотива 1) гуси, лебеди сидели на Неве; 2) серы утки налетели к Неве; 3) серы утки помутили свежу воду; 4) вода есть (принадлежит) в Неве.
28 Алгоритм Ульмана поиска изоморфизма подграфу Другое решение основано на использовании графов. В этом случае задача поиска мотива в коллекции сводится к задаче поиска изоморфного подграфа, которая дополняет поиск по ключевым словам. Пусть дан граф с множеством вершин и множеством ребер. Функции,. Задают метки вершинам и ребрам G соответственно.
29 Матрица смежностей Граф можно представить с помощью матрицы смежностей:, где и для.
30 Матрица перестановок Матрица M является не единственным представлением графа G: где P – матрица перестановок, P T – транспонированная матрица P, то M также является матрицей смежности.
31 Матрица перестановок Матрица называется мат- рицей перестановок, если выполняют- ся следующие условия: для
32 Матрица S k, m (M) Матрица размерности k×m полу- чается из M путем удаления строк с но- мерами k+1, …, n и столбцов m+1, …, n.
33 Понятие изоморфизма подграфу Сформулируем понятие изоморфизма подграфу в терминах матриц смежностей и перестановок. Пусть G 1 и G 2 – графы с матрицами смежностей M 1 и M 2 размерности m×m и n×n соответственно, где m
34 Функция Backtrack Рассмотрим рекурсивную процедуру Backtrack. На входе:, M и M I – матрицы смежностей для G и G I соответственно. P=(p ij ) – матрица перестановок n×n. k=1 – счетчик.
35 Алгоритм Procedure Backtrack: 1. if k>m then 2. // P определяет изоморфизм подграфу от G I к G. 3. Print (P); 4. return; 5. end if; 6. for i:=1 to n do 7. p ki :=1; 8. for ji do 9. p kj :=0; 10. end for; 11. if S k,k (M I )=S k,n (P)M(S k,n (P)) T then 12. Backtrack(M, M I, P, k+1); 13. end if; 14. end for; 15. return.
36 Алгоритм Алгоритм основан на идее поиска всех изоморфизмов подграфу с помощью последовательного определения строка за строкой матрицы перестановок P. Рекурсивная процедура Backtrack начинается установкой первого элемента p 11 =1, а всех остальных элементов первой строки 0. Если S 1,n (P) - неполное соответствие, которое представляет изоморфизм подграфу, тогда процедура Backtrack рекурсивно вызывается еще раз и т.д.
37 Процедура поиска мотивов
39 При проведении подобного анализа программа способна обнаружить «скрытые» мотивы, которые сложно обнаружить традиционными методами. Например, в бесёдной песне «Девушка в горенке сидела» объект «коса» встречается как в начале текста (девушка плела русу косу), так и в конце (коса повысушила парня, с ног сронила), образую два мотива. С другой стороны, эти мотивы взаимосвязаны и их можно рассматривать как единый мотив, разбитый в тексте на несколько частей.
40 Усовершенствование процедуры Для того чтобы данный метод давал лучшие результаты, его необходимо дополнить поиском по ключевым словам. Также можно ввести ограничения: на принадлежность объектов к определенной группе; на тип связей; порядок появления связей в тексте; нечеткий поиск.
41 Спасибо за внимание!
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.