Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
2 Рассматриваемая работа «Объектная модель многофункциональных словарей, основанная на синтезе лингвистических единиц» Ивличева О. О., Епифанов М.Е., Лахути Д.Г. Попытка выработать универсальный метод организации данных для электронных словарей
3 Лингвистические единицы Морфема, лексема, словоформа... Простая/составная: морфема/словоформа Многоуровневая иерархия Синтаксические конструкции образованы из словоформ, словоформы из основы и флексий Составная л.е. - результат некоторой операции над единицами нижнего уровня Словоформа может быть получена как конкатенация ее составляющих
4 Свойства лингвистических единиц С единицами ассоциированы некоторые свойства Внутренние/наследуемые (для составных частей) Словосочетание «большой корабль» наследует свойства рода, одушевленности и т.п. от «корабль» Можно считать, что словоформа наследует свой падеж от окончания Со значением некоторых свойств связано «поведение», в частности, правила построения новых единиц Род, число определяют согласование
5 Текст-объект В словаре конкретные лингвистические единицы представляются в виде текст- объектов Основы: «вершин», «дорог» Окончания: «а», «и», «ы»... Текст-объект цепочка символов + конечное множество свойств
6 Свойства текст-объекта Свойство тройка p=, где d тип свойства n имя свойства v значение свойства У одного текст-объекта не может быть свойств с одинаковым именем Примеры свойств Падеж, число, одушевленность и прочие грамматические признаки Семантическое значение суффикса
7 Аддитивные и внутренние свойства Свойства делятся на аддитивные и внутренние Аддитивные свойства, которые наследуются более сложными конструкциями Род, число, одушевленность Внутренние свойства, которые не наследуются Тип единицы Часть речи Множества имен аддитивных и внутренних свойств не пересекаются Текст-объект - тройка (строка, аддитивные свойства, внутренние свойства)
8 Соединение текст-объектов Используется для образования составных текст-объектов из более простых Текст-объекты соединимы, если все их аддитивные свойства могут быть успешно соединены соединима с но не соединима с
9 Соединение свойств Для каждого типа свойства определяется специальный оператор соединения свойств простых текст-объектов (пары объектов) в свойства составного текст-объекта Тип «согласуемое свойство» переносит в новый текст-объект свойства, только если e 1 и e 2 не содержат одноименных свойств с различными значениями
10 R-объекты R-объекты собственно элементы структуры словаря. Могут быть четырех типов: SimpleText, Property, Union, Join Каждый R-объект e описывает какое-то множество текст-объектов Есть R-объекты, представляющие Конкретные основы и флексии Множества возможных основ, флексий Множества допустимых словоформ Множества допустимых словосочетаний
11 R-объекты: SimpleText ST[text,adata,idata] R-объект, соответствующий одному текст-объекту Ими представляются основы и флексии ST[«вершин»,{одуш:неодуш}, ] ST[«а»,{род:жен,числ:ед,пад:им}, ] ST[«ы»,{одуш:неодуш,числ:мн,пад:вин}, ] ST[«»,{одуш:одуш,числ:мн,пад:вин}, ] Property эквивалентен SimpleText без поля text
12 R-объекты: Union Union составной R-объект, который используется для объединения множеств, описываемых дочерними R-объектами Например, объект, объединяющий окончания в множество (таблицу флексий) U ST[ text = «а», adata = { падеж: имен, число: ед } ] ST[ text = «ы», adata = { падеж: имен, число: множ } ] ST[ text = «е», adata = { падеж: дат, число: ед } ] Объект Union
13 R-объекты: Join Для представления множеств составных единиц используется объект Join Join представляет множество соединений всех пар дочерних объектов Им представляются множества словоформ, словосочетаний J[ adata = {род: жен} ] ST[ «дорог» ] Таблица флексий
14 Построение словаря из R- объектов R-объекты организованы в иерархию Листьями в иерархии являются минимальные единицы: морфы, представленные SimpleText Составными элементами являются Union и Join, ссылающиеся на другие R-объекты При применении Join к основе и множеству Union окончаний, основа «склеивается» с каждым окончанием
15 Пример фрагмента словаря J U ST[ text = «а», adata = { падеж: имен, число: ед } ] ST[ text = «ы», adata = { падеж: имен, число: множ } ] ST[ text = «е», adata = { падеж: дат, число: ед } ] ST[ text = «вершин»] Структура, описывающая слова «вершина», «вершины» и «вершине»
16 Недопустимые единицы Соединение может отвергать некоторые единицы, получаемые в результате синтеза как неправильные. Такие единицы состоят из несоединяемых объектов и не входят в результирующее множество. Простейший пример: конфликт значений свойств.
17 Пример недопустимых единиц J U ST[ «а», adata = { падеж: имен } ] ST[ «ы», adata = { падеж: вин, одуш: неодуш } ] ST[ «», adata = { падеж: вин, одуш: одуш } ] ST[ «вершин», adata = { одуш: неодуш } ] Конфликт свойства одушевленности, «вершин» - недопустимая форма!
18 Представление словосочетаний JJ[ adata = {род: жен} ] J ST[ text = «дорог» ] ST[ text = «железн» ] Таблица флексий Табл. флексий, муж. род, мн. числ Табл. флексий, жен. род, ед. числ Табл. флексий, жен. род, мн. числ Табл. флексий, муж. род, ед. числ U
19 Расширяемость словаря Предложенный подход позволяет легко расширять словарь «В ширину» - добавление новых данных в существующей схеме. Добавление новых основ и флексий. «В глубину» - добавление качественно новой информации. Добавление семантической информации.
20 Расширяемость словаря J Поддерево для таблицы флексий ST[ text = «верш», {одуш:неодуш} ]
21 Расширяемость словаря J J[ {одуш:неодуш} ] ST[ «верш» ] ST[ «ин» ] Поддерево для таблицы флексий ST[ text = «верш», {одуш:неодуш} ] Разделяем основу на корень и суффикс
22 Расширяемость словаря J J[ {одуш:неодуш} ] ST[ «верш» ] ST[ «ин» ] Поддерево для таблицы флексий
23 Расширяемость словаря J J[ {одуш:неодуш} ] ST[ «верш» ] ST[ «ин» ] Поддерево для таблицы флексий Добавляем семантическую информацию для суффикса J[ { толкование: «значение ИН4 по словарю Т. Ф. Ефремовой» } ]
24 Расширяемость словаря J J[ {одуш:неодуш} ] ST[ «верш» ] ST[ «ин» ] Поддерево для таблицы флексий J[ { толкование: «значение ИН4 по словарю Т. Ф. Ефремовой» } ]
25 Реализация словаря Модель реализована на основе некоторой объектной библиотеки Каждый R-объект является объектом в смысле программном смысле, он инкапсулирует: Свойства R-объектов Методы запроса множества текст-объектов, возможно, с заданными ограничениями
26 Плюсы и минусы подхода Достаточно простой и мощный подход Унифицированное представление для различных задач Расширяемость «в ширину» и «в глубину» Возможность использования как модели для анализа Высокая вычислительная сложность при запросе элементов узла Кое-где модель неоправданно усложнена Опасность роста сложности модели при росте ее объема
27 ?