Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.

Презентация:



Advertisements
Похожие презентации
Виды моделей данных. Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограничений целостности.
Advertisements

ВИДЫ МОДЕЛЕЙ ДАННЫХ. Ядром любой базы данных является модель данных. Модель данных представляет собой множество структур данных, ограничений целостности.
12 июля 2008 года Летняя лингвистическая школа. 1 Компьютерная лингвистика как источник лингвистических знаний Леонид Лейбович Иомдин Институт проблем.
Тема 11 Медицинская помощь и лечение (схема 1). Тема 11 Медицинская помощь и лечение (схема 2)
К построению и контролю соблюдения политик безопасности распределенных компьютерных систем на основе механизмов доверия А. А. Иткес В. Б. Савкин Институт.
Модуль 1. Математические основы баз данных и знаний 1.
Базы данных Лекция 4 Базисные средства манипулирования реляционными данными: реляционная алгебра Кодда.
Н.В. Курмышев, С.В. Попов МОДЕЛЬ ОРГАНИЗАЦИИ ПРАВ ДОСТУПА В ВЕБ-ПРИЛОЖЕНИЯХ ДЛЯ ДИСКРЕЦИОННЫХ И РОЛЕВЫХ СХЕМ Новгородский государственный университет Докладчик:
Реляционная модель – это особый метод рассмотрения данных, содержащий данные в виде таблиц, способов работы и манипуляции с ними в виде связей. структура,
Маршрутный лист «Числа до 100» ? ? ?
ЛЕКСИКО-СИНТАКСИЧЕСКИЕ ШАБЛОНЫ В ЗАДАЧАХ АВТОМАТИЧЕСКОЙ ОБРАБОТКИ ТЕКСТА Большакова Е.И., Баева Н.В., Бордаченкова Е.А., Васильева Н.Э., Морозов С.С. МГУ.
Хранение, поиск и сортировка информации Базы данных и системы управления базами данных(СУБД)
1 Использование онтологий при создании интеллектуальных систем И.Л. Артемьева Дальневосточный государственный университет.
Дипломная работа Программная поддержка морфемного словаря Швейкина О.А., 525 гр. Научный руководитель: к.ф.-м.н. доцент Большакова Е.И.
Реляционная алгебра Презентация подготовлена зав. кафедрой ИБ, д.п.н., профессором З.В. Семеновой.
БАЗА ДАННЫХ – ОСНОВА ИНФОРМАЦИОННОЙ СИСТЕМЫ ТЕХНОЛОГИЯ ИСПЛЬЗОВАНИЯ И РАЗРАБОТКА ИНФОРМАЦИОННЫХ СИСТЕМ.
Реляционная модель данных Определения Основные операции над отношениями (реляционная алгебра)
Теория экономических информационных систем Семантические модели данных.
1 Диаграммы реализации (implementation diagrams).
СУБД Microsoft Access 2003 Элементы языка SQL. Язык SQL SQL (Structured Query Language) – структурированный язык запросов Язык SQL применяется во многих.
Транксрипт:

Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.

2 Рассматриваемая работа «Объектная модель многофункциональных словарей, основанная на синтезе лингвистических единиц» Ивличева О. О., Епифанов М.Е., Лахути Д.Г. Попытка выработать универсальный метод организации данных для электронных словарей

3 Лингвистические единицы Морфема, лексема, словоформа... Простая/составная: морфема/словоформа Многоуровневая иерархия Синтаксические конструкции образованы из словоформ, словоформы из основы и флексий Составная л.е. - результат некоторой операции над единицами нижнего уровня Словоформа может быть получена как конкатенация ее составляющих

4 Свойства лингвистических единиц С единицами ассоциированы некоторые свойства Внутренние/наследуемые (для составных частей) Словосочетание «большой корабль» наследует свойства рода, одушевленности и т.п. от «корабль» Можно считать, что словоформа наследует свой падеж от окончания Со значением некоторых свойств связано «поведение», в частности, правила построения новых единиц Род, число определяют согласование

5 Текст-объект В словаре конкретные лингвистические единицы представляются в виде текст- объектов Основы: «вершин», «дорог» Окончания: «а», «и», «ы»... Текст-объект цепочка символов + конечное множество свойств

6 Свойства текст-объекта Свойство тройка p=, где d тип свойства n имя свойства v значение свойства У одного текст-объекта не может быть свойств с одинаковым именем Примеры свойств Падеж, число, одушевленность и прочие грамматические признаки Семантическое значение суффикса

7 Аддитивные и внутренние свойства Свойства делятся на аддитивные и внутренние Аддитивные свойства, которые наследуются более сложными конструкциями Род, число, одушевленность Внутренние свойства, которые не наследуются Тип единицы Часть речи Множества имен аддитивных и внутренних свойств не пересекаются Текст-объект - тройка (строка, аддитивные свойства, внутренние свойства)

8 Соединение текст-объектов Используется для образования составных текст-объектов из более простых Текст-объекты соединимы, если все их аддитивные свойства могут быть успешно соединены соединима с но не соединима с

9 Соединение свойств Для каждого типа свойства определяется специальный оператор соединения свойств простых текст-объектов (пары объектов) в свойства составного текст-объекта Тип «согласуемое свойство» переносит в новый текст-объект свойства, только если e 1 и e 2 не содержат одноименных свойств с различными значениями

10 R-объекты R-объекты собственно элементы структуры словаря. Могут быть четырех типов: SimpleText, Property, Union, Join Каждый R-объект e описывает какое-то множество текст-объектов Есть R-объекты, представляющие Конкретные основы и флексии Множества возможных основ, флексий Множества допустимых словоформ Множества допустимых словосочетаний

11 R-объекты: SimpleText ST[text,adata,idata] R-объект, соответствующий одному текст-объекту Ими представляются основы и флексии ST[«вершин»,{одуш:неодуш}, ] ST[«а»,{род:жен,числ:ед,пад:им}, ] ST[«ы»,{одуш:неодуш,числ:мн,пад:вин}, ] ST[«»,{одуш:одуш,числ:мн,пад:вин}, ] Property эквивалентен SimpleText без поля text

12 R-объекты: Union Union составной R-объект, который используется для объединения множеств, описываемых дочерними R-объектами Например, объект, объединяющий окончания в множество (таблицу флексий) U ST[ text = «а», adata = { падеж: имен, число: ед } ] ST[ text = «ы», adata = { падеж: имен, число: множ } ] ST[ text = «е», adata = { падеж: дат, число: ед } ] Объект Union

13 R-объекты: Join Для представления множеств составных единиц используется объект Join Join представляет множество соединений всех пар дочерних объектов Им представляются множества словоформ, словосочетаний J[ adata = {род: жен} ] ST[ «дорог» ] Таблица флексий

14 Построение словаря из R- объектов R-объекты организованы в иерархию Листьями в иерархии являются минимальные единицы: морфы, представленные SimpleText Составными элементами являются Union и Join, ссылающиеся на другие R-объекты При применении Join к основе и множеству Union окончаний, основа «склеивается» с каждым окончанием

15 Пример фрагмента словаря J U ST[ text = «а», adata = { падеж: имен, число: ед } ] ST[ text = «ы», adata = { падеж: имен, число: множ } ] ST[ text = «е», adata = { падеж: дат, число: ед } ] ST[ text = «вершин»] Структура, описывающая слова «вершина», «вершины» и «вершине»

16 Недопустимые единицы Соединение может отвергать некоторые единицы, получаемые в результате синтеза как неправильные. Такие единицы состоят из несоединяемых объектов и не входят в результирующее множество. Простейший пример: конфликт значений свойств.

17 Пример недопустимых единиц J U ST[ «а», adata = { падеж: имен } ] ST[ «ы», adata = { падеж: вин, одуш: неодуш } ] ST[ «», adata = { падеж: вин, одуш: одуш } ] ST[ «вершин», adata = { одуш: неодуш } ] Конфликт свойства одушевленности, «вершин» - недопустимая форма!

18 Представление словосочетаний JJ[ adata = {род: жен} ] J ST[ text = «дорог» ] ST[ text = «железн» ] Таблица флексий Табл. флексий, муж. род, мн. числ Табл. флексий, жен. род, ед. числ Табл. флексий, жен. род, мн. числ Табл. флексий, муж. род, ед. числ U

19 Расширяемость словаря Предложенный подход позволяет легко расширять словарь «В ширину» - добавление новых данных в существующей схеме. Добавление новых основ и флексий. «В глубину» - добавление качественно новой информации. Добавление семантической информации.

20 Расширяемость словаря J Поддерево для таблицы флексий ST[ text = «верш», {одуш:неодуш} ]

21 Расширяемость словаря J J[ {одуш:неодуш} ] ST[ «верш» ] ST[ «ин» ] Поддерево для таблицы флексий ST[ text = «верш», {одуш:неодуш} ] Разделяем основу на корень и суффикс

22 Расширяемость словаря J J[ {одуш:неодуш} ] ST[ «верш» ] ST[ «ин» ] Поддерево для таблицы флексий

23 Расширяемость словаря J J[ {одуш:неодуш} ] ST[ «верш» ] ST[ «ин» ] Поддерево для таблицы флексий Добавляем семантическую информацию для суффикса J[ { толкование: «значение ИН4 по словарю Т. Ф. Ефремовой» } ]

24 Расширяемость словаря J J[ {одуш:неодуш} ] ST[ «верш» ] ST[ «ин» ] Поддерево для таблицы флексий J[ { толкование: «значение ИН4 по словарю Т. Ф. Ефремовой» } ]

25 Реализация словаря Модель реализована на основе некоторой объектной библиотеки Каждый R-объект является объектом в смысле программном смысле, он инкапсулирует: Свойства R-объектов Методы запроса множества текст-объектов, возможно, с заданными ограничениями

26 Плюсы и минусы подхода Достаточно простой и мощный подход Унифицированное представление для различных задач Расширяемость «в ширину» и «в глубину» Возможность использования как модели для анализа Высокая вычислительная сложность при запросе элементов узла Кое-где модель неоправданно усложнена Опасность роста сложности модели при росте ее объема

27 ?