Дипломная работа Программная поддержка морфемного словаря Швейкина О.А., 525 гр. Научный руководитель: к.ф.-м.н. доцент Большакова Е.И.

Презентация:



Advertisements
Похожие презентации
ПРОГРАММНЫЕ СРЕДСТВА ВЫЯВЛЕНИЯ ТЕРМИНОЛОГИЧЕСКИХ ВАРИАНТОВ В ТЕКСТАХ Антонов Вадим Юрьевич Научный руководитель: Ефремова Наталья Эрнестовна Дипломная.
Advertisements

Объектная модель многофункциональных словарей Докладчик: Носков А. А. Группа: 525 Научный руководитель: Большакова Е. И.
Базы данных Назначение и основные функции Гусельникова Е.В. МБОУ Лицей 130 имени академика М.А.Лаврентьева Новосибирск, 2011.
Как образуются слова в русском языке. Способы словообразования 1ПРИСТАВОЧНЫЙ. 2.СУФФИКСАЛЬНЫЙ. 3.ПРИСТАВОЧНО- СУФФИКСАЛЬНЫЙ. 4СЛОЖЕНИЕ БЕЗ СОЕДИНИТЕЛЬНОЙ.
Состав слова. План морфемного разбора
Задачи проектирования ИПС: Анализ предметной области Определение структуры ИПС Определение видов поиска документов в ИПС Разработка структуры БД для ИПС.
Игра-опрос 5 класс. раздел науки о языке, который изучает состав слова, морфемы. (Морфемика)
Методы распознавания зашумленных образов БЕЛОРУССКИЙ ГОСУДАРСТВЕННЫЙ УНИВЕРСИТЕТ ФАКУЛЬТЕТ ПРИКЛАДНОЙ МАТЕМАТИКИ и ИНФОРМАТИКИ Кафедра математического.
корень приставка окончание суффикс.
1. Краткая характеристика MS Access1. Краткая характеристика MS Access 2. Достоинства и недостатки 3. Типы БД 4. Базы данных и системы управления базами.
Специальность «Информационные системы и технологии» шифр Учебная дисциплина «Управление данными» Лекция 1 ВВЕДЕНИЕ В БАЗЫ ДАННЫХ 1 Основные понятия,
Базы данных организованная совокупность данных, предназначенная для длительного хранения во внешней памяти ЭВМ и постоянного применения. (совокупность.
Модель и алгоритм деятельности ОУ в условиях введения новых ФГОС начального общего образования. Крюкова Н.Д., зав. кафедрой управления.
Базы данных Реляционная база данных MS Access.
Морфемный и словообразовательный разбор слова. ЮЖНО-КАЗАХСТАНСКИЙ ГОСУДАРСТВЕННЫЙ ПЕДАГОГИЧЕСКИЙ УНИВЕРСИТЕТ Выполнила : студентка 2 курса группы С
Автоматизированная поддержка пользовательской документации Web-приложений, разрабатываемых в среде WebRatio Студент: Дорохов Вадим, 544 гр. Научный руководитель:
Восстановление текстов программ по преобразованному синтаксическому дереву Выполнил: Юрий Литвинов, 545гр. Научный руководитель: Дмитрий Копаев.
Создание базы данных терминологических словарей Якшин М. М. БЕН РАН.
Формальное представление лексических отношений русских глаголов Магистерская диссертация Галушко Надежды Леонидовны (филологический факультет, кафедра.
1 Тема 1.7. Алгоритмизация и программирование Информатика.
Транксрипт:

Дипломная работа Программная поддержка морфемного словаря Швейкина О.А., 525 гр. Научный руководитель: к.ф.-м.н. доцент Большакова Е.И.

Терминология Морфема – наименьшая языковая единица, обладающая значением: Корень: стол, един Аффикс: при (приставка), от (суффикс) Морф – конкретная реализация морфемы в тексте; Пример: пер, пир, стал Алломорф - совокупность морфов одной морфемы; Пример: б р, бер, бор Морфемный разбор слова – нахождение минимальных значимых единиц, из которых оно составлено Пример: положение, полагать 2/14

Морфемные словари и подходы к их построению Морфемные словари (МС): Печатные: (словарь А.Н. Тихонова) Тяжело вносить дополнения Медленный поиск Электронные: («Яндекс. Словари», «Ариадна») Нет прикладного интерфейса Подходы к построению: Состаление вручную (высокая точность) Автоматизированный (точность около 80%) Генетический алгоритм Построение правил разбиения на морфы Вероятностный метод 3/14

Постановка задачи Цель: разработка компьютерного морфемного словаря русского языка и поддерживающих его программ Исходные данные составлены вручную (текст. файлы) Требуется разработать: 1) схему хранения однокоренных и много коренных слов; 2) программы загрузки исходных данных; 3) процедуры, выполняющие: Морфемный разбор слов, содержащихся в БД; Морфемный разбор слов, отсутствующих в БД; Поиск слов с заданной морфемой; 4) пользовательский и прикладной интерфейсы. 4/14

Принципы организации словарных данных Исходные данные – текстовые файлы со словами, разбитыми на морфы (типы морфов помечены): + бетон % о + мешал к * а Хранимые данные: для каждого слова хранится: 1) Строковое представление 2) Связи с морфами (морфемный состав) для каждого морфа хранится: 1) Строковое представление 2) Тип (соединит. гласная является отдельным типом) 3) Связи с морфами (алломорфы) 5/14

Схема базы данных словаря СловоId слова Бетономешалка235 Процедура15782 Id 1Id Id морфаморфТип морфа 21ОСоед.гласная 147БетонКорень 1543РасКорень 1547РастКорень Id слова морфа в слове Id морфа words word_morphs morphs allomorphs 6/14

Функции словаря 1) Осуществление морфемного разбора слов, хранящихся в БД словаря Пример: запрос:одичавший результат: -О+ДИЧ-АВШ*ИЙ 2) Поиск возможного морфемного разбора слов, отсутствующих в БД словаря 3)Поиск групп слов, содержащих заданную морфему (с учетом возможных алломорфов) Пример: запрос: -бер- (корень) результат: слова с корнями -бер-, -бир-, -б р-, -бор-. 7/14

Поиск вариантов морфемного разбиения (для отсутствующих в БД слов) Шаг поиска: 1) Отщепляются очередные несколько букв. Они рассматриваются как кандидаты в морфы 2) Проверяется, являются ли эти буквы нужным морфом 3) Если да – эти буквы считаются морфом слова, продолжается поиск разбиения для остатка Если нет – отщепляется еще одна буква, либо ищется след. тип Строится дерево поиска, в узлах: Разоб ранная и не разобранная части слова, Текущий тип морфа 8/14

Дерево поиска. Пример 1)«» 2) Столик 3) Приставка 1)«» 2) Столик 3) корень Приставка = « » 1)«+Стол» 2) ик 3) суффикс Корень = «Стол» 1)«+Стол-и» 2) к 3) суффикс 1)«+Стол-ик» 2) - 3) - Суффикс = «ик» Суффикс = «и» Суффикс = « » 1)«+Стол-и-к» 2) - 3) - Суффикс = «к» 9/14 1)«-С» 2) толик 3) корень 1)«+Стол» 2) ик 3) окончание Приставка = « С »

Программная реализация Язык реализации – С++ Среда разработки – Visual Studio 2005 Библиотека графического интерфейса – MFC Реляционная база данных – SQLITE Язык для работы с базой данных – SQL Прикладной интерфейс, поддерживающий : Загрузку исходных файлов; Поиск морфемного состава слов из БД, не из БД; Поиск слов с заданной морфемой 10/14

Пользовательский интерфейс. Поиск морфемного состава 11/14

Пользовательский интерфейс. Поиск слов с заданной морфемой 12/14

Результаты работы 1. Изучены существующие морфемные словари и способы их построения. 2. Предложена модель хранения словарных данных. 3. Разработаны программные средства поддержки: загрузки словарных данных из текстовых файлов; поиска морфемного разбора заданного слова из БД не из БД; поиска слов, содержащих заданную морфему. 4. Реализован прикладной и пользовательский интерфейсы. 13/14

14/14