Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемse.math.spbu.ru
1 «Морфологический анализатор имен существительных русского языка» Дипломная работа студента 544 группы Галлямова Антона Фаридовича Научный руководитель: Тузов Виталий Алексеевич Рецензент: Фоминых Николай Федорович Санкт-Петербург 2007
2 Постановка задачи: Прямая и обратная и дополнительная задачи. Прямой задачей является генерация по исходной форме слова (единственное число, именительный падеж – для существительных, инфинитив для глаголов) всей парадигмы этого слова. Обратная задача – по произвольной форме слова восстановить его основную форму. Ещё одна задача – по входным данным, содержащим неисходную форму слова, а также информацию о форме слова, которую мы хотим получить, построить желаемый результат (пример: утятах; родительный падеж, единственное число -> утёнка).
3 Основные таблицы базы данных: 1. словарь русского языка (таблица MorfDictionary); 2. наборы окончаний с правилами изменения основы слова (таблица Endings); 3. имена и описатели классов слов русского языка (таблица Classes); Дополнительная таблицы: 1. NounEndings для имен существительных Структура база данных:
4 Основные таблицы базы данных: MorfDictionary ID Word ClassID Endings Osnovi Classes ID Name Description PartOfSpeech Endings ID Content
5 Массив индексов и таблица NounEndings: Содержит номера основы для каждого окончания, позволяя установить однозначное соответствие между набором всевозможных окончаний, содержащимися в таблице NounEndings и всевозможными основами данного слова. На основе установленного соответствия, массив индексов позволяет решить задачу построения конкретной(нужной) формы слова. И (как обобщение) задачу построения полной парадигмы слова.
6 Примеры использования: Вводим в поисковой строке чаек: // - производное от слова чай [word] => чаек [padej] => Именительный [mn] => Единственное [rod] => Муж [word] => чаек [padej] => Винительный [mn] => Единственное [rod] => Муж // словоформа слова чайка [word] => чаек [padej] => Родительный [mn] => Множественное [rod] => Жен [word] => чаек [padej] => Винительный [mn] => Множественное [rod] => Жен
7 Выводы: Создана адекватная структура базы, удовлетворяющая поставленной задаче; Реализован морфологический анализатор для имен существительных русского языка, использующий оригинальный алгоритм обработки входного слова(таблица NounEndings и массив индексов)
8 Перспективы использования: Нормализация слов Построение произвольной формы слов Важная составляющая семантического анализатора
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.