«Морфологический анализатор имен существительных русского языка» Дипломная работа студента 544 группы Галлямова Антона Фаридовича Научный руководитель: Тузов Виталий Алексеевич Рецензент: Фоминых Николай Федорович Санкт-Петербург 2007
Постановка задачи: Прямая и обратная и дополнительная задачи. Прямой задачей является генерация по исходной форме слова (единственное число, именительный падеж – для существительных, инфинитив для глаголов) всей парадигмы этого слова. Обратная задача – по произвольной форме слова восстановить его основную форму. Ещё одна задача – по входным данным, содержащим неисходную форму слова, а также информацию о форме слова, которую мы хотим получить, построить желаемый результат (пример: утятах; родительный падеж, единственное число -> утёнка).
Основные таблицы базы данных: 1. словарь русского языка (таблица MorfDictionary); 2. наборы окончаний с правилами изменения основы слова (таблица Endings); 3. имена и описатели классов слов русского языка (таблица Classes); Дополнительная таблицы: 1. NounEndings для имен существительных Структура база данных:
Основные таблицы базы данных: MorfDictionary ID Word ClassID Endings Osnovi Classes ID Name Description PartOfSpeech Endings ID Content
Массив индексов и таблица NounEndings: Содержит номера основы для каждого окончания, позволяя установить однозначное соответствие между набором всевозможных окончаний, содержащимися в таблице NounEndings и всевозможными основами данного слова. На основе установленного соответствия, массив индексов позволяет решить задачу построения конкретной(нужной) формы слова. И (как обобщение) задачу построения полной парадигмы слова.
Примеры использования: Вводим в поисковой строке чаек: // - производное от слова чай [word] => чаек [padej] => Именительный [mn] => Единственное [rod] => Муж [word] => чаек [padej] => Винительный [mn] => Единственное [rod] => Муж // словоформа слова чайка [word] => чаек [padej] => Родительный [mn] => Множественное [rod] => Жен [word] => чаек [padej] => Винительный [mn] => Множественное [rod] => Жен
Выводы: Создана адекватная структура базы, удовлетворяющая поставленной задаче; Реализован морфологический анализатор для имен существительных русского языка, использующий оригинальный алгоритм обработки входного слова(таблица NounEndings и массив индексов)
Перспективы использования: Нормализация слов Построение произвольной формы слов Важная составляющая семантического анализатора