АВТОМАТИЧЕСКАЯ ПРЕДОБРАБОТКА РУССКОЯЗЫЧНОГО ТЕКСТА ДЛЯ ЗАДАЧИ СИНТЕЗА РЕЧИ (НА ОСНОВЕ ЧИСЛИТЕЛЬНЫХ) Автор: Колесникова Оксана Владимировна Научный руководитель: Бабина Ольга Ивановна МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РОССИЙСКОЙ ФЕДЕРАЦИИ Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования «Южно-Уральский государственный университет» ФАКУЛЬТЕТ ЛИНГВИСТИКИ КАФЕДРА ОБЩЕЙ ЛИНГВИСТИКИ Выпускная квалификационная работа на тему:
АКТУАЛЬНОСТЬ В данной работе была предпринята попытка создать интерпретатор для русскоязычных текстов с учетом морфо-синтаксических свойств контекста, который бы преобразовывал числа в слова
ОБЪЕКТ «Автоматическое преобразование текста» ПРЕДМЕТ «Изменение текста посредством преобразования цифровой записи числительного в тексте на русском языке в словесную форму»
ЦЕЛЬ Построить модель преобразования цифровой записи числительных в тексте на русском языке в словесную форму, учитывая контекст их употребления
ЗАДАЧИ 1. описать технологию синтеза речи; 2. описать основные трудности преобразования цифрового текста и правила склонения числительных;
3. на основе данного корпуса текста отобрать все варианты употребления числительных; 4. проанализировать контекст употребления числительных, выявить корреляцию между формой и лексико-грамматическими характеристиками контекста; ЗАДАЧИ
5. формализовать полученные результаты и отразить их в таблице «Склонение числительных»; 6. на полученной выборке написать программу- интерпретатор с помощью языка программирования «Python», которая преобразует числительные, употребляемые в именительном и предложном падежах. ЗАДАЧИ
НАУЧНАЯ НОВИЗНА Впервые была предпринята попытка создать автоматический преобразователь числительных в словесную форму в русскоязычных текстах с учетом контекстных особенностей
ТЕОРЕТИЧЕСКАЯ ЗНАЧИМОСТЬ В данной работе были классифицированы контексты с точки зрения их влияния на морфологическую форму числительного; Внесен вклад в развитие теории подъязыков в области программирования.
ПРАКТИЧЕСКАЯ ЗНАЧИМОСТЬ - Числовой интерпретатор «NumToWord» может быть применен к разным корпусам текстов; - Таблица «Склонение числительных» может служить базой для дальнейшей доработки числового интерпретатора; - Материал исследования может быть использован в преподавании курсов «основы прикладной лингвистики» и «технологии обработки текста и звучащей речи»».
«с 1 июня 2013 г. по 9 сентября 2013 г. » 1 часть: (с [0-9]* июня [0-9][0-9]* г.) 2 часть: (по [0-9]* сентября [0-9][0-9]* г.) Количественное число. р.п. ___________________________ __________________ Порядковое число. им.п., ср.р ____________ Колич. число. р.п.
main sringToDigit changeFile
Файл sringToDigit 1. def triad(number, mass, sort) 2. def summ(sum) 3. def transform(trnsfstr) 4. def summ_wrapped_i(num) 5. def summ_wrapped_r(num)
Функция summ(sum) Число: *«%» - выявляется остаток при делении: 145%100=45 *«//» - выявляется целая часть при делении: 145//100=1
ОРИГИНАЛ: На внутрифакультетских спартакиадах количество проводимых соревнований доходит до 20 видов, проводится Спартакиада Студгородка. ИЗМЕНЕННЫЙ: На внутрифакультетских спартакиадах количество проводимых соревнований доходит до двадцать видов, проводится Спартакиада Студгородка. НЕВЕРНОЕ РАСПОЗНАВАНИЕ ВЕРНОЕ РАСПОЗНАВАНИЕ ОРИГИНАЛ: Адрес: г. Челябинск, пр. Ленина, 76. Аудитория 125 главного учебного Корпуса. Многоканальный телефон: (351) или (звонок из УрФО бесплатный). В 2010 году нам присвоена категория «национальный-исследовательский университет». ИЗМЕНЕННЫЙ: Аудитория сто двадцать пять главного учебного корпуса. Многоканальный телефон: (триста пятьдесят один) двести шестьдесят семь-девяносто четыре- пятьдесят два. или восемь-восемьсот- триста-ноль ноль-пятьдесят пять (звонок из УрФО бесплатный). В две тысячи десятом году нам присвоена категория «национальный- исследовательский университет».
в 1943 году – в одна тысяча девятьсот сорок тром году.
СПАСИБО ЗА ВНИМАНИЕ