распознавания речи распознавания речи
Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд
Основное назначение систем распознавания речи Управление различными устройствами при помощи голосовых команд Голосовой набор номеров Ввод информации в системы с ограниченным словарем Полноценная диктовка текстов
Основные проблемы распознавания В разные моменты времени одни и те же речевые фрагменты имеют отличающиеся характеристики В разные моменты времени одни и те же речевые фрагменты имеют различную длительность Акустическая изменчивость Временная изменчивость
Основная схема систем распознавания речи Акустический распознаватель База акустических признаков Модели акустических единиц о, ч, э, н, х, а, р, о, ш, ы… Лингвистическая обработка Модели слов, фраз, предложений Правила языка Распознанный орфографический текст Очень хороший сегодня выдался день…….
Акустический распознаватель Основная цель- преобразование акустического сигнала в последовательность акустических единиц, соответствующих содержанию исходного сигнала Этапы акустической обработки Сегментация Выделение признаков Моделирование акустических единиц
Сегментация S1 S2 S3 S4 S5……..Sk Формируется последовательность перекрывающихся участков исходного сигнала по методике кадр-за-кадром
Выделение признаков Основная цель- сопоставление каждому речевому сегменту вектора признаков Требования к вектору признаков: информативность адекватность устойчивость доступность вычисления Сглаживание сигнала Спектральный анализ Кепстральный анализ Выделение формант Дельта-параметры КОНКРЕТНЫЙ ВЫБОР ВЕКТОРА ПРИЗНАКОВ ЗАВИСИТ ОТ РЕШАЕМОЙ ЗАДАЧИ (ЯЗЫКА, УСЛОВИЙ ЗАПИСИ, т.д.) Психоакустический анализ V1 V2 V3 V4 V5……..Vk
Моделирование акустических единиц Необходимо сопоставить последовательности векторов признаков V1 V2 V3 V4 V5……Vk последовательность акустических единиц W1, W2, W3…….Wm Акустические единицы Фонемы Аллофоны Дифоны Трифоны Слова Сочетания слов
Модели акустических единиц Непараметрические моделиПараметрические модели Скрытые марковские модели Нейронные сети Машина на опорных векторах Генетические алгоритмы ……………………… Динамическое программирование
Непараметрические модели Сохраняется копия каждой последовательности векторов признаков для каждого выражения из словаря, затем производится сравнение неизвестного выражения со всеми сохраненными копиями Копия слова 1 Копия слова 2 Копия слова 3 Копия слова М ………… Блок сравнения Словарь Неизвестное слово Х D( Слово 1, X) D( Слово 2, X) D( Слово 3, X) D( Слово M, X) ………… Выбор min D Распознанное слово
Параметрические модели Обучается параметрическая модель для каждого выражения из словаря, затем производится сравнение неизвестного выражения со всеми сохраненными моделями Модель слова 1 Модель слова 2 Модель слова 3 Модель слова М ………… Блок вычисления вероятностей Словарь Неизвестное слово Х P( Слово 1, X) P( Слово 2, X) P( Слово 3, X) P( Слово M, X) ………… Выбор max P Распознанное слово Процедура обучения База данных
Требования к базе данных Множество дикторов, участвующих в записи, разного пола и возраста (не менее 50-ти) Фонетически полный набор выражений для записи Множество записей для одного диктора (не менее 10-ти для каждого выражения ) Качественная запись (хороший микрофон, звуковая карта, студия) Качественная сегментация на акустические единицы (с точностью не ниже 3 мс)
Основные проблемы распознавания о, ч, э, i, н, у, х, i, р, у, о, ш, ы, д н … Акустический распознаватель Очень хороший день Ошибки Замены Пропуски Вставки Причины ошибок???
Основные причины ошибок Ошибочное и нечеткое произношение Плохая дикция говорящего Высокий уровень посторонних шумов Недостаточное или плохое обучение моделей Большая схожесть слов словаря Произнесение с разной интонацией Акцент и диалект говорящего