Проблемы распознавания речи славянских языков Хейдоров И.Э. Белорусский государственный университет Сакрамент ИТ.

Презентация:



Advertisements
Похожие презентации
Распознавания речи распознавания речи. Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд.
Advertisements

Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных.
Voice Compare Аппаратно-программный комплекс для решения задач голосовой идентификации и аутентификации по фонограммам произвольного содержания.
Автоматическое стенографирование речи: состояние и перспективы Пилипенко В.В. Международный научно-учебный центр информационных технологий и систем.
Меламуд Александр Евгеньевич 445 гр. Научный руководитель: к.т.н. Булашевич Александр Евгеньевич.
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
Фонематический слух Фонематическое восприятие Фонематические представления.
Комплекс программ SDT. Речевые технологии во ВНИИЭФ-СТЛ Работа по контракту с Intel – пакет программ SDT (Speech Developer Toolkit) Oсновное.
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Прогнозирование ARMA- МОДЕЛЕЙ ВРЕМЕННЫХ РЯДОВ С «ПРОПУСКАМИ» БГУ, ФПМИ, МАГИСТРАНТ Лобач Сергей Викторович.
ФАКУЛЬТЕТ ПРИКЛАДНОЙ МАТЕМАТИКИ и ИНФОРМАТИКИ Тарасюк Александр Евгеньевич СИСТЕМА РАСПОЗНАВАНИЯ ЛИЦ НА ОСНОВЕ НЕЙРОННОЙ СЕТИ.
Создание геометрических моделей объектов и снимков с заданными параметрами Говоров А.В. ИКИ РАН, МИИГАиК.
Кодирование и обработка звуковой информации 9 класс. Учитель: Бычкова О.В.
Моделирование поведения взаимодействующих агентов в среде с ограничениями Юданов А.А., студент 525 гр. Научный руководитель: к.ф.-м.н. Бордаченкова Е.А.
Введение в задачи исследования и проектирования цифровых систем Санкт-Петербургский государственный университет Факультет прикладной математики - процессов.
ПРОГНОЗИРОВАНИЕ ДЕЯТЕЛЬНОСТИ ПРЕДПРИЯТИЯ Теоретические основы анализа результатов прогнозирования Лекция 7.
Прогнозирование в Deductor. BaseGroup Labs Задача прогнозирования Прогнозирование – одна из самых востребованных, но при этом и самых сложных задач анализа.
Психоакустически мотивированный алгоритм экстракции характеристического вектора для идентификации диктора в акустических шумах Автор: Кручок Денис Николаевич,
ЭКОНОМЕТРИКА Преподаватель : Сержан Гүлзада Үрбалақызы Кредит : 2 В неделю 1 лекция, 1 лабораторная работа, 1 СРСП.
Введение Литература. Киселевская, С.В., Ушаков, А.А. Вычислительная математика: учебное пособие. – Владивосток : Изд-во ВГУЭС, Турчак, Л.И., Плотников,
Транксрипт:

Проблемы распознавания речи славянских языков Хейдоров И.Э. Белорусский государственный университет Сакрамент ИТ

Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд

Основное назначение систем распознавания речи Управление различными устройствами при помощи голосовых команд Голосовой набор номеров Ввод информации в системы с ограниченным словарем Полноценная диктовка текстов

Основные проблемы распознавания В разные моменты времени одни и те же речевые фрагменты имеют отличающиеся характеристики В разные моменты времени одни и те же речевые фрагменты имеют различную длительность Акустическая изменчивость Временная изменчивость

Основная схема систем распознавания речи Акустический распознаватель База акустических признаков Модели акустических единиц о, ч, э, н, х, а, р, о, ш, ы… Лингвистическая обработка Модели слов, фраз, предложений Правила языка Распознанный орфографический текст Очень хороший сегодня выдался день…….

Акустический распознаватель Основная цель- преобразование акустического сигнала в последовательность акустических единиц, соответствующих содержанию исходного сигнала Этапы акустической обработки Сегментация Выделение признаков Моделирование акустических единиц

Сегментация S1 S2 S3 S4 S5……..Sk Формируется последовательность перекрывающихся участков исходного сигнала по методике кадр-за-кадром

Выделение признаков Основная цель- сопоставление каждому речевому сегменту вектора признаков Требования к вектору признаков: информативность адекватность устойчивость доступность вычисления Сглаживание сигнала Спектральный анализ Кепстральный анализ Выделение формант Дельта-параметры КОНКРЕТНЫЙ ВЫБОР ВЕКТОРА ПРИЗНАКОВ ЗАВИСИТ ОТ РЕШАЕМОЙ ЗАДАЧИ (ЯЗЫКА, УСЛОВИЙ ЗАПИСИ, т.д.) Психоакустический анализ V1 V2 V3 V4 V5……..Vk

Моделирование акустических единиц Необходимо сопоставить последовательности векторов признаков V1 V2 V3 V4 V5……Vk последовательность акустических единиц W1, W2, W3…….Wm Акустические единицы Фонемы Аллофоны Дифоны Трифоны Слова Сочетания слов

Модели акустических единиц Непараметрические моделиПараметрические модели Скрытые марковские модели Нейронные сети Машина на опорных векторах Генетические алгоритмы ……………………… Динамическое программирование

Непараметрические модели Сохраняется копия каждой последовательности векторов признаков для каждого выражения из словаря, затем производится сравнение неизвестного выражения со всеми сохраненными копиями Копия слова 1 Копия слова 2 Копия слова 3 Копия слова М ………… Блок сравнения Словарь Неизвестное слово Х D( Слово 1, X) D( Слово 2, X) D( Слово 3, X) D( Слово M, X) ………… Выбор min D Распознанное слово

Параметрические модели Обучается параметрическая модель для каждого выражения из словаря, затем производится сравнение неизвестного выражения со всеми сохраненными моделями Модель слова 1 Модель слова 2 Модель слова 3 Модель слова М ………… Блок вычисления вероятностей Словарь Неизвестное слово Х P( Слово 1, X) P( Слово 2, X) P( Слово 3, X) P( Слово M, X) ………… Выбор max P Распознанное слово Процедура обучения База данных

Обучение параметрических моделей От качества обучения в значительной степени зависит точность распознавания!!!! Акустическая сегментированная база данных Обучение (статистическое усреднение ) Начальные приближения моделей Модель 1 Модель 2 Модель 3 Модель М …………

Требования к базе данных Множество дикторов, участвующих в записи, разного пола и возраста (не менее 50-ти) Фонетически полный набор выражений для записи Множество записей для одного диктора (не менее 10-ти для каждого выражения ) Качественная запись (хороший микрофон, звуковая карта, студия) Качественная сегментация на акустические единицы (с точностью не ниже 3 мс)

Основные проблемы распознавания о, ч, э, i, н, у, х, i, р, у, о, ш, ы, д н … Акустический распознаватель Очень хороший день Ошибки Замены Пропуски Вставки Причины ошибок???

Основные причины ошибок Ошибочное и нечеткое произношение Плохая дикция говорящего Высокий уровень посторонних шумов Недостаточное или плохое обучение моделей Большая схожесть слов словаря Произнесение с разной интонацией Акцент и диалект говорящего

Пути преодоления Введение мощного блока лингвистической обработки информации!!!!!!!!!!!!!!!

Пути преодоления Использование априорных лингвистических моделей позволяет исправить, дополнить и восстановить правильную последовательность слов Статистические модели Дерево принятия решений Генетические алгоритмы

Особенности славянских языков Большой фонемный состав Недостаточно строгая грамматика Большое количество склонений и спряжений Омонимы