Распознавания речи распознавания речи. Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд.

Презентация:



Advertisements
Похожие презентации
Проблемы распознавания речи славянских языков Хейдоров И.Э. Белорусский государственный университет Сакрамент ИТ.
Advertisements

Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных.
Автоматическое стенографирование речи: состояние и перспективы Пилипенко В.В. Международный научно-учебный центр информационных технологий и систем.
Меламуд Александр Евгеньевич 445 гр. Научный руководитель: к.т.н. Булашевич Александр Евгеньевич.
Voice Compare Аппаратно-программный комплекс для решения задач голосовой идентификации и аутентификации по фонограммам произвольного содержания.
Кодирование и обработка звуковой информации 9 класс. Учитель: Бычкова О.В.
Психоакустически мотивированный алгоритм экстракции характеристического вектора для идентификации диктора в акустических шумах Автор: Кручок Денис Николаевич,
Автоматический перевод это - выполняемое на компьютере действие по преобразованию текста на одном естественном языке в эквивалентный по содержанию текст.
Комплекс программ SDT. Речевые технологии во ВНИИЭФ-СТЛ Работа по контракту с Intel – пакет программ SDT (Speech Developer Toolkit) Oсновное.
Фонематический слух Фонематическое восприятие Фонематические представления.
Создание геометрических моделей объектов и снимков с заданными параметрами Говоров А.В. ИКИ РАН, МИИГАиК.
Методы обработки графических изображений. Распознавание человека по изображению лица Плюсы: - не требуется специальное или дорогостоящее оборудование;
Выполнила: Ученица 10 Б класса МБОУСОШ 22 Хрушкова Елена Учитель: Буткевич И. В. «Алгоритмы»«Алгоритмы»
Защита по характеристике речи. На сегодняшний день существует два подхода к идентификации человека по голосу, построенные на учёте структуры речевого.
ПАРАЛЛЕЛЬНАЯ ФИЛЬТРАЦИЯ ИЗОБРАЖЕНИЙ Фурсов В.А., Попов С.Б. Самарский научный центр РАН, Самарский государственный аэрокосмический университет, Институт.
Главное меню Форма ввода исходных данных Меню выбора результатов Область представления результатов моделирования.
Кодирование
Тема урока: «Кодирование звуковой информации» Кодирование звуковой информации.htm.
ФАКУЛЬТЕТ ПРИКЛАДНОЙ МАТЕМАТИКИ и ИНФОРМАТИКИ Тарасюк Александр Евгеньевич СИСТЕМА РАСПОЗНАВАНИЯ ЛИЦ НА ОСНОВЕ НЕЙРОННОЙ СЕТИ.
Устройство компьютера. Содержание Компьютер Назначение компьютера Назначение компьютера Назначение компьютера Назначение компьютера Системный блок Системный.
Транксрипт:

распознавания речи распознавания речи

Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд

Основное назначение систем распознавания речи Управление различными устройствами при помощи голосовых команд Голосовой набор номеров Ввод информации в системы с ограниченным словарем Полноценная диктовка текстов

Основные проблемы распознавания В разные моменты времени одни и те же речевые фрагменты имеют отличающиеся характеристики В разные моменты времени одни и те же речевые фрагменты имеют различную длительность Акустическая изменчивость Временная изменчивость

Основная схема систем распознавания речи Акустический распознаватель База акустических признаков Модели акустических единиц о, ч, э, н, х, а, р, о, ш, ы… Лингвистическая обработка Модели слов, фраз, предложений Правила языка Распознанный орфографический текст Очень хороший сегодня выдался день…….

Акустический распознаватель Основная цель- преобразование акустического сигнала в последовательность акустических единиц, соответствующих содержанию исходного сигнала Этапы акустической обработки Сегментация Выделение признаков Моделирование акустических единиц

Сегментация S1 S2 S3 S4 S5……..Sk Формируется последовательность перекрывающихся участков исходного сигнала по методике кадр-за-кадром

Выделение признаков Основная цель- сопоставление каждому речевому сегменту вектора признаков Требования к вектору признаков: информативность адекватность устойчивость доступность вычисления Сглаживание сигнала Спектральный анализ Кепстральный анализ Выделение формант Дельта-параметры КОНКРЕТНЫЙ ВЫБОР ВЕКТОРА ПРИЗНАКОВ ЗАВИСИТ ОТ РЕШАЕМОЙ ЗАДАЧИ (ЯЗЫКА, УСЛОВИЙ ЗАПИСИ, т.д.) Психоакустический анализ V1 V2 V3 V4 V5……..Vk

Моделирование акустических единиц Необходимо сопоставить последовательности векторов признаков V1 V2 V3 V4 V5……Vk последовательность акустических единиц W1, W2, W3…….Wm Акустические единицы Фонемы Аллофоны Дифоны Трифоны Слова Сочетания слов

Модели акустических единиц Непараметрические моделиПараметрические модели Скрытые марковские модели Нейронные сети Машина на опорных векторах Генетические алгоритмы ……………………… Динамическое программирование

Непараметрические модели Сохраняется копия каждой последовательности векторов признаков для каждого выражения из словаря, затем производится сравнение неизвестного выражения со всеми сохраненными копиями Копия слова 1 Копия слова 2 Копия слова 3 Копия слова М ………… Блок сравнения Словарь Неизвестное слово Х D( Слово 1, X) D( Слово 2, X) D( Слово 3, X) D( Слово M, X) ………… Выбор min D Распознанное слово

Параметрические модели Обучается параметрическая модель для каждого выражения из словаря, затем производится сравнение неизвестного выражения со всеми сохраненными моделями Модель слова 1 Модель слова 2 Модель слова 3 Модель слова М ………… Блок вычисления вероятностей Словарь Неизвестное слово Х P( Слово 1, X) P( Слово 2, X) P( Слово 3, X) P( Слово M, X) ………… Выбор max P Распознанное слово Процедура обучения База данных

Требования к базе данных Множество дикторов, участвующих в записи, разного пола и возраста (не менее 50-ти) Фонетически полный набор выражений для записи Множество записей для одного диктора (не менее 10-ти для каждого выражения ) Качественная запись (хороший микрофон, звуковая карта, студия) Качественная сегментация на акустические единицы (с точностью не ниже 3 мс)

Основные проблемы распознавания о, ч, э, i, н, у, х, i, р, у, о, ш, ы, д н … Акустический распознаватель Очень хороший день Ошибки Замены Пропуски Вставки Причины ошибок???

Основные причины ошибок Ошибочное и нечеткое произношение Плохая дикция говорящего Высокий уровень посторонних шумов Недостаточное или плохое обучение моделей Большая схожесть слов словаря Произнесение с разной интонацией Акцент и диалект говорящего