Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных.

Презентация:



Advertisements
Похожие презентации
Распознавания речи распознавания речи. Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд.
Advertisements

Проблемы распознавания речи славянских языков Хейдоров И.Э. Белорусский государственный университет Сакрамент ИТ.
Кодирование и обработка звуковой информации 9 класс. Учитель: Бычкова О.В.
Работу выполняла: Ученица 9 А класса Макеева Вероника.
С начала 90-х годов ПК получили возможность работать со звуковой информацией. Каждый ПК, имеющий звуковую плату, микрофон, наушники или колонки, может.
К ОДИРОВАНИЕ ЗВУКОВОЙ ИНФОРМАЦИИ. Кодирование звуковой информации План: 1. Звуковая информация. 2. Временная дискретизация звука. 3. Частота дискретизации.
Кодирование звуковой информации Цифровая форма. Дискретизация и квантование. 2011, МБОУ города Новосибирска «Лицей 130 имени академика М.А.Лаврентьева»
Тема: Двоичное кодирование звуковой информации. Глава: Кодирование и обработка графической и мультимедийной информации Учебник: Н.Угринович. Базовый курс.
Кодирование информации. Кодирование и декодирование Для обмена информацией с другими людьми человек использует естественные языки. Наряду с естественными.
Кодирование и обработка звуковой информации. Звуковая информация. Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну с.
Моделирование поведения взаимодействующих агентов в среде с ограничениями Юданов А.А., студент 525 гр. Научный руководитель: к.ф.-м.н. Бордаченкова Е.А.
Описание формата МР 3 MP3 – это наиболее популярный формат хранения и передачи информации в цифровой.
Создание различных тестов с помощью системы VOTUM Для программы VOTUM-web.
План-конспект урока по информатике и икт (9 класс) по теме: Кодирование и обработка звуковой информации. Создание звукового клипа
Вероятностная НС (Probability neural network) X 1 X n... Y 1 Y m Входной слой Скрытый слой (Радиальный) Выходной слой...
Методы тестирования Впрактике тестирования используются методы: статический, детерминированный, стохастический ивреальном масштабе времени. Статическое.
Информация и информационные процессы Выполнила: Крохина Анастасия. Руководитель: Цацин Артем Александрович.
Разложение звукового сигнала на атомарные информационные объекты Звуковой сигнал - s(t) Его спектр: S(f) – это комплексный спектр, описывающий весь набор.
Меламуд Александр Евгеньевич 445 гр. Научный руководитель: к.т.н. Булашевич Александр Евгеньевич.
«Кодирование и обработка звуковой информации». Звуковая информация Звук представляет собой распространяющуюся в воздухе, воде или другой среде волну (колебания.
Транксрипт:

Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных элементов (например, фонем), слов, фраз и предложений

Обычно, поток звуковых данных, записанный с высокой дискретизацией (20 КГц при записи с микрофона либо 8 КГц при записи с телефонной линии)

Поступающий сигнал должен быть изначально трансформирован и сжат, для облегчения последующей обработки. Есть различные методы для извлечения полезных параметров и сжатия исходных данных в десятки раз без потери полезной информации. Наиболее используемые методы: 1. анализ Фурье; 2. линейное предсказание речи; 3. кепстральный анализ.

Результатом анализа сигнала является последовательность речевых кадров. Обычно, каждый речевой кадр – это результат анализа сигнала на небольшом отрезке времени (порядка 10 мс.), содержащий информацию об этом участке (порядка 20 коэффициентов). Для улучшения качества распознавания, в кадры может быть добавлена информация о первой или второй производной значений их коэффициентов для описания динамики изменения речи.

Для анализа состава речевых кадров требуется набор акустических моделей. Рассмотрим две наиболее распространенные из них. 1. Шаблонная модель. 2. Модель состояний.

В качестве акустической модели выступает каким- либо образом сохраненный пример распознаваемой структурной единицы (слова, команды). Вариативность распознавания такой моделью достигается путем сохранения различных вариантов произношения одного и того же элемента (множество дикторов много раз повторяют одну и ту же команду). Используется, в основном, для распознавания слов как единого целого (командные системы).

Каждое слово моделируется как последовательность состояний указывающих набор звуков, которые возможно услышать в данном участке слова, основываясь на вероятностных правилах. Этот подход используется в более масштабных системах.

Состоит в сопоставлении различных акустических моделей к каждому кадру речи и выдает матрицу сопоставления последовательности кадров и множества акустических моделей. Для шаблонной модели, эта матрица представляет собой Евклидово расстояние между шаблонным и распознаваемым кадром. Для моделей, основанных на состоянии, матрица состоит из вероятностей того, что данное состояние может сгенерировать данный кадр.

Используется для обработки временной вариативности, возникающей при произношении слов (например, растягивание или съедание звуков).

В результате работы, система распознавания речи выдает последовательность (или несколько возможных последовательностей) слов, которая, наиболее вероятно, соответствует входному потоку речи.