Скачать презентацию
Идет загрузка презентации. Пожалуйста, подождите
Презентация была опубликована 11 лет назад пользователемГерман Шумяцкий
1 Меламуд Александр Евгеньевич 445 гр. Научный руководитель: к.т.н. Булашевич Александр Евгеньевич
2 HMM (Hidden Markov Model) – на данный момент - основной способ для распознавания речи Алгоритмы, основанные на HMM решают задачу распознавания лабораторной речи – причина популярности
3 Необходим достаточно длинный участок речи Необходимо обучение на большой выборке (более 10 часов размеченной вручную речи) На реальной речевом сигнале (например телефонный сигнал) метод работает плохо (всего-лишь 30-35% правильно распознанных фонем)
4 Производить предварительную сегментацию сигнала с целью: Параметризация сигнала, согласованная с границами фонем Один из вариантов: предварительная сегментация по виду первичного возбуждения: «подсказка» HMM ограниченного набора фонем заданного артикуляционного класса.
5 Попытки решать задачу сегментации методами спектрального анализа, обычно по оценке модуля градиента спектрограммы. Неудачно: мало разрешение по времени Подход к сегментации на основе признаков, имеющих физический смысл. Перспективен. С начала 90-х в связи с активным внедрением HMM метод заброшен Задача: сегментация речевого потока на основании источника первичного возбуждения в двух вариантах постановки: на жесткой сетке кадров и с определением границ точных сегментов
6 Артикуляционные классы: голос, шум, пауза/смычка, взрыв Группы фонем: гласные, звонкие согласные, глухие согласные и смычные 2 фонемы 1-го класса – редкость => прицел на решение общей задачи сегментации
7 Спектральные методы не применить: в одной из постановок задач нужна точность до 1 мс Вероятностные не применить из-за желания «подсказывать» HMM Временные статистики. Сложность: ответа на вопрос, какую статистику где применять, что ей подавать на вход в случае зашумленного сигнала, нет. Это предмет моего исследования
8 Общая энергия: голос/не голос, пауза/шум Количество переходов через ноль: шумные/смычные, вокализованные участки/звонкие щели Анализ локальных экстремумов: шум/голос, вокализованные участки/звонкие щели Отношение вышеназванных статистик при фильтрации в разных частотных полосах: звонкая смычка/все остальное, шум/глухая смычка
9 Точность автоматической сегментации 70% (Точность HMM при алфавите в 5 фонем 70% ) Основные ошибки в гласных и звонких согласных, глухих смычных и шумных согласных
10 Доработка методов обработки статистик Адаптивная настройка порогов статистик – ожидается существенное повышение точности Привлечение данных об основном тоне для уточнения границ
Еще похожие презентации в нашем архиве:
© 2024 MyShared Inc.
All rights reserved.