Меламуд Александр Евгеньевич 445 гр. Научный руководитель: к.т.н. Булашевич Александр Евгеньевич.

Презентация:



Advertisements
Похожие презентации
Распознавания речи распознавания речи. Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд.
Advertisements

Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных.
Проблемы распознавания речи славянских языков Хейдоров И.Э. Белорусский государственный университет Сакрамент ИТ.
В 11 из диагностической работы за г Методическая разработка учителя Поляковой Е. А.
Инвариантность изображений в задачах оптической обработки информации Мельков Алексей Евгеньевич.
Методы предварительной обработки дактилоскопических изображений в биометрических системах идентификации личности Магистерская диссертация Кривицкой Д.П.
Корреляционный анализ детерминированных дискретных сигналов.
Звуки речи [ ] Гласные [ ] Ударные Безударные Согласные [ ] Твёрдые Звонкие ^ Глухие Мягкие, Звонкие ^ Глухие.
Выполнил студент 544 группы Лев Гуревич Научный руководитель: Проф. Олег Николаевич Граничин Рецензент: Аспирант Дмитрий Шалымов.
Обучение Звукобуквенному анализу. Звуки могут быть речевые и не речевые.
ГОУВПО «Московский Энергетический Институт (Технический Университет)» Кафедра Радиотехнических систем Тема магистерской диссертации: «РАЗРАБОТКА И РЕАЛИЗАЦИЯ.
«Задача верификации лица на основе 3D модели» Студент 445 группы Петров Николай Научный руководитель: к.ф.-м.н. Вахитов А.Т.
Научные руководители: доктор технических наук Селянинов Михаил Юрьевич, старший преподаватель Позняков Андрей Михайлович Выделение контуров при цифровой.
Выпускная работа по предмету «Основы информационных технологий» Шейбак Анастасия Николаевна Руководители: доцент Афанасьев Геннадий Константинович доцент.
ТРИ АСПЕКТА ЗВУКОВОЙ РЕЧИ ЗВУК АКУСТИЧЕСКИЙ (физический) аспект: звук - колебательные движения воздушной среды, вызванные органами речи АРТИКУЛЯЦИОННЫЙ.
Параллельные алгоритмы для симплициального подразделения области с итерационным измельчением вблизи границы Кафедра параллельных алгоритмов Математико-Механический.
Автоматизация процесса проведения медицинских анализов производимых при помощи визуальных методов. Автоматизация процесса проведения медицинских анализов.
Магистерская диссертация на тему: « Применение методов научной и информационной визуализации к задачам отображения в сфере электроэнергетики» Работу выполнил:
Тест по теме: Начать тест Начать тест. 2 вариант ответа 3 вариант ответа 1 вариант ответа 4 вариант ответа Вопрос 1.
Докладчик: Белозерчик Александр Речевые технологии в создании эффективных систем самообслуживания и оценки качества работы операторов КЦ.
Транксрипт:

Меламуд Александр Евгеньевич 445 гр. Научный руководитель: к.т.н. Булашевич Александр Евгеньевич

HMM (Hidden Markov Model) – на данный момент - основной способ для распознавания речи Алгоритмы, основанные на HMM решают задачу распознавания лабораторной речи – причина популярности

Необходим достаточно длинный участок речи Необходимо обучение на большой выборке (более 10 часов размеченной вручную речи) На реальной речевом сигнале (например телефонный сигнал) метод работает плохо (всего-лишь 30-35% правильно распознанных фонем)

Производить предварительную сегментацию сигнала с целью: Параметризация сигнала, согласованная с границами фонем Один из вариантов: предварительная сегментация по виду первичного возбуждения: «подсказка» HMM ограниченного набора фонем заданного артикуляционного класса.

Попытки решать задачу сегментации методами спектрального анализа, обычно по оценке модуля градиента спектрограммы. Неудачно: мало разрешение по времени Подход к сегментации на основе признаков, имеющих физический смысл. Перспективен. С начала 90-х в связи с активным внедрением HMM метод заброшен Задача: сегментация речевого потока на основании источника первичного возбуждения в двух вариантах постановки: на жесткой сетке кадров и с определением границ точных сегментов

Артикуляционные классы: голос, шум, пауза/смычка, взрыв Группы фонем: гласные, звонкие согласные, глухие согласные и смычные 2 фонемы 1-го класса – редкость => прицел на решение общей задачи сегментации

Спектральные методы не применить: в одной из постановок задач нужна точность до 1 мс Вероятностные не применить из-за желания «подсказывать» HMM Временные статистики. Сложность: ответа на вопрос, какую статистику где применять, что ей подавать на вход в случае зашумленного сигнала, нет. Это предмет моего исследования

Общая энергия: голос/не голос, пауза/шум Количество переходов через ноль: шумные/смычные, вокализованные участки/звонкие щели Анализ локальных экстремумов: шум/голос, вокализованные участки/звонкие щели Отношение вышеназванных статистик при фильтрации в разных частотных полосах: звонкая смычка/все остальное, шум/глухая смычка

Точность автоматической сегментации 70% (Точность HMM при алфавите в 5 фонем 70% ) Основные ошибки в гласных и звонких согласных, глухих смычных и шумных согласных

Доработка методов обработки статистик Адаптивная настройка порогов статистик – ожидается существенное повышение точности Привлечение данных об основном тоне для уточнения границ