Психоакустически мотивированный алгоритм экстракции характеристического вектора для идентификации диктора в акустических шумах Автор: Кручок Денис Николаевич,

Презентация:



Advertisements
Похожие презентации
Липецкий государственный технический университет Кафедра прикладной математики Кузьмин Алексей Сергеевич Распознавание образов сверточными искусственными.
Advertisements

ФАКУЛЬТЕТ ПРИКЛАДНОЙ МАТЕМАТИКИ и ИНФОРМАТИКИ Тарасюк Александр Евгеньевич СИСТЕМА РАСПОЗНАВАНИЯ ЛИЦ НА ОСНОВЕ НЕЙРОННОЙ СЕТИ.
МОДУЛЬНАЯ АРХИТЕКТУРА НС. Каждая входная переменная связана только с одним из входов модулей. Выходы всех входных модулей соединены с модулем решения.
Система управления РТК Основная задача системы управления роботом – автоматизация деятельности человека-оператора. Составные части: Система технического.
Распознавания речи распознавания речи. Что такое распознавание речи? Система преобразования речевых сигналов в текст либо в набор управляющих команд.
Распознавание речи – это многоуровневая задача распознавания образов, в которой акустические сигналы анализируются и структурируются в иерархию структурных.
Проблемы распознавания речи славянских языков Хейдоров И.Э. Белорусский государственный университет Сакрамент ИТ.
«Обучение нейронных сетей. Алгоритм обратного распространения ошибки» Курс: «Системы искусственного интеллекта»
Использование технологий XML и COM для решения задач статистической радиофизики Выпускная работа студента магистратурыТруса Александра Александровича Руководитель.
Классификация и применение нейронных сетей.. Нейронные сети. Искусственные нейронные сети представляют собой устройства параллельных вычислений, состоящие.
БЕЗДИФРАКЦИОННОЕ РАСПРОСТРАНЕНИЕ СВЕТОВЫХ ИМПУЛЬСОВ В ФОТОННЫХ КРИСТАЛЛАХ Научный руководитель – д-р физ.-мат. наук, профессор Курилкина С.Н. Выполнила.
К.Ю. Ушаков. Моделирование каналов сотовой связи с использованием цифровых моделей местности 1 Моделирование каналов сотовой связи с использованием.
Фильтры с конечной импульсной характеристикой (КИХ) Введение.
Моделирование поведения взаимодействующих агентов в среде с ограничениями Юданов А.А., студент 525 гр. Научный руководитель: к.ф.-м.н. Бордаченкова Е.А.
Выполнили: Мартышкин А. И. Кутузов В. В., Трояшкин П. В., Руководитель проекта – Мартышкин А. И., аспирант, ассистент кафедры ВМиС ПГТА.
Прогнозирование финансовых рынков с использованием нейронных сетей Выполнила: Кокшарова А.А. ПНИПУ, ФПММ гр. ММЭм-12 Руководитель: к. ф.-м.н. Шумкова Д.Б.
Использование нейросимулятора при определении внешнего вида ребенка по параметрам родителей.
Моделирование и исследование мехатронных систем Курс лекций.
Тема 10. Архитектура и алгоритмы обучения НС Основные парадигмы нейронных сетей обучения с учителем Однослойный перцептрон f f f х1.
Вероятностная НС (Probability neural network) X 1 X n... Y 1 Y m Входной слой Скрытый слой (Радиальный) Выходной слой...
Транксрипт:

Психоакустически мотивированный алгоритм экстракции характеристического вектора для идентификации диктора в акустических шумах Автор: Кручок Денис Николаевич, магистрант Научный руководитель: Петровский Александр Александрович, доктор технических наук, профессор

Цель работы: Разработать алгоритм экстракции характеристического вектора, который обеспечивает идентификацию диктора в акустических шумах

Задачи исследования: Изучить существующие подходы и методы экстракции характеристического вектора, сравнить их между собой. Разработать психоакустическийй мотивированный алгоритм экстракции характеристического вектора для идентификации диктора для идентификации диктора в акустических шумах Спроектировать и реализовать программный модуль идентификации диктора с использованием разработанного алгоритма Сравнить эффективность работы алгоритма с существующими методами для различных шумов окружающей среды (а также и без шумов) Провести анализ полученных результатов

Процесс идентификации диктора 2 этапа, при построении системы идентификации: обучение системы идентификации диктора процесс идентификации диктора 2 идентификации: с закрытым набором участвующих дикторов с открытым набором участвующих дикторов

Зависимость систем идентификации диктора от шума 3 вида подходов борьбы с шумами в речевых выражениях: подходы, основанные на характеристических признаках (CMN, RASTA и др.); подходы, основанные на оценке результатов (изменяют показатели классификации на фрейме); подходы, основанные на моделях дикторов (шум включается в саму модель диктора).

Речевое выражение цифровой вид Диктор идентифицирован Блок извлечения признаков Блок построения модели диктора Блок классификации Блок принятия решения Модели дикторов Идентификатор диктора Вектор характеристических признаков Наиболее вероятная модель диктора Путь этапа тестирования Путь этапа обучения Общая структура систем идентификации диктора LPC MFCC PLP GMM SVM HMM ANN

Психоакустика и её задачи Психоакустика – научная дисциплина, изучающая психологические и физиологические особенности восприятия звука человеком. Задачи: Понять, как слуховая система расшифровывает звуковой образ. Установить основные соответствия между физическими стимулами и слуховыми ощущениями. Выявить, какие именно параметры звукового сигнала являются наиболее значимыми для передачи семантической (смысловой) и эстетической (эмоциональной) информации [1].

Как же слышит ухо?

Слуховое преобразование (AT) ψ(t) – импульсная характеристика базилярной мембраны в улитке. Параметры α и β определяют форму и ширину кохлеарного фильтра в частотной области. Преобразование, которое моделирует бегущую волну в улитке слуховой системы человека, где звуковой сигнал раскладывается на под сигналы с разными частотами. Выполняется в виде банка кохлеарных фильтров, центральные частоты которых соответствуют центральным частотам базилярной мембраны.

Слуховое преобразование (AT) Частотные характеристики (первые 5 кохлеарных фильтров). Рис. 1 Параметры: α=0,8 и β=0,2 Рис. 2 Параметры: α=0,8 и β=0,02

Слуховое преобразование (AT)

Преимущества: Моделирует импульсную характеристику базилярной мембраны и её нелинейное распределение частотных характеристик. С помощью параметров α и β можно изменять форму и ширину кохлеарных фильтров. Свободно от распределения гармоник и вычислительного шума, в сравнении с БПФ. Недостатки При изменении параметров α и β меняется не только форма кохлеарного фильтра, но и уровень амплитуды. У амплитудно-частотных характеристик банка фильтров с увеличением частоты снижается уровень амплитуды.

Алгоритм получения признаков на основе слухового преобразования Рис.3 – Сравнение этапов обработки сигнала: а) схема рассматриваемого алгоритма экстракции; б) процесс обработки звукового сигнала в слуховой системе человека

Получение кепстральных коэффициентов банка кохлеарных фильтров (CFCC)

Получение кохлеарных кепстральных коэффициентов (CFCC)

Закон интенсивности восприятия Закон интенсивности восприятия отображает нелинейную зависимость между интенсивностью звукового сигнала и интенсивностью его восприятия.

Амплитудно-частотные характеристики банка кохлеарных фильтров

Получение кохлеарных кепстральных коэффициентов (CFCC)

Модель системы распознавания Речевое выражение цифровой вид Сообщение об идентификации Блок извлечения признаков Блок обучения нейронной сети Блок классификации Обученные весовые коэффициенты Целевая матрица дикторов Вектор характеристических признаков Наиболее вероятный диктор Путь этапа тестирования Путь этапа обучения

Подготовка обучающего множества Используемая речевая база была подготовлена на основе базы SSC, сформированной для соревнований по разделению и распознаванию речи и дикторов в условиях с шумами [3]. Было выбрано 4 диктора (в дальнейшем количество дикторов планируется увеличить до 19), у каждого по 18 речевых фраз средней продолжительностью около 2 секунд. Сами фразы для обучения системы идентификации не содержат шумы. Примеры фраз: диктор 1, диктор 2, диктор 3, диктор 4.

Подготовка признаков Для обучения было предоставлено: 4 диктора х 18 фраз = 72 фразы. Эти фразы также были поделены на обучающие (15 для каждого диктора) и тестовые (3 для каждого диктора). Тестовые фразы не участвовали в обучении, а только использовались для получения ошибки обучения. Из каждой фразы было извлечено 14 признаков на фрейм. Полученные признаки всех дикторов были сконкатенированы в одну большую матрицу. Для увеличения количества примеров для дальнейшего обучения, полученные признаки были перегруппированы следующим образом

Подготовка признаков … 1 14 Номер признака … Номер фрейма … Номер фрейма 1 4*14=56 3*14=42 2*14=28 1*14=14

Двухслойная сеть Входной характеристический вектор (56 признаков) Первый слой содержит 56 нейронов Второй слой содержит 4 нейрона Выходной вектор (номер нейрона соответствует номеру диктора)

Трёхслойная сеть Входной характеристический вектор (56 признаков) Первый слой содержит 28 нейронов Третий слой содержит 4 нейрона Выходной вектор (номер нейрона соответствует номеру диктора) Второй слой содержит 10 нейронов

Вычисление ошибки обучения Фреймы [n штук]

Выбор архитектуры нейронной сети

Архитектура используемых нейронных сетей Используемые тип нейронных сетей: многослойный персептрон: 2 слоя: 56 входных нейронов – 4 выходных нейронов. 3 слоя: 28 входных нейронов – 10 промежуточных нейронов – 4 выходных нейронов. Обучение с учителем. Метод обратного распространения ошибки. Функция активации на всех слоях, кроме выходного: logsig, на выходе используется softmax. Номер каждого выходного нейрона соответствует номеру диктора.

Влияние количества признаков на результат обучения Архитектура используемой нейронной сети при обучении: 56-4

Акустический шум беспорядочные звуковые колебания разной физической природы, характеризующиеся случайным изменением амплитуды, частоты и др. Использовались следующие типы шумов: bubble noise white noise Примеры фраз с шумом типа bubble: Уровень шума 0 дБ: диктор 1, диктор 2, диктор 3, диктор 4. Примеры фраз с шумом типа white: Уровень шума 0 дБ: диктор 1, диктор 2, диктор 3, диктор 4.

Что использовалось для тестирования системы идентификации В качестве тестирующего множества использовались: само обучающее множество (без шумов); обучающее множество, с уровнями шума (babble): -6 дБ; 0 дБ; 3 дБ; 6 дБ; 9 дБ; тестовое множество, с уровнями шума (babble): -6 дБ; 0 дБ; 3 дБ; 6 дБ; 9 дБ; обучающее множество, с уровнями шума (white): -6 дБ; 0 дБ; 3 дБ; 6 дБ; 9 дБ;

КККФ – кепстральные коэффициенты банка кохлеарных фильтров МЧКК – мел частотные кепстральные коэффициенты Тип шума – babble Результаты: обучающее множество

Результаты системы идентификации на нейронных сетях Результаты: тестовое множество Результаты системы идентификации на основе гауссовых смесей (GMM) КККФ – кепстральные коэффициенты банка кохлеарных фильтров; МЧКК – мел частотные кепстральные коэффициенты; Тип шума – babble; CFCC – кепстральные коэффициенты банка кохлеарных фильтров; MFCC – мел частотные кепстральные коэффициенты; MGFCC – модифицированные кепстральные коэффициенты, основанные на банке гамма тонн фильтров

Результаты системы идентификации на нейронных сетях Результаты: обучающее множество Результаты системы идентификации на основе гауссовых смесей (GMM) КККФ – кепстральные коэффициенты банка кохлеарных фильтров; МЧКК – мел частотные кепстральные коэффициенты; Тип шума – babble; CFCC – кепстральные коэффициенты банка кохлеарных фильтров; MFCC – мел частотные кепстральные коэффициенты; MGFCC – модифицированные кепстральные коэффициенты, основанные на банке гамма тонн фильтров

Результаты системы идентификации на нейронных сетях (используется 16 кохлеарных фильтров) Сравнение результатов распознавания при разном количестве фильтров Результаты системы идентификации на основе гауссовых смесей (GMM) (используется 32 фильтра) КККФ – кепстральные коэффициенты банка кохлеарных фильтров; МЧКК – мел частотные кепстральные коэффициенты; Тип шума – babble; CFCC – кепстральные коэффициенты банка кохлеарных фильтров; MFCC – мел частотные кепстральные коэффициенты; MGFCC – модифицированные кепстральные коэффициенты, основанные на банке гамма тонн фильтров

Заключение Рассмотренный психоакустическийй мотивированный алгоритм извлечения характеристического вектора моделирует процесс восприятия звука слуховой системой человека. Полученные признаки были использованы для идентификации диктора. В результате проведённых экспериментов, алгоритм, основанный на слуховом преобразовании, показал лучшую точность распознавания в акустических шумах, в сравнении с широко используемым алгоритмом извлечения мел частотных кепстральных коэффициентов (идентификация в акустических шумах). В среднем, результаты составили 80% для признаков КККФ к 72% для признаков МЧКК для обучающего множества и 69% для признаков КККФ и 66% для признаков МЧКК для тестового множества. Время тестирования 72-х выражений составило порядка 22 минут. В дальнейшем планируется улучшить алгоритм извлечения признаков (использовать различные функции, моделирующие поведение волосковых клеток), а также увеличить число дикторов для системы идентификации

Список использованных источников: [1] И. Алдошина, Основы психоакустики. [2] Т. А. Ладыженская, Педагогическое речеведение. Словарь- справочник. М.: Флинта, Наука. Под ред. Т. А. Ладыженской и А. К. Михальской [3] The 3rd CHiME Speech Separation and Recognition Challenge [Электронный ресурс]. – Электронные данные. – Режим доступа : [4] Q. Li, An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions / Proc. IEEE Transactions Audio, Speech, and Language Processing., – New Paltz, NY, [5] Q. Li, An auditory-based transform for audio signal processing / Proc. IEEE Workshop Applicat. Signal Process. Audio Acoust., – New Paltz, NY, 2009.

Спасибо за внимание!