Психоакустически мотивированный алгоритм экстракции характеристического вектора для идентификации диктора в акустических шумах Автор: Кручок Денис Николаевич, магистрант Научный руководитель: Петровский Александр Александрович, доктор технических наук, профессор
Цель работы: Разработать алгоритм экстракции характеристического вектора, который обеспечивает идентификацию диктора в акустических шумах
Задачи исследования: Изучить существующие подходы и методы экстракции характеристического вектора, сравнить их между собой. Разработать психоакустическийй мотивированный алгоритм экстракции характеристического вектора для идентификации диктора для идентификации диктора в акустических шумах Спроектировать и реализовать программный модуль идентификации диктора с использованием разработанного алгоритма Сравнить эффективность работы алгоритма с существующими методами для различных шумов окружающей среды (а также и без шумов) Провести анализ полученных результатов
Процесс идентификации диктора 2 этапа, при построении системы идентификации: обучение системы идентификации диктора процесс идентификации диктора 2 идентификации: с закрытым набором участвующих дикторов с открытым набором участвующих дикторов
Зависимость систем идентификации диктора от шума 3 вида подходов борьбы с шумами в речевых выражениях: подходы, основанные на характеристических признаках (CMN, RASTA и др.); подходы, основанные на оценке результатов (изменяют показатели классификации на фрейме); подходы, основанные на моделях дикторов (шум включается в саму модель диктора).
Речевое выражение цифровой вид Диктор идентифицирован Блок извлечения признаков Блок построения модели диктора Блок классификации Блок принятия решения Модели дикторов Идентификатор диктора Вектор характеристических признаков Наиболее вероятная модель диктора Путь этапа тестирования Путь этапа обучения Общая структура систем идентификации диктора LPC MFCC PLP GMM SVM HMM ANN
Психоакустика и её задачи Психоакустика – научная дисциплина, изучающая психологические и физиологические особенности восприятия звука человеком. Задачи: Понять, как слуховая система расшифровывает звуковой образ. Установить основные соответствия между физическими стимулами и слуховыми ощущениями. Выявить, какие именно параметры звукового сигнала являются наиболее значимыми для передачи семантической (смысловой) и эстетической (эмоциональной) информации [1].
Как же слышит ухо?
Слуховое преобразование (AT) ψ(t) – импульсная характеристика базилярной мембраны в улитке. Параметры α и β определяют форму и ширину кохлеарного фильтра в частотной области. Преобразование, которое моделирует бегущую волну в улитке слуховой системы человека, где звуковой сигнал раскладывается на под сигналы с разными частотами. Выполняется в виде банка кохлеарных фильтров, центральные частоты которых соответствуют центральным частотам базилярной мембраны.
Слуховое преобразование (AT) Частотные характеристики (первые 5 кохлеарных фильтров). Рис. 1 Параметры: α=0,8 и β=0,2 Рис. 2 Параметры: α=0,8 и β=0,02
Слуховое преобразование (AT)
Преимущества: Моделирует импульсную характеристику базилярной мембраны и её нелинейное распределение частотных характеристик. С помощью параметров α и β можно изменять форму и ширину кохлеарных фильтров. Свободно от распределения гармоник и вычислительного шума, в сравнении с БПФ. Недостатки При изменении параметров α и β меняется не только форма кохлеарного фильтра, но и уровень амплитуды. У амплитудно-частотных характеристик банка фильтров с увеличением частоты снижается уровень амплитуды.
Алгоритм получения признаков на основе слухового преобразования Рис.3 – Сравнение этапов обработки сигнала: а) схема рассматриваемого алгоритма экстракции; б) процесс обработки звукового сигнала в слуховой системе человека
Получение кепстральных коэффициентов банка кохлеарных фильтров (CFCC)
Получение кохлеарных кепстральных коэффициентов (CFCC)
Закон интенсивности восприятия Закон интенсивности восприятия отображает нелинейную зависимость между интенсивностью звукового сигнала и интенсивностью его восприятия.
Амплитудно-частотные характеристики банка кохлеарных фильтров
Получение кохлеарных кепстральных коэффициентов (CFCC)
Модель системы распознавания Речевое выражение цифровой вид Сообщение об идентификации Блок извлечения признаков Блок обучения нейронной сети Блок классификации Обученные весовые коэффициенты Целевая матрица дикторов Вектор характеристических признаков Наиболее вероятный диктор Путь этапа тестирования Путь этапа обучения
Подготовка обучающего множества Используемая речевая база была подготовлена на основе базы SSC, сформированной для соревнований по разделению и распознаванию речи и дикторов в условиях с шумами [3]. Было выбрано 4 диктора (в дальнейшем количество дикторов планируется увеличить до 19), у каждого по 18 речевых фраз средней продолжительностью около 2 секунд. Сами фразы для обучения системы идентификации не содержат шумы. Примеры фраз: диктор 1, диктор 2, диктор 3, диктор 4.
Подготовка признаков Для обучения было предоставлено: 4 диктора х 18 фраз = 72 фразы. Эти фразы также были поделены на обучающие (15 для каждого диктора) и тестовые (3 для каждого диктора). Тестовые фразы не участвовали в обучении, а только использовались для получения ошибки обучения. Из каждой фразы было извлечено 14 признаков на фрейм. Полученные признаки всех дикторов были сконкатенированы в одну большую матрицу. Для увеличения количества примеров для дальнейшего обучения, полученные признаки были перегруппированы следующим образом
Подготовка признаков … 1 14 Номер признака … Номер фрейма … Номер фрейма 1 4*14=56 3*14=42 2*14=28 1*14=14
Двухслойная сеть Входной характеристический вектор (56 признаков) Первый слой содержит 56 нейронов Второй слой содержит 4 нейрона Выходной вектор (номер нейрона соответствует номеру диктора)
Трёхслойная сеть Входной характеристический вектор (56 признаков) Первый слой содержит 28 нейронов Третий слой содержит 4 нейрона Выходной вектор (номер нейрона соответствует номеру диктора) Второй слой содержит 10 нейронов
Вычисление ошибки обучения Фреймы [n штук]
Выбор архитектуры нейронной сети
Архитектура используемых нейронных сетей Используемые тип нейронных сетей: многослойный персептрон: 2 слоя: 56 входных нейронов – 4 выходных нейронов. 3 слоя: 28 входных нейронов – 10 промежуточных нейронов – 4 выходных нейронов. Обучение с учителем. Метод обратного распространения ошибки. Функция активации на всех слоях, кроме выходного: logsig, на выходе используется softmax. Номер каждого выходного нейрона соответствует номеру диктора.
Влияние количества признаков на результат обучения Архитектура используемой нейронной сети при обучении: 56-4
Акустический шум беспорядочные звуковые колебания разной физической природы, характеризующиеся случайным изменением амплитуды, частоты и др. Использовались следующие типы шумов: bubble noise white noise Примеры фраз с шумом типа bubble: Уровень шума 0 дБ: диктор 1, диктор 2, диктор 3, диктор 4. Примеры фраз с шумом типа white: Уровень шума 0 дБ: диктор 1, диктор 2, диктор 3, диктор 4.
Что использовалось для тестирования системы идентификации В качестве тестирующего множества использовались: само обучающее множество (без шумов); обучающее множество, с уровнями шума (babble): -6 дБ; 0 дБ; 3 дБ; 6 дБ; 9 дБ; тестовое множество, с уровнями шума (babble): -6 дБ; 0 дБ; 3 дБ; 6 дБ; 9 дБ; обучающее множество, с уровнями шума (white): -6 дБ; 0 дБ; 3 дБ; 6 дБ; 9 дБ;
КККФ – кепстральные коэффициенты банка кохлеарных фильтров МЧКК – мел частотные кепстральные коэффициенты Тип шума – babble Результаты: обучающее множество
Результаты системы идентификации на нейронных сетях Результаты: тестовое множество Результаты системы идентификации на основе гауссовых смесей (GMM) КККФ – кепстральные коэффициенты банка кохлеарных фильтров; МЧКК – мел частотные кепстральные коэффициенты; Тип шума – babble; CFCC – кепстральные коэффициенты банка кохлеарных фильтров; MFCC – мел частотные кепстральные коэффициенты; MGFCC – модифицированные кепстральные коэффициенты, основанные на банке гамма тонн фильтров
Результаты системы идентификации на нейронных сетях Результаты: обучающее множество Результаты системы идентификации на основе гауссовых смесей (GMM) КККФ – кепстральные коэффициенты банка кохлеарных фильтров; МЧКК – мел частотные кепстральные коэффициенты; Тип шума – babble; CFCC – кепстральные коэффициенты банка кохлеарных фильтров; MFCC – мел частотные кепстральные коэффициенты; MGFCC – модифицированные кепстральные коэффициенты, основанные на банке гамма тонн фильтров
Результаты системы идентификации на нейронных сетях (используется 16 кохлеарных фильтров) Сравнение результатов распознавания при разном количестве фильтров Результаты системы идентификации на основе гауссовых смесей (GMM) (используется 32 фильтра) КККФ – кепстральные коэффициенты банка кохлеарных фильтров; МЧКК – мел частотные кепстральные коэффициенты; Тип шума – babble; CFCC – кепстральные коэффициенты банка кохлеарных фильтров; MFCC – мел частотные кепстральные коэффициенты; MGFCC – модифицированные кепстральные коэффициенты, основанные на банке гамма тонн фильтров
Заключение Рассмотренный психоакустическийй мотивированный алгоритм извлечения характеристического вектора моделирует процесс восприятия звука слуховой системой человека. Полученные признаки были использованы для идентификации диктора. В результате проведённых экспериментов, алгоритм, основанный на слуховом преобразовании, показал лучшую точность распознавания в акустических шумах, в сравнении с широко используемым алгоритмом извлечения мел частотных кепстральных коэффициентов (идентификация в акустических шумах). В среднем, результаты составили 80% для признаков КККФ к 72% для признаков МЧКК для обучающего множества и 69% для признаков КККФ и 66% для признаков МЧКК для тестового множества. Время тестирования 72-х выражений составило порядка 22 минут. В дальнейшем планируется улучшить алгоритм извлечения признаков (использовать различные функции, моделирующие поведение волосковых клеток), а также увеличить число дикторов для системы идентификации
Список использованных источников: [1] И. Алдошина, Основы психоакустики. [2] Т. А. Ладыженская, Педагогическое речеведение. Словарь- справочник. М.: Флинта, Наука. Под ред. Т. А. Ладыженской и А. К. Михальской [3] The 3rd CHiME Speech Separation and Recognition Challenge [Электронный ресурс]. – Электронные данные. – Режим доступа : [4] Q. Li, An auditory-based feature extraction algorithm for robust speaker identification under mismatched conditions / Proc. IEEE Transactions Audio, Speech, and Language Processing., – New Paltz, NY, [5] Q. Li, An auditory-based transform for audio signal processing / Proc. IEEE Workshop Applicat. Signal Process. Audio Acoust., – New Paltz, NY, 2009.
Спасибо за внимание!