Разложение звукового сигнала на атомарные информационные объекты Звуковой сигнал - s(t) Его спектр: S(f) – это комплексный спектр, описывающий весь набор гармоник, из которых состоит сигнал s(t).
Упрощенная запись: Фурье-преобразование переводит сигнал из физического пространства в информационное:
Гармоника – атомарный информационный объект звука: Ее амплитудный спектр: F0F0 f A(f) A0A0
Сигнал, состоящий из 2-х гармоник: Их амплитудный спектр: F1F1 f A(f) A1A1 F2F2 A2A2
Но это все справедливо для спектров бесконечно длинных гармоник Реально же требуется находить спектры гармоник, на которые раскладываются речевые сигналы, на маленьких временных промежутках (интервалах, окнах), не превышающих по длительности время звучания одной фонемы. (тут-то и возникают проблемы…)
Нарезка на кадры одиночной гармоники Границы кадров
Амплитудный (логарифмический) спектр отдельного кадра предыдущего сигнала Истинное значение частоты F 0 и амплитуды A 0 Артефакты
Нарезка на кадры с помощью гладких окон Границы кадров
Амплитудный (логарифмический) спектр отдельного кадра, вырезанного с помощью гладкого окна Истинное значение Артефакты
При неправильном выборе параметров спектрального анализ можно получить ложные следы (артефакты) Амплитудный спектр одиночной гармоники
Амплитудный спектр обертонов голоса (звук «о» в «fourzero») Окно Гаусса (почти) не порождает артефакты
Самые устойчивые следы те, которые имеют гармонические компоненты (тональные сигналы, резонанс, форманты, обертона голоса). В телеметрии многое строится на тональном управлении Уровни боковых лепестков амплитудных спектров разных типов временных окон При неправильном выборе параметров спектрального анализа можно получить ложные следы (артефакты) Артефакты в спектральном анализе
Временное окно Гаусса артефактов не создает Спектр (линейный, а не логарифмический) одиночной гармоники, полученной при использовании окна Гаусса: время частота - полуширина временного окна Гаусса это же расстояние и между кадрами - полуширина спектра одиночной гармоники
Принцип неопределенности Гейзенберга Если мы построим спектральный фильм с частотой кадров F кадров =1/ t, то гармоники, различающиеся по частоте, менее, чем на f, мы не различим – их следы на спектре сольются (показать на примере).
Звуковой сигнал, состоящий из суммы трех гармоник
Спектр предыдущего звукового сигнала, полученного с помощью очень маленького временного окна Гаусса
Спектр предыдущего звукового сигнала, полученного с помощью чуть большего временного окна Гаусса
Спектр предыдущего звукового сигнала, полученного с помощью еще чуть большего временного окна Гаусса
Спектр предыдущего звукового сигнала, полученного с помощью еще большего временного окна Гаусса
Спектр предыдущего звукового сигнала, полученного с помощью большого временного окна Гаусса
Сонограмма предыдущего звукового сигнала, полученного с помощью большого временного окна Гаусса
Единственными (квази)гармоническими компонентами в речевом сигнале являются затухающие гармоники, возникающие в резонаторе (в речевом тракте) после хлопка голосовых связок. Взаимное расположение частот этих затухающих гармоник и определяет формантную структуру речевого сигнала. Форма свободно затухающего гармонического колебания
Спектр одного кадра в середине предыдущего сигнала: Резонансная частота
Отрезок реального речевого сигнала между двумя соседними импульсами (хлопками) голосовых связок. Примерное положение голосового импульса Отклик резонаторов речевого тракта (РТ) на голосовой импульс возбуждения РТ
Спектр одного кадра в середине предыдущего сигнала: Резонансные частоты речевого тракта
Общие рекомендации по визуализации резонансных частот (формант) речевого тракта: Частота кадров спектрального фильма должна быть на порядок (раз в 10) больше частоты работы голосовых связок. Но увеличивать частоту кадров спектрального фильма до бесконечности нельзя, поскольку из принципа неопределенности Гейзенберга следы формант на сонограмме начнут сливаться.