Лекция 3. Аудио и видео кодеки и их применение
Эталонная модель взаимосвязи открытых систем С появлением первых вычислительных сетей была осознана необходимость создания стандартов, определяющих принципы взаимодействия внешних пользователей с сетями, а также сетей между собой. Международной организацией по стандартизации (МОС, ISO) осуществляется разработка международных стандартов для взаимосвязи открытых систем. Под термином открытая система подразумевается такая система, которая может взаимодействовать с любой другой системой, удовлетворяющей требованиям открытой системы. Эталонная модель взаимодействия открытых систем (ЭМ ВОС), основанная на стандартах ISO и соответствующих им рекомендациях ITU-T, была создана в результате широкого обобщения международного научно- технического опыта в области вычислительных сетей.
Модель OSI (Open System Interconnection) разработана международной организацией по стандартизации ISO. Ее описание приведено в документах, имеющих индекс ISO 7498, а также в рекомендации X.200 организации ITU-T. Оба документа являются эквивалентными с технической точки зрения и имеют статус формального международного стандарта. OSI предназначена для определения общей основы процесса стандартизации в области взаимосвязи систем, обеспечивающей целостность и взаимную согласованность стандартов. Разработанные на этой основе стандарты позволяют реализовывать унифицированные средства обмена данными между системами в соответствии с согласованными на международном уровне требованиями, определенными в модели OSI. Системы, взаимодействующие посредством такого рода стандартных процедур обмена данными, называются открытыми системами, а реализуемая ими взаимосвязь - взаимодействием открытых систем. В модели OSI сетевые функции распределены между семью уровнями.
Рис. Модель OSI
Таблица Уровни модели OSI Уровень НаименованиеФункция 1Физический Собственно кабель или физический носитель 2Канальный Передача и прием пакетов, определение аппаратных адресов 3Сетевой Маршрутизация и ведение учета 4Транспортный Обеспечение корректной сквозной пересылки данных 5Сеансовый Аутентификация и проверка полномочий 6Представления данных Интерпретация и сжатие данных 7Прикладной Предоставление услуг на уровне конечного пользователя: почта, регистрация и т.д.
Стандарт взаимодействия открытых систем определяет: эталонную модель взаимодействия открытых систем; конкретный набор услуг, удовлетворяющий эталонной модели; набор протоколов, обеспечивающий удовлетворение услуг, для реализации которых они разработаны. Протокол – это набор правил, обеспечивающих логическое и процедурное сопряжение между одноуровневыми процессами, реализуемыми в различных системах. Таким образом, формализованное правило, определяющее последовательность и формат сообщений, которыми обмениваются сетевые компоненты, лежащие на одном уровне, но в разных узлах, называется протоколом. Модули, реализующие протоколы соседних уровней и находящиеся в одном узле, взаимодействуют друг с другом в соответствии с определенными правилами и с помощью стандартизированных форматов сообщений. Эти правила принято называть интерфейсом. Интерфейс – это совокупность устройств и процедур на границе между двумя подсистемами, обеспечивающих их полное взаимодействие. Интерфейс реализует механическое, электрическое и функциональное сопряжение.
Сетезависимые и сетенезависимые уровни модели OSI
Уровень 1 (физический уровень) обеспечивает механические, электрические, функциональные и процедурные средства оптимизации, поддержание физических соединений для передачи данных между канальными объектами. На этом уровне реализуются электрические, оптические, механические и функциональные интерфейсы с кабелем. Физический уровень предназначен для передачи битов от одного компьютера к другому. Уровень 2 (канальный уровень) осуществляет передачу кадров от сетевого уровня к физическому. Канальный уровень обеспечивает функциональные и процедурные средства для установления, поддержания и разъединения канальных соединений между сетевыми объектами для передачи блоков данных. Этот уровень обнаруживает и в большинстве случаев исправляет ошибки, которые могут возникнуть на физическом уровне.
Уровень 3 (сетевой уровень) отвечает за адресацию сообщений и перевод логических адресов и имен в физические адреса. Этот уровень определяет маршрут от транспортного объекта отправителя к транспортному объекту получателя и обеспечивает независимость особенностей маршрутизации, связанных с установлением и использованием сетевого соединения. На этом уровне решаются такие задачи и проблемы, связанные с сетевым трафиком, как коммутация пакетов, маршрутизация и перегрузки. Уровень 4 (транспортный уровень) обеспечивает прозрачную передачу данных между сеансовыми объектами и освобождает их от функций, связанных с надежностью и эффективностью. Уровень 5 (сеансовый уровень) предназначен для организации и синхронизации диалогового обмена данных. Уровень 6 (представительный уровень) предназначен для представления данных, подлежащих передаче между прикладными объектами. Уровень 7 (прикладной уровень) обеспечивает доступ прикладных процессов к среде во взаимосвязи открытых систем.
Непрерывный рост скоростей и числа локальных вычислительных сетей (ЛВС), растущие потребности в количестве и скорости передаваемой информации, влекут за собой бурное развитие сетей передачи данных с коммутацией пакетов, расширяется перечень услуг телекоммуникаций, включающий такие услуги как: электронный документооборот, электронная коммерция, дистанционное обучение, телеконференции и т. д. Именно на методах пакетной передачи и коммутации построено функционирование современных сетей. Заложенная в них идея проста: информация любого вида (данные, изображение, речь, звук,) представляются в виде цифровой последовательности, которая в дальнейшем делится на пакеты, снабжённые всей необходимой информацией для идентификации, маршрутизации, коррекции ошибок и прочее. Подобный подход позволяет в едином информационном русле передавать все виды информации, используя для этого различные пути и средства, применяя универсальные системы коммутации.
Тип сообщения Типичный размер 2,2 кВ длинные документы (~ 20 стр.)44 кВ графическое изображение 330 кВ 1 мин. аудио 475 кВ 1 мин. видео 2400 кВ Средний объем сообщения
Виртуальное чувство СЛУХ СЛУХ - восприятие звуковых колебаний органами слуха. У человека и высших животных звуки улавливаются наружным ухом и через барабанную перепонку и слуховые косточки (среднее ухо) передаются в улитку лабиринта (внутреннее ухо), где колебания т. н. основной перепонки вызывают возбуждение в чувствительных нервных окончаниях кортиева органа, которое передается в головной мозг. Человек воспринимает колебания частотой от Гц до 20 к Гц. Для сравнения дельфины от 100 Гц до 200 к Гц. Передача звуков посредством Интернет никогда не являлась особой проблемой, так как любой современный компьютер снабжен звуковой платой и колонками.
Так как аренда высокоскоростных каналов для передачи данных на большие расстояния доступна за высокую арендную плату, фирмы-разработчики аппаратных средств и программного обеспечения постоянно ищут решения, направленные на повышение эффективности использования канала связи. Эта проблема решается по двум основным направлениям. Первое связано с развитием технологий клиент-сервер сетевых приложений. Реализация такого подхода позволяет существенно уменьшить интенсивность сетевого трафика за счет того, что обработка запросов и операции с базами данных и массивами производится непосредственно на сервере, а по сети на рабочую станцию передаются только результаты обработанного запроса. Второе – сжатие данных при передаче по каналам связи, которое позволяет значительно увеличить пропускную способность каналов при относительно небольших затратах на приобретение специального оборудования и программного обеспечения
Аудиокодеки и их применение Одним из важных факторов пропускной способности канала, является выбор оптимального алгоритма кодирования/декодирования речевой информации - кодека. Все существующие сегодня типы речевых кодеков по принципу действия можно разделить на три группы: 1. Кодеки с импульсно-кодовой модуляцией (ИКМ) и адаптивной дифференциальной импульсно-кодовой модуляцией (АДИКМ), использующиеся сегодня в системах традиционной телефонии. В большинстве случаев, представляют собой сочетание АЦП/ЦАП. 2. Кодеки с вокодерным преобразованием речевого сигнала возникли в системах мобильной связи для снижения требований к пропускной способности радиотракта. Эта группа кодеков использует гармонический синтез сигнала на основании информации о его вокальных составляющих - фонемах. В большинстве случаев, такие кодеки реализованы как аналоговые устройства. 3. Комбинированные (гибридные) кодеки сочетают в себе технологию вокодерного преобразования/синтеза речи, но оперируют уже с цифровым сигналом. Кодеки этого типа содержат в себе ИКМ или АДИКМ кодек и реализованный цифровым способом вокодер,
В голосовых шлюзах IP - телефонии понятие кодека подразумевает не только алгоритмы кодирования/декодирования, но и аппаратную реализацию. Все методы кодирования, основанные на определенных приложениях о форме сигнала, не подходят при передаче сигнала с резкими скачками амплитуды. Именно такой вид имеет сигнал, генерируемый модемами или факсимильными аппаратами, поэтому аппаратура поддерживающая сжатие, должна автоматически распознавать сигналы факс-аппаратов и модемов и обрабатывать их иначе, чем голосовой трафик. Многие методы кодирования берут свое начало от метода кодирования с линейным предсказанием LPC (Linear Predicative Coding). В качестве входного сигнала в LPC используется последовательность цифровых значений амплитуды, но алгоритм кодирования применяется не к отдельным цифровым значениям, а к определенным их блокам. Для каждого такого блока значений вычисляются его характерные параметры: частота, амплитуда и ряд других. Именно эти значения и передаются по сети. При таком подходе к кодированию речи, во- первых, возрастают требования к вычислительным мощностям специализированных процессоров, используемых для обработки сигнала, а во-вторых, увеличивается задержка при передаче, поскольку кодирование применяется не к отдельным значениям, а к некоторому их набору, который перед началом преобразования следует накопить в определенном буфере. Важно, что задержка в передаче речи связана не только с необходимостью обработки цифрового сигнала, но и непосредственно с характером метода сжатия.
Метод кодирования с линейным предсказанием LPC позволяет достигать очень больших степеней сжатия, которым соответствует полоса пропускания 2,4 или 4,8 кбит/с, однако качество звука здесь сильно страдает. Более сложные методы сжатия речи основаны на применении LPC в сочетании с элементами кодирования формы сигнала. В этих алгоритмах используется кодирование с обратной связью, когда при передаче сигнала осуществляется оптимизация кода. Закодировав сигнал, процессор пытается восстановить его форму и сравнивает результат с исходным сигналом, после чего начинает варьировать параметры кодировки, добиваясь наилучшего совпадения. Достигнув такого совпадения, аппаратура передает полученный код по линиям связи, на противоположной стороне происходит восстановление звукового сигнала. При использовании такого метода требуются более серьезные вычислительные мощности.
Кодек G.711 Рекомендация G.711, описывает кодек, использующий ИКМ преобразование аналогового сигнала с точностью 8 бит, тактовой частотой 8 к Гц и простейшей компрессией амплитуды сигнала. Скорость потока данных на выходе преобразователя равна 64 кбит/с. Для снижения шума квантования и улучшения преобразования сигналов с небольшой амплитудой при кодировании используется нелинейное квантование по уровню. Кодек G.711 широко используется в системах традиционной телефонии с коммутацией каналов. В шлюзах IP-телефонии данный кодек используется редко из-за высоких требований к полосе пропускания и задержкам в канале передачи. Использование G.711 в системах IP-телефонии обосновано лишь в тех случаях, когда требуется обеспечить максимальное качество кодирования речевой информации при небольшом числе одновременных разговоров. Рассмотрим некоторые основные кодеки, используемые в шлюзах IP-телефонии.
Кодек G.726 Одним из алгоритмов сжатия речи ADPCM - адаптивная дифференциальная ИКМ. Этот алгоритм дает такое же качество воспроизведения речи, как и ИКМ, однако для передачи информации при его использовании требуется полоса всего в кбит/с. Метод основан на том, что в аналоговом сигнале, передающем речь, невозможны резкие скачки интенсивности. Поэтому если кодировать не саму амплитуду сигнала, а ее изменение по сравнению с предыдущим значением, то можно обойтись меньшим числом разрядов. В ADPCM изменение уровня сигнала кодируется четырехразрядным числом, при этом частота измерения амплитуды сигнала сохраняется неизменной. Кодек может применяться совместно с кодеком G.711 для снижения скорости кодирования последнего. Кодек предназначен для использования в системах видеоконференций.
Кодек G.723 Рекомендация G.723 описывает гибридные кодеки, использующие технологию кодирования речевой информации, сокращенно называемую - MP-MLQ (Multy -Pulse - Multy Level Quantization- множественная импульсная, многоуровневая квантизация), данные кодеки можно охарактеризовать, как комбинацию АЦП/ЦАП и вокодера. Применение вокодера позволяет снизить скорость передачи данных в канале, что важно для эффективного использования радиотракта и IP-канала. Основной принцип работы вокодера - синтез исходного речевого сигнала посредством адаптивной замены его гармонических составляющих соответствующим набором частотных фонем и согласованными шумовыми коэффициентами. Кодек G.723 осуществляет преобразование аналогового сигнала в поток данных со скоростью 64 кбит/с (ИКМ), а затем при помощи многополосного цифрового фильтра/вокодера выделяет частотные фонемы, анализирует их передает по IP-каналу информацию только о текущем состоянии фонем в речевом сигнале. Данный алгоритм преобразования позволяет снизить скорость кодированной информации до 5,3 -6,3 кбит/с без ухудшения качества речи.
Кодек G.728 Гибридный кодек, описанный в рекомендации G.728 относится к категории LD-CELP - Low Delay - Code Excited Linear Prediction - кодек с управляемым кодом линейным предсказанием и малой задержкой. Кодек обеспечивает скорость преобразования 16 кбит/с, вносит задержку при кодировании от 3 до 5 мс. Кодек предназначен в основном для использования видеоконференций. В устройствах IP- телефонии данный кодек используется достаточно редко.
Кодеки G.729 Семейство включает кодеки G.729, G.729 Annex A, G.729 Annex В (содержит детектор голосовой активности и генератор комфортного шума). Кодеки G.729 сокращенно называют CS-ACELP Conjugate Structure - Algebraic Code Excited Linear Prediction - сопряженная структура с управляемым алгебраическим кодом линейного предсказания. Процесс преобразования вносит задержку 15 мс. Скорость кодирования речевого сигнала составляет 8 кбит/с. в устройствах VoIP данный кодек занимает лидирующее положение, обеспечивая наилучшее качество кодирования речевой информации при достаточно высокой компрессии.
Современные продукты для IP - телефонии применяют самые разные кодеки, стандартные и нестандартные. Конкурентами являются кодеки GSM (13,5 кбит/с) и кодеки серии G, использование которых предусматривает стандарт Н.323 для связи по IP - сети. Единственным обязательным для применения кодеком в Н.323-совместимых продуктах остается стандарт G.711: выдаваемые им массивы данных составляют от 56 до 64 кбит/с. В качестве дополнительных высокопроизводительных кодеков стандарт Н.323 рекомендует G.723 и G последние способны сжимать 16-разрядную ИКМ-речь длительностью 10 мс всего в 10 байт. Стандарт G.729 получил широкое распространение в системах передачи голоса по IP.
MPEG 2: Передача разностной информации кадров
Формирование кадров в MPEG2 I (intra) – изображение с внутрикадровым кодированием, Р (predicted) – с однонаправленным предсказанием, В (bidirectional) – с двунаправленным предсказанием. Чередование кадров при передаче позволяет уменьшить джиттер задержки. Использование кадров с двунаправленным предсказанием раньше, чем с однонаправленным также позволяет уменьшить задержку на приеме.
Структура потока MPEG2
MPEG 4: Пример работы с медиаобъектами Исходный кадр
Особенности MPEG4 MPEG4 фактически задает правила организации объектно-ориентированной среды Работает с медиаобъектами - это ключевое понятие стандарта. Объекты могут быть аудио–, видео–, аудиовизуальными, графическими (плоскими и трехмерными), текстовыми. Они могут быть как естественными (записанными, отснятыми, отсканированными и т. п.), так и синтетическими (т. е. искусственно сгенерированными). Примерами объектов могут служить неподвижный фон, видеоперсонажи отдельно от фона (на прозрачном фоне), синтезированная на основе текста речь, музыкальные фрагменты, трехмерная модель, которую можно двигать и вращать в кадре. Из объектов строятся сцены
Видео-кодеки используемые в IPTV Все форматы сжатия семейства MPEG (MPEG 1, MPEG 2, MPEG 4, MPEG 7) используют высокую избыточность информации в изображениях, разделенных малым интервалом времени. Между двумя соседними кадрами обычно изменяется только малая часть сцены - например, происходит плавное смещение небольшого объекта на фоне фиксированного заднего плана. В этом случае полная информация о сцене сохраняется выборочно - только для опорных изображений. Для остальных кадров достаточно передавать разностную информацию: о положении объекта, направлении и величине его смещения, о новых элементах фона, открывающихся за объектом по мере его движения. Причем эти разности можно формировать не только по сравнению с предыдущими изображениями, но и с последующими (поскольку именно в них по мере движения объекта открывается ранее скрытая часть фона).
Форматы сжатия семейства MPEG сокращают объем информации следующим образом: Устраняется временная избыточность видео (учитывается только разностная информация). Устраняется пространственная избыточность изображений путем подавления мелких деталей сцены. Устраняется часть информации о цветности. Повышается информационная плотность результирующего цифрового потока путем выбора оптимального математического кода для его описания. Форматы сжатия MPEG сжимают только опорные кадры - I-кадры (Intra frame - внутренний кадр). В промежутки между ними включаются кадры, содержащие только изменения между двумя соседними I-кадрами - P- кадры (Predicted frame - прогнозируемый кадр). Для того чтобы сократить потери информации между I-кадром и P-кадром, вводятся так называемые B- кадры (Bidirectional frame - двунаправленный кадр). В них содержится информация, которая берется из предшествующего и последующего кадров. При кодировании в форматах сжатия MPEG формируется цепочка кадров разных типов. Типичная последовательность кадров выглядит следующим образом: IBBPBBIBBPBBIBB... Соответственно, последовательность кадров в соответствии с их номерами будет воспроизводиться в следующем порядке:
Форматы сжатия видео изображения MPEG 1 и MPEG 2. В качестве начального шага обработки изображения форматы сжатия MPEG 1 и MPEG 2 разбивают опорные кадры на несколько равных блоков, над которыми затем производится дискетное косинусное преобразование (DCT). По сравнению с MPEG 1, формат сжатия MPEG 2 обеспечивает лучшее разрешение изображения при более высокой скорости передачи видео данных за счет использования новых алгоритмов сжатия и удаления избыточной информации, а также кодирования выходного потока данных. Также формат сжатия MPEG 2 дает возможность выбора уровня сжатия за счет точности квантования. Для видео с разрешением 352 х 288 пикселей формат сжатия MPEG 1 обеспечивает скорость передачи 1,2 - 3 Мбит/с, а MPEG 2 - до 4 Мбит/с. По сравнению с MPEG 1, формат сжатия MPEG 2 обладает следующими преимуществами: Как и JPEG2000, формат сжатия MPEG 2 обеспечивает масштабируемость различных уровней качества изображения в одном видеопотоке. В формате сжатия MPEG 2 точность векторов движения увеличена до 1/2 пикселя. Пользователь может выбрать произвольную точность дискретного косинусного преобразования. В формат сжатия MPEG 2 включены дополнительные режимы прогнозирования.
Формат сжатия MPEG 4. MPEG4 использует технологию так называемого фрактального сжатия изображений. Фрактальное (контурно- основанное) сжатие подразумевает выделение из изображения контуров и текстур объектов. Контуры представляются в виде т.н. сплайнов (полиномиальных функций) и кодируются опорными точками. Текстуры могут быть представлены в качестве коэффициентов пространственного частотного преобразования (например, дискретного косинусного или вейвлет-преобразования). Диапазон скоростей передачи данных, который поддерживает формат сжатия видео изображений MPEG 4, гораздо шире, чем в MPEG 1 и MPEG 2. Дальнейшие разработки специалистов направлены на полную замену методов обработки, используемых форматом MPEG 2. Формат сжатия видео изображений MPEG 4 поддерживает широкий набор стандартов и значений скорости передачи данных. MPEG 4 включает в себя методы прогрессивного и чересстрочного сканирования и поддерживает произвольные значения пространственного разрешения и скорости передачи данных в диапазоне от 5 кбит/с до 10 Мбит/с. В MPEG 4 усовершенствован алгоритм сжатия, качество и эффективность которого повышены при всех поддерживаемых значениях скорости передачи данных. 4.
MPEG 7 и MPEG 21 - форматы будущего. В октябре 1996 года группа MPEG приступила к разработке формата сжатия MPEG 7, призванным определить универсальные механизмы описания аудио и видео информации. Этот формат получил название Multimedia Content Description Interface. В отличие от предыдущих форматов сжатия семейства MPEG, MPEG 7 описывает информацию, представленную в любой форме (в том числе в аналоговой) и не зависит от среды передачи данных. Как и его предшественники, формат сжатия MPEG 7 генерирует масштабируемую информацию в рамках одного описания. Формат сжатия MPEG 7 использует многоуровневую структуру описания аудио и видео информации. На высшем уровне прописываются свойства файла, такие как название, имя создателя, дата создания и т.д. На следующем уровне описания формат сжатия MPEG 7 указывает особенности сжимаемой аудио или видео информации - цвет, текстура, тон или скорость. Одной из отличительных особенностей MPEG 7 является его способность к определению типа сжимаемой информации. Если это аудио или видео файл, то он сначала сжимается с помощью алгоритмов MPEG 1, MPEG 2, MPEG 4, а затем описывается при помощи MPEG 7. Такая гибкость в выборе методов сжатия значительно снижает объем информации и ускоряет процесс сжатия.
Основное преимущество формата сжатия MPEG 7 над его предшественниками состоит в применении уникальных дескрипторов и схем описания, которые, помимо всего прочего, делают возможным автоматическое выделение информации как по общим, так и по семантическим признакам, связанным с восприятием информации человеком. Процедура занесения в каталог и поиска данных находятся вне сферы рассмотрения этого формата сжатия. Разработка формата сжатия MPEG 21 - это долговременный проект, который называется "Система мультимедийных средств" (Multimedia Framework). Над разработкой этого формата сжатия эксперты начали работать в июне 2000 г. На первых этапах планировалось провести расширение, унификацию и объединение форматов MPEG 4 и MPEG 7 в единую обобщающую структуру. Подразумевалось, что она будет обеспечивать глубокую поддержку управления правами и платежными системами, а также качеством предоставляемых услуг.