1 Технологии мультимедиа Москин Николай Дмитриевич доцент, к.т.н. математический факультет Петрозаводский государственный университет
2 §8 Видео Благодаря инертности зрительного восприятия последовательность неподвижных изображений, демонстрируемая с достаточно высокой скоростью, воспринимается, как непрерывный зрительный образ. Анимация – создание всех кадров по отдельности либо с помощью компьютера, либо записывая по одному неподвижные изображения; Видео – запись последовательности кадров реального движения в реальном мире с помощью видеокамеры.
3 Размер видео Видеоряд состоит из набора кадров, каждый из которых является отдельным изображением. Например: Размер кадра 768×576 пикселей с 24 битовым цветом, записанный в стандарте PAL; Частота воспроизведения 25 кадров в секунду; Одна секунда видео 31 Мбайт; Одна минута видео 1,85 Гбайт.
4 Стандарты аналогового широковещания Существует три набора стандартов, используемых в аналоговом цветном широковещательном телевидении: NTSC; PAL; SECAM.
5 Стандарт NTSC NTSC (National Television System Committee – Национальный комитет по телевизионным стандартам), используется в Северной Америке, Японии, Филиппинах, в ряде стран Карибского бассейна и Южной Америки (в 1953 году впервые в мире начато цветное вещание в США): 30 кадров в секунду; 525 строк (из них 480 относятся к изображению).
6 Стандарт PAL PAL (Phase Alternating Line – построчное изменение фазы), применяется в большинстве стран Европы, Австралии, Новой Зеландии, Китае, ряде стран Африки и Южной Америки (представлен как стандарт в 1967 году): 25 кадров в секунду; 625 строк (из них 576 относятся к изображению).
7 Стандарт SECAM SECAM (Sequential Couleur avec Memoire – последовательный цвет с памятью), используется во Франции, странах бывшего СССР и странах Африки (исторически первый европейский стандарт цветного телевидения, 1956 год - начало разработки стандарта во Франции). 25 кадров в секунду; 625 строк (из них 576 относятся к изображению).
8 Стандарты аналогового широковещания
9 Цифровые стандарты телевидения В настоящее время существуют следующие основные стандарты: DVB (Digital Video Broadcasting) – стандарт, созданный в Европе: DVB-S (цифровое спутниковое ТВ), DVB-C (цифровое кабельное ТВ), DVB-T (цифровое эфирное ТВ), DVB-H (мобильное ТВ). С 15 января 2015 года цифровое эфирное телевещание в России перешло на стандарт DVB-T2, вещание по DVB-T прекращено.
10 Цифровые стандарты телевидения ATSC (Advanced Television Systems Committee) – стандарт в Северной Америке (США, Канаде), Южной Корее; ISDB (Integrated Services Digital Broadcasting) – стандарт в Латинской Америке (Бразилии), Японии; DTMB (Digital Terrestrial Multimedia Broadcast - мультимедийное вещание наземного цифрового телевидения) – в Китае.
11 Карта распространения стандартов цифрового телевидения в мире
12 Чересстрочная развертка В телевизоре на ЭЛТ (электронно-лучевой трубке) три электронных луча (по одному для каждого аддитивного основного цвета) излучаются и отклоняются магнитным полем так, что они пробегают по экрану, вычерчивая строку развертки, затем смещаются ниже и вычерчивают вторую строку и т.д. Экран должен обновляться около 40 раз в секунду, чтобы не было мерцания. Однако такая быстрая передача всего изображения была признана непрактичной.
13 Чересстрочная развертка Каждый кадр делится на два полукадра, один из которых состоит из нечетных, а другой – из четных строк кадра. Полукадры называют по- разному: четным и нечетным, верхним и нижним, полукадром 1 и полукадром 2.
14 Прогрессивная развертка На компьютерном мониторе, чередование обычно не используется. Вместо этого строки каждого кадра записываются в буфер обычным способом сверху вниз. Такой подход называется прогрессивной (построчной) разверткой. Процесс создания одного кадра из двух полу кадров чересстрочного формата для вывода на экран с прогрессивной разверткой называется деинтер- лессинг (англ. deinterlacing).
15 «Гребешковый эффект» на объединенном кадре
16 «Гребешковый эффект» на объединенном кадре Чтобы избежать этого эффекта, можно избавиться от чередования, усреднив два полукадра при построении одного кадра. Другой вариант – отбросить половину полукадров (скажем, все нечетные полукадры), а при получении полных кадров интерполировать пропущенную информацию по оставшимся полукадрам.
17 Кодеки Для оцифровки видео используются устройства, которые сжимают и восстанавливают сигналы, называемые компрессорами либо декомпрессорами, или кодеками. Аппаратный кодек (кодек цифровой видеокамеры или плата видеозахвата), может оцифровать видеосигналы, записать их на компьютере, а затем воспроизвести на внешнем мониторе (телевизоре); Программный кодек – это программа, которая выполняет те же функции и воспроизводит видео на обычных компьютерных мониторах.
18 Симметричные и асимметричные кодеки Симметричные кодек (сжатие и восстановление фрагмента видео длится одинаково долго); Асимметричный кодек (асимметрия может проявляться в любом направлении, но на практике сжатие обычно длится дольше, чем восстановление).
19 Стандарты цифрового видео Дискретизацию цифрового видео определяет стандарт CCIR 601 (Rec.ITU-R BT.601). Организация ранее называемая CCIR (Comite Consultatif International de la Radiodiffusion – Международный консультативный комитет по радиовещанию), теперь называется ITU-R (International Telecommunications Union Radiocommunication Sector – Сектор радиосвязи Международного союза по телекоммуникациям).
20 CCIR 601 Видео, дискретизированное согласно стандарту CCIR 601, состоит из компоненты цветности и двух компонент разности цветов (YC B C R ). На первом этапе уменьшения размера цифрового видео для каждого значения разности цветов берется меньшее количество выборок чем для цветности; данный процесс называется субдискретизацией цветности.
21 Субдискретизация цветности 4:2:2 Человеческий глаз менее чувствителен к изменениям цвета, чем к изменениям яркости. В каждой строке выборок Y в два раза больше, чем выборок B – Y и R – Y.
22 DV DV-формат (Digital Video – цифровое видео) появился в середине 90-х годов: Скорость 25 Мбит/с (около 3 Мбайт/с); Субдискретизация цветности 4:1:1; Коэффициент сжатия с потерями 5:1; 1 час видео = 12 Гбайт; DVCAM и DVPRO – разновидности DV, использующие те же алгоритмы сжатия и потоки данных.
23 MPEG MPEG (Motion Picture Experts Group – Экспертная группа по вопросам движущихся изображений): MPEG-1: исходный стандарт видео и аудио компрессии, был выпущен в 1992 году. Позднее использовался, как стандарт для Video CD, включает в себя MPEG-1 Audio Layer 3 (MP3); MPEG-2: выпущен в 1995 году, используется в цифровом широковещательном телевидении и с некоторыми модификациями в DVD;
24 Профили и уровни MPEG Все стандарты MPEG разрабатывались как семейства стандартов, организованных в различные профили и уровни. Профиль определяет поднабор признаков потока данных, схему субдискретизации цветности; Уровень определяет ряд параметров, такие как максимальный размер кадра и скорость передачи данных.
25 Профили MPEG-2 Аббр.Имя КадрыYC R C B Потоки SPSimple ProfileI, P4:2:01 MPMain ProfileI, P, B4:2:01 422P4:2:2 ProfileI, P, B4:2:21 SNRSNR ProfileI, P, B4:2:01-2 SPSpatial ProfileI, P, B4:2:01-3 HPHigh ProfileI, P, B4:2:21-3
26 Уровни MPEG-2 Аббр.Имя Пикселей в строке Стро- ки Кадров/ сек. Битрейт (Мбит/с) LLLow Level MLMain Level H-14High HLHigh Level
27 Профили и уровни MPEG Наиболее распространенной комбинацией уровня и профиля в MPEG-2 является основной профиль на основном уровне (Main Profile at Main Level – в котором применяется развертка CCIR 601 с субдискретизацией цветности 4:2:0; она поддерживает скорость передачи данных 15 Мбит/с и предлагает наиболее искусное представление сжатых данных, возможных при использовании MPEG-2.
28 MPEG-3 и MPEG-4 MPEG-3: изначально разрабатывался для HDTV (High-definition television – телевидение высокой четкости), но затем его заменили на MPEG-2; MPEG-4: появился в 1998 году. Определяет кодирование мультимедийных потоков, составленных из различных типов объектов: видео, неподвижных изображений, анимации, текстуры, трехмерных моделей и др. При таком подходе каждый тип объектов представлен оптимально.
29 DivX и Xvid Xvid (DivX – наоборот) является основным конкурентом DivX Pro. Это свободная программа, распространяемая по лицензии GNU General Public License ( Последняя версия появилась в апреле 2014 года. DivX (Digital video express) – кодек, производящий компрессию/декомпрессию видео, сжатого в стандарте MPEG-4. В формате DivX существует возможность регулировки яркости, контрастности, насыщенности, оттенка и качества при воспроизведении.
30 MPEG-7 и MPEG-21 MPEG-7: «интерфейс описания мультимедийного содержания» (Multimedia Content Description Interface). В отличие от предыдущих форматов MPEG, он описывает информацию, представленную в любой форме и не зависит от среды передачи; MPEG-21: «система мультимедийных средств» (Multimedia Framework). Проект имеет целью определить рамки для создателей, дистрибьюторов и сервис-провайдеров в открытом рынке мультимедиа. Работа над этим форматом началась в 2000 году.
31 Введение в сжатие видео Существует два подхода к сжатию последовательности растровых изображений: Пространственное сжатие (spatial), по отдельности сжимается каждое неподвижное изображение; Временное сжатие (temporal), записывается отличие ряда последовательных кадров. Иногда их называют внутрикадровое (intra-frame) и межкадровое (inter-frame) сжатие соответственно.
32 Алгоритм временного сжатия Выделяется несколько кадров последовательности, которые называются ключевыми. Они либо не сжимаются вообще, либо подвергаются пространственному сжатию. Часто ключевые кадры выбираются с постоянным интервалом (например, каждый шестой кадр). Все кадры между парой ключевых заменяются разностными кадрами, на которых записывается только разница между исходным кадром и предыдущим кадром или предыдущим ключевым кадром.
33 Изображение межкадровой разности
34 Motion JPEG Технология сжатия видеопоследовательностей посредством применения сжатия JPEG к каждому кадру (без временного сжатия) называется Motion JPEG (MJPEG). MJPEG используется в аналоговых платах записи видео, в web-камерах, системах видеонаблюдения, цифровых фотоаппаратах. Motion JPEG 2000 – система кодирования видео- изображения с применением внутрикадровой технологии сжатия JPEG 2000.
35 Сжатие DV В сжатии DV при постоянной скорости передачи 25 Мбит/с получается более качественное изобра- жение, чем может дать MJPEG. Режим субдискретизации зависит от используемого стандарта видео – PAL или NTSC. Как показано на рисунках, количество выборок каждого компонента в каждом блоке пикселей размером 4×2 одинаково.
36 Субдискретизация цветности 4:2:0 (DV PAL) и 4:1:1 (DV NTSC)
37 Сжатие DV Блоки размером 8×8 пикселей каждого кадра преобразуются с использованием ДКП (дискретное косинус-преобразование) и квантуются; затем к зигзагообразной последовательности применяются групповое кодирование и кодирование Хаффмана, как и в схеме сжатия JPEG. Однако имеется ряд существенных отличий (см. следующий кадр).
38 Особенности сжатия DV Если кадр статичен и изображения в полукадрах не различаются, преобразование применяется ко всему блоку 8×8 пикселей и в нем задействуются чередую- щиеся строки четного и нечетного полукадров. Если запечатлено значительное движение и полукадры сильно отличаются, блок разбивается на два блока 8×4, каждый из которых кодируется независимо.
39 Особенности сжатия DV Поток DV должен использовать точно 25 Мбит для хранения каждой секунды видео. Чтобы доступные биты можно было распределять между парами кадров, коэффициенты соотносятся с байтами не по блочному принципу, а в пределах большого «сегмента видео»; Каждый такой сегмент строится следующим образом: систематически берутся блоки размером 8×8 из пяти различных областей кадра; данный процесс называется перетасовкой (shuffling). Перетасовка усредняет количество деталей в каждом сегменте видео.
40 Сжатие MPEG-1 Сжатие MPEG-1 объединяет: Пространственное сжатие, основанное (как JPEG и DV) на квантовании и кодировании частотных коэффициентов, полученных после применения к данным дискретного косинус-преобразования. Временное сжатие, основанное на «компенсации движения» («motion compensation») Записываются только смещение и изменившиеся пиксели в небольшой области.
41 Область потенциальных изменений
42 Сжатие MPEG-1 Схемы сжатия MPEG-1 не пытаются идентифици- ровать объекты на сцене. Каждый кадр делится на макроблоки размером 16×16 пикселей и предска- зывается их местоположение на следующем кадре (перебираются все возможные смещения в пре- делах ограниченного диапазона и выбирается наилучшее). Далее строится разностный кадр: все макроблоки вычитаются из предсказанных прототипов. Также сохраняются векторы движения, описывающие предсказанное смещение макроблоков между кадрами.
43 Разбиение на блоки 16×16
44 Поиск соответствия
45 Скомпенсированный кадр с векторами движения для блоков
46 Разность между скомпенсирован- ным кадром и текущим кадром
47 I-, P- и B-изображения I-изображения («intra» - «внутренние») – это ключевые кадры MPEG, которые сжимаются исключительно пространственно; P-изображения («predicted» - «предсказанные») – это разностные кадры, использующие предыдущие I- или P-изображения; B-изображения («bi-directional prediction» - «дву- направленное предсказание») – кадры, которые предсказываются по предыдущим и последующим кадрам.
48 Группа изображений Группа изображений (Group of Pictures – GOP): повторяющаяся последовательность I-, P- и B- изображений; всегда начинается с I-изображения; все три типа изображений сжимаются с помощью JPEG. К числу популярных схем GOP относятся IBBPBBPBB и IBBPBBPBBPBB.
49 Группа изображений Стрелки указывают прямое и двунаправленное пред- сказание. Последовательность MPEG (IBBPBB) в порядке отображения:
50 Группа изображений Обычно P-изображения сжимаются втрое сильнее, чем I-изображения, а B-изображения – в полтора раза сильнее, чем P-изображения. В то же время восстанавливать B-изображения сложнее, чем другие. I-изображения желательно включать достаточно часто, чтобы гарантировать произвольный доступ к нескольким кадрам каждой секунды.
51 Группа изображений Последовательность MPEG в порядке потока битов: Все предсказываемые кадры располагаются после кадров, от которых они зависят (стрелки направлены слева направо).
52 Сжатие MPEG-4 MPEG-4 определяет для видеоданных набор профилей. Высшие профили используют метод деления сцены на видеообъекты произвольной формы (например, певец и декорации, на фоне которых ведется выступление), которые можно сжимать по отдельности. Нижние профили – Simple Profile и Advanced Simple Profile – ограничены прямоугольными объектами, в частности – завершенными кадрами.
53 Сжатие MPEG-4 Simple Profile Использует для межкадрового сжатия только P- изображения; Advanced Simple Profile Использует B-изображения; Дополнительная техника, эффективная при сжатии статических сцен с обычным движением камеры (панорамная съемка, наезд камеры), является Global Motion Compensation («глобальная компенсация движения»).
54 Другие кодеки мультимедиа Cinepack – больше подходит для материала, содержащего много движения; Intel Indeo – подобен Cinepack, но менее асиммет- ричен и сжимает видео примерно на 30% быстрее. Indeo лучше подходит для статичного материала, точнее передает цвета; Sorenson – лучший из этих трех кодеков с точки зрения качества. Все три кодека основаны на технологии векторного квантования.
55 Векторное квантование Здесь каждый кадр делится на маленькие прямоугольные блоки пикселей – «векторы» схемы. Кодек использует набор постоянных векторов, называемый кодовой книгой. Векторы кодовой книги представляют типичные шаблоны, которые могут встретиться на изображении (области, закрашенные одним цветом, острые или плавные края, различные текстуры и др.). Квантование – процесс сопоставления каждому вектору изображения вектора кодовой книги, который наиболее точно его аппроксимирует.
56 Векторное квантование Таким образом, векторное квантование обеспечивает сжатие, поскольку каждый вектор изображения можно заменить индексом из кодовой книги. Во всех трех схемах (Cinepak, Intel Indeo и Sorenson) сжатие с помощью векторного квантования усиливается временным сжатием с использованием ключевых и разностных кадров.
57 Сравнение кодеков Средний объем памяти для хранения кадра, состав- ляет (при средних настройках качества): 161 Кбайт для исходного цифрового видео; 95 Кбайт для видео MPEG-4; 114 Кбайт для видео Sorenson; 68,5 Кбайт для Cinepack. MPEG-4 предлагает хорошее сжатие без ощутимой потери качества и является лучшим выбором кодека, если решающим фактором не является эффектив- ность восстановления данных.
58 Кадр, обработанный Cinepack
59 Кадр, обработанный Sorenson
60 Кадр, обработанный MPEG-4
61 H.261 H.261 – стандарт сжатия видео, принятый в 1990 году ITU (International Telecommunication Union). Ширина потока p*64 килобит/с (где p=1,…,30). Прост в аппаратной реализации, но невысокая степень сжатия. Стандарт поддерживал CIF (Common Intermediate Format) и QCIF (Quarter Common Intermediate Format) с низким разрешением 352×288 и 176×144 соответственно (частота от 5 до 30 кадров/с).
62 H.263 H.263 – стандарт сжатия видео, представляет собой развитие устаревшего стандарта H.261. Предназначен для передачи видео по каналам с низкой пропускной способностью (обычно ниже 128 кбит/с). Применяется при организации видеоконференций. Поддерживает CIF, QCIF, SQCIF (128×96), 4CIF (704×576), 16CIF (1408×1152) и отдельно настраиваемые разрешения.
63 H.264 H.264 (полное название MPEG-4 Part 10 AVC (Advanced Video Coding)/H.264) – лицензируемый стандарт сжатия видео, предназначенный для достижения высокой степени сжатия видеопотока при сохранении высокого качества (принят в 2003 году). Используется в цифровом телевидении высокой четкости (HDTV). Отличается большими требованиями к ресурсам компьютера.
64 H.265 H.265 или HEVC (High Efficiency Video Coding – высокоэффективное кодирование) – формат видеосжатия с применением более эффективных алгоритмов по сравнению с H.264. Это совместная разработка экспертной группы по видеокодированию ITU-T Video Coding Experts Group (VCEG) и экспертной группы по движущемуся изображению MPEG. Поддерживаются форматы кадра с разрешением до 8192×4320 пикселей. В апреле 2013 года принят в качестве стандарта ITU-T.
65 Формат AVI AVI (Audio Video Interleave – чередование аудио и видео) – формат-контейнер, т. е. он может содер- жать видео/аудио данные, сжатые с использованием разных комбинаций кодеков, например: DivX-видео + WMA-аудио; Indeo-видео + PCM-аудио. Является стандартным контейнером для видеоза- писей в ОС Windows. Впервые был использован Microsoft в 1992 году.
66 Matroska Matroska («Матрёшка») – проект создания открытого, гибкого, кроссплатформенного формата мультимедийного контейнера и набора инструментов для работы с данными в этом формате. Расширения: *.mkv – видео, *.mka – аудиофайлы, *.mks – субтитры. В отличие от AVI формат Matroska более универсален, легко редактируется, может содержать различные языки аудио, главы видео, меню (как в DVD), субтитры, поддерживает трансляцию через Интернет, быструю перемотку по файлу, устойчив к ошибкам.
67 Формат QuickTime QuickTime – мультимедийная архитектура, разработанная Apple в 1991 году и доступная на платформах Mac и Windows. Используя QuickTime, программные приложения могут легко работать с широким кругом форматов файлов и кодеков: MPEG-1, MPEG-4, DV, OMF (высокопроизводитель- ный профессиональный формат), AVI (Microsoft) и его расширение OpenDML, аудиоформаты AIFF, WAVE, цифровые изображения BMP, GIF, JPEG и др.