Информация текстовая, графическая, числовая, звуковая, видео и др. Для хранения данных различной природы применяются разные способы кодирования Одну и ту же информацию можно кодировать разными способами (разными по эффективности и требованиям к ресурсам компьютера) Формат данных – конкретный способ, набор правил кодирования той или иной разновидности информации в компьютере Кодирование информации
Текст рассматривается как линейная последовательность символов Промежутки между словами рассматриваются как специальные символы Каждому символу ставится в соответствие конкретный двоичный код из 8 разрядов (бит) Каждый символ занимает 1 байт памяти, текст занимает столько байт памяти, из скольких символов он состоит С помощью 8 бит можно закодировать всего 256 символов (существует всего 256 различных комбинаций двоичных кодов из 8 разрядов) Кодирование текстовой информации
Кодовая таблица – список всех используемых при записи текстов символов и соответствующих им двоичных кодов
Используются разные кодовые таблицы Общемировой стандарт – таблица ASCII (American Standard Code for Information Interchange – американский стандартный код для обмена информацией) Сначала была разработана как 7-битная (128 символов), затем стала 8-битной Первые 128 символов – строчные и заглавные латинские буквы, цифры, знаки препинания, математические символы и т.д. Последние 128 символов используются для набора национальных символов Кодирование текстовой информации
ASCII
Отсутствие единого стандарта размещения кириллических символов в таблице ASCII породило множество кодировок IBM CP866 (MS-DOS) Windows-1251, CP1251 (Windows) ISO KOI8-R (Unix, электронная почта) Кодирование текстовой информации
Проблема «кракозябр» (отображения документов в неправильной кодировке) Проблема ограниченности набора символов Проблема преобразования одной кодировки в другую Проблема дублирования шрифтов: традиционно для каждой кодировки делался свой шрифт, даже если эти кодировки частично (или полностью) совпадали по набору символов Кодирование текстовой информации
Было признано необходимым создание единой «широкой» кодировки Под хранение одного символа отводится 2 байта (16 бит), а не один (объем текстовой информации удваивается) Стандарт кодирования символов, позволяющий представить знаки практически всех письменных языков. UTF-16 – 2 байта под символ UTF-8 – переменной длины, все латинские символы кодируются в 1 байт (как в ASCII), кириллические – в 2, грузинские – в 3 UNICODE
Кроме самих символов существует оформление – подчеркивание, выделение жирностью, цветом, наклоном и т.д. Абзацы, колонтитулы, сноски, страницы и т.д. Оформление также нуждается в кодировке Текстовый формат определяет одну или несколько кодовых таблиц, которые используются для кодирования символов текста, а также полную совокупность возможностей и правил его оформления TXT (Plaintext) – практически не содержит элементов форматирования RTF, DOC – богатые возможности форматирования Кодирование текстовой информации
Код целого положительного десятичного числа – его запись в двоичной системе счисления (+37 = ) Перевод чисел из десятичной СС в двоичную и обратно выполняется по определенным правилам Отрицательные и дробные числа кодируются более сложными способами С помощью байта можно закодировать числа либо от 0 до 256, либо от -128 до байта – от 0 до байта – от 0 до Кодирование числовой информации
Выберем в качестве графического объекта изображение на экране телевизора Это изображение состоит из некоторого количества горизонтальных линий – строк Каждая строка состоит из мельчайших изображений – точек, пикселов (picsel – PICtureS Element) Растр – весь массив пикселов Разрешение – количество строк на экране и количество точек в строке (напр. 800 х 600 – 800 точек в строке, 600 строчек) Четкость изображения зависит от разрешения. Чем больше разрешение, тем выше четкость Кодирование графической информации
Если просматривать строчки сверху вниз одну за другой (как читаем текст), то можно составить одну сплошную линию Такой способ работы со строками называется строчной разверткой Каждая строка состоит из последовательности точек, получается линейная последовательность элементарных точек 800 х 600 = пикселов Цвет пиксела кодируется Кодирование графической информации
Монохромное изображение – черно-белое с оттенками серого, кодируется 1 байтом (256 оттенков цвета) Цветное изображение кодируется по-разному Один из методов – RGB (Red, Green, Blue). Глаз человека воспринимает все цвета как сумму трех основных цветов – красного, зеленого и синего Каждый из цветов каждого пиксела кодируется 1 байтом Итого оттенков одного пиксела 256 х 256 х 256 ~ 16 млн. Близко к чувствительности глаза (TrueColor) Требует много памяти, поэтому иногда используется HighColor (16 бит на цвет) – 65 тыс. оттенков Кодирование графической информации
При хранении изображения в памяти необходимо кроме цвета отдельных точек необходимо фиксировать размер рисунка, разрешение, яркость и т.д. Графический формат – конкретный способ кодирования необходимой для отображения рисунка информации Форматы JPEG, BMP Кодирование графической информации
Мультимедийные технологии – способы работы со звуком и видео Звук – сложное непрерывное (аналоговое) колебание воздуха (сумма синусоидальных колебаний) Непрерывный сигнал с заданной степенью точности можно представить в виде набора числовых значений – параметров синусоиды – амплитуды, фазы, частоты Набор значений этих параметров – код звука в некоторый момент времени Такой подход к записи звука – преобразование в цифровую форму, оцифровывание, дискретизация Непрерывный звуковой сигнал заменяется дискретным (состоящим из раздельных элементов-значений сигнала, отсчетов, в некоторые моменты времени) Кодирование аудио и видео информации
Частота дискретизации - количество отсчетов сигнала в единицу времени
На рисунке сигнал длительностью 2 секунды заменяется 100 отсчетов (частота дискретизации – 50 Гц) Часто применяемые частоты при записи звука – 8, 11, 22, 44 к Гц 44 к Гц – 1 секунда непрерывного звучания заменяется набором из 44 тысяч отсчетов сигнала Чем выше частота дискретизации, тем выше качество оцифрованного звука Качество звука также определяется количеством битов памяти, отводимых на запись кода одного отсчета – разрядностью преобразования Используется, например, 8, 16, 24 бит На описанных принципах - формат кодирования звука WAV (волновая форма аудио) Кодирование аудио и видео информации
Формат WAV занимает очень большой объем памяти, 1 секунда с частотой дискретизации 44 к Гц и разрядностью 16 бит требует около 10 Мб памяти Кодирование видео – еще более сложная проблема Кроме дискретизации непрерывных движений нужно еще синхронизировать изображение со звуком Как правило используется формат AVI (Audio Video Interleave – чередование аудио и видео) Основные мультимедийные форматы AVI и WAV очень требовательны к количеству памяти Поэтому применяются разные способы сжатия аудио и видео кодов – кодеки (codec, compressor/decompressor) Кодирование аудио и видео информации
Большинство кодеков для звуковых и визуальных данных используют сжатие с потерями, чтобы получать приемлемый размер готового (сжатого) файла Малозаметное ухудшение качества оправдывается значительным уменьшением объема данных Стандартные способы сжатия – предложенные MPEG (Moving Picture Experts Group - Экспертная группа по движущемуся изображению) MPEG-1 – стандарт сжатия аудио и видео MPEG-1 используется в формате Video CD В MPEG-1 есть 3 уровня сжатия звука MPEG-1 audio layer 3 это полное имя весьма популярного формата сжатия аудио MP3 Кодирование аудио и видео информации
Формат MPEG-2 обеспечивает телевизионное качество изображения и стереозвук с приемлемым размером занимаемой памяти MPEG-2 используется в цифровых дисках DVD, цифровом телевидении DVB (цифровое кабельное, спутниковое) MPEG-4 широко используется при кодировании цифровых аудио и видео, кодировании фильмов, видеотелефонии Кодирование аудио и видео информации