К.Ю. Поляков, Е.А. Ерёмин, Кодирование информации § 15. Кодирование символов Кодирование символов
Кодирование информации, 10 класс К.Ю. Поляков, Е.А. Ерёмин, Зачем кодировать информацию? 2 Кодирование это представление информации в форме, удобной для её хранения, передачи и обработки. В компьютерах используется двоичный код: данные (код) передача данные (код) хранение передача Lorem ipsum dolor sit amet, consectetur adipisicing elit, sed do eiusmod tempor incididunt ut labore et dolore magna aliqua кодирование обработка
К.Ю. Поляков, Е.А. Ерёмин, Кодирование информации § 15. Кодирование символов 3
Кодирование информации, 10 класс К.Ю. Поляков, Е.А. Ерёмин, Кодирование символов 4 А Б В Г Общий подход: нужно использовать N символов выберем число битов k на символ: 2 k N сопоставим каждому символу код – число от 0 до 2 k – 1 переведем коды в двоичную систему Система Брайля: Откуда формула? ?
Кодирование информации, 10 класс К.Ю. Поляков, Е.А. Ерёмин, Кодирование символов 5 Текстовый файл на экране (символы) в памяти – коды В файле хранятся не изображения символов, а их числовые коды! ! Файлы со шрифтами: *.fon, *.ttf, *.otf
Кодирование информации, 10 класс К.Ю. Поляков, Е.А. Ерёмин, Кодировка ASCII (7-битная) 6 ASCII = American Standard Code for Information Interchange Коды 0-127: 0-31 управляющие символы: 7 – звонок, 10 – новая строка, 13 – возврат каретки, 27 – Esc. 32 пробел знаки препинания:., : ; ! ? специальные знаки: + - * / () {} [] цифры заглавные латинские буквы A-Z строчные латинские буквы a-z Где русские буквы? ?
Кодирование информации, 10 класс К.Ю. Поляков, Е.А. Ерёмин, битные кодировки 7 Кодовые страницы (расширения ASCII): таблица ASCIIнациональный алфавит Для русского языка: CP-866 для MS DOS CP-1251 для Windows (Интернет) КОI8-R для UNIX (Интернет) MacCyrillic для компьютеров Apple Проблема: Windows-1251KOI8-R Привет, Вася!оПХБЕР, бЮЯЪ! рТЙЧЕФ, чБУС!Привет, Вася!
Кодирование информации, 10 класс К.Ю. Поляков, Е.А. Ерёмин, битные кодировки 8 1 байт на символ – файлы небольшого размера! просто обрабатывать в программах нельзя использовать символы разных кодовых страниц одновременно (русские и французские буквы, и т.п.) неясно, в какой кодировке текст (перебор вариантов!) для каждой кодировки нужен свой шрифт (изображения символов)
Кодирование информации, 10 класс К.Ю. Поляков, Е.А. Ерёмин, Стандарт UNICODE знаков, используются около Windows: UTF битов на распространённые символы, 32 бита на редко встречающиеся Linux: UTF-8 8 битов на символ для ASCII, от 16 до 48 бита на остальные совместимость с ASCII более экономична, чем UTF-16, если много символов ASCII 2010 г. – 50% сайтов использовали UTF-8! !