Двоичное кодирование текстовой информации Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации.
Двоичное кодирование текстовой информации на компьютере Информация, выраженная с помощью естественных и формальных языков в письменной форме, обычно называется текстовой информацией. Для представления текстовой информации достаточно 256 различных знаков. N=2 I N=2 I => 256=2 I => 2 8 =2 I => I=8 битов
Двоичное кодирование текстовой информации Для кодирования каждого знака требуется количество информации, равное 8 битам, т.е. длина двоичного кода знака составляет 8 двоичных знаков. Каждому знаку необходимо поставить в соответствие уникальный двоичный код от до (или десятичный код от 0 до 255). Важно, что присвоение символу конкретного кода – это вопрос соглашения, которое фиксируется кодовой таблицей.
Таблица кодировки Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется таблицей кодировки. Для разных типов ЭВМ используются различные кодировки. С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standart Code for Information Interchange) – Американский стандартный код для информационного обмена.
Таблица кодировки ASCII Стандартной в этой таблице является только первая половина, т.е. символы с номерами от 0 ( ) до 127 ( ). Сюда входят буква латинского алфавита, цифры, знаки препинания, скобки и некоторые другие символы. Остальные 128 кодов используются в разных вариантах. В русских кодировках размещаются символы русского алфавита. В настоящее время существует 5 разных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Mac, ISO). В настоящее время получил широкое распространение новый международный стандарт Unicode, который отводит на каждый символ два байта. С его помощью можно закодировать (2 16 = ) различных символов.
Таблица стандартной части ASCII
Таблица расширенного кода ASCII
КОИ8 («Код обмена информацией, 8-битный»)
Microsoft Windows, CP1251 ("CP" означает "Code Page", "кодовая страница")
От начала 90-ых годов, времени господства операционной системы MS DOS, остается кодировка CP866.
Компьютеры фирмы Apple, работающие под управлением операционной системы Mac OS, используют свою собственную кодировку Mac.
Международная организация по стандартизации (International Standards Organization, ISO) утвердила в качестве стандарта для русского языка еще одну кодировку под названием ISO
Вопросы: Для представления текстовой информации в компьютере необходимо символов? 256 Код одного знака занимает в оперативной памяти…… 1 байт=8 бит Код одного знака таблицы Unicode занимает в оперативной памяти…. 2 байта
Задания: 1. Определите количество информационного объема выражения «Жесткий диск», записанного в кодировке Unicode. 2. Каждая страница текста состоит из 32-х строк, в каждой строке по 64 символа. Определите максимальное количество страниц такого текста (без учетов символов форматирования), записанного в кодировке КОИ-8 на USB Flash drive (UFD) ёмкостью 512 Мб.
Задания: 1. Сообщение на русском языке первоначально было записано в 16- битном коде UNICODE. При его перекодировке в 8 битную кодировку КОИ-8 информационное сообщение уменьшилось на 32 бита. Сколько символов содержит сообщение? 2. Сообщение на греческом языке, содержащее 150 символов, было записано в 16-битном коде UNICODE. Каков информационный объем сообщения в байтах?
Домашнее задание: Прочитать п Ответить на вопросы после параграфа.