Двоичное кодирование текстовой информации. Текст – последовательность символов компьютерного алфавита. Текстовая информация – это информация, выраженная с помощью естественных и формальных языков в письменной форме. Текстовая информация – прописные и строчные буквы русского и латинского алфавитов, цифры, знаки и математические символы.
Кодирование текстовой информации Для представления текстовой информации достаточно 256 различных знаков. По формуле N=2I можно вычислить, какое количество информации необходимо, чтобы закодировать каждый знак: N = 2I => 256 = 2I => 28 = 2I => I = 8 битов Для кодирования одного символа требуется один байт информации.
Человек различает знаки по их начертанию, а компьютер - по их двоичным кодам. При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение знака преобразуется в его двоичный код. Пользователь нажимает на клавиатуре клавишу со знаком, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код знака). Код знака хранится в оперативной памяти компьютера, где занимает одну ячейку.
Таблица кодировки При кодировании каждому символу алфавита ставиться в соответствие уникальный двоичный код. Таблица кодировки – это таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды).
Кодировки знаков
В существующих кодовых таблицах десятичные коды : от 0 до 32 соответствуют операциям (перевод строки, ввод пробела и т.д.); от 33 по127 соответствуют знакам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания; от 128 по 255 в различных национальных кодировках одному и тому же коду соответствуют разные знаки.
Десятичные коды некоторых символов в различных кодировках В настоящее время существуют пять различных кодовых таблиц для русских букв (Windows, MS-DOS, КОИ-8, Mac, ISO) поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
Таблицы кодировки русскоязычных символов КОИ-8 CP1251 (Windows) CP866 (MS-DOS)
Mac ISO Таблицы кодировки русскоязычных символов
Кодовая таблица ASCII Для разных типов ЭВМ используются различные таблицы кодировки. С распространением персональных компьютеров типа IBM PC международным стандартом стала таблица кодировки под названием ASCII (American Standard Code for Information Interchange) - американский стандартный код для информационного обмена.
Понятие кодировки Unicode(UCS - 2) В последние годы широкое распространение получил новый международный стандарт кодирования текстовых символов Unicode, который отводит на каждый символ 2 байта (16 битов). По формуле можно определить количество символов, которые можно закодировать согласно этому стандарту: N = 2I = 216 = Такого количества символов достаточно, чтобы закодировать не только русский и латинский алфавиты, цифры, знаки и математические символы, но и греческий, арабский, иврит и другие алфавиты.