КОДИРОВАНИЕТЕКСТАКОДИРОВАНИЕТЕКСТАКОДИРОВАНИЕТЕКСТАКОДИРОВАНИЕТЕКСТА
Кодирование информации - процесс формирования определенного представления информации. В более узком смысле под термином «кодирование» часто понимают переход от одной формы представления информации к другой. Обратное преобразование называют декодированием. Способ кодирования зависит от цели, ради которой оно осуществляется: сокращение записи, засекречивание (шифровка) информации, удобство обработки и т. п.
Кодирование информации в компьютере Все виды информации кодируются на машинном языке, в виде логической последовательности нулей и единиц:
Кодирование текстовой информации Процесс кодирования текстовой информации состоит в том, что каждому символу присваивается уникальный десятичный (или шестнадцатеричный) код, который затем представляется в виде двоичного. Данный код называется кодом символа. Конкретное соответствие между символами и их кодами называется системой кодировки. Каждая кодировка задается своей собственной кодовой таблицей.
Кодировка ASCII (American Standard Code for Information Interchange) Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и т. д.) Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания.
Кодировки русского алфавита Коды со 128 по 255 используются для кодировки букв национальных алфавитов, символов псевдографики и научных символов (расширенные ASCII-коды). Каждое такое расширение было связано с используемой операционной системой или программным обеспечением, разрабатывавшимся в стране. Для русского языка существует пять кодовых таблиц: CP866, CP1251, КОИ-8, ISO, Mac. Одному и тому же коду в разных кодировках соответствуют разные символы.
Кодировки русского алфавита Слово «Текст» в этой кодировке выглядит так: (Code Page – 866)
Кодировки русского алфавита Слово «Текст» в этой кодировке выглядит так:
Кодировки русского алфавита Слово «Текст» в этой кодировке выглядит так: (Код Информационного Обмена 8-битный)
Кодировки русского алфавита Все перечисленные выше кодировки являются восьмибитными и позволяют кодировать не более 256 (2 8 ) символов, что делает невозможным одновременное использование нескольких языков. Международный стандарт Unicode отводит на каждый символ не один, а два байта (16 бит), и поэтому с его помощью можно закодировать не 256, а (2 16 ) различных символов. Слово «Текст» в этой кодировке выглядит так: А
При определении информационного объема текстового сообщения следует пользоваться формулой: Слово «Текст» в 8-битной кодировке занимает 40 бит; в кодировке Unicode – 80. Кодирование текстовой информации N = 2 i N – мощность алфавита (количество символов в алфавите); i – количество бит для хранения одного символа.
ВОПРОСЫ 1.Как изменится объем текста при его преобразовании из стандартной кодировки в кодировку Unicode? 2.Сколько существует кодировок латинского алфавита? 3.Сколько существует кодировок русского алфавита? 4.Какой информационный объем займет слово «Текст», если его закодировать с помощью русского алфавита из 32 букв (регистр буквы имеет значение!)?
ОТВЕТЫ 1.Увеличится в два раза. 2.Одна. 3.Пять бит.