Кодирование информации Двоичное кодирование текстовой информации
СОДЕРЖАНИЕ: Теоретические основы вопроса Определение числового кода Ввод символов по числовому коду Приложения Задания для самостоятельной работы
Начиная с конца 60-х годов, компьютеры все больше стали использоваться для обработки текстовой информации и в настоящее время большая часть персональных компьютеров в мире (и наибольшее время) занято обработкой именно текстовой информации. Традиционно для кодирования одного символа используется количество информации, равное 1 байту, то есть I = 1 байт = 8 битов. Для кодирования одного символа требуется 1 байт информации. Если рассматривать символы как возможные события, то по формуле N = 2 I можно вычислить, какое количество раз личных символов можно закодировать: N = 2 I = 2 8 = 256.
Такое количество символов вполне достаточно для представления текстовой информации, включая прописные и строчные буквы русского и латинского алфавита, цифры, знаки, графические символы и пр. Кодирование заключается в том, что каждому символу ставится в соответствие уникальный десятичный код от 0 до 255 или соответствующий ему двоичный код от до Таким образом, человек различает символы по их начертаниям, а компьютер по их кодам. При вводе в компьютер текстовой информации происходит ее двоичное кодирование, изображение символа преобразуется в его двоичный код.
Пользователь нажимает на клавиатуре клавишу с символом, и в компьютер поступает определенная последовательность из восьми электрических импульсов (двоичный код символа). Код символа хранится в оперативной памяти компьютера, где занимает один байт. В процессе вывода символа на экран компьютера производится обратный процесс декодирование, то есть преобразование кода символа в его изображение. Важно, что присвоение символу конкретного кода это вопрос соглашения, которое фиксируется в кодовой таблице.
Первые 33 кода (с 0 по 32) соответствуют не символам, а операциям (перевод строки, ввод пробела и так далее). Коды с 33 по 127 являются интернациональными и соответствуют символам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания. Коды с 128 по 255 являются национальными, то есть в национальных кодировках одному и тому же коду соответствуют различные символы. К сожалению, в настоящее время существуют пять различных кодовых таблиц для русских букв (КОИ8, СР1251, СР866, Мас, ISО), поэтому тексты, созданные в одной кодировке, не будут правильно отображаться в другой.
Таблица 1. Кодировки символов Двоичный код Десятичный код КОИ8СР1251СР866МасISO ………… Удаление последнего символа (клавиша Backspace) ………… Перевод строки (клавиша Enter) ………… Пробел ! ………… ЪААк ………… бВ--Т ………… щЭ_Ён ………… ьянераздел. пробел п
В настоящее время широкое распространение получил новый международный стандарт Unicode, который отводит на каждый символ не один байт, а два, поэтому с его помощью можно закодировать не 256 символов, а N = 2 16 = = различных символов. Эту кодировку поддерживают последние версии платформы Microsoft Windows & Office (начиная с 1997 года). Каждая кодировка задается своей собственной кодовой таблицей. Как видно из таблицы 1, одному и тому же двоичному коду в различных кодировках поставлены в соответствие различные символы.
Например, последовательность числовых кодов 221, 194, 204 в кодировке СР1251 образует слово «ЭВМ», тогда как в других кодировках это будет бессмысленный набор символов. К счастью, в большинстве случаев пользователь не должен заботиться о перекодировках текстовых документов, так как это делают специальные программы- конверторы, встроенные в приложения.
Определение числового кода символа 1.Запустить текстовый редактор MS Word. 2.Ввести команду [Встав ка-Символ...]. 3.На экране появится диалоговая панель Символ. Центральную часть диалогового окна занимает таблица символов для определенного шрифта (например, Times New Roman).
Символы располагаются последовательно слева направо и построчно, начиная с символа Пробел в левом верхи углу и кончая буквой «я» в правом нижнем углу таблицы. Выбрать символ и в раскрывающемся списке из: тип кодировки. В текстовом поле Код знака: появится его числовой код.
Ввод символов по числовому коду Запустить стандартную программу Блокнот. С помощью дополнительной цифровой клавиатуры при нажатой клавише {Аlt} ввести число 0224, отпустить клавишу {Аlt}. В документе появится символ «а». Повторить процедуру для числовых кодов от 0225 до В документе появится последовательность из 12 символов «абвгдежзий» в кодировке Windows (СР1251).
С помощью дополнительной цифровой клавиатуры при нажатой клавише {Аlt} ввести число 224, в документе появится символ «р». Повторить процедуру для числовых кодов от 225 до 233, в документе появится последовательность из 12 символов «рстуфхцчшщ» в кодировке MS-DOS (СР866).
Приложение Международная кодировка ASCII Кодировка КОИ8-Р Кодировка CP1251 Примеры различных кодировок
Задания для самостоятельной работы
1 Закодируйте с помощью копировочной таблицы ASCII следующие тексты: 1. Password; 2. Windows; 3. Norton Commander. 2 Декодируйте с помощью кодировочной таблицы ASCII следующие тексты: F 72 6Е F; С 6F F 75; А 78 2В 79 3D 30.
3 Перейдите от двоичного кода к шестнадцатеричному и декодируйте следующий текст: ; ;
4 Перейдите от десятичного кода к шестнадцатеричному и декодируйте следующие тексты: ; ;
5 Представьте в форме шестнадцатеричного кода слово «БИС» во всех пяти кодировках. Воспользуйтесь CD-ROM для получения кодировочных таблиц. 6 Как будет выглядеть слово «диск», записанное в кодировке CP1251, в других кодировках. 7 В текстовом режиме экран обычно разбивается на 25 строк по 80 символов в строке. Определите объем текстовой информации, занимающей весь экран монитора.
8 Во сколько раз уменьшится информационный объем страницы текста при его преобразовании из кодировки Unicode (таблица кодировки содержит символов) в кодировку Windows CP1251 (таблица кодировки содержит 256 символов)? 9 Каков информационный объем текста, содержащего слово ИНФОРМАТИКА, в 8-ми битной кодировке? в 16-битной кодировке?