Кодирование текстовой информации
Компьютер работает от электрической сети в которой может быть реализована система, основанная на 2-х состояниях: Есть ток – нет тока Есть напряжение – нет напряжения На этом и базируется работа ЦП 0 – нет тока, «ложь» 1 – есть ток, «истина»
0 или 1 = 1 бит информации Хватит ли 0 и 1, чтобы закодировать все символы, которые мы вводим в компьютер с клавиатуры?
Информация, выраженная с помощью естественных и формальных языков в письменной форме, обычно называется текстовой информацией. Для обработки текстовой информации на компьютере необходимо представить ее в двоичной знаковой системе. Для кодирования каждого знака требуется количество информации равное 8 битам и каждому знаку необходимо поставить в соответствие уникальный двоичный код из интервала до ( в десятичном коде от 0 до 255).
Присваивание знаку конкретного двоичного кода – это вопрос соглашения, который фиксируется в кодовой таблице. Структура существующих кодовых таблиц: Десятичные коды с 0 до 33 – соответствуют операциям; С 33 до 127 – являются интернациональными и соответствуют знакам латинского алфавита, цифрам, знакам арифметических операций и знакам препинания; С 128 до 255 – являются национальными.
В настоящее время существуют пять различных кодировочных таблиц для русских букв : Windows, MS-DOS, Mac, ISO, КОИ-8 Тексты, созданные в одной кодировке не будут правильно отображаться в другой. За перекодировку текста отвечают специальные программы – конверторы.
Сейчас широкое распространение получил международный стандарт кодирования текстовых символов Unicode, который отводит на каждый символ 2 байта (16 битов). Согласно этому стандарту можно закодировать символов. Такого количества достаточно для кодирования русского и латинского алфавита, цифр, знаков и математических символов и других алфавитов.
Одним из первых стандартов кодирования русских букв на компьютерах был КОИ8 КОИ8 ("Код обмена информацией, 8-битный"). Задание: Закодируйте фразу Я изучаю информатику успешно.
Слово «МИР» кодируется последовательностью из 24 бит: Задание: Закодируйте с помощью кодовой таблицы свое собственное имя
Одному символу присваивается код из 8 двоичных разрядов М русская большая – М латинская большая –
Единицы измерения количества информации 8 бит = 1 байт 1 Кбайт = 2 10 байт = 1024 байт 1 Мбайт = 2 10 Кбайт = байт = байт 1 Гбайт = 2 10 Мбайт = байт 1 млрд. байт
Задание: Посчитайте количество бит и байт в следующих выражениях: Мир Миру мир! Vile, vide, vice 3 байта = 24 бит 9 байт = 72 бит 16 байт =128 бит