Кодирование текстовой информации
Минимальной и основной единицей измерения информации является один бит. Бит – количество информации, необходимое для передачи сообщения «Да»/«Нет». Бит может принимать только два возможных значения «1» и «0». Восемь бит составляют один байт Байт = 1 килобайт = 2 10 байт = 2 13 бит 1024 килобайт = 1 мегабайт = 2 20 байт = 2 23 бит 1024 мегабайт = 1 гигабайт = 2 30 байт = 2 33 бит Все символы кодируются одинаковым числом бит (алфавитный подход). чаще всего используют кодировки, в которых на символ отводится 8 бит (8-битные) или 16 бит (16-битные). После знака препинания внутри (не в конце!) текста ставится пробел. Две строчки текста не могут занимать 100 Кбайт в памяти.
Для вычисления количества информации в сообщении об одном из равновероятных событий, общее количество которых равно N, используется формула 2 i = N, где i – количество информации в сообщении. Для вычисления количества информации в сообщении из k символов некоторого алфавита, в котором N различных знаков, используется формула Q = k i, где Q – количество информации в сообщении, а i находится из формулы 2 i = N. Скорость передачи информации измеряется в битах в секунду и вычисляется по формуле V = Q / t, где Q – количество информации в сообщении, а t – время передачи сообщения.
Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке длиной в 20 символов, первоначально записанного в 2-байтном коде Unicode, в 8-битную кодировку КОИ-8. На сколько бит уменьшилась длина сообщения? В ответе запишите только число. при 16-битной кодировке объем сообщения – 16*20 бит; когда его перекодировали в 8-битный код, его объем стал равен– 8*20 бит; таким образом, сообщение уменьшилось на 16*20 – 8*20 = 8*20 = 160 бит; ответ: 160 бит. Пример задания: Решение: нужно внимательно читать, в каких единицах требуется записать ответ. Возможные ловушки и проблемы:
Автоматическое устройство осуществило перекодировку информационного сообщения на русском языке, первоначально записанного в 16-битном коде Unicode, в 8-битную кодировку КОИ-8. При этом информационное сообщение уменьшилось на 480 бит. Какова длина сообщения в символах? обозначим количество символов через N ; при 16-битной кодировке объем сообщения – 16*N бит ; когда его перекодировали в 8-битный код, его объем стал равен – 8*N бит ; таким образом, сообщение уменьшилось на 16*N – 8*N = 8*N = 480 бит ; отсюда находим N = 480/8 = 60 символов ; ответ: 60 символов. Решение: Пример задания:
в этом тексте 19 символов (обязательно считать пробелы и знаки препинания); если нет дополнительной информации, считаем, что используется 8-битная кодировка (чаще всего явно указано, что кодировка 8- или 16-битная); поэтому в сообщении 19 * 8 = 152 бита информации. Пример задания: Определите информационный объем текста в битах Бамбарбия! Кергуду! Решение:
в кодовой таблице ASCII ( American Standard Code for Information Interchange, американский стандартный код для обмена информацией ) все заглавные латинские буквы A-Z расставлены по алфавиту, начиная с символа с кодом 65 = ; все строчные латинские буквы a-z расставлены по алфавиту, начиная с символа с кодом 97 = ; отсюда следует, что разница кодов букв «q» и «a» равна разнице кодов букв «Q» и «A», то есть, – = ; тогда шестнадцатеричный код символа «q» равен коду буквы «a» плюс ; отсюда находим = Пример задания: Решение: В таблице ниже представлена часть кодовой таблицы ASCII: Каков шестнадцатеричный код символа «q» ?