Знаковая система представления информации Измерение объёма текстовой информации
А Л Ф А В И Т Алфавит – это совокупность символов используемых в языках для представления информации. Мощность алфавита – число символов в нём. Двоичный алфавит – алфавит из двух символов. Величину, способную принимать лишь два различных значения (0 и 1), называют бит. Бит – минимальная единица количества информации. 1 байт = 8 бит
ИНФОРМАЦИОННЫЙ ВЕС С И М В О Л А Зависит от МОЩНОСТИ алфавита 2i=N2i=N ГДЕ: I – информационный вес символа N – мощность алфавита (Измеряется в БИТАХ) Например: Мощность алфавита N=16 символов i=4 бит информации Мощность алфавита N=32 символов i=5 бит информации Мощность алфавита N=64 символов i=6 бит информации Мощность алфавита N=128 символов i=7 бит информации Мощность алфавита N= 256 символов i=8 бит информации Информационный вес символа
X Информационный объём текста текстаK Количество символов в тексте I Информационный вес символов При выяснения информационного объёма текста содержание текста не учитывается. АЛФАВИТНЫЙ ПОДХОД К ИЗМЕРЕНИЮ ИНФОРМАЦИИ Первобытное племя отправило сообщение для всех соплеменников: МИРУ – МИР!! РЕШИМ ЗАДАЧУ: Выяснить какой объём сообщения в байтах, известно, что сообщение создано с помощью алфавита в котором 16 символов.
АЛФАВИТНЫЙ ПОДХОД К ИЗМЕРЕНИЮ ИНФОРМАЦИИ РЕШЕНИЕ ЗАДАЧИ: 1.Посчитаем количество символов в сообщении: МИРУ – МИР!! - 12 символов (включая пробелы) 2. Выясним информационный вес символа. Мощность алфавита N=16 символов информационный вес символа i=4 бит информации. 3. X=K·I 12·4=48 бит, 48:8=6 байт Ответ: объём сообщения = 6 байт. (в 1байт=8бит)
Кодирование текста в компьютере Таблица, в которой всем символам компьютерного алфавита поставлены в соответствие порядковые номера (коды), называется таблицей кодировки. Для разных типов ЭВМ используются различные кодировки. С распространением IBM PC международным стандартом стала таблица кодировки ASCII (American Standart Code for Information Interchange) – Американский стандартный код для информационного обмена. Для кодирования одного символа по этой таблице используется количество информации равное 1 байту (1 байт = 8 битов), в таблице 256 символов. Начиная с 60-х годов, компьютеры все больше стали использовать для обработки текстовой информации и в настоящее время большая часть ПК в мире занято обработкой именно текстовой информации. Кодирование текста в компьютере
В настоящее время существуют пять различных кодировок кириллицы (КОИ8-Р, Windows. MS-DOS, Macintosh и ISO). Из-за этого часто возникают проблемы с переносом русского текста с одного компьютера на другой, из одной программной системы в другую. С конца 90-х годов проблема стандартизации символьного кодирования решается введением нового международного стандарта, который называется Unicode. Это 16-разрядная кодировка, т.е. в ней на каждый символ отводится 2 байта памяти. Конечно, при этом объем занимаемой памяти увеличивается в 2 раза. Но зато такая кодовая таблица допускает включение до символов. Полная спецификация стандарта Unicode включает в себя все существующие, вымершие и искусственно созданные алфавиты мира, а также множество математических, музыкальных, химических и прочих символов. Кодирование текста в компьютере
АЛФАВИТНЫЙ ПОДХОД К ИЗМЕРЕНИЮ ИНФОРМАЦИИ Решите задачу самостоятельно. Страница детской книжки содержит 20 строк, в каждой стоке 60 символов. Книжка содержит 10 страниц. Для набора текста в этой книжке использовали алфавит мощностью 256 символов. Выяснить информационный объём книжки в байтах.
Единицы измерения больших объёмов информации 1 Килобайт (Кб) = 210 байт = 1024 байта 1 Мегабайт (Мб) = 210 Кб =1024 Кбайт 1 Гигабайт (Гб) = 210 Мб = 1024 Мбайт В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как: В последнее время в связи с увеличением объёмов обрабатываемой информации входят в употребление такие производные единицы, как: 1 Терабайт (Тбайт) = 1024 Гбайт 1 Терабайт (Тбайт) = 1024 Гбайт 1 Петабайт (Пбайт) = 1024 Тбайт 1 Петабайт (Пбайт) = 1024 Тбайт РЕШИМ ЗАДАЧУ: Текст занимает 100 страниц, в каждой по 108 строк, в каждой строке по 256 символов. Для кодирования текста применили Unicode. Сколько необходимо памяти в Мб для хранения этого текста?
Текст занимает 100 страниц, в каждой по 108 строк, в каждой строке по 256 символов. Для кодирования текста применили Unicode. Сколько необходимо памяти в Мб для хранения этого текста? 1.Вычисляем количество символов в тексте: 100*108*256= символов 2. Вычисляем информационный объём *2 байта= байтов 3. Преобразуем единицы информации: /1024=5400Кб 5400Кб/1024=5, Мб Ответ: Для хранения текста из 100 страниц необходимо 5,27Мб памяти
РЕШИМ ЗАДАЧУ: Объём сообщения, содержащего 2048 символов составляет 1/512 часть Мб Каков размер алфавита с помощью которого записано сообщение? Решение: 1. 1Мб= 1024кБ/512=2Кб - Объём сообщения 2Кб=2024байта символа 2024 символа/2024 байта= 1байт – вес 1 символа 1байт=8бит 2 8 =256 символов мощность алфавита – размер алфавита Ответ: размер алфавита – 256 символов Решите задачу самостоятельно: Система оптического распознавания сканируется текст методички и распознаётся со скоростью 4 страницы в минуту. Текст в методички представлен с помощью кодовой таблицы Unicode. Одна страница содержит 40 строк по 59 символов, в каждой строке, время сканирования 10 минут. Хватит ли памяти в 150Мб для сохранения этого текста?