Главная / Учебники / Информатика 10 класс / Параграф § 14
| Глава: | Глава 3. Представление информации в компьютере |
|---|---|
| Параграф: | § 14 - Кодирование текстовой информации |
| Учебник: | Информатика 10 класс - |
| Автор: | Босова Людмила Леонидовна |
| Год: | 2025 |
| Издание: | 8-е издание, стереотипное |
Основные принципы кодирования текстовой информации
Компьютеры третьего поколения освоили работу с текстовой информацией. Текст, по своей природе, является дискретным, то есть представлен последовательностью отдельных символов. Для представления текста в компьютере необходимо выполнить несколько шагов:
В компьютерной памяти используются специальные кодовые таблицы, где каждому символу соответствует его двоичный код. Все операционные системы и компьютеры используют международно признанные стандарты кодирования.
Кодировка ASCII и ее расширения
Основой для большинства стандартов стала кодировка ASCII (American Standard Code for Information Interchange). Этот стандарт был разработан в США в 1960-х годах и использовался для передачи информации, например, в телеграфе и по факсимильной связи.
Для хранения кодов символов в памяти компьютера обычно отводится 1 байт (8 бит) на символ. В этом случае 7-битный код ASCII помещается в младшие 7 бит, а старший бит остается нулевым.
Изначально ASCII предназначалась только для английского языка. С появлением необходимости кодирования национальных алфавитов, включая русские буквы, были разработаны расширения ASCII, использующие весь байт (от 128 до 255) для дополнительных символов, знаков валют и прочего. Эти кодировки часто называют однобайтовыми, так как они используют 8 бит, что позволяет закодировать \(2^8 = 256\) символов. Примерами таких кодировок для русского языка являются Windows-1251 и КОИ-8. Следует отметить, что расположение русских букв в этих таблицах различается, хотя первые 128 символов совпадают с базовой ASCII.
Стандарт Unicode
Ограничения 8-битного кодирования, не позволявшие одновременно работать с несколькими языками, привели к разработке нового стандарта — Unicode (Юникод), который позволяет использовать символы любых мировых языков в текстовых документах. Стандарт был разработан в 1991 году.
Информационный объем текстового сообщения
Информационный объем текстового сообщения — это количество информации, выраженное в битах, байтах, килобайтах и так далее, необходимое для записи этого сообщения с помощью заранее оговоренного метода двоичного кодирования (кодировки).
Если текст набран на 740 страницах, каждая из которых содержит 60 строк по 80 символов (включая пробелы), и используется однобайтовая кодировка (1 символ — 1 байт), то общий информационный объем составит:
\(80 \cdot 60 \cdot 740 = 3552000\) символов (байтов).
Это равно \(3552000 \text{ байт} = 3468,75 \text{ Кбайт} \approx 3,39 \text{ Мбайт}\).
Если используется кодировка UTF-16, где на символ приходится 2 байта, объем того же текста увеличится в 2 раза, составив \(2 \cdot 3552000 \text{ байт} = 7104000 \text{ байт} \approx 6,78 \text{ Мбайт}\).
Компьютеры кодируют текст, присваивая каждому символу уникальный двоичный код. Сначала определяется алфавит, затем символам назначаются коды. В памяти используются кодовые таблицы.
ASCII, 7-битная кодировка, содержит 128 символов, включая латиницу и управляющие коды. Для хранения используется 1 байт, старший бит остается нулевым. Для национальных алфавитов, как русский, появились расширения ASCII (например, Windows-1251), использующие 8 бит и позволяющие закодировать 256 символов.
Unicode — глобальный стандарт, вмещающий символы всех языков. Его ранние версии использовали 31 бит, современные — более миллиона символов. Первые 128 символов Unicode совпадают с ASCII. Для представления символов в памяти используются кодировки UTF-16 (2-4 байта на символ, используется в Windows) и UTF-8 (1-4 байта на символ, используется в Linux), которая переменной длины.
Информационный объем текста — это количество бит/байтов, необходимое для его записи. При однобайтовой кодировке 1 символ = 1 байт, в UTF-16 — 2 байта. Unicode увеличивает размер файлов, но позволяет работать с разными языками одновременно.
Ключевые понятия и стандарты кодирования:
Задали создать проект?
Создай с помощью ИИ за 5 минут
Список готовых проектов к текущему параграфу.
ВНИМАНИЕ: Представленные фрагменты из учебных материалов используются исключительно в научно-образовательных целях в объеме, оправданном поставленной целью.
Данное использование осуществляется в рамках, установленных законодательством об авторском праве (в частности, нормами о свободном использовании произведения для образовательных целей).
В соответствии с законодательством, автор и источник заимствования указаны для каждого используемого фрагмента.