Нейросеть

Краткое содержание: Параграф § 14 / Информатика 10 класс

Страницы: 138, 139, 140, 141, 142, 143, 144, 145
Глава: Глава 3. Представление информации в компьютере
Параграф: § 14 - Кодирование текстовой информации
Учебник: Информатика 10 класс -
Автор: Босова Людмила Леонидовна
Год: 2025
Издание: 8-е издание, стереотипное

Основные принципы кодирования текстовой информации

Компьютеры третьего поколения освоили работу с текстовой информацией. Текст, по своей природе, является дискретным, то есть представлен последовательностью отдельных символов. Для представления текста в компьютере необходимо выполнить несколько шагов:

  • Определить алфавит — полный набор символов, нужных для работы с текстом.
  • Установить определенный порядок символов в алфавите и присвоить каждому символу уникальный двоичный код.
  • Получить \(n\)-разрядный двоичный код для каждого символа, используя систему двоичного счисления.

В компьютерной памяти используются специальные кодовые таблицы, где каждому символу соответствует его двоичный код. Все операционные системы и компьютеры используют международно признанные стандарты кодирования.

Кодировка ASCII и ее расширения

Основой для большинства стандартов стала кодировка ASCII (American Standard Code for Information Interchange). Этот стандарт был разработан в США в 1960-х годах и использовался для передачи информации, например, в телеграфе и по факсимильной связи.

  • 7-битная кодировка: Общее число символов в ASCII составляет \(2^7 = 128\).
  • Первые 32 символа являются управляющими, а остальные — изображаемыми, включая графическое представление.
  • Изображаемые символы включают латинские буквы (заглавные и строчные), цифры, знаки препинания, арифметические операторы, скобки и ряд специальных символов.

Для хранения кодов символов в памяти компьютера обычно отводится 1 байт (8 бит) на символ. В этом случае 7-битный код ASCII помещается в младшие 7 бит, а старший бит остается нулевым.

Изначально ASCII предназначалась только для английского языка. С появлением необходимости кодирования национальных алфавитов, включая русские буквы, были разработаны расширения ASCII, использующие весь байт (от 128 до 255) для дополнительных символов, знаков валют и прочего. Эти кодировки часто называют однобайтовыми, так как они используют 8 бит, что позволяет закодировать \(2^8 = 256\) символов. Примерами таких кодировок для русского языка являются Windows-1251 и КОИ-8. Следует отметить, что расположение русских букв в этих таблицах различается, хотя первые 128 символов совпадают с базовой ASCII.

Стандарт Unicode

Ограничения 8-битного кодирования, не позволявшие одновременно работать с несколькими языками, привели к разработке нового стандарта — Unicode (Юникод), который позволяет использовать символы любых мировых языков в текстовых документах. Стандарт был разработан в 1991 году.

  • Кодирование: В Unicode на кодирование символов первоначально отводился 31 бит, что теоретически позволяет закодировать \(2^{31}\) символов.
  • Современные версии: Современные версии Unicode позволяют закодировать более миллиона различных символов, используя более 110 000 кодовых позиций.
  • Совместимость: Первые 128 символов (коды 0–127) совпадают с таблицей ASCII.
  • Многоязычность: Unicode включает алфавиты всех известных, в том числе «мертвых», языков, а также математические символы, нотные знаки и даже придуманные символы, например, из трилогии Дж. Р. Р. Толкина «Властелин колец».
  • Кодировки Unicode: Для представления символов в памяти компьютера используются различные кодировки Unicode:
    • UTF-16: Используется в ОС семейства Windows. Для наиболее важных символов (кириллица, латиница) выделяется 2 байта (16 бит), что позволяет закодировать \(2^{16} = 65536\) символов. Реже используются 4 байта.
    • UTF-8: Применяется в ОС Linux. Кодировка является переменной длиной: символы из таблицы ASCII занимают 1 байт, а остальные — от 2 до 4 байт. Это позволяет уменьшить размер файлов по сравнению с UTF-16, если значительную часть текста составляют латинские буквы и цифры.
  • Увеличение размера файлов: Использование Unicode позволяет объединять символы разных языков в одном документе, но это приводит к увеличению размеров текстовых файлов по сравнению с однобайтовыми кодировками.

Информационный объем текстового сообщения

Информационный объем текстового сообщения — это количество информации, выраженное в битах, байтах, килобайтах и так далее, необходимое для записи этого сообщения с помощью заранее оговоренного метода двоичного кодирования (кодировки).

Если текст набран на 740 страницах, каждая из которых содержит 60 строк по 80 символов (включая пробелы), и используется однобайтовая кодировка (1 символ — 1 байт), то общий информационный объем составит:

\(80 \cdot 60 \cdot 740 = 3552000\) символов (байтов).

Это равно \(3552000 \text{ байт} = 3468,75 \text{ Кбайт} \approx 3,39 \text{ Мбайт}\).

Если используется кодировка UTF-16, где на символ приходится 2 байта, объем того же текста увеличится в 2 раза, составив \(2 \cdot 3552000 \text{ байт} = 7104000 \text{ байт} \approx 6,78 \text{ Мбайт}\).

Кратчайшее краткое содержание

Компьютеры кодируют текст, присваивая каждому символу уникальный двоичный код. Сначала определяется алфавит, затем символам назначаются коды. В памяти используются кодовые таблицы.

ASCII, 7-битная кодировка, содержит 128 символов, включая латиницу и управляющие коды. Для хранения используется 1 байт, старший бит остается нулевым. Для национальных алфавитов, как русский, появились расширения ASCII (например, Windows-1251), использующие 8 бит и позволяющие закодировать 256 символов.

Unicode — глобальный стандарт, вмещающий символы всех языков. Его ранние версии использовали 31 бит, современные — более миллиона символов. Первые 128 символов Unicode совпадают с ASCII. Для представления символов в памяти используются кодировки UTF-16 (2-4 байта на символ, используется в Windows) и UTF-8 (1-4 байта на символ, используется в Linux), которая переменной длины.

Информационный объем текста — это количество бит/байтов, необходимое для его записи. При однобайтовой кодировке 1 символ = 1 байт, в UTF-16 — 2 байта. Unicode увеличивает размер файлов, но позволяет работать с разными языками одновременно.

Ключевые понятия и стандарты кодирования:

  • Алфавит: Полный набор символов, необходимых для представления текстовой информации.
  • Кодовая таблица: Таблица, сопоставляющая каждому символу алфавита его уникальный двоичный код.
  • ASCII (American Standard Code for Information Interchange): 7-битный стандарт кодирования (128 символов), основа для большинства компьютерных стандартов.
  • Расширение ASCII: 8-битные кодировки (256 символов), использующие коды от 128 до 255 для национальных алфавитов (например, Windows-1251, КОИ-8 для русского языка).
  • Unicode (Юникод): Новый стандарт кодирования, разработанный в 1991 году, позволяющий кодировать символы практически всех языков мира.
  • UTF-8: Переменная длина кодирования Unicode (от 1 до 4 байт на символ), распространен в ОС Linux. Символы ASCII занимают 1 байт.
  • UTF-16: Кодирование Unicode с фиксированной длиной 2 байта (16 бит) для основных символов, используется в ОС Windows.
  • Информационный объем: Количество битов/байтов, необходимое для записи текстового сообщения в определенной кодировке. Формула для однобайтовой кодировки: \(\text{Объем} = \text{Количество символов} \times 1 \text{ байт}\).

Задали создать проект?

Создай с помощью ИИ за 5 минут

До 90% уникальность
Готовый файл Word
15-30 страниц
Список источников по ГОСТ
Оформление по ГОСТ
Таблицы и схемы

Готовые проекты

Список готовых проектов к текущему параграфу.

Уведомление об авторском праве и цитировании

ВНИМАНИЕ: Представленные фрагменты из учебных материалов используются исключительно в научно-образовательных целях в объеме, оправданном поставленной целью.

Данное использование осуществляется в рамках, установленных законодательством об авторском праве (в частности, нормами о свободном использовании произведения для образовательных целей).

В соответствии с законодательством, автор и источник заимствования указаны для каждого используемого фрагмента.