Главная / Учебники / Информатика 7 класс / Параграф §3.6
| Глава: | Глава 3. Обработка текстовой информации |
|---|---|
| Параграф: | §3.6 - Оценка количественных параметров текстовых документов |
| Учебник: | Информатика 7 класс - |
| Автор: | Босова Людмила Леонидовна |
| Год: | 2025 |
| Издание: | 7-е издание, стереотипное |
Представление текстовой информации в памяти компьютера
Текстовая информация состоит из отдельных символов (букв, цифр, знаков препинания и т.д.). Компьютер обрабатывает символы, используя их двоичный код. После ввода с клавиатуры символьной клавиши, в компьютер поступает определённая последовательность электрических импульсов, которую можно представить в виде цепочки нулей и единиц (двоичного кода).
Для кодирования символов используются кодовые таблицы. Поскольку разрядность двоичного кода \( i \) связана с количеством возможных кодовых комбинаций \( N \) соотношением \( N = 2^i \), восьмиразрядный двоичный код \( i = 8 \) бит позволяет получить \( 2^8 = 256 \) различных кодовых комбинаций. Этого количества комбинаций достаточно, чтобы закодировать все символы, используемые на клавиатуре компьютера (строчные и прописные русские и латинские буквы, цифры, знаки препинания, скобки, арифметические операции, а также управляющие символы).
Соответствие между символами и их кодами устанавливается с помощью кодовых таблиц, подчиняющихся международным стандартам кодирования. Восьмиразрядный двоичный код содержит коды для 256 символов (от 0 до 255). Первые 128 кодов во всех кодовых таблицах соответствуют одним и тем же символам (например, ASCII — American Standard Code for Information Interchange). Эти коды (0–127) соответствуют управляющим символам и изображениям символов, таких как латинские буквы, цифры, знаки препинания и арифметических операций.
Коды с номерами от 128 до 255 используются для кодирования букв национального алфавита и других национальных символов. Для многих языков существует несколько вариантов кодовых таблиц (например, для русского языка — Windows-1251 и КОИ-8).
Ограничения восьмиразрядных кодировок и стандарт Unicode
Восьмиразрядные кодировки имеют существенное ограничение: количество символов в этих кодировках недостаточно (только 256), что позволяет одновременно использовать не более двух языков. Для решения этой проблемы был разработан новый стандарт кодирования символов — Unicode (Юникод), который позволяет представить знаки всех языков мира.
Информационный объём текстовых документов
Информационный объём сообщения \( I \) (в битах, байтах и их производных) зависит от количества символов в тексте \( K \) и информационного веса одного символа \( i \): \( I = K \cdot i \).
Информационный вес одного символа \( i \) (разрядность используемой кодировки) может быть:
Информационный объём фрагмента текста — это количество бит, байт или производных единиц (килобайт, мегабайт), необходимое для представления этого фрагмента текста в выбранной двоичной кодировке.
Текст в компьютере представляется символами, кодируемыми двоичным кодом – последовательностью нулей и единиц.
Для кодирования используются кодовые таблицы, где каждому символу соответствует уникальный код. 8-битный код позволяет закодировать 256 символов, включая латиницу, цифры и знаки препинания, как в ASCII.
Национальные алфавиты кодируются кодами 128-255, существует несколько таблиц для одного языка (Windows-1251, КОИ-8).
Ограничение 8-битных кодировок – недостаточное количество символов. Решением стало Unicode – 16-битная кодировка, поддерживающая 65536 символов всех языков. Первые 128 символов Unicode совпадают с ASCII.
Информационный объём текста зависит от количества символов и разрядности кодировки: I = K * i, где i = 8 бит (8-битная кодировка) или 16 бит (Unicode).
Ключевые понятия и определения:
Задали создать проект?
Создай с помощью ИИ за 5 минут
Список готовых проектов к текущему параграфу.
ВНИМАНИЕ: Представленные фрагменты из учебных материалов используются исключительно в научно-образовательных целях в объеме, оправданном поставленной целью.
Данное использование осуществляется в рамках, установленных законодательством об авторском праве (в частности, нормами о свободном использовании произведения для образовательных целей).
В соответствии с законодательством, автор и источник заимствования указаны для каждого используемого фрагмента.