Глава 20. Файловый ввод/вывод :: Кодовые страницы

Кодовые страницы
	Глава 20. Файловый ввод/вывод

Кодовые страницы

Общие сведения

Алфавит из 256 символов достаточно обширен, чтобы вместить буквы (прописные и строчные) для пары европейских языков, цифры, джентльменский набор знаков пунктуации и ещё кое-что по мелочам.

Но надо учитывать, что человечество изобрело огромное количество значков, которые даже столь большой алфавит не вместит. Даже если нам не потребуется так много знаков в одном тексте, и мы ограничимся только перечисленным выше, возникает проблема: каким образом поставить в соответствие значки из ограниченного набора числам из диапазона 0‥255. Если на одном компьютере буква A кодируется числом 65, а на другом как-нибудь иначе, переданный с одной компьютерной системы на другую текст не будет правильно прочитан.

Требуются стандарты, которые устанавливали бы такое соответствие.

Первый шаг к стандартизации предпринял Американский национальный институт стандартов — ANSI. Выработанный институтом стандарт ASCII — American Standard Code for Information Interchange (американский стандартный код для обмена информацией) заполняет первую половину кодовой таблицы — места от 0 до 127. Заполнение второй половины таблицы данный стандарт не регламентирует. Читать таблицу нужно слева направо сверху вниз. В принципе символов в этой половине кодовой таблицы достаточно для программирования на большинстве алгоритмических языков.

Таблица 20.1. Кодовая страница ASCII (символы 0‥127)

␀ ␁ ␂ ␃ ␄ ␅ ␆ ␇ ␈ ␉ ␊ ␋ ␌ ␍ ␎ ␏

␐ ␑ ␒ ␓ ␔ ␕ ␖ ␗ ␘ ␙ ␚ ␛ ␜ ␝ ␞ ␟

␠ ! " # $ % & ' ( ) * + , - . /

0 1 2 3 4 5 6 7 8 9 : ; < = > ?

@ A B C D E F G H I J K L M N O

P Q R S T U V W X Y Z [ \ ] ^ _

` a b c d e f g h i j k l m n o

p q r s t u v w x y z { | } ~ ␡

В кодовой странице ASCII отсутствуют не-латинские буквы.

Международная организация по стандартизации ISO предложила несколько стандартов, описывающих варианты заполнения второй половины кодовой таблицы. Например, кодовая страница ISO8859-1, называемая также в простонародье latin1, удобна для большинства европейских языков, основанных на латинице.

Таблица 20.2. Кодовая страница ISO8859-1 (вторая половина; символы 128‥255)

¡ ¢ £ ¤ ¥ ¦ § ¨ © ª « ¬ ® ¯

° ± ² ³ ´ µ ¶ · ¸ ¹ º » ¼ ½ ¾ ¿

À Á Â Ã Ä Å Æ Ç È É Ê Ë Ì Í Î Ï

Ð Ñ Ò Ó Ô Õ Ö × Ø Ù Ú Û Ü Ý Þ ß

à á â ã ä å æ ç è é ê ë ì í î ï

ð ñ ò ó ô õ ö ÷ ø ù ú û ü ý þ ÿ

История кириллических (то есть поддерживающих кириллицу) кодовых страниц сложна. Их общая черта состоит в том, что их первые половины заполнены в соответствии с ASCII, поэтому здесь не приводятся.

Одной из наиболее древних, по-видимому, является KOI8-R, родившаяся в мире ЭВМ под управлением ОС Unix. Довольно странный порядок кириллических букв имеет объяснение. Обратите внимание на то, что для представления символов ASCII достаточно семи бит. Иными словами, все ASCII-символы закодированы при помощи байтов вида 0*******. Установка самого левого, сброшенного бита в таком байте равносильна прибавлению числа 128 к коду. Это прибавление даёт тот же самый эффект, что и наложение верхней половины кодовой таблицы на нижнюю. И наоборот, сбрасывание этого бита сдвигает каждый символ в таблице вверх на 8 строчек.

В старые времена, когда байты были не восьми-, а семибитные (самый левый бит использовался для контроля ошибок при передаче информации между компьютерными системами), символы из нижней половины страницы могли утратить свой заветный левый бит. Кодировка KOI8-R гарантировала, что такой текст останется более-менее читаемым. Например, при порче текста Кодовая страница получится kODOWAQ STRANICA.

У кодовой страницы KOI8-R имеются украинский вариант KOI8-U, а также вариант KOI8-C с дореформенными русскими буквами (ятями, фитами, ижицами), и буквами балканских языков с кириллической графикой.

Таблица 20.3. Кодовая страница KOI8-R (вторая половина; символы 128‥255)

─ │ ┌ ┐ └ ┘ ├ ┤ ┬ ┴ ┼ ▀ ▄ █ ▌ ▐

░ ▒ ▓ ⌠ ■ ∙ √ ≈ ≤ ≥ ⌡ ° ² · ÷

═ ║ ╒ ё ╓ ╔ ╕ ╖ ╗ ╘ ╙ ╚ ╛ ╜ ╝ ╞

╟ ╠ ╡ Ё ╢ ╣ ╤ ╥ ╦ ╧ ╨ ╩ ╪ ╫ ╬ ©

ю а б ц д е ф г х и й к л м н о

п я р с т у ж в ь ы з ш э щ ч ъ

Ю А Б Ц Д Е Ф Г Х И Й К Л М Н О

П Я Р С Т У Ж В Ь Ы З Ш Э Щ Ч Ъ

Кодовая страница CP866, которую называли ещё альтернативной кодировкой ГОСТ, получила большое распространение в нашей стране на компьютерах под управлением ОС Microsoft DOS. Была также и так называемая основная кодировка ГОСТ, но она так и не получила широкого распространения, так же как и кодировка ISO8859-5, предложенная организацией ISO для поддержки кириллицы.

У кодировки CP866 уже меньше проблем с алфавитным порядком (если не говорить про многострадальную букву Ёё, и специфические буквы украинского и белорусского алфавитов). Однако имеется досадный разрыв между буквами п и р, заполненный значками для рисования рамок.

Таблица 20.4. Кодовая страница CP866 (вторая половина; символы 128‥255)

А Б В Г Д Е Ж З И Й К Л М Н О П

Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я

а б в г д е ж з и й к л м н о п

░ ▒ ▓ │ ┤ ╡ ╢ ╖ ╕ ╣ ║ ╗ ╝ ╜ ╛ ┐

└ ┴ ┬ ├ ─ ┼ ╞ ╟ ╚ ╔ ╩ ╦ ╠ ═ ╬ ╧

╨ ╤ ╥ ╙ ╘ ╒ ╓ ╫ ╪ ┘ ┌ █ ▄ ▌ ▐ ▀

р с т у ф х ц ч ш щ ъ ы ь э ю я

Ё ё Є є Ї ї Ў ў ° ∙ · √ № ¤ ■

Наиболее совершенной кажется кодовая страница CP1251, предложенная фирмой Microsoft для использования в ОС Microsoft Windows.

Таблица 20.5. Кодовая страница CP1251 (вторая половина; символы 128‥255)

Ђ Ѓ ‚ ѓ „ … † ‡ € ‰ Љ ‹ Њ Ќ Ћ Џ

ђ ‘ ’ “ ” • – — ™ љ › њ ќ ћ џ

° ± І і ґ µ ¶ · ё № є » ј Ѕ ѕ ї

А Б В Г Д Е Ж З И Й К Л М Н О П

Р С Т У Ф Х Ц Ч Ш Щ Ъ Ы Ь Э Ю Я

а б в г д е ж з и й к л м н о п

р с т у ф х ц ч ш щ ъ ы ь э ю я

Проблемы, связанные с кодовыми страницами

Обилие разнообразных кодовых страниц создаёт проблемы при передаче текстов между разными компьютерными системами.

К каждому передаваемому тексту необходимо прилагать сопроводительную информацию об использованной кодовой странице.

Из-за того, что разные кодировки могут содержать различные наборы символов, процесс перекодирования не всегда корректно определён. Скажем, символ — (длинное тире) имеется в кодовой странице CP1251 и отсутствует в CP866. Что должно происходить при перекодировании с таким символом?

Наконец, небольшой размер кодовой страницы либо лишает нас возможности использовать в одном тексте всё многообразие символов, придуманных человечеством. Скажем, ни одна из описанных в предыдущем разделе кириллических кодовых страниц не позволит записать такой текст:

* Mueller English-Russian Dictionary [mueller7]

computer
[kəmˈpjuːtə] _n.
	1: компьютер; счётно-решающее устройство; электронно-вычислительная
	   машина, ЭВМ; счётчик
	2: тот, кто вычисляет


Стандартные дескрипторы		Юникод