Чтение онлайн

ЖАНРЫ

Стахнов Алексей Александрович

Шрифт:

Тем не менее, для администратора необходимо знать, каким образом можно локализировать операционную систему Linux.

Поскольку Linux-сообщество велико и разнородно, а программы портировались с различных операционных систем, привести их к одному знаменателю для нормальной локализации, к сожалению, весьма затруднительно.

Однако современные тенденции таковы, что в мире Linux назревает осознание необходимости принятия стандартов на ключевые технологии, в частности, написания программ, с минимальными усилиями локализуемых. Но об этом позже.

Рис. 15.1. GNOME, говорящий по-русски

А сейчас определим, что нам прежде всего потребуется от хорошо локализованной системы:

• корректно настроенная текстовая консоль (правильные шрифты, ввод и вывод кириллицы);

• корректно настроенная система X Window;

• правильный вывод кириллицы на принтер;

• настроенная на кириллицу система проверки правописания;

• локализованные основные программы – редакторы, офисные пакеты, словари и т. п.

Теоретическая часть

Стандарты кодировки

Как известно, символ как минимальный элемент алфавита, и представление этого символа в компьютере (кодировка) – две разные вещи.

Кодировкой называется совокупность уникальных символов, которые система способна распознать как самостоятельную сущность.

Поскольку первоначально компьютеры были разработаны за рубежом (Великобритания и США) и не предназначались для экспорта, производители не озаботились поддержкой языков, отличных от английского. Со временем это вызвало определенные проблемы, однако решение их осуществлялось хаотично и без учета перспектив дальнейшего развития программ и аппаратуры. В результате русскоязычное компьютерное сообщество получило несколько различных

кодировок, в той или иной степени учитывающих национальную специфику.

Стандарт ASCII

Наиболее популярной кодировкой была (и фактически ей и остается) кодировка ASCII (Американский Стандартный Код для Информационного Обмена).

Стандарт ASCII, иногда называемый 7-битный ASCII, включает в себя 128 уникальных символов. Они подразделяются на символы, которые ASCII определяет как печатаемые символы, и на символы управления, большая часть которых использовалась в старых протоколах связи. Каждому элементу набора соответствует целочисленный символьный код от 0 до 127.

Со временем 7-битный стандарт ASCII был расширен до 8-битного ASCII (расширенный ASCII). Этот стандарт подразумевает наличие 256 символов, которые соответствуют кодам от 0 до 255. Первая часть таблицы – от 0 до 127 не претерпела по сравнению с предыдущим стандартом никаких изменений, а во второй половине таблицы пусто. Дело в том, что 8-битный стандарт ASCII не определяет содержание второй половины таблицы кодировки. В этих целях Международная Организация по Стандартизации (ISO) выпустила серию стандартов (известных как семейство ISO 8859-х), определяющих кодировку второй половины таблицы для различных языков. Нас как пользователей кириллицы интересуют следующие кодовые страницы:

• 8859-0 – новый европейский стандарт (Latin 0);

• 8859-1 – Европа, Латинская Америка (Latin 1);

• 8859-2 – Восточная Европа.

• 8859-5 – кириллица.

В кодовой странице 8859-1 (Latin 1) старшая половина таблицы определяет различные символы, которые не входят в английский алфавит, но присутствуют в различных европейских языках. Соответственно, в остальных кодировках в старшей половине таблицы находятся специфические национальные символы, входящие в алфавит указанного региона.

Есть еще одна реализация расширенного ASCII – кодовая страница IBM. Эта кодировка в старшей половине содержит псевдографические символы.

Казалось бы, вполне достаточный набор стандартов. Однако есть несколько отрицательных моментов:

• ограничение набора модифицируемых символов (128);

• невозможность использования в одном чисто текстовом документе нескольких кодировок.

Альтернативная кодировка (CP866)

Альтернативная кодировка (СР866) – это кодовая страница IBM, где все специфические европейские символы были заменены на буквы из кириллицы, оставив нетронутыми псевдографические символы.

Кодировка Microsoft CP1251

Кодовая страница Microsoft CP 1251 – это попытка Microsoft облегчить труд программисту. Используется для кодировки кириллицы в Windows. Устраняет проблему с сортировкой по алфавиту, связанную с тем, что в странице СР866 буквы русского алфавита располагались не подряд.

Стандарт КОИ8

Стандарт был разработан достаточно давно, когда во всю использовалась 7-битная кодировка символов ASCII. Разработчики КОИ8 поместили символы русской кириллицы в верхней части расширенной таблицы ASCII таким образом, чтобы позиции кириллических символов соответствовали их фонетическим аналогам в английском алфавите в нижней части таблицы. Так, если в тексте, хранящемся в кодировке КОИ8, убрать старший (восьмой) бит каждого символа, то получится текст, написанный английскими символами в русской транскрипции. Например, предложение «Мама мыла раму» после удаления старшего бита будет выглядеть так: «Mama myla ramu».

Существует несколько реализаций стандарта КОИ8, в частности, KOI8-R – для русского языка, KOI8-U – для украинского.

Стандарт RFC 1489 Registration of a Cyrillic Character Set, созданный Андреем Черновым, регламентирует использование KOI8-R для представления русскоязычных документов в Интернете, где KOI8-R давно уже стал фактическим стандартом для русской кириллицы.

Unicode

Unicode – частичная реализация стандарта ISO 10646, в котором первые 256 символов соответствуют кодировке Latin-1 (ISO 8859-1). Основная идея этого стандарта – кодирование символа с использованием переменного количества байтов (до 8). На данном этапе используется двухбайтное кодирование символа, дающее возможность определить 65 535 символов. В настоящее время позиции зарезервированы за буквами практически всех известных алфавитов, включая древнеегипетские иероглифы, благодаря чему можно, используя всего один шрифт, писать одновременно на русском и греческом, английском и иврите и делать еще вставки на японском. Используется в Windows 98 и более поздних версиях. В UNIX-системах поддержка Unicode реализована частично.

Украинский язык

Специфика локализации для Украины состоит в том, что зачастую нужно использовать и украинский, и русский языки одновременно (большая часть жителей городов Центральной, Южной и Восточной Украины – русскоговорящие, а официальный язык – украинский).

Кириллизация консоли

В большинстве современных дистрибутивов кириллизация консоли происходит по запросу при инсталляции. Однако необходимо рассмотреть способы кириллизации текстового режима как фундамента, на котором держится локализация операционной системы в целом.

Консольный драйвер

Для настройки консоли можно воспользоваться пакетами console-tools, Cyrillic console-tools (модификация console-tools с расширенным набором шрифтов и дополнительными свойствами) или kbd. В дистрибутиве Red Hat Linux в ранних версиях применялся пакет kbd, в более поздних (начиная с версии 6) – console-tools. Чтобы не упустить особенностей, рассмотрим использование обоих пакетов.

Схема функционирования консольного драйвера

Для понимания дальнейших действий необходимо четко представлять, как функционирует консольный драйвер.

В Linux применяются две таблицы символов – таблица символов приложения (Application Charset Map, ACM) и таблица экранных шрифтов (Screen Font Map, SFM).

Когда программа предлагает консольному драйверу вывести на экран символ, имеющий код, например А, то консольный драйвер прежде ищет код А в таблице символов приложения. Из нее он узнает, какой код В согласно кодировке Unicode соответствует коду А. Далее консольный драйвер ищет код В в таблице экранных шрифтов. Из нее он узнает, какой символ активного шрифта имеет код В, и выводит его на экран. А используемую операционной системой кодировку посредством таблицы символов приложения определяет пользователь.

Аппаратные ограничения видеокарт VGA не позволяют использовать в текстовом режиме шрифты, имеющие более 512 символов. Поэтому иногда консольный драйвер не может найти код В в таблице экранных шрифтов. В этом случае используется так называемая fallback-таблица. Она определяет для кода В возможные его аппроксимации Bl, В2 и т. д. Например, если В является кодом символа "левая двойная угловая кавычка", то, возможно, В1 будет кодом символа "левая одинарная угловая кавычка", а В2 будет просто кодом символа <.

Настройка поддержки кириллицы с помощью пакетов console-tools и kbd состоит из:

• настройки экранного шрифта и таблицы экранных шрифтов. Это делается с помощью программы consolechars (для console-tools) или setfont и mapscrn (для kbd);

• настройки таблицы символов приложения и fallback-таблицы;

• загрузки соответствующей раскладки клавиатуры с помощью программы load keys.

Файлы шрифтов обычно размещаются в каталогах /usr/share/consolefonts или /usr/lib/kbd/consolefonts, символьные таблицы в каталоге /usr/share/consoletrans, клавиатурные раскладки в /usr/share/keymap/i386/qwerty.

console-tools Если на компьютере установлен пакет console-tools, то необходимо выполнить следующие действия:

loadkeys ru.map consolechars -v -f Cyr_a8x16 -m $foo/koi2alt

Переключение раскладки клавиатуры производится нажатием правой клавиши <Ctrl> (иногда это можно сделать нажатием клавиши <Alt> или <Caps Lock>). Cyrillic console tools

Все шрифты в этом пакете основаны на альтернативной кодировке (СР866). Это сделано потому, что в текстовом режиме VGA использование другой кодировки приводит к разрывам в отображении горизонтальной псевдографики. Все шрифты содержат в себе таблицу отображения в Unicode.

В пакет также включены таблицы перекодировки в Unicode из распространенных кодировок русского, белорусского, болгарского, сербского и украинского языков.

Для настройки консоли следует выполнить следующие команды:

consolechars -f UniCyr_8x16.psf -m koi8-r.acm loadkeys console_russian.map

Для украинизации вместо koi8-r необходимо подставить koi8-u. kbd Для настройки кириллицы с помощью kbd обычно используются следующие команды:

loadkeys /usr/lib/kbd/keytables/ru.map

setfont /usr/lib/kbd/consolefonts/Cyr_a8x16

mapscrn /usr/lib/kbd/consoletrans/koi2alt # ниже идет «магическая» последовательность echo – ne "\033(K"

Во время загрузки системы для русификации всех виртуальных текстовых консолей необходимо выполнить команду

echo -ne «\033(К»

семь раз. Это можно сделать с помощью следующей строки:

for i in 1 2 3 4 5 6 7; do echo -ne «\033(K» > /dev/tty$i; done

«Магическая» последовательность необходима для перекодировки вывода

символов на экран при использовании шрифтов, основанных на кодовой странице СР866.

Настройка консольных приложений

После настройки консоли необходимо также настроить и консольные программы, которые работают с символами. Основная проблема большей части этих программ – они считают, что используется 7-битная кодировка символа.

bash В файле. inputrc, находящемся в домашнем каталоге пользователя, необходимо установить следующие три переменные:

set meta-flag on

set convert-meta off

set output-meta on

Эти строки указывают, что для кодирования символа используется 8-битная последовательность.

Поскольку файл. inputrc является конфигурационным файлом библиотеки GNU readline, внесенные исправления кириллизируют не только bash, но и другие программы, использующие GNU readline.

csh/tcsh

Те же действия в отношении программ csh/tcsh будут выглядеть следующим образом:

В файле. cshrc необходимо добавить следующие строки:

setenv LC_CTYPE iso_8859_5

stty pass8

zsh В файле. zshrc необходимо добавить следующие строки:

setenv LC_CTYPE iso_8859_5

stty pass8

less Для нормального функционирования программы less в файл ~/.lesskey необходимо добавить:

LESSCHARSET=

Это позволяет программе игнорировать установку переменной LESSCHARSET= другими программами. После этого надо запустить lesskey для получения бинарного файла ~/.less. mc (The Midnight Commander)

Чтобы использовать кириллицу в mc, нажатием клавиши <F9> зайдите в системное меню, выберите пункт меню Options | Display и установите опцию full 8 bits .

nroff

Для корректной работы nroff с кириллицей необходимо запускать его с ключом Tlatinl.

man

Если программа man не желает корректно отображать кириллицу на экране, необходимо правильно настроить less.

Также измените в файле /usr/lib/man.conf строку:

NROFF /usr/bin/groff -S -Tascii -mandoc

на

NROFF /usr/bin/groff -S -Tlatin1 -mandoc

ls

При неправильно настроенной локали Is не будет выводить кириллические символы. В этом случае поможет одна из следующих команд:

• ls -N

• ls –show-control-chars

Samba Чтобы увидеть кириллические символы в именах файлов, в файл /etc/smb.conf следует добавить следующие строчки:

[global]

character set = koi8-r

client code page = 866

preserve case = yes

short preserve case = yes

Первые две строки указывают кодировку пользователя (character set = koi8-r) и кодировку имен файловой системы (client code page = 8 66).

Третья и четвертая строки определяют, что необходимо сохранять регистр длинных и коротких имен файлов.

telnet При возникновении проблемы ввода русских символов необходимо создать файл ~/.telnetrc, содержащий следующую строку:

DEFAULT set outbinary

Локализация и интернационализация

Как можно заметить, каждая из вышеперечисленных программ требует своего особого подхода, выражающегося в том или ином изменении индивидуальных конфигурационных файлов. Это сильно раздражает. А проблема возникла потому, что при проектировании программ не учитывались какие-либо национальные особенности.

Решение таких проблем основывается на двух базисных концепциях: локализации (Localization, lion) и интернационализации (Internationalization, il8n).

Под локализацией подразумевается написание программного кода, способного адекватно воспринимать, использовать и обрабатывать различающиеся стандарты представления данных для различных стран. Например: формат записи даты в США имеет вид ММ/ДД/ГГ, в странах СНГ – ДД.ММ.ГГ, а в Японии – ГГ.ММ.ДД. Помимо даты необходимо разрешить проблемы с представлением форматов времени, чисел, валюты и т. п. Кроме того, базовый аспект локализации – определение соответствующих классов символов.

Интернационализация должна решать проблемы, связанные со способностью программ взаимодействовать с пользователем на его родном языке.

Обе эти концепции должны быть стандартизованы, давая программистам непротиворечивый путь создания программ, работающих в национальной среде.

Локаль

Одно из основных понятий локализации – локаль (locale). Под локалью подразумевается набор соглашений, специфичных для отдельно взятого языка в отдельно взятой стране.

Каждая локаль определяет, по меньшей мере, следующие соглашения:

• классификация символов и преобразований;

• представление валюты;

• представление чисел;

• формат даты/времени.

Настройка локали

Локализация включается путем задания переменной окружения lang строкой:

export lang={язык}

В том случае, если такой строки не существует, используется значение локализации по умолчанию: lang="C" или lang="posix". По стандарту POSIX.2 язык локализации записывается в форме:

language_TERRITORY. Codeset

где

• language – двухсимвольный код, обозначающий язык (ru, fr и т. д.);

• TERRITORY – двухсимвольный код, обозначающий страну (RU, UA и т. д.);

• codeset – определяет кодировку символов.

Стандарт ISO 639 определяет коды языков, ISO 3166 – коды стран.

Для русского языка переменная lang устанавливается, как правило, равной LANG="ru_RU.KOI8-R" или LANG="ru_RU.ISO_8859-5".

Также по стандарту допустимы короткие именования значений локали, которые часто используются в качестве псевдонимов. Наиболее известная пара псевдоним-наименование: «С» – "POSIX".

Локализацию можно провести частично, либо определить для отдельных категорий локализации значения, отличные от общесистемной локализации.

В табл. 15.1 приведены опции локали.

Таблица 15.1. Опции локали

Посмотреть текущие значения категорий локализации можно утилитой locale (без параметров).

Интернационализация

Интернационализация детализирует способы общения программы с неанглоговорящим пользователем. Для этого при создании программы используются функции, специально предназначенные для создания интернационализированных программ. Эти функции и особенности их применения описываются документом LI18NUX 2000 Globalization Specification Version 1.0 with Amendment 2 Linux Internationalization Initiative (Lil8nux).

Кириллизация X Window

X Window в современных дистрибутивах кириллизованы «из коробки». Однако зачастую некоторая настройка X Window все же требуется. Рассмотрим кириллизацию X Window 4.x.

Установка шрифтов для X Window

Сначала необходимо установить кириллические шрифты. В современных дистрибутивах они включены в поставку, однако возможно найти и установить свои кириллические шрифты.

Предварительно следует проверить, установлены ли вообще кириллические шрифты в вашей операционной системе. Для этого выполните команду: xisfonts | grep koi8. В результате ее выполнения будет выдан список кириллических шрифтов. Еще один вариант – поискать местоположение шрифта, в котором заведомо присутствует кириллица: find / – name crox\*.pcf\*.

В том случае, если кириллические шрифты не обнаружены, установите их самостоятельно:

1. Создайте каталог /usr/lib/X11/fonts/cyrillic и скопируйте туда кириллические шрифты.

2. Если шрифты получены в формате BDF (файлы *.bdf), то перед использованием их необходимо скомпилировать. Для каждого шрифта выполните: bdftopcf -о <font>.pcf <font>.bdf.

3. В каталоге шрифтов для X Window должен присутствовать файл fonts.dir, хранящий список шрифтов, находящихся в каталоге. Этот список создается С ПОМОЩЬЮ команды: cd Скаталог где лежат шрифты>; mkfontdir.

4. Далее о появлении нового каталога шрифтов необходимо поставить в известность Х-сервер. Этого можно достичь несколькими способами:

– добавьте новый каталог к списку каталогов в файле XF86Config;

– добавьте новый каталог к файлу запуска xinit;

– персональная настройка. У пользователя есть специальный файл для X Window —.xinitrc.

5. Здесь мы добавляем каталог с новыми шрифтами в список каталогов, просматриваемых сервером в поисках шрифтов: xset +fp <новый каталог шрифтов>.

6. А теперь мы указываем серверу перечитать свои конфигурационные файлы: xset fp rehash.

Шрифты TrueType

Шрифты TrueType, в отличие от Typel, не являются «родными» для X Window. Первоначально разработанные компанией Apple, эти шрифты используются операционными системами серии Windows. Помимо большого разнообразия шрифтов формата TrueType, у них отсутствуют многие недостатки стандартных шрифтов X Window. Поддержка шрифтов TrueType встроена во все современные дистрибутивы XFree86.

Для того чтобы шрифты отображались в нужной кодировке, в каталоге, где находятся шрифты TrueType, необходимо создать два одинаковых файла, fonts.dir и fonts.scale, следующего вида:

12

timesi.ttf -monotype-Times New Raman-medium-i-normal–0-0-0-0-p-0-microsoft-cp1251

timesbi.ttf -monotype-Times New Roman-bold-i-normal–0-0-0-0-p-0-microsoft-cp1251

timesbd.ttf -monotype-Times New Roman-bold-r-normal–0-0-0-0-p-0-microsoft-cp1251

times.ttf -monotype-Times New Roman-medium-r-normal–0-0-0-0-p-0-microsoft-cp1251

couri.ttf -monotype-Courier New-medium-i-normal–0-0-0-0-m-0-microsoft-cp1251

courbi.ttf -monotype-Courier New-boId-i-normal–0-0-0-0-m-0-microsoft-cp1251

courbd.ttf -monotype-Courier New-bold-r-normal–0-0-0-0-m-0-microsoft-cp1251

cour.ttf -monotype-Courier New-medium-r-normal–0-0-0-0-m-0-microsoft-cp1251

ariali.ttf -monotype-Arial-medium-i-normal–0-0-0-0-p-0-microsoft-cp1251

arialbi.ttf -monotype-Arial-bold-i-normal–0-0-0-0-p-0-microsoft-cp1251

arialbd.ttf -monotype-Arial-bold-r-normal–0-0-0-0-p-0-microsoft-cp1251

arial.ttf -monotype-Arial-medium-r-normal–0-0-0-0-p-0-microsoft-cp1251

Поделиться с друзьями: