Linux программирование в примерах, Роббинс Арнольд

Linux программирование в примерах

на обложку

Роббинс Арнольд

Шрифт:

– -> ABC abc en_US /* Слова те же, локаль "en_US" */

en_US: strcmp("ABC", "abc") is -1 /* strcmp без изменений */

en_US: strcoll("ABC", "abc") is 2 /* рез-ты strcoll изменились' */

– -> ABC abc en_US.UTF-8 /* Слова те же, локаль "en_US.UTF-8" */

en_US.UTF-8: strcmp("ABC", "abc") is -1

en_US. UTF-8: strcoll("ABC", "abc") is 6

/* Другое значение, все еще положительное */

– -> junk JUNK /* Новые слова */

en_US.UTF-8: strcmp("junk", "JUNK") is 1 /*

предыдущая локаль */

en_US.UTF-8: strcoll("junk", "JUNK") is -6

Эта программа ясно показывает различие между

strcmp

strcoll

. Поскольку

strcmp

работает в соответствии с числовыми значениями символов, она всегда возвращает тот же самый результат,

strcoll

понимает проблемы сортировки, и ее результат меняется в соответствии с локалью. Мы видим, что в обеих локалях

en_US

заглавные буквы идут после строчных.

ЗАМЕЧАНИЕ. Специфическая для локали сортировка строк является проблемой также и для сопоставления регулярных выражений. Регулярные выражения допускают диапазоны символов внутри выражений со скобками, такие, как '

[a-z]

' или '

["-/]

'. Точное значение такой конструкции (символы, численно располагающиеся между начальной и конечной точками включительно) определено лишь для локалей «С» и «POSIX»

Для локалей, не являющихся ASCII, такие диапазоны как '

[a-z]

' могут соответствовать также и заглавным буквам, а не только строчным! Диапазон '

["-/]

' действителен в ASCII, но не в "

en_US.UTF-8

Долговременным наиболее переносимым решением является использование классов символов POSIX, таких, как '

[[:lower:]]

' и '

[[:punct:]]

'. Если вам кажется, что нужно использовать выражения с диапазонами на системах, использующих локали, и на более старых системах, не использующих их, без изменения своей программы, решение заключается в применении грубой силы и индивидуальном перечислении каждого символа внутри скобок. Это неприятно, но это работает.

Основанная на локалях сортировка потенциально дорогостоящая. Если вы ожидаете большого числа сравнений, где по крайней мере одна из строк не будет изменяться или где значения строк будут сравниваться друг с другом по несколько раз (как при сортировке списка), следует рассмотреть использование функции

strxfrm

для преобразования своих строк для использования с

strcmp

. Функция

strxfrm

объявлена следующим образом:

#include <string.h> /* ISO С */

size_t strxfrm(char *dest, const char *src, size_t n);

Идея в том, что

strxfrm

преобразует первые n символов

src

, помещая их в

dest

. Возвращаемое значение является числом символов, необходимых для сохранения преобразованных символов. Если она превышает n, содержимое

dest

«неопределенно».

Стандарт POSIX явным образом разрешает устанавливать в

ноль, а в

dest NULL

. В этом случае

strxfrm

возвращает размер массива, необходимого для сохранения преобразованной версии

src

(не включая завершающий символ '

'). Предполагается, что это значение впоследствии будет использовано с

malloc

для создания массива

dest

или для проверки размера предопределенных границ массива (При этом, очевидно,

src

должен иметь завершающий нулевой байт.) Этот фрагмент иллюстрирует использование

strxfrm

#define STRBUFSIZE ...

char s1[STRBUFSIZE], s2[STRBUFSIZE]; /* Оригинальные строки */

char s1x[STRBUFSIZE], s2x[STRBUFSIZE]; /* Преобразованные

копии */

size_t len1, len2;

int cmp;

/* ... заполнить s1 и s2 ... */

len1 = strlen(s1);

len2 = strlen(s2);

if (strxfrm(s1x, s1, len1) >= STRBUFSIZE ||

strxfrm(s2x, s2, len2) >= STRBUFSIZE)

/* слишком большой, восстановить */

cmp = strcmp(s1x, s2x);

if (cmp == 0)

/* равны */

else if (cmp < 0)

/* s1 < s2 */

else

/* s1 > s2 */

Для одноразовых сравнений, возможно, быстрее непосредственно использовать

strcoll

. Но если строки будут сравниваться несколько раз, более быстрым будет использование сначала

strxfrm

, а затем

strcmp

с преобразованными значениями. Функций для локали, соответствующих

strncmp

или

strcasecmp

, нет.

13.2.4. Числовое и денежное низкоуровневое форматирование:

localeconv

Корректное форматирование числовых и денежных значений требует значительной низкоуровневой информации. Указанная информация доступна в

struct lconv

, которую получают с помощью функции

localeconv

#include <locale.h> /* ISO С */

struct lconv *localeconv(void);

Подобно функции

ctime

, эта функция возвращает указатель на внутренние статические данные. Следует сделать копию возвращенных данных, поскольку последующие вызовы могут возвратить другие значения, если локаль изменилась. Вот

struct lconv

(слегка сжатая), непосредственно из GLIBC

<locale.h>

struct lconv {

/* Числовая (не денежная) информация. */

char *decimal_point; /* Разделитель десятичной дроби. */

char *thousands_sep; /* Разделитель тысяч. */

/* Каждый элемент является числом цифр в каждой группе;

элементы с большими индексами оставлены дальше. Элемент со

значением CHAR_MAX означает, что дальнейшая группировка не

производится. Элемент со значением 0 означает, что предыдущий

элемент используется для всех оставшихся групп. */

char *grouping;

/* Денежная информация. */

/* Первые три символа являются символами валют из ISO 4217.

Четвертый символ является разделителем. Пятый символ '\0'. */

char *int_curr_symbol;

char *currency_symbol; /* Символ местной валюты. */

char *mon_decimal_point; /* Символ десятичной точки. */

char *mon_thousands_sep; /* Разделитель тысяч. */

char *mon_grouping; /* Аналогично элементу 'группировки' (выше). */

char *positive_sign; /* Знак для положительных значений. */

char *negative_sign; /* Знак для отрицательных значений. */

char int_frac_digits; /* Международные цифры дробей. */

char frac_digits; /* Местные цифры дробей. */

/* 1, если символ валюты перед положит, значением, 0, если после. */

1-160 161 162 163 164 165 166 167 168 169 170 171 172 173 174-222

Поделиться с друзьями:

Чтение онлайн

КНИГИ

АВТОРЫ

ЖАНРЫ

Деловая литература

Детективы

Детские

Документальная литература

Дом и Семья

Драматургия

Жанр не определен

Компьютеры и Интернет

Любовные романы

Научно-образовательная

Поэзия

Приключения

Проза

Прочее

Религия и эзотерика

Справочная литература

Старинная литература

Техника

Фантастика

Фольклор

Юмор

Linux программирование в примерах

Роббинс Арнольд

Шрифт: