Linux программирование в примерах, Роббинс Арнольд

Linux программирование в примерах

на обложку

Роббинс Арнольд

Шрифт:

• Сходным образом, когда в

eflags

установлен

REG_NOTEOL

, оператор

не соответствует концу строки.

• Когда в

cflags

включен

REG_NEWLINE

, то:

• Символ конца строки не соответствует '

' или дополненному списку символов.

• Оператор

всегда соответствует положению непосредственно за вставленным символом конца строки независимо от установки

REG_BOL

• Оператор

всегда соответствует положению непосредственно перед вставленным символом конца строки независимо от установки

REG_EOL

Когда вы осуществляете построчный ввод/вывод, как в случае с

grep

, можно не включать

REG_NEWLINE

cflags

Если в буфере несколько строк, и каждую из них нужно рассматривать как отдельную, с сопоставлением

, тогда следует включить

REG_NEWLINE

Структура

regex_t

по большей части непрозрачна. Код уровня пользователя может исследовать лишь один член этой структуры; остальное предназначено для внутреннего использования процедурами регулярных выражений:

typedef struct {

/* ...здесь внутренний материал... */

size_t re_nsub;

/* ...здесь внутренний материал... */

} regex_t;

В структуре

regmatch_t

есть по крайней мере два члена для использования кодом уровня пользователя:

typedef struct {

/* ...здесь возможный внутренний материал... */

regoff_t rm_so; /* Смещение начала вложенной строки в байтах */

regoff_t rm_eo; /* Смещение первого байта после вложенной строки */

/* ...здесь возможный внутренний материал... */

} regmatch_t;

Как поле

re_nsub

, так и структура

regmatch_t

предназначены для сопоставления вложенных выражений. Рассмотрим такое регулярное выражение:

[:пробел:]]+([[:цифра:]]+)[[:пробел:]]+([[:буква:]])+

Каждое из двух вложенных выражений в скобках могут соответствовать одному или более символам. Более того, текст, соответствующий каждому вложенному выражению, может начинаться и заканчиваться в произвольных участках строки.

regcomp

устанавливает в поле

re_nsub

число вложенных выражений в скобках внутри регулярного выражения,

regexec

заполняет массив

pmatch

структур

regmatch_t

смещениями начальных и конечных байтов текста, соответствующих этим вложенным выражениям. Вместе эти данные позволяют заменять текст — удалять его или заменять другим текстом, точно так же, как в текстовом редакторе

pmatch[0]

описывает часть строки, соответствующую всему регулярному выражению. Участок от

pmatch[1]

до

pmatch[preg->re_nsub]

описывает ту часть, которая соответствует каждому вложенному выражению в скобках. (Таким образом, вложенные выражения нумеруются начиная с 1.) Элементы

rm_so

rm_eo

не используемых элементов массива

pmatch

установлены в -1.

regexec

заполняет не более

nmatch-1

элементов

pmatch

; поэтому следует убедиться, что имеется по крайней мере на 1 элемент больше, чем в

preg->re_nsub

Наконец, флаг

REG_NOSUB

для

regcomp

означает, что начальная и завершающая информация не нужна. Этот флаг следует использовать, когда эти сведения не нужны; это потенциально может довольно значительно повысить производительность

regexec

Другими словами, если все, что вам нужно знать, это «соответствует ли?», включите

REG_NOSUB

. Однако, если нужно также знать, «где находится соответствующий текст?», этот флаг следует опустить.

В заключение, как

regcomp

, так и

regexec

возвращают 0, если они успешны, или определенный код ошибки, если нет. Коды ошибок перечислены в табл. 12.9.

Таблица 12.9. Коды ошибок

regcomp

regexec

Константа	Значение
REG_BADBR	Содержимое ' \{...\} ' недействительно.
REG_BADPAT	Регулярное выражение недействительно
REG_BADRPT	Символу ? , + или * не предшествует действительное регулярное выражение.
REG_EBRACE	Фигурные скобки (' \{...\} ') не сбалансированы
REG_EBRACK	Квадратные скобки (' [...] ') не сбалансированы
REG_ECOLLATE	В шаблоне использован недействительный элемент сортировки
REG_ECTYPE	В шаблоне использован недействительный класс символов
REG_EESCAPE	В шаблоне есть завершающий символ \
REG_EPAREN	Группирующие скобки (' (...) ' или ' \(...\) ') не сбалансированы
REG_ERANGE	Конечная точка в диапазоне не действительна
REG_ESPACE	Функции не хватило памяти
REG_ESUBREG	Цифра в ' \цифра ' недействительна
REG_NOMATCH	Строка не соответствует шаблону

Для демонстрации регулярных выражений

ch12-grep.c

предусматривает базовую реализацию стандартной программы

grep

, которая отыскивает соответствие шаблону. Наша версия использует по умолчанию базовые регулярные выражения. Для использования вместо этого расширенных регулярных выражений она принимает опцию

– E

, а для игнорирования регистра символов опцию

– i

. Как и настоящая

grep

, если в командной строке не указаны файлы, наша

grep

читает со стандартного ввода, а для обозначения стандартного ввода, как и в настоящей

grep

, может быть использовано имя файла '

–

'. (Эта методика полезна для поиска в стандартном вводе наряду с другими файлами.) Вот программа:

1 /* ch12-grep.c - Простая версия grep, использующая функции POSIX */

3 #define _GNU_SOURCE 1 /* для getline)) */

4 #include <stdio.h>

5 #include <errno.h>

6 #include <regex.h>

7 #include <unistd.h>

8 #include <sys/types.h>

10 char *myname; /* для сообщений об ошибках */

11 int ignore_case = 0; /* опция -i: игнорировать регистр */

12 int extended = 0; /* опция -E: использовать расширенные регулярные выражения */

13 int errors = 0; /* число ошибок */

15 regex_t pattern; /* шаблон для поиска */

17 void compile_pattern(const char *pat);

18 void process(const char *name, FILE *fp);

19 void usage(void);

Строки 10–15 объявляют глобальные переменные программы. Первый набор (строки 10–13) для опций и сообщений об ошибках. Строка 15 объявляет

pattern

, в которой хранится откомпилированный шаблон. Строки 17–19 объявляют другие функции программы.

21 /* main --- обработка опций, открывание файлов */

23 int main(int argc, char **argv)

24 {

25 int с;

26 int i;

27 FILE *fp;

1-152 153 154 155 156 157 158 159 160 161 162 163 164 165 166-220

Поделиться с друзьями:

Чтение онлайн

КНИГИ

АВТОРЫ

ЖАНРЫ

Деловая литература

Детективы

Детские

Документальная литература

Дом и Семья

Драматургия

Жанр не определен

Компьютеры и Интернет

Любовные романы

Научно-образовательная

Поэзия

Приключения

Проза

Прочее

Религия и эзотерика

Справочная литература

Старинная литература

Техника

Фантастика

Фольклор

Юмор

Linux программирование в примерах

Роббинс Арнольд

Шрифт: