Чтение онлайн

ЖАНРЫ

Программирование. Принципы и практика использования C++ Исправленное издание
Шрифт:

Следует подчеркнуть, что мы используем специальные символы, такие как \w (означающий “любой словообразующий символ”), в спецификации класса символов. Как же нам вставить обратную косую черту (\) в класс символов? Как обычно, превращаем ее в управляющий символ: \\.

Если первым символом в спецификации класса символов является символ
^
, это означает отрицание
^
. Например:

< image l:href="#"/>

В последнем регулярном выражении символ ^

стоит не на первом месте после квадратной скобки ([), значит, это простой символ, а не оператор отрицания. Регулярные выражения могут быть очень хитроумными.

Реализация библиотеки

regex
также содержит набор именованных классов символов, используемых для сравнения. Например, если хотите сравнивать буквенноцифровые символы (т.е. буквы или цифры: a–z, или A–Z, или 0–9), то это можно сделать с помощью регулярного выражения
[[:alnum:]]
. Здесь слово alnum представляет собой имя совокупности символов (набор буквенно-цифровых символов). Шаблон для непустой строки буквенно-цифровых символов, заключенной в квадратные скобки, может выглядеть так:
"[[:alnum:]]+
". Для того чтобы поместить это регулярное выражение в строковый литерал, мы должны сделать кавычки управляющими символами.

string s = "\"[[:alnum:]]+\"";

Более того, чтобы поместить строковый литерал в объект класса

regex
, мы должны сделать управляющими символами не только кавычки, но и саму обратную косую черту и использовать для инициализации круглые скобки, так как конструктор класса
regex
является явным:

regex s("\\\"[[:alnum:]]+\\\"");

Использование регулярных выражений вынуждает вводить множество обозначений. Перечислим стандартные классы символов.

Реализация библиотеки

regex
может содержать и другие классы символов, но если вы решили использовать именованный класс, не указанный в этом списке, убедитесь, что он не ухудшает переносимость программы.

23.8.7. Ошибки в регулярных выражениях

Что произойдет, если мы зададим неправильное регулярное выражение? Рассмотрим пример.

regex pat1("(|ghi)"); // пропущенный оператор альтернативы

regex pat2("[c–a]"); // не диапазон

Когда мы присваиваем шаблон объекту класса

regex
, он подвергается проверке. Если механизм сравнения регулярных выражений не может работать из-за того, что регулярное выражение неправильное или слишком сложное, генерируется исключение
bad_expression
.

Рассмотрим небольшую программу, позволяющую исследовать механизм сравнения регулярных выражений.

#include <boost/regex.hpp>

#include <iostream>

#include <string>

#include <fstream>

#include<sstream>

using namespace std;

using namespace boost; // если вы используете реализацию библиотеки

// boost

//
получаем извне шаблон и набор строк

// проверяем шаблон и ищем строки, содержащие этот шаблон

int main

{

regex pattern;

string pat;

cout << "введите шаблон: ";

getline(cin,pat); // считываем шаблон

try {

pattern = pat; // проверка шаблона

cout << "Шаблон: " << pattern << '\n';

}

catch (bad_expression) {

cout << pat

<< "Не является корректным регулярным выражением\n";

exit(1);

}

cout << "Введите строки:\n";

string line; // входной буфер

int lineno = 0;

while (getline(cin,line)) {

++lineno;

smatch matches;

if (regex_search(line, matches, pattern)) {

cout << " строка " << lineno << ": " << line << '\n';

for (int i = 0; i<matches.size; ++i)

cout << "\tmatches[" << i << "]: "

<< matches[i] << '\n';

}

else

cout << "не соответствует \n";

}

}

ПОПРОБУЙТЕ

Запустите эту программу и попробуйте применить ее для проверки нескольких шаблонов, например abc, x.*x, ( .* ), \([^)]*\) и \ w+\w+(Jr\.) ?.

23.9. Сравнение регулярных выражений

Регулярные выражения в основном используются в двух ситуациях.

Поиск строки, соответствующей регулярному выражению в (произвольно длинном) потоке данных, — функция

regex_search
ищет этот шаблон как подстроку в потоке.

Сравнение регулярного выражения со строкой (заданного размера) — функция

regex_match
ищет полное соответствие шаблона и строки.

Одним из примеров является поиск почтовых индексов в разделе 23.6. Рассмотрим извлечение данных из следующей таблицы.

Эта совершенно типичная и не очень сложная таблица (количество учеников в 2007 году в средней школе, в которой учился Бьярне Страуструп) извлечена с веб страницы, на которой она выглядела именно так, как нам нужно.

Поделиться с друзьями: