Приведем упрощенный файл электронной почты для демонстрации некоторых методов извлечения данных из текстовых файлов. Заголовки представляют собой реальные заголовки RFC2822 с веб-страницы www.faqs.org/rfcs/rfc2822.html. Рассмотрим пример.
xxx
xxx
––––
From: John Doe <jdoe@machine.example>
To: Mary Smith <mary@example.net>
Subject: Saying Hello
Date: Fri, 21 Nov 1997 09:55:06 –0600
Message–ID: <1234@local.machine.example>
This is a message just to say hello.
So, "Hello".
––––
From: Joe Q. Public <john.q.public@example.com>
To: Mary Smith <@machine.tld:mary@example.net>, , jdoe@test
.example
Date: Tue, 1 Jul 2003 10:52:37 +0200
Message–ID: <5678.21–Nov–1997@example.com>
Hi everyone.
––––
To: "Mary Smith: Personal Account" <smith@home.example>
существу, мы сократили файл, отбросив большинство информации и облегчив анализ, завершив каждое сообщение строкой, содержащей символы –––– (четыре пунктирные линии). Мы собираемся написать “игрушечное приложение”, которое будет искать все сообщения, посланные отправителем John Doe, и выводить на экран их тему под рубрикой “Subject”. Если мы сможем это сделать, то научимся делать много интересных вещей.
Во-первых, мы должны решить, хотим ли мы иметь произвольный доступ к данным или анализировать их как входные потоки. Мы выбрали первый вариант, поскольку в реальной программе нас, вероятно, интересовали бы несколько отправителей или несколько фрагментов информации, поступившей от конкретного отправителя. Кроме того, эту задачу решить труднее, поэтому нам придется проявить больше мастерства. В частности, мы снова применим итераторы.
Наша основная идея — считать весь почтовый файл в структуру, которую мы назовем
Mail_file
. Эта структура будет хранить все строки почтового файла (в объекте класса
vector<string>
) и индикаторы начала и конца каждого отдельного сообщения (в объекте класса
vector<Message>
).
Для этого мы добавим итераторы, а также функции
begin
и
end
, чтобы иметь возможность перемещаться по строкам и сообщениям, как обычно. Эта схема обеспечит нам удобный доступ к сообщениям. Имея такой инструмент, мы напишем наше “игрушечное приложение”, позволяющее собирать вместе все сообщения, поступившие от одного и того же адресата, чтобы их было легче найти.
В
заключение выведем на экран все темы сообщений, поступивших от John Doe, чтобы проиллюстрировать созданный нами механизм доступа к структурам. Мы используем для этого основные средства стандартной библиотеки.
#include<string>
#include<vector>
#include<map>
#include<fstream>
#include<iostream>
using namespace std;
Определим класс
Message
как пару итераторов в классе
vector<string>
(наш вектор строк).
typedef vector<string>::const_iterator Line_iter;
class Message { // объект класса Message ссылается
struct Mail_file { // объект класса Mail_file содержит все строки
// из файла и упрощает доступ к сообщениям
string name; // имя файла
vector<string> lines; // строки по порядку
vector<Message> m; // сообщения по порядку
Mail_file(const string& n); // считываем файл n в строки
Mess_iter begin const { return m.begin; }
Mess_iter end const { return m.end; }
};
Отметьте, что мы добавили в структуры данных итераторы, чтобы иметь возможность систематически перемещаться по структуре. На самом деле мы не собираемся использовать здесь стандартные библиотечные алгоритмы, но если захотим, то итераторы позволят нам сделать это.
Для того чтобы найти и извлечь информацию, содержащуюся в сообщении, нужны две вспомогательные функции.
// Ищет имя отправителя в объекте класса Message;
// возвращает значение true, если имя найдено;
// если имя найдено, помещает имя отправителя в строку s:
bool find_from_addr(const Message* m,string& s);
// возвращает тему сообщения, если ее нет, возвращает символ " ":