Чтение онлайн

ЖАНРЫ

Эффективное использование STL
Шрифт:

Один из интересных аспектов поведения string, не следующий непосредственно из этих диаграмм, относится к стратегии выделения памяти для малых строк. В некоторых реализациях устанавливается минимальный размер выделяемого блока памяти; к их числу принадлежат реализации A, C и D. Вернемся к команде

string s ("Perse"); // Строка s состоит из 5 символов

В реализации A минимальный размер выделяемого буфера равен 32 символам. Таким образом, хотя размер s во всех реализациях равен 5 символам, емкость этого контейнера в реализации A равна 31 (видимо, 32-й символ зарезервирован для завершающего нуль-символа, упрощающего реализацию функции

c_str
). В реализации C также установлен минимальный размер буфера, равный 16,
при этом место для завершающего нуль-символа не резервируется, поэтому в реализации C емкость
s
равна 16. Минимальный размер буфера в реализации D также равен 16, но с резервированием места для завершающего нуль-символа. Принципиальное отличие реализации D заключается в том, что содержимое строк емкостью менее 16 символов хранится в самом объекте
string
. Реализация B не имеет ограничений на минимальный размер выделяемого блока, и в ней емкость s равна 7. (Почему не 6 или 5? Не знаю. Простите, я не настолько внимательно анализировал исходные тексты.)

Из сказанного очевидно следует, что стратегия выделения памяти для малых строк может сыграть важную роль, если вы собираетесь работать с большим количеством коротких строк и (1) в вашей рабочей среде не хватает памяти или (2) вы стремитесь по возможности локализовать ссылки и пытаетесь сгруппировать строки в минимальном количестве страниц памяти.

Конечно, в выборе реализации

string
разработчик обладает большей степенью свободы, чем кажется на первый взгляд, причем эта свобода используется разными способами. Ниже перечислены ишь некоторые переменные факторы.

• По отношению к содержимому

string
может использоваться (или не использоваться) подсчет ссылок. По умолчанию во многих реализациях подсчет ссылок включен, но обычно предоставляется возможность его отключения (как правило, при помощи препроцессорного макроса). В совете 13 приведен пример специфической ситуации, когда может потребоваться отключение подсчета ссылок, но такая необходимость может возникнуть и по другим причинам. Например, подсчет ссылок экономит время лишь при частом копировании строк. Если в приложении строки копируются редко, затраты на подсчет ссылок не оправдываются.

• Объекты

string
занимают в 1-7 (по меньшей мере) раз больше памяти, чем указатели
char*
.

• Создание нового объекта

string
может потребовать нуля, одной или двух операций динамического выделения памяти.

• Объекты

string
могут совместно использовать данные о размере и емкости строки.

• Объекты

string
могут поддерживать (или не поддерживать) распределители памяти уровня объекта.

• В разных реализациях могут использоваться разные стратегии ограничения размеров выделяемого блока.

Только не поймите меня превратно. Я считаю, что контейнер

string
является одним из важнейших компонентов стандартной библиотеки и рекомендую использовать его как можно чаще. Например, совет 13 посвящен возможности использования
string
вместо динамических символьных массивов. Но для эффективного использования STL необходимо разбираться во всем разнообразии реализаций
string
, особенно если ваша программа должна работать на разных платформах STL при жестких требованиях к быстродействию.

Кроме того, на концептуальном уровне контейнер

string
выглядел предельно просто. Кто бы мог подумать, что его реализация таит столько неожиданностей?

Совет 16. Научитесь передавать данные vector и string функциям унаследованного интерфейса

С момента стандартизации C++ в 1998 году элита C++ настойчиво подталкивает программистов к переходу с массивов на vector. Столь же открыто пропагандируется переход от указателей

char*
к объектам
string
. В пользу перехода имеются достаточно веские аргументы,
в том числе ликвидация распространенных ошибок программирования (совет 13) и возможность полноценного использования всей мощи алгоритмов STL (совет 31).

Но на этом пути остаются некоторые препятствия, из которых едва ли не самым распространенным являются унаследованные интерфейсы языка C, работающие с массивами и указателями

char*
вместо объектов
vector
и
string
. Они существуют с давних времен, и если мы хотим эффективно использовать STL, придется как-то уживаться с этими «пережитками прошлого».

К счастью, задача решается просто. Если у вас имеется

vector v
и вы хотите получить указатель на данные
v
, которые интерпретировались бы как массив, воспользуйтесь записью
&v[0]
. Для
string s
аналогичная запись имеет вид
s.c_str
. Впрочем, это не все — существуют некоторые ограничения (то, о чем в рекламе обычно пишется самым мелким шрифтом).

Рассмотрим следующее объявление:

vector<int> v;

Выражение

v[0]
дает ссылку на первый элемент вектора, соответственно
&v[0]
— указатель на первый элемент. В соответствии со Стандартом C++ элементы
vector
должны храниться в памяти непрерывно, по аналогии с массивом. Допустим, у нас имеется функция C, объявленная следующим образом:

void doSomething(const int* pInts, size_t numlnts);

Передача данных должна происходить так:

doSomething(&v[0], v.size);

Во всяком случае, так должнобыть. Остается лишь понять, что произойдет, если вектор

v
пуст. В этом случае функция
v.size
вернет 0, а
&v[0]
пытается получить указатель на несуществующий блок памяти с непредсказуемыми последствиями. Нехорошо. Более надежный вариант вызова выглядит так:

if (!v.empty) {

 doSomething(&v[0], v.size);

}

Отдельные подозрительные личности утверждают, что

&v[0]
можно заменить на
v.begin
, поскольку
begin
возвращает итератор, а для
vector
итератор в действительности представляет собой указатель. Во многих случаях это действительно так, но, как будет показано в совете 50, это правило соблюдается не всегда, и полагаться на него не стоит. Функция
begin
возвращает итератор, а не указатель, поэтому она никогда не должна использоваться для получения указателя на данные
vector
. А если уж вам очень приглянулась запись
v.begin
, используйте конструкцию
&*v.begin
— она вернет тот же указатель, что и
&v[0]
, хотя это увеличивает количество вводимых символов и затрудняет работу людей, пытающихся разобраться в вашей программе. Если знакомые вам советуют использовать
v.begin
вместо
&v[0]
— лучше смените круг общения.

Способ получения указателя на данные контейнера, хорошо работающий для

vector
, недостаточно надежен для
string
. Во-первых, контейнер
string
не гарантирует хранения данных в непрерывном блоке памяти; во-вторых, внутреннее представление строки не обязательно завершается нуль-символом. По этим причинам в контейнере string предусмотрена функция
c_str
, которая возвращает указатель на содержимое строки в формате C. Таким образом, передача строки
s
функции

Поделиться с друзьями: