Чтение онлайн

ЖАНРЫ

Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:

Поскольку ценность данных не ограничивается одним конкретным случаем, их можно употребить в дело многократно как с одной и той же целью, так и с разными. Особенно важен для нас второй случай, поскольку мы пытаемся понять, насколько ценной будет для нас информация в эпоху больших данных. Мы уже рассмотрели примеры реализации потенциала данных, когда сеть магазинов Walmart проанализировала старые квитанции продаж и заметила выгодную корреляцию между ураганами и продажами Pop-Tarts.

Все это означает, что абсолютная ценность данных намного превышает ту, которую удается извлечь при первичном использовании. Компании могут эффективно работать с данными, даже если первое или каждое последующее использование приносит лишь небольшую толику ценности.

«Альтернативная ценность» данных

Для того чтобы получить представление о том, как повторное использование данных отражается на их конечной ценности, рассмотрим электрические автомобили. Станут ли они способом транспортировки, зависит от схемы логистики, которая так

или иначе связана со временем работы аккумулятора. Водители должны иметь возможность быстро и удобно подзарядить аккумуляторы автомобиля, а энергетические компании — гарантировать, что энергия, полученная транспортным средством, не дестабилизирует сеть. На то, чтобы путем проб и ошибок прийти к теперешнему эффективному распределению АЗС, ушли десятки лет, но нам пока неизвестно, какой окажется потребность в подзарядке электрических автомобилей и где следует размещать для них зарядные станции.

Что удивительно, это не столько инфраструктурная задача, сколько информационная, и большие данные являются важной частью решения. В ходе проведенного в 2012 году исследования IBM в сотрудничестве с калифорнийской компанией Pacific Gas and Electric Company и автопроизводителем Honda собрала огромное количество информации, чтобы ответить на вопросы о том, когда и где электрические автомобили будут подзаряжаться и как решить проблему источников электропитания. IBM разработала сложную интеллектуальную модель, основанную на многочисленных входящих данных, таких как уровень заряда аккумулятора, местоположение автомобиля, время суток и доступные разъемы на ближайших станциях зарядки электромобилей. Компания связала эти данные с текущим потреблением электросети, а также статистическими данными о закономерностях энергопотребления. Анализ огромных потоков данных в режиме реального времени и статистических данных из нескольких источников дал IBM возможность определить оптимальное время и место для подзарядки электромобилей. Он также показал, где лучше всего строить станции для их зарядки. [98] С течением времени системе понадобится учитывать различия в ценах на таких станциях. Даже прогноз погоды придется брать в расчет (в солнечный день на близлежащих станциях, работающих на солнечной энергии, электричество будет в изобилии, но по прогнозу также может предстоять неделя дождей, в течение которой солнечные панели будут простаивать).

98

О том, сколько электроэнергии потребляют электромобили: IBM. IBM, Honda, and PG&E Enable Smarter Charging for Electric Vehicles // Press release. — April 12, 2012. URL:См. также: Luthy, Clay. Guest Perspective: IBM Working with PG&E to Maximize the EV Potential // PGE Currents magazine. — April 13, 2012. URL: http://www.pgecurrents.com/2012/04/13/ibm-working-with-pge-to-maximize-the-ev-potential.

Система получает информацию, созданную с одной целью, и работает с ней повторно с другой — иными словами, данные переходят от первичного использования к вторичному. Это делает их гораздо более ценными с течением времени. Индикатор уровня заряда аккумулятора автомобиля сообщает водителю, когда требуется подзарядка. Энергетическая компания собирает данные об эксплуатации электросети, чтобы управлять ее стабильностью. Это примеры первичного использования. Оба набора данных находят вторичное применение — и новую ценность, когда рассматриваются с совершенно другой целью: определить, когда и где выполнять подзарядку, а также где строить новые станции обслуживания электромобилей. Помимо этих данных включается новая, вспомогательная информация — местоположение автомобиля и статистические данные о работе в сети. К тому же IBM использует данные не один раз, а многократно, постоянно обновляя свои сведения о потреблении энергии электромобилями, а также о нагрузке на электросеть.

Истинная ценность данных — как айсберг в океане. На первый взгляд видна лишь незначительная часть, в то время как все остальное скрыто под водой. Инновационные компании, которые понимают это, могут извлечь скрытую ценность и получить потенциально огромные преимущества. Проще говоря, ценность данных необходимо рассматривать с точки зрения всех возможностей их дальнейшего использования, а не только нынешнего. Мы могли убедиться в этом на многих рассмотренных примерах. Компания Farecast анализировала данные о продаже авиабилетов, чтобы прогнозировать будущие цены на авиабилеты. Компания Google повторно применила условия поиска, чтобы узнать показатели распространения гриппа. Доктор Макгрегор собирала показатели жизненно важных функций младенцев, чтобы прогнозировать развитие инфекций. Мори многократно изучал старые капитанские журналы, чтобы выявить океанские течения.

И все-таки важность повторного применения данных недооценивается как в бизнесе, так и в обществе. Мало кто из руководителей нью-йоркской компании Con Edison мог предположить, что информация о кабелях со времен 1800-х годов и записи о техническом обслуживании могут пригодиться для предотвращения будущих аварий. Потребовалось новое поколение статистиков, а также новое поколение методов и средств, чтобы высвободить эту скрытую ценность данных. До недавних пор даже многим технологическим и интернет-компаниям не было известно, насколько ценным бывает повторное использование данных.

Данные можно наглядно представить

в виде энергии, как ее видят физики. Это хранящаяся, или потенциальная энергия, которая дремлет в каждом из объектов, будь то сжатая пружина или мяч на вершине пригорка. Энергия в этих объектах находится в скрытом (потенциальном) состоянии, пока не будет высвобождена (например, если отпустить пружину или подтолкнуть мяч, чтобы он покатился вниз). Тогда она становится кинетической, поскольку они движутся и прилагают силу к другим объектам физического мира. После первичного использования данных их ценность остается прежней, но только в «спящем» состоянии. Она сохраняет свой потенциал, как пружина или мяч, вплоть до вторичного применения, когда преимущества данных раскроются с новой силой. В эпоху больших данных у нас, наконец, есть все необходимое (мышление, изобретательность и инструменты), чтобы высвободить их скрытую ценность.

В конечном счете ценность данных заключается в том, что можно получить от их всестороннего использования. Эти, по-видимому бесконечные, возможности служат альтернативами, но не с точки зрения финансовых инструментов, а с точки зрения практических вариантов выбора. Стоимость данных определяется суммой таких вариантов — так сказать, «альтернативной ценностью» данных. Раньше, задействовав данные по основному назначению, мы, как правило, считали, что они свою миссию уже выполнили и теперь их можно окончательно удалить. Ведь, казалось бы, основная ценность получена. В эпоху больших данных все иначе: данные, как волшебный алмазный рудник, обеспечивают отдачу еще долго после того, как их номинальная ценность уже извлечена. Есть четыре мощных способа раскрыть альтернативную ценность данных: основное повторное использование, слияние наборов данных, поиск данных «2 в 1» и учет «амортизации» ценности данных.

Повторное использование данных

Классический пример инновационного повторного использования данных — условия поиска. На первый взгляд, информация становится бесполезной, как только ее первоначальное назначение достигнуто. Мгновенное взаимодействие между пользователем и поисковой системой приводит к подготовке списка сайтов и объявлений, тем самым выполняя определенную функцию, уникальную на тот конкретный момент. Но и старые запросы могут быть чрезвычайно полезными. Такие компании, как Hitwise, которая принадлежит брокеру данных Experian и занимается измерением веб-трафика, дают клиентам возможность проводить интеллектуальный анализ поискового трафика, чтобы выявить предпочтения потребителей. Маркетологи могут использовать Hitwise, чтобы узнать, какой цвет будет в моде этой весной — розовый или снова черный. Компания Google предоставляет пользователям открытый доступ к своей версии аналитики условий поиска. В сотрудничестве с BBVA, вторым по величине банком Испании, Google запустила службу бизнес-прогнозирования, чтобы анализировать сектор туризма и продавать в режиме реального времени экономические показатели, основанные на данных поиска. Банк Англии работает с поисковыми запросами, связанными с объектами недвижимости, чтобы уточнить тенденции роста или падения цен на жилье.

Компании, которые недооценили важность повторного использования данных, усвоили урок на собственном горьком опыте. В начале своей деятельности Amazon заключила сделку с компанией AOL по запуску технологии, лежащей в основе интернет-магазина AOL. Для большинства людей это выглядело как обычная сделка внешнего подряда. «Но что на самом деле интересовало Amazon, так это данные о том, что пользователи ищут и покупают, поскольку это позволило бы повысить эффективность рекомендательной системы компании», — поясняет Андреас Вайгенд, бывший руководитель исследовательских работ в Amazon. [99] Бедняжка AOL так этого и не поняла. Она видела преимущества только с точки зрения первичного использования — продаж, в то время как в Amazon смекнули, что можно извлечь выгоду из вторичного использования данных.

99

Amazon и данные AOL: интервью Андреаса Вайгенда, 2010 год.

Или возьмем первые шаги Google в области распознавания речи. В 2007 году был запущен голосовой телефонный справочник GOOG-411, который функционировал вплоть до 2010 года. Поисковый гигант не имел своей технологии распознавания речи, поэтому пришлось ее лицензировать. Компания заключила договор с лидером в этой области — компанией Nuance, которая была рада обзавестись таким ценным клиентом. Но Nuance плохо разбиралась в том, что касалось больших данных: в договоре не уточнялось, кто является держателем записей голосового перевода, поэтому Google сохраняла их для себя. Эти данные были необходимы для совершенствования технологии, но также годились для создания новой службы распознавания речи с нуля. На тот момент Nuance воспринимала себя как организацию, которая занимается лицензированием программного обеспечения, а не обработкой данных. Осознав свою ошибку, компания начала заключать сделки с мобильными операторами и производителями мобильных телефонов для внедрения своей службы распознавания речи, что позволило и Nuance собирать данные. [100]

100

Программное обеспечение Nuance и Google: специальный отчет The Economist, 2010 год.

Поделиться с друзьями: