Большие данные. Революция, которая изменит то, как мы живем, работаем и мыслим
Шрифт:
Поиск закономерностей в социальном контексте — лишь один из способов применения методов работы с большими данными. Не менее эффективны корреляции при работе с новыми типами данных, которые используются для решения повседневных задач.
В бизнесе все шире применяется метод прогностической аналитики для определения предстоящих событий. Это может быть алгоритм для выявления музыкальных хитов, который популярен в музыкальной сфере и позволяет звукозаписывающим лейблам лучше ориентироваться, на кого стоит делать ставки. Или же алгоритм предотвращения больших механических неисправностей и разрушений конструкции: все чаще на машинах, двигателях и элементах инфраструктуры, таких как мосты, размещают датчики для отслеживания получаемых данных (показателей тепла, вибрации, нагрузки, звука и пр.).
Если речь идет о поломке, она, как
Транспортная компания UPS с середины 2000-х годов использует прогнозный анализ для контроля своего 60-тысячного автопарка в США и выполнения своевременного профилактического обслуживания. Поломка на дороге причиняет массу неудобств, включая отправку запасного грузового автомобиля, задержки поставок и погрузок, а также привлечение дополнительных сотрудников. Поэтому в компании UPS существовало правило заменять отдельные части раз в два-три года. Но это было неэффективно, поскольку некоторые части оставались в хорошем состоянии. Благодаря измерению и отслеживанию деталей транспортного средства компания UPS сэкономила миллионы долларов, заменив только те части, которые нуждались в замене. Однажды компании даже удалось определить, что группа новых транспортных средств содержала бракованную деталь, которая неминуемо привела бы к неприятностям, не будь вовремя замечена. [61]
61
Аналитическая работа UPS: интервью Кукьера Джеку Левису (март, апрель и июль 2012 года).
Подобным образом к мостам и зданиям крепят датчики, чтобы отслеживать признаки износа. Такие же датчики внедряются на крупных химических и нефтеперерабатывающих заводах, где поломанная деталь оборудования может остановить все производство до момента ее замены. Стоимость сбора и анализа данных для принятия своевременных мер экономит средства по сравнению с тем, во что обходятся простои. Отметим, что прогностическая аналитика не в состоянии объяснить причину проблемы (из-за чего перегрелся двигатель — из-за потертого ремня вентилятора или плохо закрученного винта) — она только выявляет саму проблему. Корреляции показывают что, а не почему. Но, как видно, в большинстве случаев этого достаточно.
С помощью подобных методов обеспечивается нормальное функционирование человеческого организма. Когда к пациенту в больнице прикрепляют массу трубок, проводов и инструментов, формируется большой поток данных. Одна только ЭКГ выдает 1000 показателей в секунду. В настоящее время используется или хранится только часть получаемых данных. Большинство данных попросту выбрасывается, хотя и несет в себе важную информацию о состоянии пациента и его реакции на лечение. А в совокупности с аналогичными данными других пациентов эти сведения могли бы составить уникальную аналитическую картину того, какое лечение эффективно, а какое — нет.
Возможно, отсеивание данных было рациональным в то время, когда их сбор, хранение и анализ были дорогостоящими и трудоемкими. Но ситуация изменилась. Теперь Кэролин Макгрегор вместе с командой исследователей из Технологического института университета провинции Онтарио и компании IBM сотрудничает с рядом больниц для разработки программного обеспечения, которое получает и обрабатывает данные о состоянии пациента в режиме реального времени. Затем они используются для принятия более взвешенных диагностических решений в отношении преждевременно рожденных («недоношенных») младенцев. Система отслеживает 16 различных потоков данных, таких как частота сердечных сокращений, частота дыхания, температура, артериальное давление и уровень кислорода в крови, что вместе составляет около 1260 точек данных в секунду. [62]
62
Недоношенные
младенцы (на основе интервью с Макгрегор в январе 2010-го и апреле 2012 гг.). См. также: McGregor, Carolyn. Next Generation Neonatal Health Informatics with Artemis / Carolyn McGregor, Christina Catley, Andrew James, James Padbury // User Centered Networked Health Care, European Federation for Medical Informatics. 115 / A. Moen et al. (eds.). — IOS Press, 2011. — P. 117. Некоторые материалы взяты из специального отчета The Economist (2010 год).Система способна обнаружить едва уловимые изменения в состоянии недоношенных детей, которые сигнализируют о начале развития инфекции за сутки до появления явных симптомов. «Вы не можете увидеть их невооруженным глазом, но компьютеру это под силу», — поясняет доктор Макгрегор. Система полагается не на причинно-следственные связи, а на корреляции. Она сообщает, что происходит, а не почему. И это вполне отвечает ее назначению. Заблаговременное предупреждение позволяет врачам раньше и к тому же с более щадящим медицинским вмешательством приступить к лечению инфекции или же раньше узнать, что лечение неэффективно. И то и другое благотворно сказывается на результатах лечения пациентов. В будущем эта технология наверняка будет реализована для всех пациентов и условий. И пусть алгоритм не принимает решения, зато компьютеры делают все от них зависящее, чтобы помочь медикам как можно лучше выполнять свои обязанности.
Поразительно, как с помощью анализа больших данных доктору Макгрегор удалось выявить корреляции, которые в известном смысле бросают вызов традиционным представлениям врачей. Она обнаружила, что выраженное постоянство жизненно важных показателей, как правило, служит предвестником серьезной инфекции. Звучит странно, ведь мы полагаем, что именно ухудшение этих показателей должно предшествовать полномасштабной инфекции. Можете представить себе поколения врачей, которые по окончании рабочего дня проверяют состояние пациента и, убедившись, что оно стабилизировалось, решают, что все в порядке и можно идти домой. И только безумный звонок медсестры посреди ночи разбудит их и сообщит, что, вопреки их предположению, состояние пациента резко пошло на ухудшение.
Полученные данные свидетельствуют о том, что стабильность состояния недоношенных детей не служит признаком улучшения, а скорее больше похожа на затишье перед бурей: тело как будто велит крошечным органам мобилизовать все силы и приготовиться к предстоящим трудностям. Но мы не можем быть абсолютно уверены, ведь это лишь корреляция — здесь нет места причинно-следственным связям. Чтобы выявить эти скрытые взаимосвязи среди множества составляющих, понадобилось непостижимое количество данных. Вне всякого сомнения, большие данные спасают жизни.
Иллюзии и иллюминации
В мире малых данных корреляционный анализ не был намного лучше или дешевле исследований причинно-следственных связей. Ввиду небольшого количества данных, как правило, и то и другое исследования начинались с гипотезы, которая затем проверялась и находила свое подтверждение либо опровергалась. Поскольку в обоих случаях отправной точкой служила гипотеза, оба подхода были одинаково чувствительны к предвзятости и ошибочным предположениям. Необходимые данные для корреляционного анализа часто были недоступны, а их сбор влек за собой большие расходы. Сегодня при наличии огромного количества данных это не такие уж весомые препятствия.
Существует еще одно отличие, которое только начинает приобретать все большее значение. В эпоху малых данных в большинстве случаев корреляционный анализ ограничивался поиском линейных отношений, в частности из-за недостаточной вычислительной мощности. При таких отношениях усиление закономерности привело бы к определенным известным изменениям рассматриваемого явления. Но, безусловно, в жизни многое куда сложнее. Полноценный комплексный анализ определяет так называемые нелинейные отношения между данными. Наглядно их можно увидеть, когда данные нанесены на график. Для того чтобы выявить эти данные, нужно воспользоваться техническими инструментами. Нелинейные отношения не только гораздо подробнее линейных, но и более информативны для руководителей.