Революция в аналитике. Как в эпоху Big Data улучшить ваш бизнес с помощью операционной аналитики
Шрифт:
Статистические методы по-прежнему актуальны
Сегодня можно наткнуться на мнение, кто классические методы статистики – это устаревшие концепции, предназначенные только для малых данных. Это абсолютно ошибочная точка зрения. Разумеется, аналитика развивается и добавляет все новые аналитические дисциплины, поэтому организации должны расширять свои аналитические компетенции за пределы классических методов статистики. Некоторые аналитические методы и алгоритмы, такие как алгоритмы поиска и обработки естественного языка, не основаны непосредственно на методах классической статистики. Это нормально. Однако подобно тому как добавление нереляционного окружения к реляционному не означает, что потребности в реляционной обработке канули в лету, так и добавление дополнительных аналитических дисциплин к классической статистике не говорит о том, что последняя потеряла свое значение {69} .
69
См.: Kirk Borne, “Statistical Truisms in the Age of Big Data,” 19 июня 2013 г.,
Независимо от того, насколько большим является источник данных, ему все равно присущи вариативность и неопределенность. Данные никогда не бывают идеальными, и в изучаемых нами совокупностях данных всегда будет присутствовать естественная вариативность. Сколько бы данных у нас ни имелось, невозможно с идеальной точностью предсказать поведение каждого конкретного человека или поломку каждого конкретного двигателя, поскольку нам всегда будет недоставать некоторой информации и всегда будут присутствовать неучтенные факторы {70} . Статистика позволяет количественно оценить и учесть риски, сопряженные с этими пробелами. Давайте рассмотрим следующий пример.
70
Более подробное обсуждение этой концепции см. в статье в моем блоге для Международного института аналитики, озаглавленной «Идеальная информация не соответствует идеальным предсказаниям» (“Perfect Information Doesn’t Equal Perfect Predictions”), 12 декабря 2013 г., на http://iianalytics.com/2013/12/perfect-information-doesnt-equalperfect-predictions/
В последнее время большую популярность приобретает такой нестатистический метод, как пат-анализ (он же анализ троп). Как правило, он используется для идентификации серии действий каждого клиента и соотнесения путей, которыми он следует, с проявлениями его интереса. Эти действия могут включать снятие средств через банкомат, звонки в колл-центр, внесение средств на счет, клики на веб-страницах, твиты и любые другие, прямо или косвенно затрагивающие организацию. В путь могут быть включены десятки возможных действий. На протяжении многих лет пат-анализ применялся к веб-трафику, позволяя определять, как пользователи передвигаются по сайту и какие пути с наибольшей вероятностью ведут к продажам. Сегодня этот аналитический метод начинает выходить за рамки веб-трафика.
Идея о том, что статистика потеряла свою актуальность, – заблуждение. Тогда как сегодня действительно существует необходимость выходить за рамки только классических статистических методов, сами по себе эти методы остаются крайне важным компонентом операционной аналитики.
Установление ключевых фактов о типичных путях позволяет повысить мощность прогностических моделей благодаря включению в них уникальной информации. Рассмотрим сценарий с четырьмя конкретными взаимодействиями: снятием средств через банкомат (А), звонком в колл-центр (B), визитом в филиал банка (C) и подачей жалобы (D). Свой путь я обозначу как ABCD: сначала снял деньги в банкомате, потом позвонил в колл-центр, далее нанес визит в филиал банка и, наконец, подал жалобу. После идентификации пути каждого клиента можно легко определить, какие из путей являются наиболее типичными и к каким, положительным или отрицательным, исходам относительно интересующих организацию метрик они ведут, например к открытию нового счета или закрытию существующего. Использование статистики может повысить точность пат-анализа и расширить его применение. Создав набор вспомогательных метрик, отражающих ключевые особенности каждого пути, можно более глубоко исследовать, какие аспекты путей влияют на интересующие организацию метрики. Резюме может включать следующие метрики:
• Повышает ли звонок в колл-центр риск ухода клиента в любой ситуации?
• Подача жалобы имеет значение только в том случае, если она является первой или последней в серии действий?
• Такие действия, как визит в филиал и подача жалобы, имеют значение только в сочетании, но не по отдельности?
• Подача жалобы после звонка клиента в колл-центр приобретает большее значение, чем когда предшествует звонку?
• Подача жалобы сразу по трем каналам коммуникации в любом сочетании существенно увеличивает риск ухода клиента?
На эти вопросы можно ответить, если маркировать путь каждого клиента при помощи серии числовых переменных, определяющих наличие или отсутствие ключевых характеристик пути. Например, одна
переменная будет иметь значение 1, если путь включает комбинацию визита в филиал и звонка в колл-центр, и 0, если не включает. После создания широкого спектра переменных можно использовать классический корреляционный или регрессионный анализ для определения того, какие характеристики пути в наибольшей степени связаны с интересующей организацию метрикой. В рассматриваемом нами сценарии нестатистическая функция пути используется для поиска новой информации, которая затем может быть проанализирована строгими статистическими методами. Таким образом, статистика усиливает эффективность пат-анализа. Это еще один пример воздействия мультидисциплинарной аналитики, о чем мы уже говорили ранее в данной главе. Статистика живет и процветает.Не пренебрегайте выборками
Концепция использования выборок в аналитических процессах родилась практически вместе с самой аналитикой {71} . В прошлом необходимость работы с выборками, а не со всей совокупностью данных диктовалась ограниченными возможностями обработки. В последние годы во многих случаях стало возможным собирать и анализировать всю совокупность интересующих нас данных, поэтому начались разговоры о том, что эпоха выборочных исследований подошла к концу.
71
На основе статьи в моем блоге для Международного института аналитики: «Производить выборку или не производить… Разве это имеет значение?» (“To Sample or Not to Sample… Does It Even Matter?”), 5 апреля 2013 г. См.: http://iianalytics.com/2012/04/to-sample-or-not-to-sample-does-it-even-matter/
Давайте начнем с признания того, что есть случаи, когда выборочный метод просто не будет работать. Если вам нужно найти 100 клиентов, обеспечивающих самые большие объемы продаж, это нельзя сделать на основе выборки. Вы должны рассмотреть каждого клиента, чтобы найти 100 лучших. Однако такие задачи, хотя и являются довольно типичными, не превалируют среди аналитических потребностей. Кроме того, существуют случаи, когда модель, даже если она построена на основе выборки, должна быть применена ко всей совокупности данных. Другими словами, когда дело доходит до практического применения модели, вариант с выборками отпадает.
Но давайте обратимся к типичной задаче, когда необходимо установить среднее значение или получить оценки параметров прогностической модели. С точки зрения статистики правильная выборка, которая адекватно отражает всю совокупность и имеет достаточный размер, даст такой же ответ, как и вся совокупность данных. В таких обычных ситуациях практически не будет разницы между ответом, полученным на выборке, и ответом, полученным на всей совокупности. Более высокая стоимость обработки массы дополнительных данных не принесет дополнительных доходов. Даже если модель в конечном итоге будет использована для обработки всех данных, нет смысла создавать модель на основе всей совокупности. Вместо этого необходимо разделить все данные на две части и использовать одну для построения, а другую для последующей валидации модели. Угадайте, что представляют собой наборы данных, предназначенные для построения и проверки модели? Это выборки! Таким образом, использования выборок данных во многих случаях попросту нельзя избежать.
Некоторые специалисты с пеной у рта утверждают, что в тех случаях, когда можно обойтись без выборки, нужно обходиться без нее. Другие считают, что использование более чем минимальной выборки – это пустая трата времени и ресурсов. Лично моя позиция такова: если некто выполняет для меня проект и хочет использовать выборку, я соглашаюсь при условии, что выборка является правильной и достаточного размера. Если же мне предлагают использовать всю совокупность данных, я соглашаюсь и на это при условии, что привлечение дополнительных ресурсов окажется незначительным. Я уверен, что получу такие же результаты, поэтому меня не беспокоит, какой именно путь будет избран. При разработке аналитического процесса существует масса спорных вопросов, поэтому не тратьте время на споры о том, использовать выборку или нет.
Не переусложняйте анализ
Впервые столкнувшись с этой проблемой, я был поражен: оказывается, чересчур изощренная аналитика иногда дает худший результат, чем простая. Это может быть верно даже в тех случаях, когда чисто теоретически более сложный метод должен работать лучше. Убежден, причина в том, что данные всегда содержат некоторую неопределенность, зачастую являются разреженными и никогда не бывают абсолютно полными. Когда аналитика усложняется, возникает риск увеличения в данных ошибок и неопределенностей наряду со снижением контроля и ухудшением их расчета. Вдобавок можно перестараться с настройкой модели, т. е. настолько ее усложнить, что она начнет отражать случайные вариации, присутствующие в конкретном наборе данных, на котором модель создавалась, а не реально существующие эффекты. Переусложненная настройка становится очевидной, когда модель плохо работает при применении к проверочной выборке.