Сигнал и шум. Почему одни прогнозы сбываются, а другие - нет
Шрифт:
Кроме того, некоторые организации, занимающиеся опросами, стабильно демонстрируют искажение в сторону той или иной партии {586} . С тем же успехом они могли бы опросить все 200 млн взрослых американцев и все равно получить неверные результаты. Байес разобрался с этими проблемами уже 250 лет назад. Если вы используете искаженный инструмент, то не важно, как много измерений вы произведете, вы неправильно сформулировали цель.
По сути, фреквентистский подход к статистике пытается изо всех сил утвердиться в мысли о том, что частая причина неверных предсказаний – это человеческая ошибка. Этот подход рассматривает неопределенность как нечто, присущее эксперименту, а не нашей способности понимать реальный мир. Фреквентистский метод также предполагает, что чем больше данных мы собираем, тем меньше становится ошибка. Со временем она приблизится к нулю. Таким образом, наличие данных считается необходимым и достаточным для решения любой проблемы. Многие из куда более проблемных вопросов предсказания, описанных в этой книге, связаны с областями, в которых полезные данные встречаются крайне редко, и порой их сбор действительно является важным и ценным делом. Однако неправильное использование этого метода вряд ли поставит вас на верный путь к статистическому совершенству. Как заметил Иоаннидис, эра Больших данных лишь ухудшает проблемы ложных позитивных
586
Nate Silver, «Rasmussen Polls Were Biased and Inaccurate; Quinnipiac, SurveyUSA Performed Strongly», FiveThirtyEight, New York Times, November 4, 2010. http://fivethirtyeight.blogs.nytimes.com/2010/11/04/rasmussen-polls-were-biased-and-inaccurate-quinnipiac-surveyusa-performed-strongly/.
Фреквентистский метод нельзя считать особенно объективным ни в теории, ни на практике. Напротив, он полагается на целый ряд предположений. Например, обычно предполагается, что неопределенность в измерении следует колоколообразной кривой или нормальному распределению. Часто это предположение достаточно хорошо описывает ситуацию, но не в случае таких вещей, как колебания на фондовом рынке. Фреквентистский подход требует определения выборки, которая будет выглядеть достаточно прямолинейно, когда дело касается политического опроса, но довольно неоднородно во многих других областях практического применения.
Какую «выборку из популяции» можно было бы выбрать в случае атаки 11 сентября?
Однако еще большая проблема состоит в том, что фреквентистские методы – в своем стремлении создать безупречные статистические процедуры, которые не могут быть испорчены предубеждениями самого исследователя, – вынуждают его герметично закрываться от реального мира. Эти методы не позволяют такому исследователю изучить глубокий контекст или ущербные черты своей гипотезы, то есть то, чего требует байесовский метод в форме априорной вероятности. В результате можно увидеть, на первый взгляд, серьезные научные работы о том, как жабы могут предсказывать землетрясения {587} , или о том, как оптовые магазины типа Target стимулируют создание нетерпимости в обществе {588} . В подобных исследованиях фреквентистские тесты применяются для создания «статистически значимых» (однако, по сути, бессмысленных и даже возмутительных) выводов.
587
R. A. Grant and T. Halliday, «Predicting the Unpredictable: Evidence of Pre-Seismic Anticipatory Behaviour in the Common Toad», Journal of Zoology, 700, January 25, 2010. http://image.guardian.co.uk/sys-f%D0%B0iles/Environment/documents/2010/03/30/toads.pdf.
588
«Hate Group Formation Associated with Big-Box Stores», ScienceNewsline.com, April 11, 2012. http://www.sciencenewsline.com/psychology/2012041121000031.html.
Данные без контекста бесполезны
Ближе к концу своей карьеры Фишер смягчился и даже время от времени хвалил Байеса {589} . Некоторые из методов, разработанных им за долгие годы (хотя и не самые популярные в наши дни), представляли собой, по сути, компромиссы между байесовским и фреквентистским подходами. Однако в последние годы своей жизни Фишер допустил крайне серьезный просчет, который продемонстрировал ограничения этого подхода.
Вопрос касался курения сигарет и рака легких. В 1950-е гг. в значительном количестве исследований (в некоторых из них использовались стандартные статистические методы, а в других – байесовские) {590} утверждалось, что между ними существует связь, что в наши дни никого уже не удивляет.
589
Aldrich, «R. A. Fisher on Bayes and Bayes’ Theorem».
590
McGrayne, The Theory That Would Not Die, Kindle location 111.
Фишер провел последние годы своей жизни, выступая против этих выводов. Он публиковал письма в престижных изданиях типа British Medical Journal и Nature {591} , не отрицая, впрочем, что в результатах этих исследований прослеживается довольно сильная статистическая зависимость между курением и раком легких. Однако он утверждал, что в данном случае произошла путаница между корреляцией и причинно-следственными связями, сравнивая эту ситуацию с исторической корреляцией между объемами импорта яблок и количеством браков в Англии {592} . В какой-то момент он даже утверждал, что рак легких приводит к курению, а не наоборот {593} , – по всей видимости, предполагая, что люди курят, чтобы облегчить боль в легких.
591
Sir Ronald A. Fisher, «Smoking: The Cancer Controversy», Oliver and Boyd. http://www.york.ac.uk/depts/maths/histstat/smoking.htm.
592
Jean Marston, «Smoking Gun», NewScientist, no. 2646, March 8, 2008. http://www.newscientist.com/article/mg19726460.900-smoking-gun.html.
593
McGrayne, The Theory That Would Not Die, Kindle location 113.
Многие научные выводы, которые в наши дни ни у кого не вызывают сомнения, когда-то могли восприниматься с большим недоверием. Иногда это было вызвано существовавшими культурными табу (как в случае заявления Галилея о том, что Земля вращается вокруг Солнца), а довольно часто тем, что просто отсутствовали данные, требующиеся для анализа проблемы. Мы, может быть, и позволили бы Фишеру сорваться с крючка, если бы к 1950 г. уже не было достаточного количества убедительных свидетельств существования связи между курением сигаретам и раком легких. Ученые, изучившие данные и свидетельства из прошлого, пришли к выводу, что на тот момент уже было множество статистических и клинических тестов, проводившихся большим количеством исследователей в разных контекстах, которые наглядно показывали причинно-следственную связь {594} . Идея быстро
стала научным консенсусом.594
Stolley, «When Genius Errs».
Так почему же Фишер отвергал эту теорию? Одна из причин могла быть связана с тем, что он консультировал производителей сигарет за деньги {595} . Другая – с тем, что он сам курил всю жизнь. Фишеру нравилось казаться противоречивым и демонстрировать, что он не любит все, имеющее привкус пуританства. Короче говоря, он сам был подвержен огромному количеству «искажений».
Возможно, однако, что более значимая проблема заключается в том, как статистическая философия Фишера воспринимает мир. Она уделяет особое внимание объективной чистоте эксперимента: каждая гипотеза может быть доведена до идеального заключения, если только был собран достаточный объем данных. Однако в процессе достижения такого уровня чистоты эта теория отвергает необходимость байесовских априорных значений или любого другого вида беспорядка в контексте реального мира. Этот метод не требует и не побуждает нас задуматься о некорректности нашей гипотезы – идея о том, что сигареты вызывают рак легких, ничем не отличается от предположения о том, что жабы способны предсказывать землетрясения. Но мне кажется, что стоит сказать Фишеру спасибо за то, что он признал тот факт, что корреляция не всегда предполагает наличие причинно-следственной связи.
595
Там же.
Однако фишеровские статистические методы никоим образом не помогают нам понять, какая корреляция предполагает наличие причинно-следственных связей, а какая нет. Так что не приходится удивляться тому, что после того, как Фишер всю жизнь думал определенным образом, он утратил способность рассказать о различии между ними.
Боб – байесовец
В байесовской картине мира предсказание представляет собой критерий, с помощью которого мы оцениваем степень прогресса. Возможно, мы никогда и не будем уверены, что знаем истину на все 100 %, однако создание корректных прогнозов представляет собой отличный способ понять, приближаемся ли мы к ней.
Сторонники взглядов Байеса особенно ценят тех, кто играет в азартные игры {596} . Байес и Лаплас, да и другие теоретики, разрабатывавшие теорию вероятности на ее раннем этапе, очень любили приводить примеры из азартных игр, чтобы пояснить свои идеи. (Хотя Байес, по всей видимости, сам не увлекался этим занятием {597} , он вращался в кругах, где часто играли на деньги в карты и бильярд.) Игрок делает предсказания (хорошо), и он делает предсказания, предполагающие расчет вероятностей (отлично), а когда он готов поставить деньги на свои предсказания (еще лучше), он делится своими убеждениями о мире с остальными. Наиболее практичное определение байесовского априори может представлять собой вероятность события, на которые вы хотите сделать свою ставку [111] .
596
Jo Tuckman and Robert Booth, «Four-Year-Old Could Hold Key in Search for Source of Swine Flu Outbreak», The Guardian; April 27, 2009. http://www.guardian.co.uk/world/2009/apr/27/swine-flu-search-outbreak-source
597
McGrayne, The Theory That Would Not Die, Kindle location 7.
111
Или, если говорить точнее, шансы, при которых вы хотите разместить ставку, чтобы остаться «при своих» при любом исходе. Большинство байесовцев требует, чтобы при расчете априорных вероятностей избегалась ситуация так называемой Dutch book – при которой не важно, каковы ваши шансы, и вы остаетесь в выигрыше при любом исходе. Если вы рассчитаете набор априорных вероятностей того, что каждая из 30 команд выиграет чемпионат НБА, они должны в сумме составлять ровно 100 %, так как являются взаимоисключающими исходами. – Прим. авт.
Боб Вулгарис представляет собой особенно ярко выраженный байесовский тип азартного игрока. Ему нравятся ставки на баскетбол как раз потому, что они дают ему возможность протестировать самого себя и правильность своих теорий. «Представьте себе, что вы управляете спортивной командой и набираете себе игроков, – сказал он мне ближе к концу интервью. – Вы не всегда понимаете, было ли ваше решение правильным или нет. В моем же случае я знаю – в конце дня или в конце сезона, – оказался ли я прав или нет, поскольку я либо теряю деньги, либо их выигрываю. Это довольно хорошее подтверждение теории». Вулгарис впитывает так много информации о баскетболе, как только может, поскольку практически любой факт способен изменить его расчеты вероятности. Профессиональный игрок на спортивных событиях такого типа, как Вулгарис, будет размещать ставки только в том случае, если считает, что вероятность выигрыша не меньше 54 %. Этого вполне достаточно для покрытия комиссионных, которые букмекеры взимают с выигрышных ставок, и риска, связанного с этим действием. При всех своих навыках и упорном труде – Вулгарис считается одним из лучших азартных игроков в мире в наши дни – он угадывает результаты правильно лишь примерно в 57 % случаев. Добиться более высокого результата исключительно сложно.
Таким образом, вся разница связана с незначительным объемом информации, позволяющим Вулгарису увеличить вероятность с 53 до 56 %. Именно на эту небольшую прибыль и живут игроки, проводящие время как за покерным столом, так и на фондовом рынке. Предложенное Фишером понятие статистической значимости, слишком вольно отсекающее те или иные факты вне зависимости от контекста [112] для определения уровня «значительности» {598} , несколько грубовато для людей, делающих ставки на спорт.
112
Было обнаружено, что из-за присутствия доверительного интервала в 95 % в статистическом тесте – традиционной для Фишера разделительной линией между «важным» и «не важным» – исследователи значительно чаще сообщают о результатах, укладывающихся в доверительный интервал 95,1 %, чем о результатах с 94,9 %. И, как мне кажется, эта практика связана скорее с суеверием, чем с наукой. – Прим. авт.
598
Raymond S. Nickerson, «Null Hypothesis Significance Testing: A Review of an Old and Continuing Controversy», Psychological Methods, 5, 2 (2000), pp. 241–301.%-AB%98%E7%B5%B1%E5%A0%B1%E5%91%8A.pdf.