Чтение онлайн

ЖАНРЫ

Лягушка в кипятке и еще 300 популярных инструментов мышления, которые сделают вас умнее
Шрифт:

Можно сделать вывод, что есть два подхода к статистике и они оба верны, если все делать правильно. Некоторые люди являются убежденными идеологами, которые клянутся в верности одной философии или другой, тогда как прагматики (вроде нас) используют те методы, которые лучше всего подходят для ситуации. Помните, что нельзя допускать путаницы между условной вероятностью и ее обратным значением: P(A|B) не равно P(B|A). Теперь вы знаете, что эти вероятности связаны теоремой Байеса, которая учитывает соответствующие базовые проценты.

Правильно или нет?

Вы узнали, что не должны основывать свои решения на единичных случаях и что маленькие выборки не могут достоверно показать, что произойдет в

большой группе населения. Может быть, вам стало интересно: сколько данных достаточно, чтобы быть уверенными в своих выводах? Установление размера выборки, общего числа собранных точек данных – это уравновешивающее действие. С одной стороны, чем больше информации вы соберете, тем точнее будут ваши подсчеты и тем увереннее вы будете в своих выводах. С другой стороны, на сбор большого количества информации уйдет больше времени и денег и, возможно, риску подвергнется больше участников. Итак, как установить правильный размер выборки?

Даже идеально спланированный эксперимент иногда будет давать случайный результат, который заставит сделать неправильные выводы.

Больший размер выборки придаст больше уверенности в том, что положительный результат возник не случайно, а также даст больше шансов получить этот положительный результат.

Рассмотрим типичную ситуацию с опросом общественной поддержки предстоящего референдума, например по легализации марихуаны. Предположим, что референдум в конечном итоге провалился, но социологи случайным образом выбрали в качестве респондентов людей, которые были благосклоннее к проекту, чем остальное население. Это приведет к ложноположительному результату – положительному результату, который на самом деле оказался ложным (как и ложный результат алкотестера). Или наоборот, референдум в конце концов оказался успешным, но социологи случайно выбрали людей, которые меньше его одобряли по сравнению со всем населением. Получился ложноотрицательный результат – отрицательный результат, который на самом деле был истинным. В качестве другого примера рассмотрим маммографию – медицинский тест для диагностики рака молочной железы. Кажется, что такой тест имеет два возможных результата: положительный и отрицательный. Но на самом деле у маммографии четыре возможных результата, которые отображены в следующей таблице. Два результата, о которых вы сразу подумали: истинно положительный или истинно отрицательный. Другие два результата выдаются при ошибке теста – ложноположительный и ложноотрицательный результат.

Эти ошибочные модели встречаются далеко за пределами статистики в любой системе, где принимаются решения. Отличный пример – ваш спам-фильтр в электронной почте. Недавно спам-фильтры удалили письмо с фотографиями нашей новорожденной племянницы (ложноположительный результат). А настоящий спам до сих пор иногда просачивается в основную почту (ложноотрицательный результат).

Возможные результаты теста

Поскольку каждый тип ошибок имеет свои последствия, системы нужно создавать с их учетом.

То есть решения придется принимать на компромиссе между различными типами ошибок, признавая, что некоторые из них неизбежны.

Например, правовая система США должна требовать доказательств по обвинительным приговорам, а не основываться на разумных сомнениях в виновности задержанного человека. Это осознанный компромисс в пользу ложноотрицательного (выпустить преступника на волю), а не ложноположительного результата (наказать невиновного человека).

В статистике ложноположительный результат известен как ошибка типа I, а ложноотрицательный результат называется ошибкой типа II. При разработке эксперимента ученые оценивают вероятность каждого типа ошибки, которую они готовы терпеть. Допустимый процент ложноположительных результатов обычно равен 5 % (этот показатель также обозначается греческой

буквой ? – альфа, которая равняется 100 минус уровень доверия. Вот почему обычно уровень доверия составляет 95 %). Это значит, что в среднем, если ваша гипотеза неверна, один из 20 экспериментов (5 %) даст ложноположительный результат.

Независимо от размера выборки в вашем эксперименте всегда можно задать процент ложноположительного результата. Он не обязательно должен быть равен 5 %. Можно выбрать 1 % или даже 0,1 %. Но, ставя такой низкий процент ложноположительного результата для своей выборки, вы увеличиваете частоту ложноположительных ошибок, и тогда вам, возможно, не удастся найти реальный результат. Тут-то речь и заходит о размере выборки.

Определив процент ложноположительных результатов, вы должны выяснить, какого размера вам потребуется выборка, чтобы с достаточно высокой вероятностью найти истинный результат. Эта величина называется мощностью эксперимента и обычно выбирается так, чтобы вероятность обнаружения составляла 80–90 %, а частота ложноположительной ошибки, соответственно, 10–20 % (этот процент также обозначается греческой буквой ? – бета, которая равняется 100 минус мощность). Исследователи говорят, что их эксперимент обладает мощностью 80 %.

Статистическая проверка

Давайте рассмотрим один пример, чтобы проиллюстрировать, как все эти модели работают вместе. Предположим, компания хочет доказать, что их новое приложение для засыпания работает. Предварительное исследование показало, что в половине случаев человек засыпает в течение 10 минут. Разработчики думают, что можно улучшить этот показатель с помощью приложения, помогая большему количеству людей заснуть меньше чем за 10 минут.

Разработчики планируют исследование в лаборатории сна, чтобы проверить свою теорию. Тестовая группа будет использовать приложение, а контрольная будет засыпать без него (у настоящего исследования план будет посложнее, но мы объясняем статистические модели).

Статистическая база большинства экспериментов (включая и этот) начинается с гипотезы о том, что между группами нет разницы, – это называется нулевой гипотезой.

Если разработчики соберут достаточно доказательств для опровержения этой гипотезы, они сделают вывод, что их приложение действительно помогает людям уснуть быстрее.

То есть разработчики приложения наблюдают за обеими группами, а затем рассчитывают процент людей, засыпающих в течение 10 минут в каждой. Если они найдут достаточно большую разницу между этими двумя результатами, они сделают вывод, что результаты несовместимы с нулевой гипотезой, а значит, приложение, вероятно, действительно работает.

Разработчикам также нужно детально изложить альтернативную гипотезу, которая описывает наименьшие значимые показатели, которые, как им кажется, возникнут между двумя группами: например, на 15 % больше людей уснет в течение 10 минут. Это реальный результат, который они хотят подтвердить своим исследованием и имеют 80 % шанс обнаружить (что соответствует ложноотрицательному результату в 20 % случаев).

Эта альтернативная гипотеза необходима для определения размера выборки. Чем меньше разница в альтернативной гипотезе, тем больше людей потребуется для ее обнаружения. Для описанного плана эксперимента размер выборки составляет 268 участников.

Все эти модели наглядно представлены на рисунке.

Для начала посмотрим на кривые нормального распределения (по центральной предельной теореме можно предположить, что разницы будут приблизительно нормально распределены). Кривая слева показывает результаты меньше нулевой гипотезы: между двумя группами нет существенной разницы. Вот почему эта левая кривая центрирована на 0 %. Даже в этом случае разница время от времени будет случайно составлять больше или меньше нуля, но чем больше разница, тем менее она вероятна. То есть из-за базовой изменчивости, даже если приложение и не обладает реальным эффектом, разница все равно будет обнаружена между двумя группами, потому что люди засыпают за случайные периоды времени.

Поделиться с друзьями: