Думай медленно... решай быстро
Шрифт:
Общеизвестно, что на вкус марочного вина влияют только изменения погоды в период созревания винограда. Лучшие вина получают в те годы, когда лето сухое и теплое (виноделам Бордо следует воздать дань парниковому эффекту). Дождливая весна – еще один благоприятный фактор, поскольку повышает урожайность винограда, не влияя на качество. Ашенфельтер преобразовал все эти сведения в статистическую формулу, которая позволяет спрогнозировать изменение цен (на вино конкретного производителя и конкретного разлива) по трем метеорологическим показателям: средней температуре за лето, объему осадков в период сбора урожая и за предшествующую зиму. Его формула дает точный прогноз цен на ближайшие годы и даже десятилетия. Более того, если в расчетах исходить из нынешних цен на молодое вино, прогноз будет менее точен. Этот пример «схемы Мила» бросает вызов как способностям экспертов, чье мнение формирует раннюю цену, так и всей экономической теории, согласно которой цены должны отражать всю имеющуюся информацию,
Так почему же эксперты проигрывают формулам? Одна причина, как предположил Мил, состоит в том, что они пытаются быть умнее, мыслить независимо и принимать во внимание сложные комбинации факторов. В иных случаях сложность помогает, но чаще всего она снижает достоверность предсказаний. Лучше исходить из простых комбинаций факторов. Исследования продемонстрировали, что люди, принимающие решения, уступают в точности формуле, даже когда им показывают результат, вычисленный посредством формулы! Им кажется, что они могут отвергнуть этот результат, поскольку обладают дополнительной информацией, но чаще всего ошибаются. По Милу, всего в нескольких случаях имеет смысл обращаться к экспертам, а не к формуле. В знаменитом мысленном эксперименте он описывает формулу, которая предсказывает, отправится ли некий человек нынешним вечером в кино. Согласно Милу, разумно игнорировать формулу, если стало известно, что днем человек сломал ногу. Так появилось «правило сломанной ноги». Смысл его в том, что перелом – событие редкое, но ключевое.
Другая причина того, что эксперты проигрывают формулам, – непростительное непостоянство человеческих обобщений при обработке сложной информации. Если предоставить экспертам один и тот же набор данных дважды, они часто дают разные ответы. Степень этого непостоянства вызывает серьезную тревогу. Опытные радиологи, оценивая рентгенограммы грудной клетки (норма или патология), противоречат себе в 20% случаях, когда повторно видят одни и те же снимки. Опрос 101 независимого аудитора, которым предложили определить надежность внутрикорпоративных аудиторских проверок, выявил равную долю противоречий. Обзор 41 исследования о надежности суждений, высказанных аудиторами, патологами, психологами, менеджерами и прочими специалистами, позволяет предположить, что такая частота противоречий типична для всех случаев, даже если повторная оценка материала проводилась спустя всего несколько минут. Ненадежные оценки не могут привести к точным предсказаниям.
Возможно, непостоянство суждений столь широко распространено из-за крайней зависимости Системы 1 от контекста. Исследования в области прайминга показывают, что незамеченные воздействия окружающей среды сильно влияют на наши мысли и действия. Эти влияния поминутно меняются. Приятная прохлада ветерка в жаркий ден ь может настроить вас на оптимистичный лад и сказаться на вашем мнении в данный момент. Шансы преступника на досрочное освобождение сильно колеблются в соответствии с графиком работы судей (между перерывами на еду). Люди редко осознают напрямую, что происходит у них в головах, а потому не догадываются, что даже самые незначительные обстоятельства способны радикально изменить их решение. Формулы, напротив, не подвержены влиянию обстоятельств. При одних и тех же данных они всегда выдают один и тот же ответ. Когда предсказуемость низка (как в большинстве исследований, изученных Милом и его последователями), непостоянство уничтожает прогностическую значимость.
Данные исследования подводят нас к неожиданному выводу: для максимального повышения прогностической точности конечные решения следует доверить формулам, особенно в «малодостоверных» областях. Например, при поступлении в медицинские вузы последнее решение оставляется за преподавателями, проводящими собеседование с абитуриентами. Немногочисленные свидетельства позволяют предположить, что проведение собеседования, скорее всего, снижает точность процедуры отбора, поскольку интервьюеры обычно излишне уверены в собственной интуиции и слишком часто полагаются на собственные наблюдения, не обращая внимания на другие источники информации. Аналогичным образом эксперты по оценке качества незрелого вина получают данные, которые скорее ухудшают, чем улучшают точность прогноза по поводу его будущей стоимости, – им позволяют дегустировать вино. Даже отдавая себе отчет, что качество вин прежде всего зависит от погоды, эксперты не могут соперничать с формулой в постоянстве выводов.
Наиглавнейшим достижением в этой области науки после работы Мила можно считать знаменитую статью Робина Доуза «Грубая красота неточных линейных моделей, используемых в принятии решений». В общественных науках преобладает статистическая практика приписывать вес каждому из элементов предсказания (предиктору), следуя алгоритму, называемому множественной регрессией. В наше время этот алгоритм встраивают в типовое программное обеспечение. Логику множественной регрессии невозможно опровергнуть: она находит оптимальную формулу для совмещения взвешенной комбинации предикторов. Однако Доуз обнаружил, что сложность статистического алгоритма
почти не повышает его эффективности. С равным успехом можно выбрать несколько показателей, обладающих некоторой значимостью для предсказания результата, и подогнать их значения для сравнимости по стандартным позициям. Формула, соединяющая предикторы с равными весами, была бы настолько же точна в предсказании новых случаев, как и формула множественной регрессии, оптимальная для изначальной выборки. Новейшие исследования пошли еще дальше: согласно им, формулы, придающие равный вес всем предикторам, часто превосходят другие, поскольку на них не влияют случайности, возникающие при составлении выборки.Поразительный успех равновесных схем имеет важное практическое значение: стало возможно разрабатывать полезные алгоритмы без предварительных статистических исследований. Хорошо предсказывают значимые результаты простые равновесные формулы, основанные на существующей статистике или здравом смысле. В одном запоминающемся примере Доуз показал, что устойчивость брака предсказывается формулой:
частота занятий любовью минус частота ссор
Хорошо, если результат будет величиной положительной.
Важный вывод данного исследования состоит в том, что алгоритм, сочиненный «на коленке», по результативности часто соперничает с оптимально взвешенной формулой и с легкостью превосходит прогноз эксперта. Это правило применимо ко многим областям, будь то выбор акций для инвестиционного портфеля или выбор метода лечения врачами или пациентами.
Классическое применение этот подход нашел в простом алгоритме, который спас жизнь сотням тысяч новорожденных. Акушеры знают, что ребенок, у которого в первые минуты после рождения не устанавливается нормальное дыхание, впоследствии подвержен высокому риску повреждений головного мозга и гибели. До вмешательства анестезиолога Вирджинии Апгар в 1953 году врачи и повивальные бабки, оценивая состояние новорожденного, полагались на собственные клинические суждения. При этом каждый специалист искал определенные симптомы: одни изучали проблемы с дыханием, другие – когда раздастся первый крик. Без стандартизированной процедуры признаки опасности часто упускались из виду, и многие дети погибали в младенчестве.
Однажды за завтраком начинающий врач спросил Апгар, как проводить комплексную оценку состояния новорожденного. «Это просто, – ответила она. – Надо сделать вот так…» С этими словами Апгар наскоро записала пять параметров (пульс, дыхание, выраженность рефлексов, мышечный тонус и цвет кожных покровов) и три варианта оценки (0, 1, 2 – в зависимости от степени проявления признака). Осознав, что ее метод легко применить в любой родильной палате, Апгар начала оценивать по этой шкале младенцев через минуту после рождения. Ребенок с общим показателем от 8 и выше находился в хорошем состоянии: он дрыгался, кричал и гримасничал, имел пульс от 100 и выше, а также розовый цвет кожи. В то же время ребенок с показателем 4 и ниже – синюшного цвета, вялый, малоподвижный, со слабым пульсом – нуждался в срочной медицинской помощи. Персонал родильных палат, пользуясь шкалой Апгар, получил постоянные стандарты для определения того, какому ребенку грозит опасность, что в итоге значительно понизило смертность среди детей до года. Шкала Апгар до сих пор ежедневно используется в родильных домах. Хирург Атул Гаванде недавно опубликовал книгу «Манифест контрольного перечня», где приводится множество примеров полезности шкал и простых правил.
Нетерпимость к алгоритмам
С самого начала клинические психологи отнеслись к идеям Мила с недоверием и враждебностью. Судя по всему, они пребывали во власти иллюзии умения – особенно умения давать долгосрочные прогнозы. Если вдуматься, то легко заметить, откуда взялась иллюзия, и так же легко посочувствовать клиницистам в их неприятии трудов Мила.
Статистические доказательства несовершенства клинических предсказаний противоречат повседневному впечатлению клиницистов о качестве их собственных суждений. Практикующие психологи во время каждой терапевтической встречи неоднократно переживают наития: как пациент отреагирует на вмешательство или что произойдет в следующий момент. Многие из этих наитий подтверждаются, тем самым «доказывая» существование клинического профессионализма.
Проблема в том, что верные суждения включают краткосрочные прогнозы в контексте терапевтического опроса – умение, которое терапевты оттачивают годами. Непосильной задачей для них оказывается долгосрочный прогноз на будущее для конкретного пациента (с этим неважно справляются даже формулы). Вдобавок у клиницистов нет практической возможности приобрести навык долгосрочного прогнозирования – слишком много лет требуется для обратной связи, для получения подтверждения своим гипотезам. Граница между тем, что психологи могут делать хорошо, и тем, чего они не могут, довольно размыта и не всегда заметна им самим. Они знают о собственном профессионализме, но редко догадываются, где заканчивается граница их умений. Поэтому стоит ли удивляться, если опытному терапевту представляется абсурдной идея о том, что механическая комбинация нескольких переменных дает лучшие результаты, чем утонченная сложность человеческого суждения?