Чтение онлайн

ЖАНРЫ

Сигнал и шум. Почему одни прогнозы сбываются, а другие - нет

Сильвер Нейт

Шрифт:

Если вы считали, что ваш любимый игрок действительно заслуживает это, и могли увидеть, что это удалось 9 из 10 игрокам с идентичной статистикой, то у вас были все шансы верить в успех.

Но можно ли использовать оценки подобия и для предсказания? Например, если мы могли выявить сотню игроков, наиболее сопоставимых с Педройей по возрастным критериям, то в какой степени результаты этих игроков за всю карьеру могли подсказать нам, как будет развиваться карьера Педройи?

Меня заинтересовала эта идея, и так, понемногу, PECOTA начала свое существование в те долгие дни, которые я проводил в KPMG в 2002 г. Она приобрела форму гигантской и разноцветной электронной таблицы Excel. Этот выбор был довольно случайным, поскольку именно Excel был одним из моих основных рабочих инструментов в KPMG (каждый раз, когда мимо моего стола проходил кто-то из начальников, он предполагал, что я усердно тружусь над какой-то особенно сложной моделью для одного

из наших клиентов {206} ).

206

Следует, однако, отметить, что для обработки значительного объема фоновых данных PECOTA использовался статистический язык STATA.

Постепенно, отнимая пару часов от работы и по нескольку часов от сна, я смог разработать базу данных, включавшую более чем 10 000 позиций «игрок – сезон» (я учел каждый сезон основной лиги, начиная со времен Второй мировой войны {207} ). Кроме этого, я разработал алгоритм, позволяющий сравнивать любого игрока с другим. Алгоритм был чуть более сложным, чем алгоритм Джеймса, и предполагалось, что он сможет в полной мере воспользоваться изобилием данных, присущих бейсболу. В нем был заложен иной метод сравнения набора игроков, метод, называемый на техническом языке метод ближайшего соседа [44] . Также он учитывал более широкий набор факторов, включая рост и вес игрока, которые обычно принимаются во внимание лишь скаутами.

207

Я выбрал в качестве точки отсечения период Второй мировой войны, поскольку вскоре после нее возник целый ряд нововведений, придавших профессиональному бейсболу нынешний вид. В него стали играть представители других рас, начиная с Джеки Робинсона (1947); чемпионат был показан по телевидению (1947); команды переместились на Западное побережье (1957); широкое развитие получили ночные матчи, которые появились еще в 1935 г., однако обрели большую популярность во время войны, когда рабочие проводили долгие смены на производстве и хотели как-то расслабиться по ночам.

44

Метод ближайшего соседа относится к классу методов, основанных на хранении данных в памяти для сравнения с новыми элементами. При появлении новой записи для прогнозирования находятся отклонения между этой записью и подобными наборами данных, и наиболее подобная (или ближний сосед) идентифицируется.

Как и система Хакебея, PECOTA предполагала, что различные типы игроков могут стареть по-разному. Однако я не стремился сопоставить игру каждого бейсболиста с одной из 26 кривых развития; более того, сопоставление происходило естественным образом с помощью поиска похожих игроков где-то далеко в статистической галактике бейсбола.

Если, допустим, обнаруживалось, что очень многие игроки, статистические параметры игры которых сопоставимы с данными Дастина Педройи, становились сильными игроками основной лиги, то это давало основания надеяться на успех и самого Педройи.

Однако чаще всего мне не удавалось найти однозначно сопоставимые результаты; пути игроков, имевших одинаковую статистику в определенные периоды их карьеры, могли значительно расходиться после этого. Я уже упоминал, что по оценкам подобия, созданным Джеймсом, Педройя был идентичен Чарли Гейгеру и Роду Кэрью, двум игрокам, имевшим долгую и яркую карьеру и попавшим в конце концов в Зал славы. Однако статистика Педройи за этот период была также идентична статистическим данным Хосе Видро, ничем не примечательного игрока второй базы команды Montreal Expos.

Еще сильнее различия могут проявляться у игроков низших лиг [45] . В 2009 г. среди игроков, которые выявила PECOTA для сопоставления с Джейсоном Хейвардом, 19-летним кандидатом на позицию в команде Atlanta Braves, можно было найти и участника Зала славы, и жертву убийства. Чиппер Джонс, один из близких по показателям к Хейварду игроков, был примером первого варианта. Это один из величайших игроков Atlanta Braves за все времена, он отыграл с клубом 17 сезонов, и его показатель результативности за всю карьеру в среднем составил 0,304. Он принес команде более 450 хоумранов. С другой стороны, система выдала мне имя Дернелла Стенсона, многообещающего молодого человека, чьи показатели были также идентичны цифрам Хейварда. В 2003 г. после одной из тренировочных игр в Аризоне неизвестные связали его, а потом застрелили, угнав при этом его внедорожник. Судя по всему, произошел случайный акт насилия.

45

Низшая

лига – лига профессиональных клубов, которые не входят ни в одну из двух высших лиг.

Все сопоставимые с Хейвардом игроки были крупными, сильными спортсменами; они обладали множеством талантов, имели отличные задатки и демонстрировали развитие навыков при играх в небольших лигах. Однако судьба их сложилась совершенно по-разному. Инновационный характер PECOTA был призван признать этот факт: система выдавала диапазон возможных исходов для каждого игрока, основанный на прецедентах с сопоставимыми игроками. По сути, это были наилучший, наихудший и наиболее вероятный сценарий. Но нужно помнить, что каждый раз при попытках предсказать развитие человека нам придется сталкиваться с бесконечным диапазоном возможных исходов.

Пока что для Хейварда все складывалось ни шатко ни валко. После удачного для него 2009 г., когда он был назван «Игроком года в низшей лиге», Хейвард дебютировал в команде Braves в 2010 г. и обеспечил своей команде восемь хоумранов в первых 30 играх в основной лиге. После этого он вошел в состав «Звездной команды», превзойдя все ожидания. Однако сезон 2011 г. оказался для него более сложным, и его результат не превысил 0,227. Хорошая система статистического прогнозирования позволяет сохранять оптимизм даже после выступления Хейварда в сезоне 2011 г. – все его показатели были, по сути, теми же, если не считать результативности ударов по мячу, а этот показатель зависит от удачи значительно больше, чем другие.

Но может ли статистика сказать вам все, что вы хотите узнать об игроке? Десять лет назад эта тема была одной из самых обсуждаемых в мире бейсбола.

Можем ли мы все ужиться?

Довольно поверхностное, но распространенное мнение о книге «Moneyball» состоит в том, что это рассказ о конфликте между двумя конкурирующими группами – «статистиками» и «скаутами». Каждая из них полагалась при оценке результативности игроков на свою собственную парадигму (разумеется, статистики полагались на статистические методы, скауты – на «инструменты»).

В 2003 г., когда книга «Moneyball» была впервые опубликована, читатели Майкла Льюиса вполне могли оценить, насколько враждебными были отношения между двумя группами (нужно сказать, что и сама книга подливала масла в огонь). Когда я в том же году посетил ежегодное «Зимнее собрание» специалистов по бейсболу в гостинице Marriott в Новом Орлеане, мне показалось, что я вновь вернулся в школу. В одном углу можно было увидеть скаутов, которые, подобно буйволам в оазисе, цедили виски и обменивались историями о холодной войне, сгрудившись у стойки бара в гостинице. Часто они уходили в гостиничные номера и принимались за переговоры. Эти люди навсегда связали себя с миром бейсбола. Им было уже за 40, а то и за 50, многие из них были в прошлом спортсменами, которые внесли свой вклад в игру и теперь постепенно продвигались вверх в организационной иерархии.

В другом углу располагались «ботаники» – ребята в возрасте 20–30 лет, вооруженные ноутбуками и цветными распечатками. Они ходили кругами по холлу и пытались уговорить кого-нибудь из профессионалов старой школы взять их на работу. Между двумя лагерями практически не происходило никакого общения, и каждая сторона считала другую слишком высокомерной и косной.

Возможно, подлинный источник конфликта состоял в том, что представители старой школы воспринимали молодежь как угрозу своей работе, способную лишить скаутов значительной доли заработка. «Сейчас существует невероятно сильная конкуренция, – рассказывал Эдди Бейн, директор по скаутингу команды Anaheim Angels на круглом столе в рамках одной конференции, посвященной “Moneyball” {208} . – Некоторые из наших старых коллег теряют работу, которую, по нашему мнению, они должны были сохранить. Возможно, что сокращение штатов вызвано денежными проблемами. Однако мы связываем происходящее с влиянием разных компьютерных штук, и это нас возмущает».

208

Alan Schwarz, «The Great Debate», Baseball America, January. 7, 2005. http://www.baseballamerica.com/today/features/050107debate.html.

До конца неизвестно, как много команд в реальности урезало бюджеты на скаутинг. Одной из них была Toronto Blue Jays, и она заплатила за это высокую цену, перенеся череду неудач в 2002–2005 гг. Однако урезание бюджета было вынужденной мерой, вызванной спецификой работы корпоративного спонсора команды, компании Rogers Communications. Та пыталась противостоять ослаблению канадского доллара, поэтому случившееся отнюдь не было прихотью генерального менеджера компании, ученика Бина по имени Дж. П. Риккарди.

Поделиться с друзьями: