Антология машинного обучения. Важнейшие исследования в области ИИ за последние 60 лет
Шрифт:
Джон фон Нейман, математик, создавший математическую теорию игр и заложивший основы архитектуры вычислительных машин, был очарован покером, так как «реальная жизнь вся состоит из блефа, маленьких хитростей и размышлений, что другой человек думает о том, что собираюсь сделать я. Игры в моей теории как раз такие». Покер отражает ту часть человеческого интеллекта, которая была усовершенствована в процессе эволюции. К величайшему удивлению экспертов в покере, сеть глубокого обучения DeepStack сыграла 44 852 игры против 33 профессиональных игроков в покер и победила их на четыре стандартных отклонения [28] . Невероятный успех. Победу над лучшими игроками при использовании даже одной стратегии уже можно было бы назвать прорывом. Если это достижение применить и в других сферах человеческой деятельности, где решения принимаются при отсутствии полной информации, например в политике и международных отношениях, последствия могут быть далеко идущими [29] .
28
Moravc'ik M., Schmid M., Burch N., Lis'y V., Morrill D., Bard N., Davis T., Waugh K., Johanson M., Bowling M. «DeepStack: Expert-level artificial intelligence in heads-up no-limit poker». Science. 356: 508–513 2017.
29
Вспоминается сюжет американского фильма «Военные игры 1983 года». – Прим. авт.
Учим играть в го
В марте 2016 года кореец Ли Седоль, чемпион мира по го, сыграл матч против AlphaGo – программы, обученной этой игре (рис. 1.8) [30] . AlphaGo использовала нейросеть глубокого обучения, чтобы оценить расположение камней на доске и возможные ходы. Го сложнее шахмат, как шахматы сложнее шашек. Если шахматы – одно сражение, то го – война. Доска для игры в го размером 19 на 19, что значительно больше, чем шахматная доска 8 на 8 клеток. В го возможно одновременно вести несколько битв на разных частях доски. В игре есть множество нюансов, поэтому судить ее порой сложно даже экспертам. Существуют 10170 возможных позиций, что больше, чем количество атомов в наблюдаемой Вселенной.
30
Silver David; Huang Aja; Maddison Chris J.; Guez Arthur; Sifre Laurent; Driessche George van den; Schrittwieser Julian; Antonoglou, Ioannis; Panneershelvam Veda (2016). «Mastering the game of Go with deep neural networks and tree search». Журнал Nature. 529 (7587): 484–489.
AlphaGo применяла несколько нейросетей глубокого обучения для оценки ситуации на доске и выбора наилучшего хода. Кроме того, у нее совершенно другая система обучения, использовавшаяся для решения задач, в которых необходимо вычислить, какие действия приведут к успеху, а какие – к неудаче. Если я выигрываю в го, какие мои действия способствовали этому? А если проигрываю, какой шаг был неверным? Часть человеческого мозга, которая отвечает за решение таких задач, – базальные ганглии. Они получают проекции сигналов с коры головного мозга и передают их обратно. AlphaGo использует алгоритмы, которые применяются базальными ганглиями для вычисления наиболее успешной последовательности действий. Об этом подробно будет рассказано в главе 10. Таким образом, AlphaGo училась, играя с собой раз за разом.
Рис. 1.8. Матч между Ли Седолем и AlphaGo. Доска во время матча из пяти игр между корейским чемпионом и нейросетью, которая научилась играть сама
Результат матча в го, когда AlphaGo обыграла Ли Седоля, сильно повлиял на население Азии, где чемпионы по го – едва ли не национальные герои, подобно рок-звездам. Ранее AlphaGo обыграла чемпиона Европы, но сама по себе игра была не очень высокого уровня, поэтому Ли Седоль не ожидал столкнуться с серьезным соперником. Даже DeepMind, компания, создавшая AlphaGo, не ожидала такой сильной игры. С момента последнего матча AlphaGo сыграла сотни миллионов игр с разными своими модификациями, и едва ли можно выразить словами, насколько хороши были эти партии.
Для многих стало потрясением, когда AlphaGo выиграла первые три игры из пяти, продемонстрировав высокий уровень игры (рис. 1.9). Это было захватывающее зрелище в Южной Корее, которое обозревали комментаторы самых известных телеканалов. Некоторые ходы AlphaGo были поистине революционными. Ее 37-й ход во второй партии был настолько потрясающим, что Ли Седолю понадобилось десять минут для ответного хода. AlphaGo проиграла четвертую партию, и этим человеческий интеллект хоть немного отстоял свою честь. Тем не менее матч закончился со счетом 4:1 в пользу AlphaGo. Я наблюдал за ним в предрассветные часы в Сан-Диего, словно загипнотизированный. Это напомнило мне события 2 июня 1966 года, когда я смотрел по телевизору, как роботизированный космический корабль Surveyor приземлился на Луну и прислал первую фотографию ее поверхности [31] . Я стал свидетелем исторического события. AlphaGo совершила то, что было для нас за гранью возможного.
31
«Surveyor-1» приземлился на поверхность Луны 2 июня 1966 года в 6:17:36 UT. Место посадки находилось на равнинной территории в 100-километровом кратере к северу от кратера Флемстид. – Прим. авт.
Рис. 1.9. Ли Седоль после проигрыша в матче с AlphaGo: «Я не знаю, что сказать и с чего начать, но мне кажется, я должен извиниться. Я должен был показать лучший результат, и я прошу прощения, что не удовлетворил ожидания людей. Я чувствую себя бессильным. Если бы я мог повернуть время вспять и вернуться к самой первой игре, я бы все равно не выиграл, потому что недооценил возможности AlphaGo»
4 января 2017 года в онлайн-версии игры го был разоблачен один из игроков под псевдонимом Master. Им оказалась AlphaGo 2.0. Ее раскрыли после 60 побед в 60 играх против лучших мировых игроков, среди которых был чемпион мира девятнадцатилетний Кэ Цзе из Китая. AlphaGo показала новый стиль игры, который идет вразрез с вековой стратегией. 27 мая 2017 года Кэ Цзе проиграл AlphaGo три игры на саммите «Будущее го» в Вузхене в Китае (см. рис. 1.8). Это были одни из лучших игр в го, и сотни миллионов китайцев следили за матчем. Кэ Цзе сказал: «В прошлом году я думал, что стиль игры AlphaGo близок к человеческому. Но сегодня я понял, что она играет как бог игры го» [32] . AlphaGo также обыграла команду из пяти лучших игроков в ходе недельной серии матчей. Участники проанализировали ходы AlphaGo и изменили свою стратегию. Чемпионат был организован правительством Китая, что стало новым вариантом «пинг-понговой дипломатии». Китай делает большие инвестиции в развитие машинного обучения, а главная цель – обучение ИИ новым алгоритмам [33] .
32
«Ужасное
разочарование подростка, проигравшего AlphaGo», Quartz, May 27, 2017. qz.com/993147/the-awful-frustration-of-a-teenage-go-champion-playing-googles-alphago/33
Paul Mozur, “Beijing Wants A. I. to Be Made in China by 2030,” New York Times, July 20, 2017. www.nytimes.com/2017/07/20/business/china-artificial-intelligence.html?_r=0
После проигрыша с отставанием всего в 0,5 очка Цзе сказал, что был близок к выигрышу в середине игры: «Я чувствовал, как бьется мое сердце. Возможно, именно из-за волнения я и совершил несколько ошибок. Возможно, это самое слабое место в человеке». То, что испытал Кэ Цзе, было эмоциональной перегрузкой, но в то же время эмоции необходимы для достижения максимальной производительности. При низком эмоциональном возбуждении умственные способности не максимальны. Актеры театра знают: если у них не летают бабочки в животе перед выступлением, их игра будет не особо хорошей. Их эмоции можно представить в форме перевернутой буквы U, а лучший результат достигается между низким и высоким уровнем возбуждения. Спортсмены называют это «быть в потоке» [34] .
34
Выражение «состояние потока», «быть в потоке» означает психическое состояние, в котором человек полностью включен в то, чем он занимается. – Прим. ред.
Рис. 1.10. Встреча Демиса Хассабиса (слева) и Кэ Цзе после легендарной игры в го в Китае. В руках у Хассабиса доска с автографом Цзе
В 2010 году соучредителем компании DeepMind стал Демис Хассабис (рис. 1.10), нейробиолог, научный сотрудник Университетского колледжа Лондона, а также моей лаборатории. В 2017 году он совместно с Рэймондом Доланом и Вольфрамом Шульцем выиграл престижную премию Brain Prize за исследование системы вознаграждения мозга. В 2014 году корпорация Google приобрела компанию DeepMind за 600 миллионов долларов. В компании работают более четырехсот инженеров и нейробиологов, которые совмещают академические знания с инновациями. Союз нейробиологии и ИИ становится все крепче и крепче.
Учим становиться умнее
Можно ли назвать AlphaGo умной? Об интеллекте написано больше, чем по любой другой теме в психологии, за исключением темы разумности – и то и другое трудно поддается определению. С 1930-х годов психологи различают подвижный [35] и кристаллизованный интеллект. Кристаллизованный интеллект основан на знаниях, таких как словарный запас, и его уровень можно измерить стандартными IQ-тестами. Подвижный интеллект – это способность решать проблемы с помощью логических рассуждений, выходя за пределы предыдущего опыта. Уровень подвижного интеллекта следует по особой траектории развития, достигая пика в молодости и понижаясь с возрастом, в то время как кристаллизованный интеллект с каждым годом постепенно растет и в конечном счете достигает своего предела. AlphaGo представляет собой соединение кристаллизованного и подвижного интеллекта в достаточно узкой области, однако внутри этой области она демонстрирует удивительные творческие способности. Профессиональный опыт также основан на обучении в ограниченной сфере. Например, мы профессионалы в программировании и пользуемся этим каждый день.
35
Также текучий, флюидный. – Прим. ред.
Алгоритм обучения с подкреплением, используемый AlphaGo, может применяться для решения различных задач. Этот метод основывается на награде, которую получает победитель в конце последовательности ходов, что, как ни странно, может усовершенствовать решения, принятые ранее. В сочетании со множеством мощных сетей глубокого обучения появляется огромное количество разрозненной информации, зависящей от области знания. И действительно, подобные ситуации были смоделированы для социального, эмоционального, механического и конструктивного интеллекта [36] . Фактор общего интеллекта (g-фактор) взаимосвязан с этими навыками. Есть причины осторожно относиться к интерпретации тестов IQ. Средний уровень IQ растет во всем мире на три пункта каждые десять лет с момента его первого измерения в 1930-х. Явление называется эффектом Флинна [37] . У феномена есть множество объяснений, включая улучшение питания, повышение внимания к собственному здоровью, а также роль окружающей среды. Это кажется достаточно правдоподобным, потому что окружающая среда влияет на регуляцию генов, что, в свою очередь, влияет на мозг и приводит к изменениям в поведении. Может ли сложиться так, что люди будут становиться все умнее и умнее на протяжении длительного времени? И как долго процесс будет продолжаться? Уровень игроков в шахматы, шашки, а теперь и в го неуклонно растет с тех пор, как появились компьютерные программы, которые играют не хуже чемпионов, и это форма усиления интеллекта [38] . Глубокое обучение повысит IQ людей всех профессий, в том числе и ученых-исследователей.
36
Говард Гарднер. Структура разума: теория множественного интеллекта. – М.: Вильямс, 2007.
37
Flynn J. R. Massive IQ gains in 14 nations: What IQ tests really measure. Psychological Bulletin. 101, 171–191 (1987).
38
Douglas C. Engelbart, Augmented Intelligence: Smart Systems and the Future of Work and Learning, SRI Summary Report AFOSR-3223, www.dougengelbart.org/pubs/augment-3906.html
Изменение рынка труда
Банкомат – робот, выполняющий часть работы банковского служащего. Банкоматы принимают и выдают деньги, и это очень удобно, ведь теперь вы можете снять наличные в любое время суток. Сейчас банкоматы умеют считывать даже рукописные чеки! Банкоматы стали выполнять часть рутинной работы кассиров, однако люди не остались без работы. Теперь они лично консультируют клиентов по вопросам ипотеки и инвестиций. Во время индустриальной революции паровые двигатели заменили ручной труд, но в то же время создали рабочие места для инженеров, которые строят и обслуживают их, а позже и для машинистов, которые управляют паровозом. Amazon лишил бизнеса многих мелких продавцов, однако взамен предоставил более 350 тысяч рабочих мест, например в службе доставки. По мере того как ИИ заменяет различные профессии, появляются новые ниши для человеческого труда, требующие создание систем и устранения неполадок в них.