Сверхдержавы искусственного интеллекта
Шрифт:
Краткая история глубокого обучения
Машинное обучение – это обобщающий термин для области, к которой относится и глубокое обучение – технология, способная повлиять на ход истории, и благополучно выдержавшая полвека энергичных исследований. С момента своего зарождения искусственный интеллект претерпел не один цикл взлетов и падений. За периодами больших надежд следовали периоды разочарования (их еще называют «зимами искусственного интеллекта»), когда отсутствие практических результатов приводило к потере интереса и сокращению финансирования. Чтобы понять, как мы пришли к глубокому обучению, необходим краткий экскурс в историю. Еще в середине 1950-х годов пионеры искусственного интеллекта поставили себе невероятно смелую, но четкую цель – воссоздать человеческий интеллект в машине. Это поразительное сочетание ясности цели и сложности задачи станет притягательным для величайших умов в области компьютерных наук, таких как Марвин Минский, Джон Маккарти и Герберт Саймон. В начале 1980-х годов, когда я изучал информатику в Колумбийском университете, оно поразило и мое воображение. Я родился на Тайване в начале 1960-х годов, но, когда мне было 11 лет, мы переехали в Теннесси, и там я окончил среднюю школу. Через четыре года я принял решение углубленно изучать ИИ в Колумбийском университете в Нью-Йорке. В 1983 году в разделе анкеты, где нужно было указать цель поступления в аспирантуру по информатике,
К тому времени, когда я начал писать кандидатскую диссертацию, в среде исследователей искусственного интеллекта сформировались два течения: одно объединяло сторонников выбора действий на основе правил, другое поддерживало принцип нейронных сетей. Исследователи из первого лагеря (их иногда называют сторонниками символических систем или экспертных систем) пытались научить компьютеры мыслить, кодируя последовательности логических правил: если X, то Y. Этот подход был хорошо применим для простых игр с четкой структурой («искусственные задачи»), но прекращал работать при расширении множества возможных вариантов. Чтобы сделать программное обеспечение способным решать проблемы реального мира, сторонники этого подхода опрашивали экспертов по тем или иным задачам, а затем кодировали их ответы в виде программ (отсюда второе название – «экспертные системы»).
Однако ученые из лагеря нейронных сетей использовали другой подход. Вместо того чтобы учить компьютер правилам, по которым действовал человеческий мозг, они пытались его реконструировать. Насколько нам известно, запутанные сети нейронов в мозге животных – единственная основа интеллекта, и исследователи полагали, что можно напрямую воссоздать эту основу. Они поставили перед собой задачу имитировать архитектуру мозга, выстраивая слои искусственных нейронов, способных получать и передавать информацию внутри структуры подобно нейронам живых существ. Электронным нейронным сетям не задают правил, которым надо следовать при принятии решений. В них просто вводят большое множество примеров какого-либо явления – картинок, шахматных партий, звуков – и позволяют сетям самим определять закономерности внутри массива данных. Иначе говоря, чем меньше человеческого вмешательства, тем лучше.
Различия между двумя подходами можно увидеть на примере простой задачи, в которой надо определить, есть ли на рисунке кошка. Чтобы помочь программе принять решение, основанный на правилах метод требует установить правило типа «если – то»: если сверху круга расположены два треугольника, то, возможно, кошка на рисунке есть. При использовании метода нейронных сетей программа получит миллионы образцов в виде фотографий с пометкой «кошка» или «нет кошки» и попытается самостоятельно выяснить, какие признаки в миллионах изображений наиболее тесно коррелируют с пометкой «кошка». В 1950-х и 1960-х годах ранние версии искусственных нейронных сетей дали многообещающие результаты и наделали немало шума. Но потом в 1969 году лагерь сторонников правил вырвался вперед, используя аргумент, что нейронные сети ненадежны и ограничены в применении. Метод нейронных сетей быстро вышел из моды, и в 1970-х годах наступила первая «зима искусственного интеллекта». В течение последующих десятилетий о нейронных сетях то вспоминали, то снова забывали. В 1988 году я использовал подход, похожий на метод нейронных сетей (скрытые марковские модели), чтобы создать Sphinx – первую в мире независимую от говорящего программу для распознавания непрерывной речи [7] . О моем достижении написали в New York Times [8] . Но этого оказалось недостаточно, и с началом долгого «ледникового периода» в области ИИ, растянувшегося почти на все 1990-е годы, о нейронных сетях снова забыли.
7
Ли К.-Ф. О распознавании естественной речи без обучения на образцах речи говорящего // Speech Coomunication 7. 1988. № 4. С. 375–379.
8
Маркофф Д. Разговор с машинами: прогресс ускоряется // New York Times. URL: https://www.nytimes.com/1988/07/06/business/business-technology-talking-to-machines-progress-is-speeded.html?mcubz=1.HTML-код?mcubz=1 (6 июля 1988 года).
В конечном счете сегодняшнему возрождению метода способствовали технологические прорывы, касающиеся двух важных базовых элементов нейронных сетей. Я имею в виду большую вычислительную мощность и большие объемы данных. Данные «обучают» программу распознавать шаблоны, обеспечивая ее множеством образцов, а вычислительная мощность позволяет ей быстро анализировать эти образцы.
На заре ИИ, в 1950-х годах, не хватало как данных, так и вычислительной мощности. Но за прошедшие десятилетия все изменилось. Сегодня вычислительная мощность вашего смартфона в миллионы раз больше, чем мощность передовых компьютеров НАСА, отправивших Нила Армстронга на Луну в 1969 году. Появление интернета привело к накоплению самых разнообразных текстов, изображений, видео, кликов, покупок, твитов и так далее. В распоряжении исследователей оказались огромные объемы данных для обучения нейронных сетей, а также дешевые вычислительные мощности высокой производительности. Но сами сети все еще были сильно ограничены в возможностях. Для получения точных решений сложных задач требуется много слоев искусственных нейронов, но на тот момент исследователи еще не нашли способ эффективно обучать слои по мере их добавления. Прорыв в этом направлении, наконец, состоялся в середине 2000-х годов, когда ведущий исследователь Джеффри Хинтон обнаружил способ эффективного обучения добавленных слоев. Нейронные сети словно получили дозу стероидов и обрели невиданную мощь, достаточную, чтобы распознавать речь и объекты. Вскоре нейронные сети, названные новым модным термином «глубокое обучение», уже могли превзойти старые модели в решении различных задач. Однако укоренившиеся предрассудки о методе нейронных сетей заставили многих исследователей ИИ игнорировать технологию, которая тем не менее показывала выдающиеся результаты. Поворотный момент наступил в 2012 году, когда сеть, построенная командой Хинтона, одержала убедительную победу в международном конкурсе компьютерного зрения [9] , [10] .
9
Речь
идет о соревновании Large Scale Visual Recognition Challenge. Алгоритмы, представленные соревнующимися командами, должны распознавать, что изображено на картинках. Прим. науч. ред.10
ImageNet – решение задач визуального распознавания 2012, полные результаты. URL: http://image-net.org/challenges/LSVRC/2012/results.html.
После десятилетий самоотверженных исследований нейронные сети в одночасье вышли на передний план, теперь в виде глубокого обучения. Этот прорыв обещал растопить лед последней «зимы» ИИ и впервые позволить по-настоящему использовать его силу для решения ряда реальных проблем. Исследователи, футуристы и технические специалисты – все начали твердить о колоссальном потенциале нейросетей. Ожидалось, что скоро они научатся понимать человеческую речь, переводить документы, распознавать изображения, прогнозировать поведение покупателей, выявлять мошенничества и принимать решения о кредитовании, а еще подарят новые способности роботам – от зрения до умения водить машину.
За кулисами глубокого обучения
Так как же работает глубокое обучение? По существу, чтобы получить решение, оптимизированное в соответствии с желаемым результатом, эти алгоритмы используют огромные объемы данных из определенного домена. Самообучающаяся программа решает задачу, обучаясь распознавать глубоко скрытые закономерности и корреляции, связывающие множество точек данных с желаемым результатом. Такой поиск зависимостей становится проще, когда данные имеют пометки, связанные с результатом: «кошка» против «нет кошки»; «нажал» против «не нажимал»; «выиграл игру» против «проиграл игру». Тогда машина может опираться на свои обширные знания об этих корреляциях, многие из которых невидимы или не имеют смысла для человека, и принимать лучшие решения, чем сам человек. Однако для этого требуется огромное количество данных, мощный алгоритм, узкая область и конкретная цель. Если вам не хватает чего-либо из перечисленного, метод не сработает. Слишком мало данных? Алгоритму не будет хватать образцов, чтобы выявить значимые корреляции. Неточно поставлена цель? Алгоритму не хватит четких ориентиров для оптимизации. Глубокое обучение – это то, что известно как «ограниченный ИИ» – интеллект, который берет данные из одного конкретного домена и использует их для оптимизации одного конкретного результата. Это впечатляет, но все еще далеко от «ИИ общего назначения» – универсальной технологии, способной делать все, что может человек. Глубокое обучение находит самое естественное применение в таких областях, как страхование и кредитование. Соответствующих данных о заемщиках предостаточно (кредитный рейтинг, уровень дохода, недавнее использование кредитных карт), и цель оптимизации ясна (минимизировать уровень неплатежей). Сделав следующий шаг в развитии, глубокое обучение приведет в действие самоуправляемые автомобили, помогая им «видеть» мир вокруг них: распознавать объекты в пиксельном изображении с камеры (например, красные восьмиугольники), выяснять, с чем они коррелируют (дорожные знаки «Стоп»), и использовать эту информацию для принятия решений (задействовать тормоз, чтобы медленно остановить автомобиль), оптимальных для достижения желаемого результата (доставить меня безопасно домой в минимальные сроки).
Глубокое обучение так волнует человечество именно потому, что открывает перед нами огромные перспективы. Его способность распознать схему и оптимизировать ее для получения конкретного результата может применяться для решения множества повседневных проблем. Вот почему такие компании, как Google и Facebook, боролись за немногочисленных экспертов в области глубокого обучения и платили им миллионы долларов, чтобы получить доступ к самым передовым научным разработкам. В 2013 году Google приобрела стартап, основанный Джеффри Хинтоном, а в следующем году и британский стартап в области ИИ под названием DeepMind – компанию, которая и построила AlphaGo, израсходовав более 500 млн долларов [11] . Результаты этих проектов продолжают поражать воображение публики и появляться в заголовках газет. Они вызывают у нас ощущение, что мы стоим на пороге новой эры, когда машины обретут невероятные возможности, и нет гарантий, что они не начнут вытеснять людей.
11
Шу К. Google приобретает стартап ИИ за 500 миллионов долларов // TechCrunch. URL:(26 января 2014 года).
Международные исследования ИИ
Но какое место занимает во всем этом Китай? Исторически глубокое обучение было почти полностью разработано в Соединенных Штатах, Канаде и Великобритании. Затем некоторые китайские предприниматели и венчурные фонды, такие как мой собственный, начали инвестировать средства в эту область. Но подавляющая часть технического сообщества Китая не обращала должного внимания на глубокое обучение вплоть до событий 2016 года, то есть прошло целое десятилетие после появления революционных теоретических работ в этой области и четыре года после того, как глубокое обучение одержало эпохальную победу на конкурсе компьютерного зрения.
Американские университеты и технологические компании на протяжении десятилетий снимали сливки с работ талантливых специалистов, которых страна привлекала со всего мира. США надеялись на безусловное лидерство и в области ИИ, которое должно было только укрепляться. Исследовательская элита страны трудилась в Кремниевой долине в обстановке щедрого финансирования, уникальной культуры и поддержки со стороны влиятельных компаний. В глазах большинства аналитиков Китаю в отношении ИИ суждено было играть ту же роль, что и в предыдущие десятилетия, – роль подражателя, вечно не поспевающего за развитием передовых технологий.
В следующих главах вы увидите, что этот прогноз оказался ошибочным. Он был основан на устаревших оценках китайской технологической среды, а также на фундаментальном непонимании того, что движет продолжающейся революцией ИИ. Хотя первые зерна связанных с ИИ идей проросли на Западе, Китай будет пожинать их плоды. И причина этого глобального сдвига заключается в двух переходах: от эпохи открытий к эпохе внедрения и от эпохи экспертных знаний к эпохе данных.
В основе ошибочной веры в то, что Соединенные Штаты являются страной передового ИИ, лежит впечатление, что мы живем в эпоху открытий и наблюдаем за тем, как элита исследователей ИИ постоянно ломает традиционные парадигмы и разгадывает старые тайны. Это впечатление подпитывается постоянным потоком захватывающих дух сообщений СМИ: искусственный интеллект диагностирует некоторые виды рака лучше, чем это делают врачи; он одержал труднейшую победу над мастерами игры в техасский холдем [12] ; он самообучается без какого-либо вмешательства человека. С учетом такого повышенного внимания к каждому новому достижению случайному наблюдателю или даже эксперту-аналитику простительно полагать, что мы постоянно открываем новые горизонты исследований в области искусственного интеллекта.
12
Разновидность покера.