Инноваторы. Как несколько гениев, хакеров и гиков совершили цифровую революцию
Шрифт:
Тогда Пейдж начал придумывать, как собрать все ссылки в огромную базу данных, чтобы можно было отследить их источники и выяснить, какие сайты на какие страницы ссылались. Таким образом он надеялся простимулировать сотрудничество между людьми. Его метод позволил бы людям комментировать другие странички на своих сайтах. Если Гарри написал комментарий и дал ссылку на сайт Салли, то посетители сайта Салли смогли бы пройти по ссылке обратно и прочесть его отзыв. «Если мы закольцуем ссылки и сможем ходить по ним в обе стороны, люди смогут комментировать другие сайты и просто ссылаться на них на своей странице» [1063] , — объяснял Пейдж.
1063
Напутственная речь Ларри Пейджа выпускникам Университета Мичигана.
Пейдж придумал, как проследить все ссылки в обратном направлении. Он проснулся посреди ночи, и в голову ему пришла довольно дерзкая идея: «Я подумал: а что, если загрузить все до единого интернет-сайты и просто зафиксировать, откуда мы на них пришли. Я схватил ручку и начал писать. Я полночи лихорадочно записывал детали своего плана, убеждая себя, что это сработает» [1064] .
1064
Vise, The Google Story, 10.
1065
Напутственная речь Ларри Пейджа выпускникам Университета Мичигана.
Составить карту Всемирной паутины было непросто. Даже тогда, в январе 1996 года, она состояла из 100 тысяч веб-сайтов, которые были соединены миллиардом ссылок и на которых хранилось 10 миллионов документов. И каждый год эти цифры росли в геометрической прогрессии. В начале лета 1996 года Пейдж создал поискового робота для сбора данных, который должен был начать с личной страницы Пейджа, а затем переходить по всем ссылкам, которые ему встречались. Он перемещался по сети как настоящий паук и сохранял текст всех гиперссылок, названия страниц и информацию о том, откуда шла ссылка, по которой он попал на конкретный сайт.
Пейдж сказал Винограду, что по примерным расчетам робот-сборщик выполнит свое задание за несколько недель. «Терри кивнул, хотя отлично понимал, что времени понадобится намного больше. Но он мне этого не сказал, Терри был мудр, — вспоминает Пейдж. — Юношеский оптимизм часто недооценивают!» [1066] Вскоре проект Пейджа составлял практически половину интернет-трафика Стэнфорда, а как минимум один раз привел к отключению Интернета по всему кампусу. Однако администрация университета была на стороне Пейджа. «У меня почти не осталось свободного места на диске», — писал Пейдж Винограду в электронном письме от 15 июля 1996 года. На тот момент он собрал 24 миллиона URL-адресов и более 100 миллионов ссылок. «Мы проверили только около 15 % сайтов, но пока все выглядит очень многообещающе» [1067] .
1066
Battelle, The Search, 1183.
1067
Battelle, The Search, 1114.
Сложный проект Пейджа был как будто создан для Сергея Брина и его математического ума. Брин как раз искал тему для диссертации и был в восторге от идеи поработать с другом: «Проект был потрясающий. Он касался Всемирной сети, которая представляла собой совокупность человеческих знаний. И потом, мне нравился Ларри» [1068] .
Тогда Пейдж и Брин все еще считали, что цель их проекта BackRub — составление каталога веб-ссылок, на основе которого можно было бы запустить систему для комментирования сайтов и анализа их цитируемости. «Что удивительно, я тогда и не задумывался о создании поисковой системы, — признавался Пейдж. — Даже близко таких мыслей не было». Проект развивался, и друзья изобретали все более сложные способы оценки каждого сайта, основанные на количестве и качестве входящих ссылок. Тогда их озарило: индекс веб-страниц, рассортированных по рейтингу, мог стать фундаментом для первоклассной поисковой системы. Так родилась система Google. Пейдж позднее скажет: «Когда у вас появляется великая мечта, хватайте ее!» [1069]
1068
Напутственная речь Ларри Пейджа выпускникам Университета Мичигана.
1069
Интервью, взятое автором у Ларри Пейджа.
Пейдж и Брин скорректировали цели проекта и изменили его название. Новое название PageRank отражало суть их работы — все веб-страницы в индексе BackRub получали свой рейтинг (он и назывался PageRank). Фамилия Пейджа использовалась не совсем случайно, это, скорее, служило примером его специфического юмора и льстило его самолюбию. «Да, к сожалению, я тогда имел в виду себя, — позже застенчиво признавался Пейдж. — Мне до сих пор немного неудобно» [1070] .
1070
Levy, In the Plex, 415, приведены замечания Пейджа на конференции 2001 PC Forum, проведенной в 2001 году в Скоттсдейле, Аризона.
Попытка составить рейтинг сайтов усложнила их задачу. Вместо того чтобы просто посчитать количество ссылок, ведущих на страницу, Пейдж и Брин решили, что было бы еще лучше, если бы они оценили ценность каждой входящей ссылки. Например, ссылка New York Timss должна была иметь больший вес, чем ссылка с сайта Джастина Холла, который он вел из общежития колледжа Суортмор. Получался рекурсивный процесс с несколькими петлями: каждый веб-сайт получал место в рейтинге согласно количеству и авторитетности входящих ссылок, а ценность этих ссылок зависела от рейтинга их родного сайта. Влиятельность же этого сайта также определялась по количеству и авторитетности ссылок, которые вели на него. «Это все рекурсия, — пояснял Пейдж. — Один большой круг. Но математика восхитительна, она позволяет решать такие задачи» [1071] .
1071
Интервью,
взятое Джоном Инсом у Сергея Брина, The Lost Google Tapes, часть 2.Математические задачи именно такого уровня интересовали Брина. «Чтобы достичь нашей цели, мы решили немало математических проблем, — вспоминает он. — Мы как будто превратили Всемирную паутину в огромное уравнение, в котором были сотни миллионов переменных — рейтинги всех сайтов Интернета» [1072] . Они опубликовали статью в соавторстве со своими научными руководителями, где разъяснили сложные математические формулы, основанные на количестве входящих ссылок и относительном рейтинге каждой из этих ссылок. Затем они объяснили все то же самое простыми словами, чтобы было понятно и непрофессионалам: «„У веб-сайта будет высокий рейтинг, если будет высока сумма рейтингов его входящих ссылок“. Сюда относились случаи, когда у страницы имелось много входящих ссылок и когда на страницу ссылалось не так много, но авторитетных сайтов» [1073] .
1072
Sergey Brin, Rajeev Motwani, Larry Page, Terry Winograd, What Can You Do with a Web in Your Pocket? Информационный бюллетень Технического комитета по информационным технологиям при Компьютерном обществе Института инженеров электроники и электротехники (1998).
1073
Интервью, взятое автором у Ларри Пейджа.
Мог ли рейтинг PageRank улучшить результаты поиска — это был вопрос на миллион. Пейдж и Брин провели один сравнительный тест: попробовали набрать слово «университет» в разных поисковых системах. AltaVista и другие сайты выдавали список случайных страниц, в названии которых встречалось это слово. «Помню, я как-то спросил авторов тех систем: „Зачем вы кормите людей бессмыслицей?“» — вспоминает Пейдж. Ему ответили, что такие результаты поиска — его вина и что ему нужно уточнять свои поисковые запросы. «Благодаря лекциям по взаимодействию человека и машины я знал, что обвинять пользователей — не лучшая идея. То есть владельцы тех поисковиков в корне ошибались. Мы были уверены, что пользователь всегда прав, поэтому нам удалось создать поисковую систему, которая была лучше остальных» [1074] . Когда они ввели слово «университет» в свою систему, учитывающую рейтинг PageRank, то получили следующие результаты: Стэнфорд, Гарвард, Массачусетский технологический институт и Университет Мичигана. Такой список невероятно их порадовал. «Вот это да, — сказал себе Пейдж. — Мне и всей нашей команде стало очевидно, что можно искать информацию намного эффективнее, если уметь определять авторитетность веб-сайтов, основываясь на мнении общественности, а не на данных самих страниц» [1075] .
1074
Levy, In the Plex, 358.
1075
Levy, In the Plex, 430.
Пейдж и Брин продолжили совершенствовать свою поисковую систему. Алгоритм PageRank «научился» учитывать такие факторы, как частота употребления, размер шрифта и расположение ключевых слов на веб-странице. Сайт получал больше баллов, если ключевое слово было расположено в его URL-адресе или названии, а также если оно было набрано заглавными буквами. Пейдж и Брин анализировали каждый блок результатов и слегка поправляли формулу. Они вычислили, что важную роль необходимо отводить якорному тексту ссылок, то есть «кликабельным» подчеркнутым словам, которые представляли собой гиперссылку. Например, слова «Билл Клинтон» являлись якорным текстом для многих ссылок, ведущих на портал whitehouse.gov, чтобы этот сайт появлялся среди верхних результатов, когда пользователь искал слова «Билл Клинтон». При этом на стартовой странице сайта whitehouse.gov имя Билла Клинтона не было по-особенному расположено или выделено. Тем временем конкурирующая поисковая система на запрос «Билл Клинтон» в качестве первого результата поиска выдавала сайт «Анекдот дня от Билла Клинтона» [1076] .
1076
Интервью, взятое Джоном Инсом у Сергея Брина, The Lost Google Tapes, часть 2, http://www.podtech.net/home/1728/podventurezone-lost-google-tapes-part-2-sergey-brm.
Поисковой системе Пейджа и Брина приходилось иметь дело с огромным количеством страниц и ссылок, в частности, поэтому они назвали ее Google. Гугол (googol) — это число, состоящее из единицы и сотни нулей. Название предложил Шон Андерсон, аспирант из Стэнфорда, с которым Пейдж и Брин делили учебную комнату. Оказалось, что домен Google свободен, и Пейдж моментально его купил. «Мне кажется, мы не поняли, что сделали орфографическую ошибку, — позднее признается Брин. — Но googol все равно был занят. Какой-то парень уже купил домен Googol.com и не хотел с ним расставаться, сколько я его ни уговаривал. Поэтому мы оставили себе Google» [1077] . Это было забавное слово. Оно хорошо запоминалось и легко превращалось в глагол [1078] .
1077
В 2006 году слово google появится в качестве глагола в Оксфордском словаре английского языка. — Прим. автора.
1078
Levy, In the Plex, 947.