Чтение онлайн

ЖАНРЫ

За стеной фильтров. Что Интернет скрывает от вас?
Шрифт:

Пейдж изобрел новаторский подход к такой сортировке и с присущей компьютерным гикам склонностью к игре слов назвал его PageRank [66] . Большинство компаний, занимавшихся интернет-поиском в то время, сортировали страницы по ключевым словам и едва ли могли оценить, насколько первые соответствуют вторым. В статье, опубликованной в 1997 году, Брин и Пейдж сухо отмечали, что три из четырех крупнейших поисковых машин не могут найти сами себя. «Мы хотим, чтобы наша концепция "релевантности" распространялась только на лучшие документы, — писали они, — поскольку пользователю могут быть доступны десятки тысяч лишь слегка релевантных документов» [67] .

66

Фамилия Пейдж (Page) в переводе с английского означает «страница». Прим. пер.

67

Sergey Brin and Lawrence Page. The Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.1.

Пейдж

понял, что в пронизанной ссылками структуре Сети кроется гораздо больше данных, чем могут использовать большинство поисковых машин. Тот факт, что одна страница содержит ссылку на другую, можно считать «голосом» в пользу второй. Пейдж наблюдал за тем, как стэнфордские профессора считают, сколько раз их статьи были процитированы, и составляют таким образом примерный рейтинг своей значимости. Он прикинул, что сайты, на которые часто ссылаются — например, главная страница Yahoo, — могут, подобно академическим статьям, считаться более значимыми, а те, за которые они «голосуют», тоже значат больше. Весь этот процесс, как утверждал Пейдж, «опирается на уникальную демократическую структуру Сети».

В те дни Google обитал на сайте google.stanford.edu, и Брин с Пейджем были убеждены, что сервис должен оставаться некоммерческим и свободным от рекламы. «Мы считаем, что поисковые машины, финансируемые за счет рекламы, будут неизбежно склоняться в сторону нужд рекламодателей, а не нужд потребителей, — писали они. — Чем лучше поисковая система, тем меньше сообщений понадобится потребителю, чтобы найти искомое… мы уверены, что вопрос о рекламе создает достаточно неоднозначные стимулы, и поэтому крайне важно иметь конкурентоспособную поисковую систему, которая прозрачна для пользователей и остается в академической сфере» [68] .

68

Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 8 Appendix A.

Но когда они запустили бета-версию сайта на просторы Интернета, трафик зашкалил. Google действительно работал — внезапно он стал лучшей поисковой машиной Интернета. Вскоре искушение сделать на этом бизнес оказалось слишком сильным, и основатели Google, которым было по двадцать с небольшим, не смогли перед ним устоять.

По легенде, именно алгоритм PageRank вознес Google на вершину мирового господства. Я подозреваю, что компании нравится эта версия: это ясная, простая история, привязывающая успех поискового гиганта к одному гениальному прорыву, совершенному одним из основателей. Но с самого начала PageRank был лишь малой частью проекта Google. На самом деле Брин и Пейдж поняли вот что: ключ к релевантности, к сортировке массы данных в Интернете — это… еще больше данных.

Брину и Пейджу был важен не только сам факт, что страница ссылается на другую. Позиция ссылки, ее размеры, возраст страницы — все эти факторы имели значение. С годами Google стал называть эти путеводные нити, скрытые в данных, «сигналами».

С самого начала Пейдж и Брин понимали, что важнейшие сигналы будут поступать от самих пользователей поисковика. Скажем, если кто-то ищет «Ларри Пейдж» и кликает на вторую ссылку в результатах, это тоже «голос»: он подсказывает, что вторая ссылка более релевантна, чем первая. Они назвали это «клюс-сигналами» (click signal). «Очень интересными будут исследования, — писали Пейдж и Брин, — в основу которых лягут огромные объемы данных об использовании современных веб-систем… весьма трудно получить эту информацию, прежде всего потому, что она предположительно имеет коммерческую ценность» [69] . Вскоре в их руках оказалось одно из крупнейших в мире хранилищ таких данных.

69

Brin and Page. Anatomy of a Large-Scale Hypertextual Web Search Engine. Section 1.3.2.

По части информации Google был ненасытен. Брин и Пейдж намеревались сохранять все: каждую страницу, на которую когда-либо заходила поисковая машина, каждый клик каждого пользователя. Вскоре их серверы уже хранили копию большей части Интернета, обновляемую практически в режиме реального времени. Они были уверены, что, просеивая данные, найдут еще больше зацепок, еще больше сигналов, позволяющих уточнять результаты. Отдел качества поиска Google завоевал репутацию местного спецназа: минимум посетителей, абсолютная секретность — таковы были правила его работы [70] .

70

Saul Hansell. Google Keeps Tweaking its Search Engine. New York Times, June 3, 2007, http://www.nytimes.com/2007/06/03/business/yourmoney/03google.html?_r=l.

«Идеальная

поисковая машина, — любил говорить Пейдж, — будет в точности понимать, что вы имеете в виду, и выдавать в точности то, что вы хотите» [71] . Google должен был выдавать не тысячи ссылок в ответ на запрос, а одну, именно ту, которая нужна. Но идеальные ответы для разных пользователей — разные. Когда я ввожу в строку поиска «пантеры», вероятно, я имею в виду крупных диких кошек, а если это слово вводит футбольный фанат, то он, видимо, подразумевает футбольную команду из Южной Каролины. Чтобы добиться идеальной точности, нужно знать, чем конкретно интересуется каждый из нас. Нужно знать, что я ничего не понимаю в футболе; нужно знать, кто я такой.

71

David A. Vise and Mark Malseed. The Google Story. New York: BantamDell, 2005, 289.

Главной проблемой было получить достаточно данных и выяснить, что соответствует интересам каждого конкретного пользователя. Понять, чего хочет кто-то, — непростая задача, и, чтобы выполнить ее хорошо, нужно знать, как ведет себя человек в течение длительного времени.

Но как? В 2004 году компания выдвинула инновационную стратегию и начала предоставлять другие услуги — те, которые вынуждали пользователей регистрироваться и входить в Сеть. Одной из первых стала Gmail — чрезвычайно популярная электронная почта. Журналисты много писали о рекламе, выводимой в Gmail рядом с письмами, но маловероятно, что она была единственным мотивом запуска сервиса. Заставляя людей входить в Сеть под своим логином, Google заполучил в свое распоряжение колоссальные массивы данных: сотни миллионов писем, которые пользователи отправляют и получают каждый день. Компания теперь может сопоставлять сообщения и поведение каждого пользователя на сайте со ссылками, на которые он кликает в поисковой машине. Пакет онлайновых инструментов для работы с текстом и электронными таблицами Google Apps имел двойное назначение: с одной стороны, он подрывал позиции Microsoft, кровного врага Google, а с другой — стал еще одним крючком, заставляющим пользователей входить в Сеть и посылать всё новые клик-сигналы. Все эти данные позволили Google ускорить создание модели личности каждого пользователя — какими темами он интересуется, по каким ссылкам ходит.

К ноябрю 2008 года Google получил несколько патентов на алгоритмы персонализации — программный код, позволяющий выделить группы, к которым принадлежит индивид, и скорректировать поисковые результаты с учетом предпочтений. Категории Google оказались довольно узкими: для иллюстрации в патенте приводился пример «всех лиц, интересующихся коллекционированием зубов древних акул», и «всех лиц, не интересующихся коллекционированием зубов древних акул» [72] . При вводе слов «резцы большой белой акулы» люди из первой группы получили бы одни результаты, а из второй — другие.

72

Полный текст патента: http://patft.uspto.gov/netacgi/nph-Parser7Sectl=PT02&Sect2=HIT0FF&u=%2Fnetahtml%2FPT0%2Fsearch-adv.htm&r=l&p=l&f=G&l=50&d=PTXT&Sl=7,451,130.PN.&OS=pn/7,451,130&RS=PN/7,451,13,

Сегодня Google отслеживает любой сигнал от нас, который может заполучить. Важность этих данных трудно переоценить: если Google видит, что я вхожу в Сеть сперва из Нью-Йорка, потом из Сан-Франциско, потом снова из Нью-Йорка, то он понимает, что я регулярно летаю с одного побережья на другое, и может соответственно скорректировать выдаваемые результаты. Определив, какой браузер я использую, он может сделать некоторые выводы о моем возрасте и даже, возможно, о моих политических предпочтениях.

Время, проходящее от момента, когда вы вводите запрос, до момента, когда вы выбираете один из результатов, также проливает некоторый свет на вашу личность. И, конечно, сами поисковые запросы дают огромные объемы информации о вас.

Даже если вы не зашли в Сеть под своим логином, Google все равно выдает вам персонализированные результаты поиска. Ему доступна информация о районе — даже о квартале, — откуда вы зашли в Сеть, и это многое говорит о том, кто вы и чем интересуетесь. Слово «Sox» в поисковой строке, введенное на Уолл-стрит, вероятно, представляет собой сокращение от названия закона Сарбейнса — Оксли [73] , тогда как, если запрос поступил из Стейтен-Айленда [74] , речь, видимо, идет о названии бейсбольной команды.

73

Закон 2002 года, существенно ужесточающий требования к финансовой отчетности компаний. Прим. пер.

74

«Спальный» район Нью-Йорка, расположенный на одноименном острове. Прим. пер.

Поделиться с друзьями: