Профессиональный поиск в Интернете
Шрифт:
Рис. 6.1. Инструмент Указатель Google
Облегчить достаточно трудоемкую работу по заполнению индексной базы Google CSE помогает режим автоматического сбора ссылок с указанной веб-страницы. Этот режим, доступный в разделе Сайты панели управления поисковиком, называется динамическим извлечением страниц. Его можно включить как для уже присутствующей в списке веб-страницы, так и для нового добавляемого в систему сайта. После включения этого режима Google CSE просматривает исходную веб-страницу и добавляет в индекс поисковика все сайты, на которые с этой страницы ведут ссылки. Данный режим весьма удобен для сбора новых адресов из разделов полезных ссылок тематических сайтов или, допустим, с обновляемых лент новостей. В результате для того, чтобы
Как уже отмечалось, построенный на основе Google CSE поисковик начинает работать сразу же после включения в индекс хотя бы нескольких сайтов. В принципе, работа над персональной системой поиска может быть сведена к пополнению списка сайтов, однако Google CSE предлагает широкий набор дополнительных вариантов настройки и инструментов, с помощью которых можно заметно улучшить работу поисковика.
Пожалуй, первый режим, который стоит включить в новом поисковике, – это режим назначения ярлыков-уточнений. Когда персональный поисковик становится достаточно крупным (несколько сотен сайтов), мы опять сталкиваемся с проблемой «длинного хвоста» результатов, которые, не попадая на первые страницы списка выдачи, оказываются невидимыми для пользователя. Решение этой проблемы – разделение общего индекса поисковика на несколько более узких по теме баз.
Разделив результаты поиска, мы будем получать при каждом запросе только ту информацию, которая требуется в каждый конкретный момент. В то же время это не скажется на широте поиска, поскольку в любое время можно будет перейти к общему поиску без использования тегов. Продуманная система разделов способна значительно повысить удобство работы с персональным поисковиком. Технически это реализуется за счет присваивания сохраняемым ссылкам ярлыков-уточнений. Например, в нашем тестовом поисковике можно выделить раздел. Форумы, в который поместить все выявленные сайты с обсуждениями, раздел. Книги, где собрать ссылки на сайты с литературой по теме, разделы Фото и Видео – для сайтов с мультимедиа-контентом. Одному сайту может быть сопоставлена как одна, так и несколько тематических меток.
Как показывает практика, имеет смысл сразу предусмотреть нейтральный ярлык для сайтов, не подходящих ни под одну из уточненных категорий. Дело в том, что в системе Google CSE нельзя «оптом» отобрать записи, у которых нет ярлыков. Поэтому, если вы придумаете какую-либо новую тематическую категорию, придется вручную перебирать индекс в поиске «свободных» ссылок. Если же сразу отмечать их «нейтральным» ярлыком, то такие ссылки потом можно будет отобрать буквально парой щелчков мышью. Назвать такой ярлык можно просто Сайты.
Ярлыки настраиваются в разделе Уточнения панели управления Google CSE. Система уточнений способна работать в двух режимах, активирующихся при выборе пользователем на странице поисковика определенного тематического раздела Первый режим позволяет включать в результаты поиска только сайты, отмеченные конкретным ярлыком. Второй режим менее радикален: поиск ведется во всей базе, но сайты, отмеченные выбранным ярлыком, выводятся на первые позиции.
Любопытно, что Google ведет собственную единую базу тематических ярлыков, предназначенных для персональных поисковиков. Каждому включенному в такую базу «универсальному» ярлыку сопоставляются наиболее авторитетные и полезные, по мнению Google, веб-ресурсы. Использование базы таких ярлыков, как и многих других дополнительных инструментов Google Custom Search Engine, обеспечивает автоматизацию наполнения персонального поисковика новыми данными. Если мы применим в своем поисковике любой из универсальных ярлыков, то получим возможность автоматически добавить к своему индексу все привязанные к ярлыку тематические веб-ресурсы. Надо признать, что список таких универсальных ярлыков пока несколько эклектичен и не очень велик. Ознакомиться с ним можно по адресу www.google.com/coop/docs/cse/labels.html. Ярлыки разделены на тематические группы, например Автомобили, Компьютеры и игры, при этом каждая группа, в свою очередь, предлагает готовый набор ярлыков.
При желании можно принять участие в совершенствовании таких универсальных тематических разделов. Для этого сначала надо зарегистрироваться на странице www.google.com/coop/topics. Затем в списке ярлыков можно выбрать нужный и либо загрузить предварительно составленный XML-файл с описанием тематических ресурсов, либо добавить сайты вручную на странице сервиса Полученные данные будут обработаны
и учтены при формировании списка рекомендуемых ресурсов.Еще один способ ускорить работу по наполнению индекса персонального поисковика – пригласить для совместной работы других пользователей. Сделать это можно с помощью раздела Совместная работа. Для приглашений служат инвайты, рассылаемые по электронной почте. К сожалению, при совместной работе нескольких пользователей над одной системой отсутствует возможность правки записей, созданных другими пользователями. Нельзя даже удалить неудачные записи – только аккаунт соавтора. Это означает, что к выбору партнеров по работе нужно подходить достаточно ответственно.
Продолжить совершенствование поисковика можно путем настройки средств продвижения сайтов, обработки синонимов и автозаполнения запросов.
Раздел Продвижения позволяет выделить в индексе поисковика сайты, которые будут иметь безусловное преимущество при сортировке результатов поиска по определенным ключевым словам (рис. 6.2). Такие ссылки начнут появляться в отдельном блоке над общим списком выдачи Данный прием позволяет повысить точность работы поисковика, поскольку лучшие узкотематические сайты попадут на первые позиции вне зависимости от результатов работы алгоритмов ранжирования. В нашем тестовом поисковике такую роль могут сыграть сайты, целиком посвященные определенному типу летательных аппаратов или же персоналиям. При добавлении каждого «продвижения» указывается его название, адрес целевого веб-сайта, а также список ключевых слов, ввод которых включит режим продвижения в результатах поиска. Альтернативный способ продвижения – загрузка предварительно составленного файла описаний продвижений. Данный вариант подходит, если вам нужно загрузить несколько десятков, а то и сотен продвигаемых адресов. При меньших объемах удобнее использовать стандартные инструменты раздела Продвижения.
Рис. 6.2. Панель настройки механизма продвижений Google CSE
Настройка синонимов в Google CSE позволяет, в частности, качественно обрабатывать аббревиатуры, а также вести поиск не только по введенным пользователем ключевым словам, но и по их синонимам. Включается этот механизм в разделе Синонимы боковой панели Google CSE. Именно там можно создать список синонимов для запросов к вашей системе Если пользователь системы задействовал внесенное в этот список слово, то поиск автоматически проводится и по его синонимам. Создать список синонимов очень просто. Достаточно указать в предлагаемой форме ключевое слово или фразу, которая включит данный режим поиска, а также собственно список синонимов. Можно также самостоятельно создать по предлагаемым правилам файл с описаниями списка синонимов и загрузить его в свой персональный поисковик.
Еще один режим, повышающий удобство работы с поисковиком, – режим автозаполнения вводимых пользователями поисковых запросов. Словарь этой системы формируется индивидуально для каждого персонального поисковика на основе анализа включенных в его базу сайтов. Включить режим автозаполнения можно в разделе Основные сведения. После этого Google CSE будет анализировать включенные в индекс поисковика сайты и формировать список ключевых слов, предлагаемых пользователю по мере набора текста в строке поиска Google CSE. Кроме этого режима в разделе Основные сведения можно включить режим автоматической транслитерации вводимых пользователями запросов.
Итак, наш поисковик обрел вполне реальные черты и научился неплохо справляться со своей работой. Осталось только продемонстрировать его публике. Для каждого персонального поисковика Google создает собственную домашнюю страницу, на которой и проводится поиск. Второй вариант работы с персональным поиском – размещение его формы-виджета на собственной веб-странице. Для этого достаточно просто скопировать предлагаемый системой код формы на свою страничку. Настройка этого режима ведется с помощью все той же боковой панели инструментов. На сей раз задействуются разделы Внешний вид и Получить код.
Первый из названных разделов позволяет определиться со структурой и оформлением виджета, предназначенного для размещения на внешнем сайте. Предлагается три варианта демонстрации результатов поиска: на одной странице с формой поиска, на отдельной странице результатов, находящейся на вашем сайте, и на домашней странице поисковика Google. Наиболее гибким является первый вариант.
Доступны несколько макетов разметки виджета, а также готовых вариантов его цветового оформления. Поскольку за оформление отвечает технология CSS, можно самостоятельно изменить внешний вид виджета в соответствии с дизайном вашего сайта. Полученный в результате этих операций код виджета можно скопировать в разделе Получить код.