Чтение онлайн

ЖАНРЫ

Профессиональный поиск в Интернете

Кутовенко Алексей

Шрифт:

Форму персонального поиска также можно экспортировать в виде гаджета для сервиса iGoogle. В отличие от обычных виджетов, он содержит не только форму поиска, но и предоставляет быстрый доступ к настройке персонального поисковика.

Отслеживать использование готового и открытого для доступа персонального поисковика можно с помощью раздела Статистика. Здесь демонстрируется количество запросов к поисковику за день, неделю и месяц. Если этого недостаточно, можно перейти на отдельную страницу статистики, где доступны сведения о количестве запросов в диапазоне от одного часа до недели, а также выводится список наиболее популярных запросов к вашей системе поиска. Если система Google Custom Search Engine внедрена на внешнем сайте, для сбора статистики рекомендуется использовать инструменты Google Analytics.

Кроме рассмотренных инструментов, ориентированных на применение

визуального интерфейса в системе Google CSE, есть ряд инструментов для опытных пользователей, ориентированных на прямую правку файлов системы, в том числе с помощью внешних редакторов.

Прежде чем вести речь о таких инструментах, необходимо сказать пару слов о внутреннем устройстве поисковика на базе Google CSE. Вся информация и параметры персональной системы хранятся в двух настроечных XML-файлах. Файл контекста содержит общие параметры поисковика. В файле аннотаций хранится перечень сайтов, включенных в индекс вашей системы, а также индивидуальные варианты настройки каждого из них. Работая с инструментами панели управления Google CSE, мы, по сути, занимаемся редактированием этих файлов.

Получить прямой доступ к XML-файлам персонального поисковика можно на вкладке. Дополнительно. Непосредственная правка настроечных файлов системы предоставляет заманчивые возможности, дающие полный контроль над поведением поисковика, однако требует хотя бы минимальных познаний в языке XML. Эти файлы можно скачать на свой компьютер, а после внесения правок загрузить на сервер Google, изменив тем самым индекс и настройку персональной системы.

Итак, файл контекста описывает базовые варианты настройки персонального поисковика, а файл аннотаций содержит полный список ссылок, включенных в персональную систему, а также их параметры. Таким образом, ручная настройка персонального поисковика состоит из двух этапов: сначала в «контекстном» файле мы определяем необходимые варианты настройки, а затем применяем их к конкретным адресам в файле аннотаций.

В настоящее время список поддерживаемых тегов не очень велик, однако результаты их применения весьма интересны. Наиболее востребованными командами при редактировании свойств персонального поисковика являются команды FILTER, ELIMINATE и BOOST.

При использовании команды FILTER в результаты поиска включаются только те адреса из общего списка доступных сайтов, к которым был применен данный тег. Команда ELIMINATE работает прямо противоположным образом и выбрасывает указанные адреса из результатов поиска. Данные теги стоит воспринимать как мощные, но достаточно грубые средства, подразумевающие аккуратное применение.

Тег BOOST гораздо интересней – он позволяет вмешаться в процесс ранжирования результатов поиска. Другими словами, с его помощью можно управлять позицией определенного сайта на странице выдачи результатов поиска. По умолчанию при персональном поиске применяются стандартные алгоритмы ранжирования Google, однако они не всегда удобны для тематического поиска. Тег BOOST как раз и позволяет поднять результаты, полученные с таких ресурсов, на первые позиции в списке выдачи.

Для этого сначала в XML-файле контекста необходимо найти раздел <Background Labels> и с помощью контейнера <Label></Label> создать новую метку с именем, допустим, Лучшие сайты. Следующий шаг – правка файла аннотаций. Здесь необходимо добавить созданную нами метку к тем сайтам, результаты с которых должны попасть на первые места списка выдачи Для этого к описанию нужных сайтов добавляется тег с именем нашей метки (Лучшие сайты) в качестве параметра.

После применения команды BOOST отмеченные данным тегом ресурсы в ходе отработки запроса будут получать преимущество по сравнению с теми сайтами, которые находились бы на первых строчках при обычном поиске в Google. В ее параметрах в виде численного значения устанавливается «вес» результатов из источника, к которому будет применена эта метка. Диапазон допустимых значений – от -1 до 1. Максимальное значение 1 означает, что результаты с определенного сайта всегда будут на первой позиции в списке выдачи Поскольку допускается применение дробных значений, данный инструмент обладает очень большой гибкостью. Применяя различные значения к определенным сайтам из списка ссылок нашего поисковика, мы можем гибко управлять его списком выдачи Эта возможность особенно удобна, если в ходе тестирования выясняется, что серьезный, но малоизвестный специализированный ресурс уступает место в первых строчках результатов стандартного поиска сборной «солянке» из популярного сетевого справочника или энциклопедии.

Возможность

непосредственного манипулирования настроечными файлами открывает хорошие перспективы автоматизации работы с персональным поисковиком. Дело в том, что такие файлы можно готовить самостоятельно в удобных пользователю редакторах и загружать на сервер. Таким образом, например, можно не набирать весь список сайтов в онлайновой форме, а заранее подготовить и загрузить на сервер файл аннотаций с перечнем нужных сайтов и их свойствами. Кроме того, разработчики Google реализовали уникальный режим «связанного» поиска. В данном режиме настроечные файлы поиска импортируются из указанного вами внешнего источника. Это значит, что они, например, могут храниться на вашем собственном сайте или даже генерироваться любыми удобными вам средствами и динамически подгружаться на сервер Google при каждой отправке запроса с помощью формы поиска. В системе Google Custom Search Engine ставится ссылка на такие внешние файлы, и они подгружаются непосредственно при обращении пользователя к поисковику. В руках опытного разработчика такие внешние настроечные файлы становятся очень мощным средством работы с персональным поиском на базе Google, поскольку обрабатывать их можно любым удобным способом. В результате с их помощью можно решать самые сложные задачи по поддержке системы персонального поиска, вплоть до автоматизированной генерации вариантов настройки «на лету» (при обращении пользователя к поисковику). Кроме того, такой вариант будет полезен при создании и поддержке большого количества персональных поисковиков, а также при необходимости пополнения базы из нестандартных источников информации, например RSS-лент.

Для запуска системы связанного поиска требуется выполнить минимум операций. Сообщить системе Google CSE о необходимости использования внешних файлов аннотаций можно правкой расположенного на сервере Google XML-файла контекста своего поисковика. Для этих целей служит тег <Include>, в котором прописывается путь доступа к внешнему настроечному файлу. В настоящее время таким способом можно подключать к поисковику до 50 внешних файлов аннотаций. Протестировать работу системы можно с помощью мастера, расположенного по адресу www.google.com/coop/cse/cref. Если расположить форму поиска Google Custom Search на своем сайте, то в ее код потребуется добавить параметр cref и указать путь к внешнему XML-файлу аннотаций. При отправке запроса данный параметр будет передан системе Google CSE, и она загрузит нужные варианты настройки.

В разделе Индексирование доступна еще одна возможность для непосредственной работы с файлами персонального поисковика. Здесь вебмастера, желающие использовать систему Google CSE для организации поиска на собственных сайтах, могут загрузить в систему поиска предварительно созданный Sitemap-файл для своего сайта, который сделает индексирование сайта более точным. Можно загрузить до 50 таких файлов. Кроме того, можно указать отдельные страницы своего сайта, которые должны быть проиндексированы Google.

Flexum

Российский проект персонального поиска Flexum стал достойным ответом разработке Google. Как и любой другой персональный поисковик, Flexum предлагает набор инструментов для создания собственной индексной базы, что позволяет повысить качество тематического поиска за счет ручного отбора включаемых в нее ресурсов.

Главное и принципиальное отличие Flexum от Google Custom Search Engine заключается в принятом подходе к индексированию сайтов персонального поиска. Если Google использует сведения, уже находящиеся в главной базе поисковика, то Flexum индексирует указанные пользователем сайты «с нуля», причем владелец персонального поисковика получает полный контроль над этим процессом. Дело в том, что у пользователя Flexum есть контроль над роботом-«пауком». Указанные сайты просто скачиваются и индексируются, а не берутся из уже существующей индексной базы, как это происходит в случае Google CSE.

Такой подход имеет свои достоинства и недостатки. К достоинствам отнесем гибкость настройки индексации и отсутствие привязки к уже существующим базам какого-либо поисковика. Это очень удобно при работе с малозаметными для крупных поисковых машин ресурсами. В то же время создание своего поиска средствами Flexum занимает гораздо больше времени, поскольку обязательно требует составления полного списка индексируемых сайтов. Кроме того, системе требуется определенное время на проведение индексации, так что мгновенного результата здесь ждать не стоит.

Поделиться с друзьями: