Профессиональный поиск в Интернете
Шрифт:
Вторая особенность рассмотренных ресурсов – ориентация на применение для индексирования контента тегов, свободно присваиваемых пользователями. Данный способ описания ресурсов очень прост в освоении и становится базой для работы дополнительных инструментов и услуг. Важное преимущество тегов – гибкость. Ресурсу может быть присвоено ровно столько тематических «ярлычков», сколько сочтет необходимым пользователь. Однако у данного способа тоже есть свои нюансы. Поскольку при таком подходе теги расставляют самые обычные люди без какой-либо специальной подготовки, качество индексирования может быть, мягко говоря, разным. Не стоит также забывать о существовании синонимов – разные пользователи могут поставить разные теги для одного понятия. Свою лепту вносит и риск банальных орфографических ошибок. Эти нюансы потом существенно осложняют поиск нужных ссылок. Разработчики ресурсов по мере возможности стараются сгладить эти негативные особенности технологии, построенной на тегах.
Для того чтобы помочь системе при расстановке ключевых слов-тегов, достаточно придерживаться некоторых простых правил индексирования, принадлежащих еще к «доинтернетовской» эпохе. По мере возможностей, старайтесь присваивать ссылкам по одной теме одинаковые теги. Для максимально полного описания ставьте теги не только по теме конкретной страницы, но и указывающие на «вышестоящие» понятия (для «браузеров» это, например, «компьютерные программы» и «интернет»), используйте синонимы и ассоциации («сеть», «веб-серфинг», «стандарты» и т. д.). Эти нехитрые правила позволяют значительно повысить качество индексирования.
Глава 6
Персональные поисковики
Среди всего многообразия систем интернет-поиска особое место занимают так называемые персональные поисковики. Система персонального, или пользовательского, интернет-поиска (Custom Search Engine) – это сервис, позволяющий создать и настроить специализированный поисковик, учитывающий в результатах персональные предпочтения и тематические интересы пользователя, другими словами – его собственный контекст поиска. Такие технологии очень широко применяются для создания систем поиска отдельных сайтов, полезны они и «частникам», поскольку позволяют построить поисковик по интересующим конкретного человека тематическим ресурсам.
Главная идея персонального поиска заключается в том, что пользователю предлагают самостоятельно определить перечень веб-ресурсов, к которым будет обращаться новый поисковик. В результате ценой определенной потери в широте охвата персональный поиск заметно улучшает точность поиска.
В простейшем случае персональный поиск сводится к поиску в группе указанных пользователем сайтов, более сложные варианты подразумевают тонкую настройку выдачи, автоматическое добавление тематических сайтов в персональный индекс и организацию совместной работы над поисковиком группы единомышленников.
В сфере персонального интернет-поиска на сегодняшний день не так много достойных, конкурентоспособных предложений. В настоящее время для использования можно рекомендовать проекты Google Custom Search Engine и Flexum. Другие общедоступные платформы персонального поиска серьезно уступают лидерам и не отличаются качественной работой с ресурсами на русском языке.
Google Custom Search Engine
Проект Google Custom Search Engine (сокращенно – Google CSE) является наиболее крупной на сегодняшний день системой персонального интернет-поиска. Интерфейс Google CSE доступен на нескольких десятках языках. Предусмотрен и русский язык. Правда, перевод пока неполный, особенно страдает в этом плане справочная система.
Создание собственного поисковика Google CSE происходит в несколько этапов. Удобнее всего будет отследить этот процесс на практическом примере создания тематического поисковика.
В первую очередь потребуется определиться с назначением будущего поисковика. Это может быть любая сфера, связанная с вашей профессиональной деятельностью или хобби. Наш тестовый поисковик будет посвящен авиации. Это широкая тема, по которой в Сети можно найти большое количество разнообразного контента, что позволит нам продемонстрировать в работе максимум инструментов Google CSE.
Следующий шаг – непосредственная регистрация в системе Google Custom Search Engine и создание нового поисковика. Стартовая страница системы сразу же предлагает ссылку для этого. В специальной форме указывается имя новой системы, краткое описание поисковика и набор сопоставленных ему ключевых слов. Этот набор будет использоваться для уточнения результатов сортировки: сайты с такими ключевыми словами расположатся выше в списке выдачи Далее необходимо выбрать один из трех режимов работы будущей машины: простой поиск во всей базе Google, поиск только на сайтах, непосредственно включенных в персональный индекс, и поиск в базе Google с выводом включенных в индекс сайтов на первые позиции в списке выдачи.
Выбор между этими вариантами лучше всего делать с учетом степени вашей подготовленности. Если вы интересуетесь определенной темой достаточно долго, у вас, скорее всего, уже имеется хорошая коллекция ссылок на действительно полезные и информативные сайты по теме. Список таких
ссылок можно использовать как основу для персонального поисковика. В этом случае лучше сразу ограничить сферу поиска только указанными сайтами, поскольку этот вариант избавит поисковик от большей части информационного шума. Если же у вас такой подборки ссылок пока нет и поисковик создается «с нуля», имеет смысл выбрать вариант поиска в базе Google с предпочтением указанных вами сайтов. Такой вариант позволит сразу же получить работоспособную систему, точность функционирования которой будет постепенно повышаться по мере пополнения персонального списка сайтов.Поскольку в персональном поиске используется готовая индексная база Google, проверить работу своего поисковика можно сразу же после его регистрации. Для этого достаточно ввести тестовый запрос и просмотреть результаты, полученные именно с указанных вами сайтов.
Изменить большинство из указанных при регистрации параметров нового поисковика впоследствии можно с помощью раздела Основные сведения, который расположен на боковой панели управления Google CSE.
Следующий этап работы над персональным поисковиком – заполнение его индексной базы – занимает гораздо больше времени. Поддерживая свой поисковик, пользователь в основном занимается именно этой работой. В настоящее время существует ограничение на общее количество сайтов, задействованных при персональном поиске одного пользователя – не более 5000 ссылок. Добавить адреса новых сайтов в индекс поисковика можно с помощью веб-интерфейса сервиса, дополнения для браузера, а также посредством импорта предварительно отформатированного пользователем файла в формате XML.
Первый способ предполагает использование веб-интерфейса самого поисковика Google CSE. В боковой панели системы находится ссылка. Сайты, которая и открывает соответствующую форму. Работа идет сразу с двумя списками: первый из них позволяет включать сайты в индекс поисковика. Назначение второго – прямо противоположное: исключение результатов с указанных вами сайтов из результатов поиска.
В ходе добавления новых ресурсов к персональной системе в адресах сайтов можно использовать маски, позволяющие точно указать, что именно мы хотим включить в свой индекс. Это дает возможность задействовать в своей системе широкий диапазон ресурсов: от целых доменов до конкретных веб-страниц. Данная возможность серьезно повышает гибкость настройки системы поиска, поскольку позволяет «оптом» добавлять в индекс сразу группы сайтов, или наоборот – ограничивать индекс определенного сайта каким-либо одним его разделом. Это полезно, если вы нашли сайт широкого профиля. Если просто включить его в базу, то кроме полезных для вашего тематического поиска результатов в списке выдачи окажется много лишних ссылок из других разделов сайта. Если взять, например, авиационную тему, то эту ситуацию можно проиллюстрировать на примере фотогалерей. Допустим, мы хотим включить в свою систему результаты поиска в базе фотохостинга Flickr. Простое добавление в индекс адреса fLickr.com ни к чему хорошему не приведет: мы получим огромное количество результатов, большинство из которых будет иметь к тематике нашего поисковика лишь отдаленное отношение. Гораздо дальновидней включить в индекс только конкретные подборки или архивы пользователей, которые фотографируют именно авиацию. Например, следующая маска даст возможность включить в индекс нашего поисковика только фотографии группы, посвященной британскому истребителю Lightning:
www.flickr.com/groups/english_electric_lightning/*
Другие примеры шаблонов представлены в табл. 6.1.
Пополнять базы с помощью веб-интерфейса Google CSE имеет смысл, пожалуй, только на начальном этапе создания поисковика. Далее удобней пользоваться инструментом. Указатель GoogLe (рис. 6.1). Он представляет собой дополнение к браузеру, с помощью которого можно быстро включать открытые в браузере сайты и отдельные веб-страницы в базу персонального поиска во время серфинга, не открывая сайта Google CSE. Установить его можно на страничке www.google.com/coop/cse/marker. Работа с ним очень похожа на добавление записей в онлайновый сервис закладок. На панель браузера добавляется новая кнопка, которая открывает всплывающее окно с формой описания сайта. В ней указываются персональный поисковик, в индекс которого мы хотим добавить сайт, и список тематических ярлыков, которые мы можем присвоить сохраняемому ресурсу. Настройкой таких ярлыков мы займемся немного позже. Кроме того, в данной форме есть возможность выбора между добавлением сайта целиком и добавлением только одной конкретной страницы сайта. Другими словами, нам предлагают автоматически сгенерировать маску, которая обеспечит включение в индекс только открытой в данный момент веб-страницы. К сожалению, возможности более гибкой работы с масками в этом диалоге нет. Поэтому, если вам понадобится указать не одну веб-страницу, а раздел сайта, придется обратиться к стандартному веб-интерфейсу Google CSE.