Профессиональный поиск в Интернете
Шрифт:
Кроме работы с веб-документами, система Metabot способна искать специфичные ресурсы: видеоклипы, музыкальные файлы и FTP-архивы.
Ixquick
Согласно некоторым статистическим подсчетам, обычный житель. Лондона за день попадает в объективы примерно трех сотен телекамер наблюдения. В. Нью-Йорке свободы побольше: там среднего жителя за день фиксирует всего двести камер. К этому очередному цивилизационному стандарту постепенно стремятся и другие страны. Сбежать от тотального наблюдения в виртуальное пространство становится все труднее, пресловутая сетевая анонимность, позволю себе скаламбурить, становится все более виртуальной.
Возможности отслеживания сетевой активности сейчас самые богатые. Даже если говорить только об интернет-поиске, можно отметить, что некоторые крупные
Система метапоиска Ixquick работает с десятью внешними базами. Это поисковики Bing, Yahoo! Ask, All the Web, Cuil, Entire Web, Gigablast, каталоги Qkport и Open Directory, а также Wikipedia. В списке баз отсутствует Google, однако охват альтернативных систем стоит признать достаточно широким, что делает данный метапоисковик весьма ценным ресурсом. Поддерживается поиск на восемнадцати языках, в том числе русском.
Ixquick предлагает три режима поиска: Ixquick Search, Power Search и Expert Search. В отличие от большинства других поисковиков, быстро сменить режим в ходе поиска не удастся. Для этого придется обратиться к странице настройки системы. Первый из названных режимов, по сути, является режимом простого поиска. С его помощью можно составить запрос, содержащий только какое-либо одно условие. Дополнительных фильтров и инструментов уточнения запроса здесь нет Power Search и Expert Search – это, фактически, два варианта расширенного поиска, отличающиеся количеством доступных возможностей поиска Power Search предлагает стандартные средства работы с логическими операторами: поиск с обязательным включением или исключением указанных ключевых слов, поиск любых слов, поиск точной фразы Expert Search, кроме этого, поддерживает поиск в заголовках страниц и тексте URL-адресов, ограничение поиска определенным доменом, а также позволяет находить сайты, ссылающиеся на указанную пользователем веб-страницу.
Рядом со строкой ввода запроса находится перечень задействованных в ответе на запрос поисковиков и каталогов. При необходимости можно исключить из списка выдачи результаты определенных машин щелчками на их значках.
Полученные от внешних источников результаты обрабатываются, и пользователю предлагается объединенный список уникальных результатов, найденных на различных поисковиках. Для определения релевантности результатов и, соответственно, их позиции в списке выдачи используются собственные алгоритмы Ixquick. Кроме того, на странице результатов поиска рядом со ссылками, которые были высоко оценены целевыми поисковиками, выводится их рейтинг в виде линейки «звездочек». Каждая звездочка означает, что какой-либо из поисковиков поместил эту ссылку на первые позиции в своем списке выдачи При наведении на них указателя мыши появляется всплывающая подсказка со сведениями о нашедших данную ссылку поисковиках и ее позиции в их списках выдачи В остальном страница результатов весьма проста: из дополнительных инструментов уточнения запроса присутствует только строка поиска в найденном, расположенная в нижней части страницы выдачи (рис. 3.3).
Рис. 3.3. Страница выдачи метапоисковика Ixquick
Ixquick может похвастаться некоторыми полезными функциями, демонстрирующими внимательное отношение разработчиков к вопросу приватности пользователей Ixquick предлагает сразу несколько инструментов повышения скрытности поиска и серфинга. Начнем с его способности выступать в качестве прокси-сервера. Рядом с каждой найденной ссылкой в списке результатов поиска находится ссылка Proxy. Щелчок на ней открывает целевой сайт в защищенном режиме, в котором Ixquick выступает в качестве посредника, скачивая запрошенную веб-страницу и выводя ее в собственном интерфейсе для просмотра. При этом внешний сайт не может узнать IP-адрес пользователя, сохранить его куки-файл или как-то иначе нарушить приватность просмотра. При переходе по ссылкам на найденной веб-странице все новые адреса также открываются с помощью прокси-сервера Ixquick. У защищенного режима Ixquick, конечно же, есть некоторые ограничения. В частности, отключаются присутствующие на веб-страницах скрипты, теряют работоспособность многие формы ввода данных. В то же время для обычного серфинга
возможностей Ixquick вполне достаточно.Что же касается самой системы Ixquick, то она не записывает никаких данных пользователя и не хранит историю поиска. Более того, даже при сохранении вариантов настройки механизма поиска у пользователя есть выбор: записать их в куки-файл браузера или же сгенерировать персональный URL-адрес для доступа к странице поиска Ixquick, к который и будут относится сделанные настройки.
Кроме веб-поиска, данная система предлагает поиск изображений, видео и номеров телефонов. Поиск изображений решен достаточно просто и не предлагает ни режима расширенного поиска, ни дополнительных фильтров, кроме «семейного». Видеопоиск в Ixquick опирается на базы системы Blinkx. На странице выдачи предлагаются небольшие Flash-превью найденных роликов. Уточнить запрос можно с помощью тематических фильтров, которые выводятся рядом со строкой запроса вместо предлагаемого при веб-поиске перечня задействованных поисковиков. Поиск номеров телефонов ведется с помощью специальной формы запроса, которая позволяет искать как частные номера, так и номера организаций. Поиск может вестись в нескольких десятках стран. Поддерживается и реверсивный поиск абонента по его номеру. Результаты такого поиска нельзя назвать исчерпывающими, и зачастую Ixquick уступает специальным справочным сервисам.
Из программных дополнений Ixquick оснащен поисковым плагином для браузеров, а также полнофункциональной панелью инструментов для Internet Explorer и Firefox.
Выводы и рекомендации
Ценность метапоиска состоит в широком охвате ресурсов. Именно они позволяют наглядно убедиться, что обращаясь к одному, пусть даже самому лучшему «обычному» поисковику, вы рискуете пройти мимо ресурсов в альтернативных базах данных. Особый интерес представляют метапоисковики, поддерживающие кластерные технологии обработки результатов.
Как нетрудно заметить, прелесть кластерных технологий в полной мере ощущается при поиске по широким запросам. Благодаря возможности уточнять свой запрос по подсказке системы вы найдете искомый результат гораздо быстрее, чем при работе с традиционными поисковиками. На выходе получается не просто список ссылок, а набор тематических разделов, позволяющий быстро составить мнение о предмете поиска. Появляется шанс познакомиться с ресурсами, которые в другом случае вы бы, скорее всего, никогда не увидели. Есть у кластеризации и несколько побочных эффектов. Например, это возможность отследить ассоциативные связи между различными темами, а также в определенной степени обработать синонимы естественного языка – кластерный поисковик не спутает естествоиспытателя. Дарвина с одноименным австралийским портом.
Безусловным лидером в сфере метапоиска русских ресурсов является система Nigma. Хороший охват, достаточно качественная кластеризация, большое количество вспомогательных функций – вот сильные стороны этого метапоисковика.
При поиске зарубежных ресурсов такого однозначного лидера среди современных метапоисковиков нет. Весьма удобна в работе система Yippy. Она оснащена качественными алгоритмами кластеризации и хорошим набором инструментов уточнения запроса. Метапоисковик Ixquick позволят вести поиск в хорошей подборке альтернативных поисковых баз, а также предлагает любопытные инструменты повышения приватности серфинга. Таким образом, выбирать метапоисковик в данном случае следует исходя из особенностей конкретного запроса.
Глава 4
Семантические и визуальные интернет-поисковики
Фрэнсис. Бэкон в свое время заметил, что правильная постановка вопроса свидетельствует о некотором знакомстве с делом. Этот афоризм четырехвековой давности можно применить и к процессу составления поисковых запросов. Для перевода сложного, комплексного вопроса в подходящий набор ключевых слов иногда приходится здорово поломать голову. Вот если бы поисковик мог прямо отвечать на задаваемые вопросы!. Хорошая новость: такие поисковые машины уже существуют и называются «семантическими», или же «поисковиками с обработкой запросов на естественном языке». В этой главе мы познакомимся с лучшими представителями этого класса интернет-поисковиков, реализующими семантические технологии разбора запросов на русском языке.
Прежде чем начинать рассказ о конкретных машинах, разберемся в некоторых характеристиках, отличающих семантические поисковики, и самых общих принципах их работы с точки зрения пользователя. Это позволит в дальнейшем избежать ненужных повторов.
Техническая реализация поиска по прямым вопросам с последующей выдачей на них осмысленных ответов в общем случае такова: поисковая машина принимает заданную пользователем поисковую фразу, после чего пытается автоматически выделить в ее составе ключевые слова и определить их взаимоотношения. Одновременно отбрасывается информационный шум, то есть слова, не несущие смысловой нагрузки. Другими словами, на данном этапе происходит автоматическая формализация поискового запроса и генерирование на его основе четкого поискового образа. Затем он передается более или менее стандартному алгоритму поиска в базе проиндексированных документов.