Профессиональный поиск в Интернете
Шрифт:
Сам факт наличия множества индексных баз данных сетевых документов, причем собранных с использованием разных методов и алгоритмов, порождает экологическую нишу для целого класса метапоисковых систем. Такие системы не занимаются самостоятельным сбором информации, а отсылают запрос пользователя на несколько других поисковых серверов, объединяют результаты поиска, производят их дополнительную обработку и выдают обобщенный ответ. Это увеличивает широту охвата поиска за счет обработки данных различных индексных баз. Кроме того, метапоиск экономит время пользователя, которое иначе пришлось бы потратить на личное обращение ко всем нужным серверам. Такова схема работы полноценной метапоисковой системы. В то же время существует ряд сервисов, пренебрегающих собственным анализом полученных результатов. В предельном случае
У всех ведущих современных интернет-поисковиков есть одна общая черта – они выдают результаты единым списком, отсортированным по релевантности ссылок. При всех своих достоинствах данная схема порождает для пользователей проблемы при большом количестве ссылок в списке выдачи Не секрет, что мало кто просматривает на поисковике больше одного-двух экранов результатов, на которых может так и не найтись требуемой информации. В то же время нужные данные в итоге могут оказаться на сайте, занимающем какую-нибудь 108-ю позицию в общем списке. Получается парадоксальная ситуация: информация в Сети есть, она найдена, однако останется навсегда скрытой для пользователя, если он не сможет грамотно уточнить запрос или составить сложное поисковое выражение.
Одним из ответов на данный вызов стала технология кластеризации результатов интернет-поиска. Ее преимущества по сравнению с аналогами – возможность сравнительно простой автоматизации процесса. Кластерные технологии не требуют какой-либо специфической разметки веб-страниц, как это принято в комплексе технологий «семантического веба». Они также не нуждаются в сравнительно трудоемкой предварительной подготовке массива веб-страниц, используемой в веб-каталогах. Цена этого преимущества – некоторый процент информационного шума, неизбежного при автоматической обработке результатов поиска в Сети.
Получив запрос, кластерный поисковик, как и обычная поисковая система, сначала находит в своей базе соответствующие запросу веб-страницы. Различия начинаются на этапе сортировки результатов. Система проводит анализ найденных страниц и находит на них дополнительные ключевые слова, встречающиеся вместе с терминами из поступившего от пользователя запроса. Получившиеся в результате такого анализа подмножества страниц называются кластерами и с большой вероятностью относятся к разным аспектам темы запроса. Далее в недрах поисковика происходит следующее важное событие – определение релевантности ссылок и их позиции в результатах. Кластерная машина проделывает эту операцию отдельно для каждого кластера. При этом ссылки со страниц одного кластера, то есть сайтов аналогичной или схожей тематики, ценятся выше, чем ссылки с посторонних, пусть даже очень популярных ресурсов. В результате позиция сайта в списке выдачи по кластеру является своеобразным отражением ее оценки коллегами по тематическому цеху, что работает на качество поиска. Кроме того, ранжирование ссылок по отдельным кластерам позволяет вывести на первые позиции в кластерах полезные, но не «раскрученные» ресурсы, которым в обычных поисковиках с выдачей результатов единым списком и бесконечными войнами оптимизаторов мало что светит.
Nigma
Российские разработчики поисковых систем не остаются в стороне от современных тенденций – разработка кластерной машины Nigma ведется исследовательской группой из МГУ им. М. В. Ломоносова в сотрудничестве со Стэнфордским университетом. Предварительная версия сервиса была запущена в начале 2005 года. Nigma опрашивает все крупные базы, содержащие документы на русском языке, в числе которых Google, Yahoo! AltaVista, MSN, Яндекс и Рамблер, что обеспечивает широкий охват источников. Кроме того, постепенно генерируется собственная индексная база Nigma.
Система Nigma позволяет увидеть сильные стороны метапоисков. Помогает в этом практическом эксперименте правильная настройка механизма поиска Nigma. Прямо под строкой ввода запроса
находится несколько выпадающих меню, среди которых есть меню. Поисковики. Именно оно дает пользователям возможность управлять подбором поисковиков, на которые отправляются запросы. Если выбрать только какой-нибудь один поисковик, то, по сути, с ним можно поработать в интерфейсе, построенном на кластерах. Попробуйте убрать из этого списка свой любимый универсальный поисковик – в результате полученный по запросу список выдачи наглядно продемонстрирует, сколько веб-страниц вы теряете, работая только с одной индексной базой.Приятно отметить тот факт, что разработчики Nigma не пошли по соблазнительному для многих пути создания «кальки» уже существующего ресурса, а сделали ставку на инновации. Сильной стороной Nigma является тщательный учет специфики русскоязычных запросов.
Это проявляется в собственном алгоритме кластеризации результатов, а также в поиске по различным морфологическим формам, синонимам слов из запроса пользователя и обобщенным понятиям. Интересная особенность системы заключается в том, что поисковикам отправляются запросы не только по точно заданному пользователем слову, но и по его автоматически сгенерированным словоформам. Это существенно увеличивает количество найденных страниц. Такой режим поиска запускается, если по исходной словоформе обнаруживается слишком мало документов. Работа этого механизма видна в служебной информации о найденной ссылке на странице выдачи Если документ был найден без морфологического преобразования запроса, то рядом с ним будут просто указаны использованный поисковик и рейтинг страницы. Если же была найдена сгенерированная словоформа, то после названия поисковика появится буква «М».
Особого упоминания заслуживает мощная система исправления орфографических ошибок и опечаток в запросах Nigma умеет исправлять прямо-таки клинические случаи: до четырех ошибок в слове, набранном в неправильной раскладке, причем предлагаемые варианты сортируются на основе близости к звучанию исправляемого слова. Кроме того, в систему встроен собственный словарь компьютерных терминов – полагаем, не надо рассказывать, сколько может быть вариантов написания у многих заимствованных слов из данной предметной области и какие проблемы из-за этого возникают при поиске в Сети на русском языке.
В Nigma работает система автоматического дополнения вводимого запроса. Помимо предложений по написанию запроса, здесь появляются дополнительные результаты: перевод вводимых слов на английский язык, короткие ответы на прямые вопросы к системе, а также справка из Википедии по теме запроса. Кроме того, по выпадающему меню автозаполнения можно перемещаться с помощью клавиатуры, что улучшает эргономику. В результате данное меню превратилось в самостоятельный и довольно мощный инструмент поиска.
При работе с англоязычными запросами можно воспользоваться инструментом. Англоподсказка, который подсказывает правильные грамматические конструкции для запросов на английском языке, подставляет в запрос синонимы, имеющие аналогичный русский перевод. Однако пока это экспериментальная функция и ее возможности ограничены.
Поисковик Nigma обладает мощной системой поиска ответов на конкретные вопросы, а также может решать математические примеры и работать с химическими реакциями – уникальное пока предложение среди универсальных поисковиков. Для некоторых типов задач (линейные, биквадратные, бикубические уравнения и другие) выводятся не только ответ, но и ход решения задачи. Кроме того, быстрые ответы на такие вопросы демонстрируются в меню автозаполнения.
Подводя итог, можно сказать, что за счет охвата всех крупных русскоязычных индексных баз Nigma – отличное решение для широкого поиска. А применение кластеризации позволяет быстро уточнять свой запрос даже при первоначальном поиске в условиях малознакомых тем, благо дополнительные ключевые слова предлагаются автоматически. В результате данную систему вполне можно рекомендовать для повседневного универсального применения (рис. 3.1).
Рис. 3.1. Российский кластерный метапоисковик Nigma