Профессиональный поиск в Интернете
Шрифт:
Несмотря на свои недостатки – большой объем ручной работы и значительный временной промежуток в индексации внесенных в поиск проектов, – система Flexum способна стать мощной платформой для организации персонального тематического интернет-поиска. Предлагаемые Flexum «честное» скачивание и индексация дают автору полный и гибкий контроль над наполнением индексной базы. Такой вариант индексации особенно хорош для работы с «нераскрученными» проектами, которые зачастую недостаточно качественно индексируются крупными универсальными интернет-поисковиками.
Выводы и рекомендации
Главные достоинства средств персонального поиска – это уменьшение информационного шума в результатах поиска, а также возможность быстрого создания специализированных тематических поисковиков. Можно только порадоваться тому факту, что технологиями
Персональный поиск – это замечательный инструмент, однако не стоит переоценивать его возможности. Как и у любых средств интернет-поиска, у него есть свои недостатки. Если сравнивать персональные поисковики со специализированными вертикальными поисковыми машинами, нетрудно заметить, что последние обладают рядом преимуществ. Для них, как правило, разрабатывают специализированные алгоритмы индексации и сортировки ресурсов, а зачастую предлагают и специализированные удобные интерфейсы, недоступные владельцам персональных поисковиков, в которых используются универсальные алгоритмы и типовые интерфейсы, что, безусловно, ограничивает их возможности.
Оба рассмотренных нами сервиса позволяют построить хороший персональный поисковик. В умелых руках они способны стать мощным средством тематического интернет-поиска. Различие их возможностей напрямую зависит от выбранной разработчиками данных систем модели индексирования ресурсов. Однозначно определить, который из предложенных подходов лучше, довольно сложно, поскольку каждый из них имеет свои достоинства и недостатки. Важно хорошо их представлять и выбирать систему персонального поиска, исходя из собственных потребностей.
При использовании Google CSE в нашем распоряжении – крупнейшая на сегодня индексная база интернет-страниц, плюс возможность добавлять к ней для индексирования собственные ресурсы. Благодаря этому обстоятельству персональный поиск можно начинать немедленно, затрат времени на предварительную индексацию выбранных сайтов здесь нет. Недостатки собственно системы Google Custom Search Engine, как это обычно водится, во многом являются продолжением ее достоинств. Ценой такого «быстрого старта» стала жесткая привязка к базе Google. Ограничивая круг поиска одной базой, мы автоматически отсекаем от результатов ресурсы, в силу тех или иных причин в нее не попавшие. Персональный поисковик оказывается полностью зависимым от качества работы индексирующего робота Google. Если определенный сайт не включается в базу либо индексируется поверхностно, мы ничего с этим поделать не можем, и в такой ситуации персональный поиск от Google бессилен.
Создание поисковика средствами Flexum занимает гораздо больше времени, поскольку, во-первых, обязательно потребуется составить полный список индексируемых сайтов, а во-вторых, системе нужно некоторое время на проведение индексации. Предлагаемая Flexum «честная» индексация дает пользователю полный и гибкий контроль над этим процессом, что может быть очень кстати, если вы планируете использовать какой-либо специфический набор сайтов. Для работы с небольшими и «малозаметными» веб-проектами система Flexum предпочтительней, чем Google. Кроме того, Flexum предлагает специальную льготную программу для тематических порталов, решивших построить свою систему поиска на этой платформе.
Глава 7
Поиск изображений
Интернет-поиск уже давно не ограничивается только текстовыми документами. Пожалуй, следующий по популярности тип контента – изображения. Сейчас можно насчитать три основных направления в развитии технологий интернет-поиска изображений – это индексация по косвенным признакам, построение разнообразных каталогов и контентный поиск изображений.
Индексация по косвенным признакам остается наиболее популярным способом поиска изображений. Этот способ широко представлен в вертикальных базах изображений универсальных интернет-поисковиков, благо практически все крупные машины предлагают такие возможности поиска. В данном варианте интернет-поиск изображений концептуально не отличается от поиска веб-страниц и других текстовых документов. Поисковик при индексации работает не с самим изображением, а с его косвенными признаками: именами графических файлов и тегами, присвоенными в HTML-разметке. Кроме того, анализируются подписи и текст, расположенный рядом с изображением на веб-странице, изучается текст
гиперссылок, ведущих к той или иной картинке. Именно такие косвенные признаки изображения и заносятся в индексную базу, по которой затем ведется поиск при поступлении запросов от пользователей.Подобные поисковики принимают запрос от пользователя в виде привычной текстовой строки, содержащей ключевые слова. Как правило, к характеристикам собственно изображений относятся только поля расширенного поиска, определяющие формат файла, размер изображения и другие подобные признаки.
Преимущества такого подхода понятны: его относительно проще реализовать. Кроме того, задействуются огромные индексные базы, что обеспечивает хороший охват поиска. Недостатки также очевидны: поскольку поиск идет по косвенным признакам, причем исключительно в автоматическом режиме, неизбежны информационный шум и ошибки.
Избавиться от неточностей и шума, свойственных автоматическому индексированию по косвенным признакам, можно несколькими способами. Один из них – включить в работу системы человека. Подробное описание картинок по заданной заранее схеме обычно имеет место в тематических галереях изображений. Перед включением изображения в базу данных на него заполняется своеобразная анкета, в которой содержится заранее отобранный список важных для поиска признаков и характеристик изображения. Такой способ позволяет качественно обработать как формальные свойства изображения, так и отразить его тематику. Благодаря четкой структуре описания обеспечивается достаточно высокая точность поиска. Если вам повезет найти по интересующей вас теме подобную специализированную галерею, эффективность поиска изображений вырастет в разы по сравнению с обычным универсальным поиском.
Не стоит забывать и про специализированные фотобанки. Профиль таких ресурсов может быть самым разным: от коллекций «обоев» для рабочего стола до коммерческих баз высококачественных фото, которые можно применять в полиграфии. Как правило, там используются стандартные режимы поиска, кроме того, для работы с такими базами существуют специальные поисковики.
Один из главных недостатков такой «каталожной» технологии – серьезные трудозатраты на описание ресурсов. Эпоха Web 2.0 дала новый толчок развитию данной модели. На социальных проектах задача описания загружаемых на сервер изображений полностью возлагается на их авторов. Кроме того, схема самого описания радикально упрощается. Вместо заполнения развернутой, но сложной анкеты предлагается схема свободного присваивания картинкам простых тегов. На некоторых ресурсах добавлять теги к изображениям могут не только их владельцы, но и другие пользователи сервиса Примерами ресурсов, где практикуется такой подход (его еще называют «фолксономией») при индексации изображений, могут служить Flickr, Photobucket и огромное количество других социальных фотохостингов.
Социальное индексирование изображений – способ хороший, однако не лишенный недостатков. Если в случае автоматического индексирования мы зависим от алгоритмов универсального поисковика, то здесь мы вынуждены полагаться на мастерство и добросовестность авторов. А индексаторская квалификация у владельцев картинок разная. У кого-то получается лучше, у кого-то хуже. Не надо забывать, что для описания близких по содержанию картинок разные авторы могут использовать различные ключевые слова. Кроме того, совершенно не факт, что автор картинки посчитает достойными индексирования именно интересные вам признаки. Свою роль может сыграть и фактор времени. Хорошо если человек загружает за один сеанс несколько фотографий – можно спокойно подумать над хорошим подбором тегов. А если таких снимков сотня? Скорее всего, всякий нормальный человек сэкономит время, в результате чего вся подборка будет описана всего несколькими общими тегами, и только некоторые фото удостоятся подробного описания. Такое сокращение поисковых признаков неизбежно сказывается на качестве будущего поиска.
Третья «генеральная» технология поиска, так называемая технология CBIR (Content Based Image Retrieval – поиск изображений по содержанию), делает ставку на системы автоматического распознавания изображений, которые работают напрямую с картинкой и индексируют такие ее параметры, как цвет, очертания изображенных объектов, их взаимное расположение.
Далее мы рассмотрим возможности поиска изображений с помощью вертикальных баз крупнейших универсальных поисковиков, попробуем определиться с качеством их поиска, а затем познакомимся с лучшими представителями семейства современных CBIR-поисковиков.