Чтение онлайн

ЖАНРЫ

Профессиональный поиск в Интернете

Кутовенко Алексей

Шрифт:

К сожалению, данному проекту присущ ряд недостатков, обусловленных его демонстрационным характером. Сайт поисковика частенько перегружен, что приводит к ошибкам при обработке запросов. Скорость его работы также оставляет желать лучшего.

Sindice/Sig.ma

Довольно интересной и полезной для широкого круга пользователей попыткой объединить технологии поиска в семантическом вебе со средствами создания мэшапов предпринята системами Sindice и Sig.ma. Эти проекты предлагают весьма удобные комбинированные средства поиска и просмотра семантических данных. Разработчиком обеих систем является уже известный нам ирландский институт DERI. Поисковик Sindice обладает действительно дружественным интерфейсом и предлагает ряд полезных инструментов для непосредственного просмотра результатов поиска человеком. Достигается это во многом за счет совместной работы поисковика с еще одним проектом

тех же разработчиков – мэшап-системой Sig.ma.

Как утверждают разработчики, собственная индексная база проекта является крупнейшим индексом документов в семантических форматах в современном интернете. Поскольку конкретных цифр не приводится, оставим это утверждение на совести авторов. Как бы то ни было, заметим, что результаты поиска здесь действительно достойные. Поисковик умеет взаимодействовать с программами-агентами. Выдача данных осуществляется в форматах JSON и RDF.

Sindice предлагает три режима работы. Собственно поиск является только одним из них. Кроме него доступны инструменты ручного добавления собственных семантических ресурсов в базу проекта, а также инструмент поиска семантических данных на указанной пользователем веб-странице.

Предлагается только режим простого поиска. Страница выдачи представляет собой простой список найденных ресурсов. Из дополнительной информации приводятся сведения о формате найденного документа и его размере. Однако это нельзя назвать серьезным недостатком, поскольку результаты Sindice рекомендуется просматривать с помощью сервиса Sig.ma. Для этого предусмотрена кнопка Go to Full Search Version.

Аббревиатура Sig.ma расшифровывается как «Semantic Integrated Mashup». Разработчики также называют этот сервис «браузером для семантического веба». Интерфейс ресурса состоит из двух панелей (рис. 10.3). На левой панели выводится обзорная сводка о предмете поиска, автоматически скомпонованная из различных источников. Сводка состоит из разделов, связанных с наиболее важными для заданного объекта тегами семантической разметки. Система пытается автоматически выделить основные аспекты темы. Для них выводится перечень семантических тегов, за которыми идет подборка соответствующих текстовых фрагментов, изображений или видео. Это еще одна особенность Sig.ma – остальные семантические поисковики пока неохотно работают с мультимедиа. Справедливости ради заметим, что просмотр мультимедиа здесь не самый удобный. Так, изображения выводятся только перед основными текстовыми блоками и в полном размере, а не миниатюрами. Если по теме поиска таких картинок найдено много, просмотр страницы оказывается довольно неудобным. Видео пока также не выделяется в отдельный блок и демонстрируется простыми гиперссылками на соответствующие ресурсы.

Рис. 10.3. Система Sig.ma объединяет технологии поиска и мэшапов

На правой панели выводится список всех задействованных в поиске ресурсов. При наведении указателя мыши на отдельные фрагменты сводки на панели ресурсов подсвечиваются ссылки на источники, из которых были взяты данные сведения. Список ссылок можно сортировать по различным признакам. Кроме того, действует система фильтров, с помощью которой можно удалять из списка ссылок ненужные документы. После этой операции и списки ресурсов, и сводка автоматически перестраиваются. Результаты поиска Sig.ma можно не только просмотреть на сайте проекта, но и экспортировать на собственную веб-страницу в виде виджета.

Выводы и рекомендации

Семантический веб действительно имеет право называться «поколением Web 3.0», поскольку предлагаемые изменения носят принципиальный характер. В первую очередь это относится к ориентации ресурсов на поисковые агенты – программы, которые исполняют роль посредников между опубликованными в интернете разрозненными данными и пользователями. Однако период массового внедрения семантических технологий, скорее всего, будет еще достаточно продолжительным по времени. В таких условиях заслуживают внимания ресурсы, предлагающие удобные с точки зрения людей интерфейсы для работы с данными в семантических форматах. Большинство общедоступных поисковиков, способных стать «окнами» в Web 3.0, – это экспериментальные проекты. Многие проекты поддерживают подключение программ-агентов пользователей, и именно такой режим работы с ними является предпочтительным. Если же ориентироваться на самостоятельную работу пользователя, то практически вне конкуренции в настоящее время оказывается связка проектов Sindice/Sig.ma. Благодаря одним из самых удобных на сегодня интерфейсов

просмотра семантических данных эти проекты можно рекомендовать широкому кругу пользователей, заинтересованных в работе с данными в форматах Web 3.0. Другие «герои» этой главы хоть и не могут похвастаться сопоставимыми интерфейсами, за счет охвата широкого спектра источников данных способны стать ценными средствами поиска.

Глава 11

Программы-помощники

Интернет-поиск – это одно из средств получения информации, необходимой для выполнения той или иной деятельности. Именно это является его главной целью. Поэтому в данный процесс входит не только обращение к поисковым интернет-машинам. Найдя с помощью таких поисковиков нужные ресурсы, приходится заниматься их анализом, сохранением и управлением созданным архивом. Эти задачи глобальны, и при активной работе с интернетом решать их приходится практически ежедневно. Поэтому вполне логичным стало появление специализированных приложений, облегчающих эту работу. Даная глава посвящена именно таким программам.

Среди всего многообразия программ-помощников в деле поиска и последующей обработки найденной информации можно выделить две основные группы: инструменты, помогающие непосредственно в поиске информации в Сети, и группа приложений, предназначенных для сохранения и обработки найденных данных.

Идея задействовать «настольное» приложение в качестве посредника между пользователем и интернет-поисковиками далеко не нова. Преимущества такого решения по сравнению со стандартным веб-поиском сводятся к двум аспектам. Первый – это возможность одновременного обращения к большому количеству интернет-поисковиков из единой формы запроса локальной программы. Второй – наличие дополнительных инструментов обработки и анализа найденных ссылок, а также сохранения результатов поиска в удобном формате.

При серьезном целенаправленном сборе информации в Сети часто возникает необходимость сохранения полезных ссылок или веб-страниц для дальнейшей работы. Результатом, кроме собственно полезного эффекта, становится стремительно растущий размер архивов на жестком диске. И если емкости современных дисков позволяют несколько свысока смотреть на проблему нехватки пространства, сортировка такого беспорядочного архива и поиск в нем стандартными средствами становятся настоящей головной болью.

Решать данную проблему можно различными способами. Все современные браузеры предлагают встроенные средства для работы с закладками, однако их функциональности хватает только для обслуживания относительно небольших архивов. Задачу поиска среди сохраненных веб-страниц можно возложить на всевозможные «настольные» индексаторы в духе Google Desktop Search и тому подобных. Со своей основной задачей – поиском – они справятся хорошо, однако упорядочить крупный архив с их помощью не получится, равно как, например, составить на основе использованных страниц библиографию к своей письменной работе или выполнить иное полезное, но не относящееся к собственно поиску действие. Наиболее эффективным средством обработки найденных данных являются специализированные менеджеры закладок и сохраненных веб-страниц.

Программы для метапоиска в интернете

Несмотря на кажущееся разнообразие выбора, пик популярности подобных приложений, похоже, позади. Большинство представленных в Сети локальных программ для интернет-поиска было создано в начале двухтысячных годов, многие не обновлялись с 2003–2005 года. Учитывая постоянные изменения поискового «ландшафта», польза от применения таких «старичков» представляется весьма сомнительной. Далее мы уделим внимание только последним решениям, которых не так много.

Современные программы для поиска в интернете значительно различаются по функциональности. Среди них есть как относительно простые приложения, оснащенные разумным минимумом функций, так и достаточно сложные решения, которые, по большому счету, являются локальными аналогами вертикальных тематических интернет-поисковиков. Такие приложения предлагают метапоиск среди большого количества специализированных поисковиков и интернет-ресурсов. Их ценность состоит именно в наличии больших каталогов ресурсов и возможности точного тематического поиска по узким запросам.

FirstStop WebSearch

Программа FirstStop WebSearch размещает свое поле для быстрого поиска прямо на рабочем столе Windows. Бесплатная версия программы предлагает только два тематических раздела поиска: в Сети в целом и в сервисах социальных закладок. Количество встроенных поисковиков невелико. Это компенсируется тем, что FirstStop WebSearch позволяет добавлять в базу собственные поисковики, причем определять переменные и форматировать строку запроса предлагается вручную – на сайте программы есть даже небольшая шпаргалка о том, как это делать. Предусмотрено автоматическое обновление базы поисковиков в соответствии с заданными пользователем параметрами. Кроме того, списки поисковиков можно импортировать и экспортировать вручную.

Поделиться с друзьями: