Чтение онлайн

ЖАНРЫ

Теория и практика общественно-научной информации. Выпуск 22
Шрифт:

Интеграция информационных ресурсов Сибирского отделения РАН как шаг к формированию единого научно-образовательного информационного пространства 11

Б.С. Елепов, О.Л. Жижимов, А.М. Федотов, Ю.И. Шокин 12 Послушайте, ребята,Что вам расскажет дед.Земля наша богата,Порядка
в ней лишь нет.
А.К. Толстой

11

Работа выполняется при частичной финансовой поддержке Министерства образования и науки Российской Федерации (грант № «2012–07.514.11.4130», а также при поддержке РФФИ (проекты 12-07-00 472, 13-07-00 859).

12

Елепов Борис Степанович – доктор технических наук, профессор, директор Государственной публичной научно-технической библиотеки СО РАН (г. Новосибирск). E-mail: office@spsl.nsc.ru; Жижимов Олег Львович – доктор технических наук, заведующий Лабораторией информационных ресурсов Института вычислительных технологий СО РАН (г. Новосибирск). E-mail: zhizhim@mail.ru; Федотов Анатолий Михайлович – член-корреспондент РАН, профессор, заместитель директора Института вычислительных технологий СО РАН (г. Новосибирск). E-mail: fedotov@sbras.ru; Шокин Юрий Иванович – академик РАН, профессор, директор Института вычислительных технологий СО РАН (г. Новосибирск). E-mail: dir@ict.nsc.ru

Представлен опыт интеграции информационных ресурсов Сибирского отделения РАН для формирования единого научно-образовательного информационного пространства. Описывается платформа массовой интеграции данных ZooSPACE, разрабатываемая в Институте вычислительных технологий СО РАН.

Ключевые слова: информационное пространство науки и образования; информационные ресурсы; информационная система; распределенная информационная система; платформа массовой интеграции данных ZooSPACE.

Одним из основных результатов социальной и интеллектуальной человеческой деятельности является создание и накопление информационных ресурсов с целью их дальнейшего использования и недопущения утраты опыта предыдущих поколений. На протяжении всей истории человечества уровень развития технологий накопления информации и эффективности ее использования значительно влиял на уровень развития производительных сил. Утеря информации приводила к отбрасыванию цивилизации на века назад. Чтобы эффективно пользоваться накопленной ранее информацией, необходимы специальные инструменты и технологии.

Наверное, не будет большим преувеличением утверждение о том, что проблема поиска информации является для человеческого сообщества одной из главных. Великий аргентинский писатель Хорхе Луис Борхес в эссе «Четыре цикла» писал, что в мировой литературе вечны четыре темы.

1. Падение города.

2. Возвращение героя.

3. Поиск.

4. Самопожертвование бога.

Нетрудно заметить, что наиболее часто встречается как в литературе, так и в реальности третья тема – поиск, ибо четвертая тема выходит за рамки обычного человеческого опыта, а две первые проявляются лишь в «минуты мира роковые».

Любой производственный или научный процесс порождает огромные объемы данных, и работать с ними по мере увеличения объемов становится все сложнее. Количество данных когда-нибудь превысит способность человека их обрабатывать, поэтому необходимы новые инструментальные средства и алгоритмы для анализа. Вместе с тем предъявляются серьезные требования к обеспечению прозрачного доступа и долговременной сохранности информации. В результате вопросы «что хранить?», «как хранить?» и «как найти?» остаются самыми существенными: без ответа на них все остальные теряют актуальность (10).

Взаимодействие

человека с информацией, существующей в машиночитаемом виде (данными), осуществляется при помощи специализированных программных комплексов – информационных систем (ИС), предназначенных для:

• организации хранения информации (организация хранилищ, поддержка систем хранения данных);

• управления информацией (добавление, модернизация, изменение данных);

• управления доступом к информации (контроль исполнения правил регламентации доступа к данным), идентификация данных;

• поиска информации;

• извлечения информации и предоставления ее пользователю (приложению) в необходимом ему виде;

• визуализации (представления) информации в соответствии с требованиями пользователя (4; 7).

Исходя из тенденций развития систем коммуникаций и практики организации локальных хранилищ данных современная ИС должна удовлетворять некоторым общим требованиям, а именно:

• она должна быть распределенной – РИС 13 ;

• РИС должна обеспечивать контролируемый доступ к различным информационным ресурсам для пользователей и администраторов различных уровней;

13

РИС – распределенная информационная система.

• РИС должна обеспечивать сквозной поиск, в том числе полнотекстовый, по различным критериям;

• РИС должна предоставлять информацию в требуемом пользователем виде;

• внутренние технологии РИС должны быть скрыты от пользователей;

• внешние интерфейсы должны быть стандартизованы (6).

При попытках разработки РИС, удовлетворяющих перечисленным требованиям, возникают проблемы, связанные с различными аспектами их функционирования. Эти проблемы можно сгруппировать в следующие классы (2; 6):

• модели и стандарты представления информации и метаинформации.

К сожалению, следование рекомендациям международного сообщества о стандартизации схем данных не является характерной чертой подавляющего большинства разрабатываемых и функционирующих информационных систем 14 ;

• автоматическая классификация информации.

Разработчики ИС не используют модели классификации хранимой информации, затрудняя тем самым включение механизмов, в том числе внешних, для ее автоматической классификации;

14

Сами рекомендации тоже являются весьма противоречивыми. К примеру, можно сравнить концептуальные модели DELOS и FRBR.

• доступ к распределенным и разнородным коллекциям (интероперабельность, масштабируемость, обнаружение релевантной информации, интеграция метаинформации).

Интероперабельность создаваемых информационных систем не выдерживает даже минимальной критики (2);

• интерфейсы пользователей, визуализация и анализ данных.

К сожалению, подавляющее количество существующих ИС оперирует только с графическими веб-интерфейсами доступа к данным. При этом возможность доступа к данным вне графических интерфейсов, как правило, не реализуется. Это исключает возможность интеграции разрабатываемых ИС в крупные информационные системы (4);

• вопросы интеллектуальной собственности.

Это вечная проблема информационных ресурсов, тиражирование которых не связано с материальными затратами;

• анализ и обработка естественного языка, изображений, видео- и аудиоданных.

Обработка контента требует специальных подходов к каждому типу данных. В частности, необходима реализация поиска по фрагментам (фрагмент текста, фрагмент изображения и т.п.) с использованием шаблонов (шаблон текста, шаблон изображения и т.д.). Реализация специфических шаблонов для такого поиска представляет собой отдельную проблему;

Поделиться с друзьями: