Поиск в интернете
Шрифт:
Если посетители Интернета имеют доступ к единственному сайту, размещенному на данном компьютере, то можно считать (с некоторыми оговорками), что адрес сайта совпадает с доменным именем компьютера. Например, если на компьютере, имеющем имя bank и входящем в домен. spb, который, в свою очередь, является частью домена. ru, размещен единственный сайт, то адресом сайта можно считать доменное имя bank.spb.ru. Обычно компьютер, на котором размещен сайт, называют веб-сервером, поскольку он «обслуживает» запросы, поступающие от клиентов– посетителей Интернета (точнее, от браузеров посетителей).
Рис. 1.10. Типовая структура небольшого сайта.
ПРИМЕЧАНИЕ: Следует
В большинстве случаев начальная (главная) страница сайта размещается непосредственно в корневой папке сайта, и веб-сервер при поступлении адреса сайта от клиента пересылает браузеру в качестве ответа на запрос именно эту страницу. Обычно такой файл называется Index.html, Default.html или Home.html (см. рис. 1.10).
Чтобы обратиться к конкретному ресурсу (файлу), входящему в состав сайта, недостаточно доменного имени компьютера. Необходимо указать специальный адрес, который называется Uniform Resource Locator (универсальный адрес ресурса), сокращенно URL.
Поскольку физическим носителем (точнее, хранителем) ресурса является компьютер, то основу URL составляет доменное имя этого компьютера. Однако для обращения к конкретному файлу-ресурсу требуется указывать дополнительные сведения – маршрут доступа к необходимому файлу. Маршрут доступа отделяется от доменного имени наклонной чертой (слэшем). Например, обращение к файлу Cat.gif, находящемуся в папке Images, может выглядеть так: bank.spb.ru/Images/Cat.gif.
Наряду с адресом ресурса URL обычно содержит также наименование протокола, который должен использоваться при работе с запрашиваемым ресурсом.
Вот наиболее распространенные протоколы (методы) доступа к ресурсам Интернета:
• http – сокращение от Hypertext Transfer Protocol (протокол пересылки гипертекста); применяется для доступа к гипертекстовым документам;
• ftp – сокращение от File Transfer Protocol (протокол передачи файлов); применяется для обращения к файлам, хранящимся в FTP-архивах;
• news – применяется для доступа к новостям системы Usenet;
• file – применяется для доступа к локальным файлам.
Например, для обращения к упоминавшемуся выше графическому файлу Cat.gif, расположенному в FTP-архиве public, может использоваться такой URL: ftp://public.spb.ru/Images/Cat.gif.
Подробнее о поиске информации, отличающейся от гипертекстовых документов, будет рассказано в главах 2 и 3.
Итак, в общем случае URL выглядит следующим образом (рис. 1.11):
[тип протокола]:// [доменное имя компьютера]/[маршрут доступа].
Рис. 1.11. Структура URL.
ПРИМЕЧАНИЕ: Иногда (при наличии соответствующего сетевого оборудования) компьютер может быть не только подключен к Интернету, но и включен в состав одной или нескольких локальных сетей. В этом случае целесообразно указывать в URL наименование входного порта, используемого для подключения к Интернету. Например, URLport1/path/file.htm означает, что ресурс расположен на компьютере с доменным именем www.wired.com и что для доступа к нему необходимо использовать протокол HTTP через IP-порт с именем port1.
В заключение отметим, что далеко не всегда имена папок и файлов, используемые в URL, совпадают с именами физических папок и файлов, расположенных на веб-сервере. Одна из причин –
попытка владельцев сайта защитить информацию от злоумышленников. Другая причина состоит в том, что современные программные средства позволяют создавать запрашиваемые документы динамически. То есть до тех пор, пока документ не понадобится посетителю сайта, он вообще может не существовать. Характерный пример использования такой технологии – поиск и выдача информации из базы данных.Преобразование условного (виртуального) имени в реальное возлагается на веб-сервер и никаких дополнительных забот у «добропорядочных» посетителей не вызывает.
Подводные камни Интернета
Точно так же, как в реальном мире небезопасно нырять в незнакомом водоеме или ехать в экзотические страны без профилактических прививок, в Интернете небезопасно путешествовать по незнакомым веб-сайтам без предварительной «боевой» подготовки. Поэтому прежде чем перейти к описанию технологий поиска, поговорим о возможных неприятных сюрпризах, подстерегающих новичков на просторах Всемирной паутины.
Вирусы, черви и троянские кони
Как ни странно, в этой самой «паутине» путешественникам следует опасаться не пауков, а вирусов, червей и… коней.
Вряд ли кто-нибудь из читателей ничего не слышал о компьютерных вирусах, сетевых червях и «троянцах». Тем не менее полезно напомнить особенности указанных «жителей» Сети.
Способы вредоносного воздействия на компьютер со стороны «классических» вирусов могут быть самыми разнообразными. Однако всех представителей этого семейства объединяет одно: способность к саморазмножению, то есть умение создавать собственные копии. Размножение вирусов происходит непосредственно на зараженном компьютере, без привлечения специфических сетевых технологий. При работе в Интернете источником заражения может оказаться исполняемый файл (с расширением exe, com или bat), загруженный пользователем с какого-либо сайта (в том числе и файл самораспаковывающегося архива или дистрибутива), либо файл-вложение, прикрепленный к полученному по электронной почте письму.
А вот сетевые черви для своего распространения используют разнообразные сервисы Интернета (электронную почту, системы обмена мгновенными сообщениями) и особенности сетевых протоколов. Большинство известных червей распространяются в виде файлов, вложенных в электронное письмо, с помощью ссылок на зараженный файл в ICQ-сообщениях, файл в каталоге обмена P2P и т. д. Некоторые черви (так называемые бесфайловые, или пакетные, черви) распространяются в виде сетевых пакетов, проникают непосредственно в память компьютера и там активизируют свой код. Сетевые черви нечасто наносят вред собственно «приютившему» их компьютеру. Обычно они подготавливают его для совместной атаки (вместе с другими зараженными компьютерами) на какой-либо веб-сервер.
Троянские кони, или просто троянцы – это программы, осуществляющие различные несанкционированные пользователем действия: сбор информации и ее передачу злоумышленнику, ее разрушение или злонамеренную модификацию, нарушение работоспособности компьютера, использование ресурсов компьютера в неблаговидных целях. Причем свои функции троянец может выполнять либо вообще не выдавая свое присутствие на компьютере, либо прикрываясь какой-либо полезной программой, в состав которой он входит (благодаря чему, собственно, этот вид вредителей и получил свое название). Например, троянский модуль может входить в состав программы – менеджера загрузки: помогая вам скачивать из Интернета нужный файл, она одновременно может отсылать «хозяину» сведения об установленном на вашем компьютере программном обеспечении.