Семейство протоколов TCP/IP

Поскольку семейство протоколов TCP/IP является основой построения Интернета, рассмотрим эти протоколы более подробно.

В пределах каждой физической компьютерной сети подсоединенные к ней компьютеры используют ту или иную сетевую технологию: Ethernet, Token Ring, FDDI, ISDN, соединение типа «точка-точка», а в последнее время к этому списку добавились сеть АТМ и беспроводные технологии. Между механизмами коммуникаций, зависящими от данных физических сетей, и прикладными системами встраивается программное обеспечение, которое делает возможным соединение различных физических сетей друг с другом. При этом детали подобного соединения «скрыты» от пользователей, которым предоставляется возможность работать как бы в одной большой физической сети.

Для соединения двух и более сетей используются маршрутизаторы(routers) — компьютеры, которые физически соединяют сети друг с другом и с помощью специального программного обеспечения передают пакеты из одной сети в другую.

Технология Интернета не навязывает какой-то определенной топологии межсетевых соединений. Добавление новой сети к Интернету не влечет за собой ее подсоединения к некоторой центральной точке коммутации или установке непосредственных физических соединений со всеми уже входящими в Интернет сетями. Маршрутизатор «знает» топологию Интернета за пределами тех физических сетей, которые он соединяет, и, основываясь на адресе в сети назначения, передает пакет по тому или иному маршруту.

В Интернете используются универсальные идентификаторы (адреса) подсоединенных к Сети компьютеров, поэтому любые две машины имеют возможность взаимодействовать друг с другом. В нем также реализован принцип независимости пользовательского интерфейса от физической сети, то есть существует множество способов установления соединений и передачи данных, одинаковых для всех физических сетевых технологий.

С точки зрения конечных пользователей, Интернет представляет собой единую виртуальную сеть, к которой подсоединены все компьютеры — независимо от их реальных физических соединений.

Фундаментальным принципом Интернета является равнозначностьвсех объединенных с его помощью физических сетей: любая система коммуникаций рассматривается как компонент Интернета, независимо от ее физических параметров, размеров передаваемых пакетов данных и географического масштаба.

Семейство протоколов ТСР/IP позволяет построить универсальную сеть, осуществляющую указанные выше принципы. Оно включает в себя протоколы 4-х уровней коммуникаций (рис. 2).

Рис. 2. Уровни стека протоколов TCP/IP

Уровень сетевого интерфейса отвечает за установление сетевого соединения в конкретной физической сети. На этом уровне работают драйвер устройства в операционной системе и соответствующая сетевая плата компьютера.

Сетевой уровень — основа ТСР/IP. Именно на этом уровне реализуется принцип межсетевого соединения, в частности маршрутизация пакетов через Интернет. На сетевом уровне протокол реализует ненадежную службу доставки пакетов по сети от системы к системе без установления соединения (connectionless packet delivery service). Это означает, что будет выполнено все необходимое для доставки пакетов, однако эта доставка не гарантируется. Пакеты могут быть потеряны, переданы в неправильном порядке, продублированы и т. д. Служба, работающая без установления соединения, обрабатывает пакеты независимо друг от друга. Но главное, что именно на этом уровне принимается решение о маршрутизации пакета по межсетевым соединениям.

Надежную передачу данных реализует следующий, транспортный уровень, на котором два основных протокола, TCP и UDP, осуществляют связь между машиной — отправителем пакетов и машиной — адресатом пакетов.

Наконец, прикладной уровень — это приложения типа клиент-сервер, базирующиеся на протоколах нижних уровней. В отличие от протоколов остальных трех уровней, протоколы прикладного уровня занимаются деталями конкретного приложения и для них обычно не важны способы передачи данных по сети. Среди основных приложений ТСР/IP, имеющихся практически в каждой его реализации, — протокол эмуляции терминала Telnet, протокол передачи файлов FTP, протокол электронной почты SMTP, протокол управления сетью SNMP, используемый в системе World Wide Web протокол передачи гипертекста НТТР и др.

На рис. 3 показано, как осуществляется взаимодействие двух компьютеров из разных сетей с использованием стека протоколов TCP/IP. Программное обеспечение IP-протокола с помощью маршрутизатора передает пакеты из одной сети Ethernet в другую. Протоколы верхних уровней, прикладного и транспортного, осуществляют соединения между компьютерами, клиентом и сервером приложения, в то время как IP обеспечивает связь между конечной и промежуточной системами.

Рис. 3. Взаимодействие двух компьютеров с использованием стека протоколов TCP/IP

Поскольку в Интернете детали физических соединений скрыты от приложений, прикладной уровень совершенно «не заботится» о том, что клиент и сервер приложения работают в разных сетях, и что в качестве канального протокола в обеих сетях используется протокол Ethernet. Между конечными системами может быть несколько десятков маршрутизаторов и множество промежуточных физических сетей различных типов. Приложение в любом случае будет воспринимать этот конгломерат как единую физическую сеть. Это обуславливает основную силу и привлекательность технологии Интернета.

Коммуникационная система считается универсальной, если при помощи нее два любых компьютера могут взаимодействовать друг с другом. Для того чтобы добиться такой универсальности, необходимо установить глобальный метод идентификации компьютеров в распределенной системе для доступа к ним. В TCP/IP выбрана схема идентификации, аналогичная адресации в физических сетях. Каждому сетевому интерфейсу присваивается уникальный 32-битный адрес (IP-адрес). IP-адрес компьютера имеет определенную структуру. Она задает идентификатор сети, к которой подсоединен компьютер, и уникальный идентификатор самого компьютера. На рис. 4 показаны различные классы IP-адресов.

Рис. 2.4. Классы IP-адресов

Для 32-битных IP-адресов принята десятичная нотация, в которой каждый из четырех байтов адреса записывается десятичным числом. Адреса класса С, например, охватывают диапазон от 192.0.0.0 до 223.255.255.255. Структура адресов различных классов делает достаточно очевидным их применение. Адреса класса С, в которых 21 бит отводится для идентификатора сети и только 8 бит для идентификатора оконечного узла сети (хоста), присваиваются компьютерам локальных сетей небольших организаций, которые объединяют до 255 машин. Более крупные организации могут получить адреса класса В, которые способны обслужить до 256 сетей, в состав которых входит до 64 тысяч рабочих станций. И наконец, адреса класса А присваиваются компьютерам, подключенным к ограниченному числу глобальных сетей очень большого масштаба, например, в Arpanet.

Компьютеры, подсоединенные к нескольким физическим сетям (multihomed), имеют несколько IP-адресов — по одному для каждого сетевого интерфейса. Соответственно, эти IP-адреса различаются своими сетевыми идентификаторами. Таким образом, адрес характеризует не отдельную машину, а ее сетевое соединение.

Помимо адресов, предназначенных для одного хоста (unicast), существуют также широковещательные (broadcast) и групповые (multicast) адреса.

Уникальный IP-адрес присваивается каждому сетевому интерфейсу. Назначение идентификаторов хостов обычно находится в ведении системного администратора или поставщика услуг Интернета, а выделение адресов сетям, объединенным в мировую Сеть, в юрисдикции специальной организации — InterNIC (Internet Network Information Center Internet).

В связи с бурным ростом Интернета 32-битная схема адресации нынешней версии IP — IPv4, уже не удовлетворяет потребности мировой Сети. Новая версия, IPv6, проект которой был обнародован в 1991 г., призвана решить эти проблемы. IPv6 обеспечит 128-битный формат IP-адреса и будет поддерживать автоматическое назначение адресов.

TCP/IP предоставляет пользователям возможность работать не только с адресами компьютеров, но и с их именами. Это обеспечивается при помощи распределенной базы данных — доменной системы имен (Domain Name System, DNS), которая обеспечивает отображение IP-адресов в имена хостов. Эта база данных является распределенной, поскольку ни один объект в Интернете не обладает всей информацией об именах компьютеров. Каждый объект поддерживает свою базу данных и имеет серверную программу, к которой могут обращаться другие системы (клиенты) в сети.

Открытость, масштабируемость, универсальность и простота использования — неоспоримые преимущества TCP/IP, но у этого семейства протоколов есть и очевидные недостатки. Столь привлекательная простота доступа оборачивается для Интернета серьезнейшей проблемой защиты информации, которая приобретает особую остроту сейчас, когда мировая Сеть все активнее используется для электронной коммерции. Неупорядоченность передачи пакетов и невозможность отследить маршрут их продвижения также являются важными проблемами, поскольку препятствуют реализации таких необходимых в современных коммуникациях возможностей, как передача мультимедийных данных в реальном времени. Наконец, как уже упоминалось, предоставляемый нынешней версией протокола IP объем адресного пространства, особенно в связи с его неэффективным использованием, уже с большим трудом позволяет удовлетворять потребности гигантской и все более разрастающейся Сети.

Многие указанные проблемы должны быть сняты реализацией уже упоминавшегося протокола IPv6. Помимо четырехкратного увеличения размера адреса, что обеспечит адресное пространство объемом около 4 квадриллионов адресов в сравнении с современными 4 млрд, новый стандарт обеспечивает осуществление встроенных функций защиты от несанкционированного доступа, поддержку передачи данных мультимедиа в реальном времени и возможности автоматического реконфигурирования адресов.

Контролем использования TCP/IP, определением основных направлений развития, разработкой и утверждением стандартов сегодня занимается несколько организаций. Основной из них является ISOC (Internet Society) — профессиональное сообщество, которое занимается общими вопросами эволюции и роста Интернета как глобальной инфраструктуры исследовательских коммуникаций.

Под управлением ISOC действует IAB (Internet Architecture Board) — организация, в ведении которой находится технический контроль и координация Интернета. IAB координирует направления исследований и новых разработок для TCP/IP и является конечной инстанцией при определении новых стандартов для Интернета.

В IAB входят две основные группы: IETF (Internet Engineering Task Force) и IRTF (Internet Research Task Force). IETF — инженерная группа, которая занимается решением ближайших технических проблем Интернета. Она делится на девять подгрупп в соответствии с основными областями (приложения, маршрутизация и адресация, защита информации и т. д.) и определяет спецификации, которые затем становятся стандартами Интернета. В частности, протоколы IPv6 и DHCP являются плодом усилий IETF. В свою очередь, IRTF координирует долгосрочные исследовательские проекты по протоколам TCP/IP и технологии Интернета в целом.

Разнообразная документация, связанная с Интернетом, предложения по стандартам и сами официальные стандарты протоколов TCP/IP публикуются в серии технических сообщений Internet Request for Comments, или RFC. RFC могут быть короткими или длинными, излагать глобальные концепции или описывать детали того или иного проекта, формулировать официальный стандарт или давать предложения по новым протоколам.

Система доменных имен

Как упоминалось ранее, для того чтобы обращение ко всем ресурсам Интернета было наиболее простым и прозрачным с точки зрения пользователей, в Сети действует система доменных имен (Domain Name System, DNS). Она предназначена для того, чтобы любой ресурс помимо уникального IP-адреса имел легко запоминающееся доменное имя. Служба доменных имен призвана соотносить IP-адреса с доменным именем машины, и наоборот.

Доменное имя любого ресурса состоит из следующих основных частей: названия зоны, собственного названия домена и названия имени машины. Например: www.rbc.ru. Это доменное имя говорит, что ресурс расположен в географическом домене ru, имеет собственное название rbc и функциональное имя www, то есть выполняет функции WWW-сервера.

Имена зон условно можно разделить на «организационные» и «географические». В старшей зоне (доменах первого уровня) зарегистрированы следующие организационные зоны:
· com — commercial (коммерческие);
· edu — educational (образовательные);
· gov — goverment (правительственные);
· mil — military (военные);
· net — network (организации, обеспечивающие работу сети);
· org — organization (некоммерческие организации).

Последнее время активно обсуждается введение новых доменов первого уровня. Уже введены в строй и существует возможность регистрации доменов в двух новых зонах: biz и info. Зона info открыта для всех желающих, а biz предназначена для регистрации коммерческих организаций. Также предлагается введение таких общих доменов, как name и pro, специализированных — museum, coop, aero и ряда других.

Каждая страна (государство) имеет свой географический домен из двух букв. Вот домены некоторых из стран:
· ca — Canada (Канада);
· de — Germany (Германия);
· fi — Finland (Финляндия);
· fr — France (Франция);
· jp — Japan (Япония);
· ru — Russia (Россия);
· ua — Ukraine (Украина);
· uk — United Kingdom (Англия).

В зонах государств опять же имеются организационные и географические зоны. Организационные зоны в большинстве своем повторяют структуру организационных зон верхнего уровня, разве что вместо com может использоваться имя co. Географические зоны выделяются по городам, областям и другим территориальным образованиям. Непосредственно в тех и других размещаются домены организаций или домены персональных пользователей.

С левого конца доменного имени находятся имена машин. Имена бывают собственные и функциональные. Имена собственные каждый придумывает в меру своей фантазии, а имена функциональные вытекают из функций, выполняемых компьютером, например:
· www — HTTP-сервер (WWW-сервер);
· ftp — FTP-сервер.

Процессом оформления и поддержания доменных имен занимаются ряд специализированных организаций. Регистрацией доменов в зоне com (коммерческие серверы), edu (образовательные учреждения), org (некоммерческие организации), net (сетевые проекты) занимается организация InterNIC (Internet Network Information Center), находящаяся в США по адресу www.internic.net. В Европе ее функцию взяла на себя организация RIPE, имеющая адрес www.ripe.net. В России регистрацией доменов в зоне ru занимается RIPN с адресом www.ripn.net.

Организации или физическому лицу, желающим зарегистрировать свой домен, следует обращаться к администратору какого-либо уже существующего домена.

В любом случае первоначально необходимо проверить, зарегистрировано ли уже то имя, которое вы желаете взять. Это можно сделать по адресам www.register.com (для доменов com, org, net и edu) и www.ripn.net/nic/whois/(для зоны ru). Если выбранное имя уже зарегистрировано, то остается попытаться придумать другое. Также можно попробовать выйти на организацию или частное лицо, владеющее данным доменом, и попытаться его перекупить.

Процедура получения домена второго уровня в зоне ru достаточно проста, но требует соблюдения ряда требований, которые в целом соответствуют общепринятым мировым стандартам. Порядок регистрации и делегирования установлен «Правилами и рекомендациями администрирования домена ru». РосНИИРОС осуществляет регистрацию доменов второго уровня ru и делегирует право на их администрирование на основании заявки.

Заявка должна быть заполнена по форме, в которой содержится информация об одном имени домена, а также данные о лицах, которые будут заниматься администрированием домена и его техническим сопровождением, а также о владельце домена.

Зарегистрировать доменное имя можно самостоятельно, изучив инструкции на вышеназванных серверах. Другой возможностью может быть обращение к поставщику услуг, который возьмет на себя хлопоты по регистрации доменного имени. Главное в этом случае проследить, чтобы домен был зарегистрирован именно на вас или вашу компанию, а не на поставщика.

Службы Интернета

Службы Интернета — это системы, предоставляющие услуги пользователям Интернета. К ним относятся: электронная почта, WWW, телеконференции, списки рассылки, FTP, IRC, а также другие продукты, использующие Интернет как среду передачи информации.

Услуги, предоставляемые Интернетом, можно разделить на две основные категории.

1. Отложенные (off-line) — основным признаком этой группы является наличие временного перерыва между запросом и получением информации.

2. Прямые (on-line) — характерны тем, что информация по запросу возвращается немедленно. Если от получателя информации требуется немедленная реакция на нее, то такая услуга носит интерактивный характер.

Электронная почта

Самой первой и самой распространенной службой Интернета является электронная почта (e-mail). Эта служба предоставляет услуги отложенного чтения. Пользователь посылает сообщение, и адресат получает его на свой компьютер через некоторый промежуток времени. Электронное письмо состоит из заголовков, содержащих служебную информацию (об авторе письма, получателе, пути прохождения по сети и т. д.), и содержимого письма.

Электронное письмо можно снабдить цифровой подписью и зашифровать. Скорость пересылки составляет в среднем несколько минут. При этом стоимость электронной почты минимальна и не зависит от расстояния. Основными достоинствами электронной почты являются простота, дешевизна и универсальность.

Телеконференции

Телеконференции — вторая по распространенности служба Интернета, предоставляющая отложенные услуги.

Служба телеконференций состоит из множества тематических телеконференций — групп новостей (newsgroup), поддерживаемых серверами новостей. Сервер новостей — это компьютер, который может содержать тысячи групп новостей самых разнообразных тематик. Каждый сервер новостей, получивший новое сообщение, передает его всем узлам, с которыми он обменивается новостями. Группа новостей — это набор сообщений по определенной теме. Новости разделены по иерархически организованным тематическим группам, и имя каждой группы состоит из имен подуровней. Например, конференция comp.sys.linux.setup принадлежит группе «компьютеры», подгруппе «операционные системы», конкретнее — системе Linux, а именно — ее установке.

Существуют как глобальные иерархии, так и иерархии, локальные для какой-либо организации, страны или сети. Набор групп, получаемых сервером телеконференций, определяется его администратором и их наличием на других серверах, с которыми данный сервер обменивается новостями.

Доступ к группам новостей осуществляется через процедуру подписки, которая состоит в указании координат сервера новостей и выбора интересующих пользователя групп новостей. Следует заметить, что каждый сервер новостей имеет определенный набор конференций, и, если интересующая тематика на нем не найдена, можно попробовать использовать другой сервер. Данная процедура, а также работа с группами новостей осуществляется с помощью программного обеспечения, поддерживающего эти функции, например, широко распространенным приложением компании Microsoft — Outlook Express.

В обсуждении темы телеконференции может участвовать множество людей, независимо от того, где они находятся физически. Обычно, хотя это и не является правилом, за порядком в конференциях следят специальные люди, так называемые модераторы. В их обязанности входит поддержание порядка в конференции в соответствие с установленными в ней правилами поведения и ее тематикой.

Наряду с описанной формой служб телеконференции широкое распространение получили WWW-телеконференции, также называемые форумами. Отличие состоит в том, что они работают через web-интерфейс, и размещаются не централизованно на серверах новостей, а на web-сайтах.

Списки рассылки

Списки рассылки (mail lists) — служба, не имеющая собственного протокола и программы-клиента и работающая исключительно через электронную почту.

Идея работы списка рассылки состоит в объединении под одним адресом электронной почты адресов многих людей — подписчиков списка рассылки. Когда письмо посылается на этот адрес, сообщение получают все подписчики данного списка рассылки. Ведущими списка рассылки, как правило, являются люди, хорошо владеющие его тематикой. Они отвечают за подготовку и рассылку очередных выпусков. Получателями писем являются люди, собственноручно подписавшиеся на список. Кроме того, у них есть право и возможность в любой момент отменить свою подписку.

Существуют открытые рассылки (для всех желающих), закрытые (для людей определенного круга), бесплатные (существующие за счет энтузиазма создателей, спонсорской поддержки, платных рекламодателей) и платные.

В зависимости от числа подписчиков список рассылки обслуживается на сервере программами различной сложности. Эти программы могут обеспечивать или не обеспечивать полную функциональность, которая заключается в автоматической подписке клиентов и приеме их отказа от подписки, проверке корректности электронных адресов, ведении архива сообщений, обработке почтовых ошибок, поддержке работы в режиме дайджеста (когда подписчик получает не каждое сообщение отдельным письмом, а все сообщения за какой-то срок в одном письме), проверке сообщений администратором списка перед рассылкой и т. д.

Чаты

Под словом чат (от английского chat) подразумеваются службы Интернета, позволяющие проводить текстовые дискуссии в режиме реального времени. От традиционной формы разговора их отличает то, что они ведутся в текстовом виде — путем набора текста на клавиатуре. Самым популярным открытым стандартом, лежащим в основе чатов, является IRC (Internet Relay Chat), .

IRC — это многопользовательская, предназначенная для чата многоканальная сеть, с помощью которой пользователи могут беседовать в режиме реального времени независимо от своего месторасположения.

Не смотря на то, что IRC существует достаточно много лет, в коммерческой деятельности современных компаний, например, в работе центров обслуживания потребителей, этот стандарт практически не применяется. Основным его предназначением остается обсуждение самого широкого круга вопросов между пользователями Интернета.

В свое время чаты, в основе которых лежал стандарт IRC, получили достаточно широкое распространение. Однако сегодня все более популярными становятся чаты, проводимые на отдельных web-сайтах и основывающиеся либо на языке HTML, либо на языке Java. Это позволяет пользователям Интернета участвовать в них без установки дополнительного программного обеспечения, используя только стандартный браузер, тем самым число потенциальных участников становится максимальным. С другой стороны, возможность установки на корпоративном сайте компании системы, обеспечивающей работу чата, позволяет широко использовать эту службу в коммерческих целях, например для обсуждения с потребителями тех или иных вопросов деятельности предприятия, обсуждения продукции, системы обслуживания и т. д.

Интернет-пейджеры

Промежуточное положение между электронной почтой и чатами по динамичности и интерактивности общения занимают Интернет-пейджеры или службы мгновенных сообщений. Интернет-пейджеры постепенно становятся одними из самых популярных средств общения в Сети и по широте использования скоро смогут достичь электронную почту. Службы мгновенных сообщений позволяют общаться в режиме реального времени, совмещая в себе преимущества электронной почты и телефона. Частью процесса обмена в подобных системах могут становиться текстовый диалог, передача графики, голосовая и видео связь, обмен файлами. Примером подобных программ служат ICQ, MSN, AOL Instant Messenger и другие подобные им.

FTP

FTP (file transfer protocol) — протокол передачи файлов, но при рассмотрении FTP как службы Интернета имеется в виду не просто протокол, а именно служба доступа к файлам в файловых архивах. Одна из причин достаточно высокой ее популярности объясняется огромным количеством информации, накопленной в FTP-архивах за десятилетия эксплуатации компьютерных систем. Другая причина кроется в простоте доступа, навигации и передачи файлов по FTP.

FTP — служба прямого доступа, требующая полноценного подключения к Интернету.

World Wide Web

WWW (World Wide Web ) — служба прямого доступа, требующая полноценного подключения к Интернету и позволяющая интерактивно взаимодействовать с представленной на web-сайтах информацией. Это самая современная и удобная служба Интернета. Она основывается на принципе гипертекста и способна представлять информацию, используя все возможные мультимедийные ресурсы: видео, аудио, графику, текст и т. д. Взаимодействие осуществляется по принципу клиент-сервер с использованием протокола передачи гипертекста (Hyper Text Transfer Protocol, HTTP ). С помощью протокола HTTP служба WWW позволяет обмениваться документами в формате языка разметки гипертекста — HTML (Hyper Text Markup Language), который обеспечивает надлежащее отображение содержимого документов в браузерах пользователей.

Принцип гипертекста, лежащий в основе WWW, состоит в том, что каждый элемент HTML-документа может являться ссылкой на другой документ или его часть, при этом документ может ссылаться как на документы на этом же сервере, так и на других серверах Интернета. Ссылки WWW могут указывать не только на документы, свойственные службе WWW, но и на прочие службы и информационные ресурсы Интернета. Более того, большинство программ-клиентов WWW — браузеров (browsers), обозревателей, или навигаторов, не просто понимают такие ссылки, но и являются программами-клиентами соответствующих служб: FTP, сетевых новостей Usenet, электронной почты и т. д. Таким образом, программные средства WWW являются универсальными для различных служб Интернета, а сама информационная система WWW выполняет по отношению к ним интегрирующую функцию.

Необходимо подчеркнуть, что Интернет и WWW это не тождественные понятия. Узкое определение Интернета представляет его как взаимосвязь компьютерных сетей на базе семейства протоколов TCP/IP, в пространстве которой становится возможным функционирование протоколов более высокого уровня, в том числе протокола передачи гипертекста (HTTP) — протокола World Wide Web, гипертекстового сервиса доступа к удаленной информации. Кроме World Wide Web, на этом уровне (он называется прикладным или уровнем приложений) действуют и другие протоколы, например электронной почты (РОРЗ, SMTP, IMAP), общения в режиме реального времени (IRC) и групп новостей (NNTP).

Таким образом, World Wide Web — это одна из служб Интернета, которая предлагает простой в использовании интерфейс и дает возможность пользователям, даже не слишком хорошо знающим компьютер, получать доступ к web-службам в любой части Интернета.

Новые службы Интернета

В отдельную группу можно выделить службы Интернета, не имеющие сегодня такого широкого распространения, как те, о которых было рассказано ранее и не имеющие всеми признанных единых стандартов. В их основе также лежит использование Интернета как среды передачи информации. В частности, к этой группе можно отнести:
· средства передачи голоса по каналам связи Интернета, предоставляющие услуги телефонной и факсимильной связи;
· программные средства для проведения видео- и аудио- конференций через Интернет;
· системы широковещательной передачи мультимедийной информации.

Службы поиска информации

Особую группу составляют службы Интернета, поддерживаемые одной из групп его участников и причисляемые в данной категории благодаря глобальному характеру предоставляемых ими услуг по поиску информации. Поиск информации является сегодня одной из ключевых проблем Интернета, так как количество представленных в нем web-страниц сегодня оценивается более чем в несколько сотен миллионов. Кроме того, в основе проблем поиска информации лежат такие причины, как множественность и фрагментарность источников, большое количество различных способов хранения данных, дефицит времени на выборку и обработку информации, стоимость получения информации, ненадежность данных, постоянное обновление и добавление информации.

Ниже перечислены основные инструменты поиска информации в Интернете, которым удается в значительной степени преодолевать вышеназванные трудности:

· Поисковые машины (spiders, crawlers). Основная функция поисковых машин состоит в исследовании Интернета с целью сбора данных о существующих в нем web-сайтах и выдаче по запросу пользователя информации о web-страницах, наиболее полно удовлетворяющих введенному запросу.

· Каталоги. Представляют собой иерархически организованную тематическую структуру, в которую, в отличие от поисковых машин, информация заносится по инициативе пользователей. Добавляемая страница жестко привязывается к принятым в каталоге категориям.

· Мета-средства поиска. Мета-средства поиска позволяют усовершенствовать процесс путем запуска одновременно нескольких поисковых средств. Этот способ значительно повышает скорость, однако не позволяет воспользоваться возможностями построения сложных запросов, предлагаемыми большинством современных систем поиска.

Более подробно о поисковых системах и каталогах рассказывается в следующей главе «Взаимодействие с индивидуальными потребителями» в разделе, описывающем навигационные web-сайты.

Наши рекомендации