Поисковые системы, основанные на построении тематических каталогов.

В данных информационно-поисковых системах база данных организована в виде структуры каталогов. Помимо интерфейсной подсистемы, обеспечиваю­щей единый способ представления иерархий каталогов, самой базы данных и СУБД в эту поисковую систему входит подсистема сканирования файлов в се­ти, а также подсистема классификации информации (см. рис. 1.21).

Подсистема классификации ориентирована на систематизацию полученных в результате сканирования сведений. Процесс классификации информации и формирования каталогов выполняется чаще всего вручную подразделени­ем поддержки тематических каталогов.

Результатом ручной классификации сведений об информационных ресурсах сети являются постоянно обновляющиеся иерархические каталоги, на верх­нем уровне которых собраны самые общие информационные категории, например, категории, соответствующие направлениям деятельности отдель­ных подразделений организации. Объекты каталогов, являющиеся нелисто­выми вершинами иерархического дерева, представляют собой ссылки на файлы, например, файлы электронных документов (Web, Word, Excel и др.), вместе с кратким описанием их содержимого.

Преимущество тематических каталогов в осмысленности отбора информа­ции, что пока не под силу никакому компьютеру. Но в связи с тем, что темагические каталоги заполняются вручную, нет гарантий относительно их полноты. Кроме того, ручные процессы классификации информации тре­буют существенных затрат человеческого труда, что может себе позволить не каждая организация.

В Internet большой поп. лярностью пользуются такие международные тема­тические каталоги, как Yahoo (http://www.yahoo.com) и Infoseek (http://www.infoseek.com). Наиболее популярными в Internet русскоязычны­ми поисковыми системами, включающими тематические каталоги, являют­ся системы Ау (http://www.au.ru) и Rambler (http://www.rambler.ru).

Поисковые системы, основанные на построении индексов.Недостатки, присущие службам тематических каталогов, устраняются в ин­формационно-поисковых системах, основанных на построении индексов. В этих поисковых системах вместо подсистемы классификации применяется подсистема индексирования, а база данных организована в виде списков, ставящих в соответствие ключевым словам указатели на относящиеся к ним описания файлов. Данные указатели, обеспечивающие быстрый поиск сведений по запросам пользователей и программ, называют индексами.

После сканирования файлов в сети и формирования их поисковых образов систематизация полученных сведений выполняется автоматически путем их индексирования. При индексировании составляется список, в котором каж­дому ключевому слову ставится в соответствие указатель (индекс) на список поисковых образов файлов, к которым это ключевое слово имеет отноше­ние. Отсутствие индексирования привело бы к слишком длительному поис­ку образов (описаний) документов по заданным ключевым словам.

Структура и состав индексированных списков различных систем могут от­личаться друг от друга и зависят от многих факторов: размера массива по­исковых образов, информационно-поискового языка, размещения различ­ных компонентов системы и т. п. Рассмотрим структуру индексированного списка на примере системы, для которой можно реализовывать не только примитивный булевый, но и контекстный, а также взвешенный поиск Web-страниц, и ряд других возможностей.

Индексированный список такой системы должен включать таблицу иден­тификаторов Web-страниц (page-ID), таблицу ключевых слов (Keyword-ID), таблицу модификации Web-страниц, таблицу заголовков, таблицу гипертек­стовых связей, инвертированного (IL) и прямого списков (FL).

Page-ID отображает идентификаторы Web-страниц в их адрес (URL), Keyword-ID — каждое ключевое слово в уникальный идентификатор этого слова, таблица заголовков — идентификатор Web-страницы в ее заголовок, таблица гипертекстовых ссылок — идентификатор Web-страницы в гипер­текстовую ссылку на эту страницу. Инвертированный список ставит в соот­ветствие каждому ключевому слову документа список пар — идентификатор Web-страницы, позиция слова в странице. Прямой список — это массив поисковых образов Web-страниц.

Все эти файлы, так или иначе, используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле — это объединение и/или пересечение списков идентификаторов Web-страниц. Результирующий список, который преобразовывается в спи­сок заголовков, снабженных гипертекстовыми ссылками, возвращается пользователю в его программу просмотра Web. Для того чтобы быстро ис­кать записи инвертированного списка, над ним надстраивается еще не­сколько файлов, например, файл буквенных пар с указанием записей ин­вертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным — хэширование.

Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модифи­кации страниц. Суть подобного решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса — его перезагрузка. Эффективность поиска в каждой конкретной поисковой системе определя­ется исключительно архитектурой индекса. Как правило, способ организа­ции этих массивов является "секретом фирмы" и ее гордостью.

Так как сканирование файлов в сети и индексирование полученной при сканировании информации выполняются автоматически, то информацион­но-поисковые системы, основанные на построении индексов, функциони­руют в полностью автоматическом режиме, что делает их доступными для компьютерных сетей любых организаций.

Основным способом поиска информации для пользователя поисковой сис­темы, базируемой на построении индексов, является поиск по ключевым словам, который намного мощнее аналогичного способа поиска по отноше­нию к системам, основанным на построении каталогов. Информационно-поисковый язык позволяет сформулировать запрос в простой и наглядной форме. При обработке запроса его содержимое разбивается на лексемы, из которых удаляются запрещенные и общие слова. Иногда производится нор­мализация лексики, а затем все слова связываются указанными пользовате­лем либо действующими по умолчанию логическими операциями.

Кроме обычного набора логических операций AND, OR, NOT наиболее раз­витые поисковые системы позволяет использовать еще и операцию NEAR, обеспечивающую контекстный поиск. В запросе можно указать также части документа для поиска: ссылка, заглавие, аннотация и т. п. Можно также за­давать поле ранжирования выдачи и критерий близости документов запросу.

В ряде поисковых систем используется коррекция запросов по релевантно­сти. Релевантность — это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и ре­альную. Первую вычисляет система, и на основании чего ранжируется вы­борка найденных документов. Вторая — это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле, где пользователь может отметить документ как релевантный. При сле­дующей поисковой итерации запрос расширяется терминами этого доку­мента, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная вы­борка, от данной системы не добьешься.

В Internet большой популярностью пользуются такие международные поис­ковые системы, основанные на построении индексов, как AltaVista (http://altavista.digital.com) и Lycos (http://www.lycos.com). Популярными русскоязычными поисковыми системами данного типа являются:

- Rambler (http://www.rambler.ru);

- Ау (http://www.au.ru);

- Русская машина поиска (http://search.interrussia.com);

- Russian Internet Search (http://www.search.ru).

Поисковые системы Lycos, Ay и Rambler являются комбинированными, объединяющими индексированные списки и тематические каталоги.

В настоящее время появился ряд информационно-поисковых систем для корпоративных компьютерных сетей. В рамках Web-сервера Enterprise Server компании Netscape реализована поисковая система, основанная на построе­нии индексов. Корпорация Netscape выпустила и отдельный поисковый сервер Catalog Server, объединяющий функции построения индексирован­ных списков и каталогов. В состав операционной системы Microsoft Win­dows NT Server, начиная с четвертой версии, включена поисковая система Index Server, основанная на построении индексов.

2.6. Электронная почта и системы новостей.

Помимо Web-сервиса одними из наиболее популярных сетевых сервисов являются электронная почта (E-mail) и система новостей (Network News), часто называемая еще системой телеконференций. Эти службы сети функ­ционируют на прикладном уровне модели OSI и предназначены для обра­ботки и доставки электронных сообщений в распределенной сетевой среде. Однако если при отправке сообщения электронной почты конкретизируется адрес получателя, то при отправке сообщения системы новостей адрес по­лучателя не указывается, а задается лишь тема сообщения.

Сообщение электронной почты доставляется получателю, адрес которого указан в заголовке сообщения. Сообщение же системы новостей, называемое еще статьей, могут получить все, кто подписался по теме, также ука­занной в заголовке сообщения. Соответственно аналогом сообщений элек­тронной почты являются обычные письма, а аналогом статей системы ново­стей — газеты и журналы, доставляемые по подписке.

Современные программы электронной почты и систем новостей позволяют не только создавать сообщения в формате HTML, используемом в Web-документах, но и добавлять к отправляемым сообщениям любые файлы, например, файлы с аудио- или видеоинформацией.

Обмен электронными сообщениями Рекомендации стандарта Х.400. Использование электронной почты для оперативного обмена информацией между людьми как внутри отдельно взятой организации, так и за ее преде­лами существенно повышает эффективность совместного труда.

Структура и принципы функционирования любой современной почтовой сис­темы в общем случае соответствуют рекомендациям стандарта Х.400, являю­щимся результатом деятельности международного комитета по средствам теле­коммуникаций (CITT во французской транскрипции или ITU в английской). Рекомендации Х.400 охватывают все аспекты построения среды управления сообщениями: компоненты и схемы их взаимодействия, протоколы управления и передачи, форматы сообщений и правила их преобразования.

Система обмена электронными сообщениями в рамках большой компьютерной сети представляет собой совокупность почтовых отделений, объединенных ме­жду собой сетевой средой. Локальная сеть может содержать лишь одно почтовое отделение, обслуживающее всех пользователей.

Схема построения системы обмена сообщениями

Схема функционирования каждого почтового отделения реализуется в соот­ветствии с технологией "клиент-сервер", когда почтовый сервер осуществля­ет обработку запросов, поступающих от почтовых клиентов. В качестве поч­товых клиентов выступают программы электронной почты, установленные на компьютерах пользователей. Программы, исполняющие роль почтовых серверов, чаще всего устанавливаются на серверах сети.

Основными компонентами почтового сервера являются:

- подсистема передачи сообщений, выполняющая их пересылку;

- хранилище сообщений, предназначенное для промежуточного хранения сообщений перед их пересылкой получателю или передачей почтовым клиентам.

В зависимости от масштабности сети пересылка сообщений подсистемой передачи может выполняться либо напрямую почтовому серверу получателя, либо через промежуточные почтовые серверы в соответствии с правилами маршрутизации, определяемыми используемым протоколом обмена элек­тронными сообщениями.

Хранилище сообщений каждого почтового сервера состоит из почтовых ящи­ков пользователей этого сервера, а также перевалочных почтовых ящиков, используемых для промежуточного хранения транзитных сообщений. Храни­лище позволяет осуществлять отправку сообщений в наиболее удобное для почтового сервера время. Кроме того, хранилище не требует постоянного подключения к почтовому серверу компьютеров пользователей, что актуально для Internet. В этом случае почтовые клиенты могут извлекать предназначен­ные для пользователей сообщения при подключении к серверу.

Таким образом, основными способами отправки почтовых сообщений яв­ляются следующие:

- отправка сообщения почтовым клиентом через хранилище, когда поль­зователь, используя свою программу электронной почты, помещает от­правляемое сообщение непосредственно в хранилище сообщений; отту­да оно выбирается и отправляется подсистемой передачи;

- отправка сообщения почтовым клиентом через подсистему передачи, когда сообщение передается напрямую данной подсистеме и далее дос­тавляется ее средствами.

- основным способам получения сообщений относятся:

- получение сообщения почтовым клиентом из хранилища; в этом случае подсистема передачи осуществляет доставку сообщения в почтовый ящик получателя для его дальнейшей обработки программой электрон­ной почты пользователя;

- получение сообщения почтовым клиентом от подсистемы передачи, ко­гда данная подсистема непосредственно отправляет сообщение про­грамме электронной почты получателя.

Первые из перечисленных способов отправки и получения электронных со­общений используют в случае отсутствия постоянного подключения компь­ютеров пользователей к почтовому серверу, вторые — при постоянном под­ключении пользовательских компьютеров к сети.

В качестве дополнительного, но очень важного компонента почтового серве­ра выступает служба каталогов, поддерживающая имена, описания и адреса пользователей сети. В состав почтового клиента должна входить адресная книга, также предназначенная для хранения имен, описаний и адресов поль­зователей сети. Но в отличие от службы каталогов, хранящей всю справочную информацию, адресная книга заполняется пользователем. Адресная книга, по сути, является службой каталогов, поддерживаемой пользователем, и должна обеспечивать взаимодействие с общей службой каталогов сети.

Адресная книга и служба каталогов сети должны иметь возможность созда­ния, сохранения и выборки списков рассылки. Список рассылки представ­ляет собой группу электронных адресов, по которым можно одновременно отправить одно сообщение. Будучи отправлено на адрес списка рассылки, сообщение будет доставлено по всем входящим в него адресам.

Для описания формата сообщения электронной почты в рекомендациях Х.400 была принята привычная парадигма конверта и его содержимого, ис­пользуемая в традиционных почтовых системах.

Структура электронного сообщения

Как и положено, конверт содержит исчерпывающую информацию о том, ку­да и кому должно быть доставлено письмо, обратный адрес отправителя и пометку о срочности доставки. При этом системе нет необходимости знать, что бы то ни было о содержимом письма. На основе информации, указанной на конверте, среда доставки выполняет необходимую маршрутизацию и передачу с возможным промежуточным хранением. Роль перевалочных пунктов и средств транспортировки выполняют транзитные почтовые серверы.

Конверт может иметь специальную пометку о необходимости установки на нем электронного "штампа" каждым почтовым сервером, через который проходит сообщение на пути к адресату. Это, в частности, позволяет систе­ме автоматически отслеживать возникновение маршрутных петель.

Содержимое конверта состоит из заголовка и тела. Заголовок обычно включа­ет в себя копию информации, указанной на конверте, и дополнительные по­ля, определяющие расширенные свойства сообщения. Тело в свою очередь может быть составным и включать различные типы информации, такие как текст, графика, документы различных форматов, вложенные файлы и т. д.

Рекомендации Х.400 предусматривают также возможность автоматического уведомления отправителя о факте доставки и/или прочтения посланного им сообщения.

Протокол SMTP.Несмотря на мощную теоретическую базу и практически безупречный архи­тектурный дизайн, стандарт Х.400 не получил широкого распространения за пределами государственных и банковских учреждений. Недостатками этого стандарта явились чрезмерная сложность реализации и значительная стои­мость внедрения и эксплуатации систем на его основе. Однако вытекающие из этого стандарта общие принципы управления сообщениями стали осно­вой современных почтовых служб.

Наиболее распространенным протоколом электронной почты является про­токол SMTP (Simple Mail Transfer Protocol — простой протокол передачи почты), ставший стандартом обмена сообщениями в Internet и intranet. По­пулярность этого протокола объясняется сравнительной простотой реализа­ции и широкими возможностями расширяемости без ущерба ддя обратной совместимости с существующими версиями почтовых систем. Немаловаж­ным фактором является также широкая доступность спецификаций и отсут­ствие необходимости отчислять средства за их использование.

Протокол SMTP в качестве транспортного протокола использует TCP и применяется для реализации двух функций:

- пересылки отправляемых сообщений от почтовых клиентов к почтовым серверам этих клиентов;

- передачи сообщений между почтовыми серверами.

Начальная версия протокола SMTP поддерживала ограниченный набор ко­манд и сервисов для приема и передачи сообщений. В последнее время был разработан его расширенный вариант (Extended SMTP или ESMTP), обес­печивающий стандартную возможность дальнейшего расширения и под­держку таких функций, как подтверждение доставки (Delivery Notification Request или DNR), согласование максимального допустимого размера со­общений, передаваемых между серверами, и принудительная инициация передачи накопленной почты.

Схема обмена сообщениями на базе протокола SMTP

Однако протокол SMTP при автономном применении все еще обладает ря­дом недостатков:

- отсутствие возможности аутентификации входящих соединений;

- ориентация на передачу только текстовой информации;

- отсутствие возможности шифрования передаваемых сообщений.

Для устранения этих недостатков SMTP используется совместно с допол­няющими его протоколами и стандартами.

Отсутствие средств аутентификации входящих соединений не позволило использовать SMTP для обслуживания клиентского доступа. Классическая почтовая SMTP-система требует наличия файлового доступа клиента к сво­ему почтовому ящику для получения и работы с сообщениями. Для реали­зации работы в режиме клиент-сервер был создан протокол обслуживания почтового офиса (Post Office Protocol или POP). Наиболее удачной оказа­лась версия РОРЗ, широко используемая в современных SMTP-системах. Протокол РОРЗ позволяет пользователю с помощью программы электрон­ной почты, выполняющей роль клиента, забрать из своего почтового ящика, расположенного на почтовом сервере, поступившие сообщения.

Наиболее продвинутые реализации РОРЗ поддерживают аутентификацию с шифрованием имени и пароля, а также шифрование трафика по протоколу Secure Socket Layer (SSL). Однако при использовании протокола РОРЗ от­сутствует возможность просмотра характеристик сообщения без предвари­тельной загрузки его на станцию клиента. Для решения проблемы просмотpa и манипуляции свойствами почтового сообщения непосредственно на сервере, а также преодоления ряда других функциональных ограничений был разработан протокол IMAP4. В отличие от РОРЗ протокол IMAP4 пре­доставляет следующие возможности:

- просмотр заголовков сообщений, чтобы определить, какие из них следу­ет читать (загружать с почтового сервера на рабочую станцию);

- избирательную загрузку с сервера частей сообщений в формате MIME;

- поиск сообщений на сервере;

- создание как стандартных, так и определенных пользователем атрибутов сообщений, например, для идентификации рабочих групп, проектов и т. д.;

- организацию на сервере иерархии папок вне входного почтового ящика;

- распределение по созданным на сервере папкам почтовых сообщений, их обновление и долговременное централизованное хранение;

- централизованное резервирование и восстановление почтовых сообще­ний, хранящихся на сервере.

Современные программы электронной почты, например Microsoft Outlook Express, поддерживают в качестве клиентского почтового протокола как РОРЗ, так и IMAP4.

Следует заметить, что если для получения сообщений почтовым клиентом с сервера используется протокол РОРЗ или IMAP4, то отправка сообщений от почтового клиента на сервер все равно реализуется в соответствии с прото­колом SMTP (рис. 1.25).

Изначально SMTP-системы рассчитывались на передачу информации исклю­чительно в текстовом виде и не были ориентированы на передачу символов национальных алфавитов, т. е. использовали 7-битный набор символов.

Для решения проблемы передачи двоичных файлов был разработан стандарт UUENCODE, позволяющий внедрять предварительно преобразованные из бинарного в текстовый вид произвольные данные непосредственно в текст сообщения. Однако универсальным данный подход назвать было трудно, так как в общем случае никакой информации о типе передаваемых данных и породившем их приложении принимающая сторона не имела.

По мере расширения сети Internet, усложнения программного обеспечения и активного внедрения мультимедиа назрела необходимость создания универ­сального формата типизации и представления двоичных данных и текста, со­держащего национальные символы. Таким универсальным форматом стали многофункциональные расширения почты Internet (Multipurpose Internet Mail Extensions или MIME). Формат MIME оказался чрезвычайно удачным, по­скольку в него были заложены возможности неограниченного расширения как поддерживаемых типов данных, так и национальных кодировок.

Использование MIME позволяет включить в электронное письмо аудиоин­формацию, двоичные данные или оцифрованный видеосигнал, а также подсоединять к передаваемому сообщению любые файлы. С помощью MIME можно создавать и читать электронные письма, содержащие информацию в RTF- и HTML-формате, в частности различные текстовые шрифты, скани­рованные изображения и электронные таблицы.

Немаловажной проблемой при передаче данных через SMTP-системы явля­ется обеспечение конфиденциальности. Для решения проблем с защитой информации был создан стандарт на шифрование тела сообщения, назы­ваемый засекреченные многофункциональные расширения почты (Secure MIME или S/MIME). Однако этот протокол не в состоянии защитить от перехвата заголовков сообщений.

Сообщение SMTP в соответствии с рекомендациями стандарта Х.400 состоит из конверта и содержимого. Содержимое в свою очередь имеет заголовок и тело. Функциональное назначение их полностью идентично. Состав полей в заголовке определяется форматом тела сообщения (UUENCODE или MIME). Ни одно поле не является обязательным, но, как правило, указываются такие поля, как кому (То:), от кого (From:) и тема (Subject:). В случае использова­ния формата MIME в заголовке обязательно должно присутствовать поле MIME-Version:, в котором указывается номер версии стандарта MIME.

Адресация и маршрутизация.Для отсутствия противоречий в процессе обмена сообщениями каждый поль­зователь почтовой системы должен иметь в ней уникальный почтовый адрес. Этот адрес должен идентифицировать именно пользователя, а не используе­мый этим пользователем компьютер. Схему назначения уникальных адресов пользователям в той или иной почтовой системе называют адресацией.

При наличии в сети избыточных связей доставка сообщения получателю должна осуществляться по оптимальному маршруту от почтового сервера от­правителя к почтовому серверу получателя. Процесс выбора очередного пунк­та на пути следования сообщения к почтовому серверу-получателю, называе­мый маршрутизацией, осуществляется на основе специальных таблиц. Маршрутизация почтовых сообщений реализуется поверх маршрутизации пакетов сетевого уровня. После выбора очередного транзитного почтового сервера в соответствии с правилами маршрутизации почтовых сообщений осуществляется маршрутизация на сетевом уровне модели OSI для оптималь­ной доставки выбранному транзитному серверу.

Схемы адресации и маршрутизации в конкретной системе электронной поч­ты определяются применяемым протоколом обмена почтовыми сообщения­ми. Администратору, в чьи задачи входит обеспечение взаимодействия между несколькими разнородными системами передачи сообщений, необходимо знать методы адресации и маршрутизации, используемые в каждой из них. Рассмотрим схемы адресации и маршрутизации на примере протокола SMTP.

Адресация в SMTP.В системах на базе SMTP используется интуитивно понятная, простая и од­новременно очень мощная иерархическая схема адресации, аналогичная той, что принята в службе имен Internet (Domain Name Services или DNS). Данная схема может обеспечить уникальность адреса практически неогра­ниченному числу пользователей. Почтовый адрес SMTP записывается в сле­дующем виде:

mailbox@domain

где mailbox — символическое имя почтового ящика пользователя (длиной до 63 символов), a domain — уникальное имя почтового домена, в котором зарегистрирован упомянутый пользователь (длиной до 255 символов). Соче­тание имен почтового ящика и почтового домена образует уникальный идентификатор пользователя.

Почтовый домен хранит полную информацию о положении системы в иерархии почтового пространства организации (рис. 1.26). В имени домена имя каждого следующего уровня иерархии отделяется от предыдущего точ­кой. Разбор имени домена выполняется справа налево. Самый верхний уро­вень, называемый корневым доменом, соответствует либо типу организации (например, corn — коммерческая, gov — государственная, org — общест­венная), либо географическому региону (например, ru — Россия, a fr — Франция). Следующими в иерархии идут домены первого уровня, как пра­вило, представляющие имя организации.

Пример иерархической схемы адресации в SMTP

Регистрацией имен доменов первого уровня занимается международный центр Internet (Internet Network Information Center или InterNIC). За назна­чение имен доменов более низкого уровня чаще всего отвечают сами ком­пании. Поскольку организациям не запрещается регистрировать для собст­венных нужд несколько параллельных доменов (например, spektr.spb.ru и spektr. corn), пользователь может иметь более одного SMTP-адреса. Кро­ме того, современные SMTP-системы зачастую позволяют назначать псевдонимы для самого почтового ящика.

В приведенном примере spektr.spb.ru является субдоменом spb.ru, ко­торый в свою очередь является субдоменом ru. Компания SPEKTR имеет два зарегистрированных имени, и каждый пользователь может иметь два почтовых адреса.

Маршрутизация в SMTP.Для того чтобы SMPT-сервер доставил почту на имя адресата [email protected], ему предварительно нужно узнать IP-адрес почтового сервера, обслуживающего домен spektr. corn, обратившись с соответст­вующим запросом к серверу DNS. В службе имен DNS предусмотрен спе­циальный тип ресурсной записи для обслуживания такого рода запросов — MX или Mail Exchanger. Данная запись имеет следующий формат:

domain MX [cost] hostname

где domain — это имя почтового домена, к которому принадлежит адресат;

hostname — символическое имя почтового сервера, располагающего зна­ниями о том, как осуществлять дальнейшую доставку сообщения; cost — относительная стоимость доставки через этот компьютер. Для получения IP-адреса компьютера с именем hostname выполняется поиск адресной ре­сурсной записи в DNS. При наличии нескольких МХ-записей для одного и того же домена сначала будет выполнена попытка установить соединение с тем почтовым сервером, у которого стоимость доставки ниже. Если такой компьютер окажется недоступным или перегруженным, будут использовать­ся компьютеры с большими значениями стоимости.

Таким образом, чтобы доставить сообщение на имя адресата [email protected], сначала будет выполнен запрос к серверу DNS на получение списка ресурсных записей с типом MX. Если список не пуст, по имени компьютера с наименьшим значением стоимости доставки будет по­лучен его адрес (опять же через DNS), после чего будет установлено соеди­нение и отправлена почта. Если для домена spektr. corn нет МХ-записи, домен будет трактоваться как имя компьютера. Будет выполнена попытка получить его IP-адрес и доставить сообщение напрямую.

В связи с тем, что служба имен DNS полагается источником статической информации, схема маршрутизации сообщений SMTP является статиче­ской. В соответствии с протоколом SMTP в сетях, не имеющих прямого вы­хода в Internet и не использующих возможности МХ-записей DNS, могут использоваться отдельные статические таблицы маршрутизации почтовых сообщений.

В зависимости от возможностей маршрутизации SMTP-сервер может вы­ступать в одной или нескольких из следующих ролей:

- mail exchanger — компьютер, непосредственно подключенный к Internet и выполняющий доставку сообщений напрямую адресатам внутри орга­низации, к которой он принадлежит; в организации может быть не­сколько таких компьютеров с различными или одинаковыми значения­ми показателя стоимости доставки;

- relay — компьютер, выполняющий прием почтового трафика от лица других доменов, не имеющих непосредственного и/или постоянного подключения к Internet и, как правило, не принадлежащий к организа­циям, чьи домены он обслуживает; для каждого отдельного домена мо­жет быть определено не более одного relay-сервера;

- smart host — компьютер, который способен осуществлять пересылку со­общений на основе собственной статической таблицы маршрутизации;

- одной из функций smart host является переписывание на конверте адре­са получателя и/или отправителя перед осуществлением дальнейшей пе­редачи сообщения.

Большинство современных реализации SMTP-серверов позволяют сочетать все перечисленные функции на одном компьютере.

Передача новостей

В компьютерных сетях актуальной является не только задача оперативного обмена данными, но и тиражирования электронных сообщений для совме­стного использования информации различной тематики. Системы новостей, предназначенные для решения этой задачи, обеспечивают распространение посланных по каждой теме электронных статей всем подписавшимся на эту тему пользователям сети.

В системах новостей используются два основных метода тиражирования:

- отправка статей по спискам рассылки;

- использование распределенной базы новостей, статьи из которой пользователи получают сами.

В первом случае серверы тиражирования хранят у себя списки адресов под­писчиков на статьи по различным темам. При необходимости тиражирования какой-либо статьи по определенной тематике пользователь отправляет данную статью в виде сообщения электронной почты по адресу соответст­вующего сервера. Тот, в свою очередь, рассылает копии данной статьи не­посредственно по электронным адресам пользователей, подписавшихся на указанную в статье тему. Тиражирование статей на основе списков рассыл­ки становится неэффективным при росте количества подписчиков. Это свя­зано, прежде всего, со сложностью поддержания списков рассылки в акту­альном состоянии, а также дополнительными требованиями по надежности функционирования серверов, осуществляющих рассылку.

Указанный недостаток устраняется при тиражировании путем использова­ния распределенной базы новостей, статьи из которой пользователи полу­чают сами. Данный способ тиражирования положен в основу службы USENET, являющейся наиболее популярной в сети Internet и ставшей об­щепризнанным стандартом для систем новостей.

Служба USENET изначально ориентирована на работу в архитектуре "кли­ент-сервер" и позволяет поддерживать базы новостей, распределенные меж­ду несколькими серверами с возможностью автоматической репликации вновь поступающих сообщений. Для взаимодействия серверов новостей друг с другом, а также клиентов с серверами был разработан протокол NNTP (Network News Transport Protocol — протокол передачи сетевых ново­стей).

В USENET используется формат и способ адресации сообщений, совпа­дающий с принятыми в SMTP-системах. Информация, специфическая для службы новостей, указывается в расширенных полях заголовка сообщения. Это позволяет разрабатывать клиентские программы для чтения почты и новостей на основе единого кода, а также использовать существующие сети SMTP для получения новостей в тех местах, где непосредственный доступ к серверу новостей по каким-либо причинам невозможен. Кроме того, при­меняются служебные сообщения, предназначенные для обмена управляю­щей информацией между серверами новостей. Благодаря служебным сооб­щениям упрощается процесс автоматического создания и удаления темати­ческих групп новостей, а также ликвидации устаревших статей.

Вся информация, хранимая в USENET, представляется единым иерархиче­ским деревом, организованным по тематическому признаку. В этом смысле USENET выступает в роли тематического каталога, содержащего мнения людей на ту или иную тему. Статьи, объединенные общей тематикой, по­мещаются в тематические группы, называемые группами новостей. Группы новостей, в свою очередь, могут содержаться внутри других групп, образо­вывая тематические иерархии. Каждый уровень иерархии называется катего­рией. В рамках категории группа имеет уникальное имя. Полное характер­ное имя группы получается последовательным добавлением слева направо имен категорий при движении вниз от корня по дереву иерархии. Имена категорий разделяются точкой. Например, имя relcom.comp.security соответ­ствует группе новостей по компьютерной безопасности (comp.security) рус­скоязычной сети Relcom.

Иерархии или их отдельные ветви реплицируются между серверами ново­стей, образующими пространство USENET. В качестве единицы реплика­ции выступает отдельная статья. При репликации используется схема изда­тель-подписчик. Каждый сервер USENET может быть подписан на некоторое подмножество групп, предоставляемых другими серверами. Од­новременно он может публиковать некоторое подмножество групп, распо­ложенных непосредственно на нем, в том числе группы, получаемые по подписке.

В терминах USENET репликация именуется заполнением (feed). В зависимо­сти от того, какой сервер выступает инициатором этого процесса, различа­ют два типа заполнения:

- вытягивание (pull feed), когда сервер, ожидающий поступления новых статей, сам обращается к своему издателю;

- проталкивание (push feed), когда сервер, имеющий у себя новые статьи, производит попытку передать их подписчику.

Еще одним немаловажным моментом службы USENET является возмож­ность создания модерированных групп новостей. В модерируемой группе каж-дое новое сообщение автоматически перенаправляется лицу, выпол­няющему роль цензора или модератора. Если сообщение не противоре­чит уставу конференции и одобрено модератором, оно становится пуб­лично доступным для прочтения. В противном случае — просто удаляется.

Поскольку служба новостей изначально создавалась как средство ведения хранилища публично доступной информации, в ней не были предусмотре­ны функции назначения и проверки прав доступа на отдельные ветви ката­лога. Большинство существующих служб новостей способны выполнить лишь однократную проверку имени и пароля пользователя при установле­нии соединения с сервером, после удачного завершения которой все статьи становятся доступны клиенту. Кроме того, не предусмотрена возможность авторизации серверов и служебных сообщений. Как следствие этого, массо­вое применение USENET оправдано только для организации публичных групп новостей с анонимным режимом доступа.

Возможностями надежной проверки подлинности пользователей и разгра­ничения их доступа к статьям по темам обладают системы электронной почты и новостей, специально разработанные для корпоративных сетей, например, система Mic

Наши рекомендации