Поисковые системы, основанные на построении тематических каталогов.
В данных информационно-поисковых системах база данных организована в виде структуры каталогов. Помимо интерфейсной подсистемы, обеспечивающей единый способ представления иерархий каталогов, самой базы данных и СУБД в эту поисковую систему входит подсистема сканирования файлов в сети, а также подсистема классификации информации (см. рис. 1.21).
Подсистема классификации ориентирована на систематизацию полученных в результате сканирования сведений. Процесс классификации информации и формирования каталогов выполняется чаще всего вручную подразделением поддержки тематических каталогов.
Результатом ручной классификации сведений об информационных ресурсах сети являются постоянно обновляющиеся иерархические каталоги, на верхнем уровне которых собраны самые общие информационные категории, например, категории, соответствующие направлениям деятельности отдельных подразделений организации. Объекты каталогов, являющиеся нелистовыми вершинами иерархического дерева, представляют собой ссылки на файлы, например, файлы электронных документов (Web, Word, Excel и др.), вместе с кратким описанием их содержимого.
Преимущество тематических каталогов в осмысленности отбора информации, что пока не под силу никакому компьютеру. Но в связи с тем, что темагические каталоги заполняются вручную, нет гарантий относительно их полноты. Кроме того, ручные процессы классификации информации требуют существенных затрат человеческого труда, что может себе позволить не каждая организация.
В Internet большой поп. лярностью пользуются такие международные тематические каталоги, как Yahoo (http://www.yahoo.com) и Infoseek (http://www.infoseek.com). Наиболее популярными в Internet русскоязычными поисковыми системами, включающими тематические каталоги, являются системы Ау (http://www.au.ru) и Rambler (http://www.rambler.ru).
Поисковые системы, основанные на построении индексов.Недостатки, присущие службам тематических каталогов, устраняются в информационно-поисковых системах, основанных на построении индексов. В этих поисковых системах вместо подсистемы классификации применяется подсистема индексирования, а база данных организована в виде списков, ставящих в соответствие ключевым словам указатели на относящиеся к ним описания файлов. Данные указатели, обеспечивающие быстрый поиск сведений по запросам пользователей и программ, называют индексами.
После сканирования файлов в сети и формирования их поисковых образов систематизация полученных сведений выполняется автоматически путем их индексирования. При индексировании составляется список, в котором каждому ключевому слову ставится в соответствие указатель (индекс) на список поисковых образов файлов, к которым это ключевое слово имеет отношение. Отсутствие индексирования привело бы к слишком длительному поиску образов (описаний) документов по заданным ключевым словам.
Структура и состав индексированных списков различных систем могут отличаться друг от друга и зависят от многих факторов: размера массива поисковых образов, информационно-поискового языка, размещения различных компонентов системы и т. п. Рассмотрим структуру индексированного списка на примере системы, для которой можно реализовывать не только примитивный булевый, но и контекстный, а также взвешенный поиск Web-страниц, и ряд других возможностей.
Индексированный список такой системы должен включать таблицу идентификаторов Web-страниц (page-ID), таблицу ключевых слов (Keyword-ID), таблицу модификации Web-страниц, таблицу заголовков, таблицу гипертекстовых связей, инвертированного (IL) и прямого списков (FL).
Page-ID отображает идентификаторы Web-страниц в их адрес (URL), Keyword-ID — каждое ключевое слово в уникальный идентификатор этого слова, таблица заголовков — идентификатор Web-страницы в ее заголовок, таблица гипертекстовых ссылок — идентификатор Web-страницы в гипертекстовую ссылку на эту страницу. Инвертированный список ставит в соответствие каждому ключевому слову документа список пар — идентификатор Web-страницы, позиция слова в странице. Прямой список — это массив поисковых образов Web-страниц.
Все эти файлы, так или иначе, используются при поиске, но главным среди них является файл инвертированного списка. Результат поиска в данном файле — это объединение и/или пересечение списков идентификаторов Web-страниц. Результирующий список, который преобразовывается в список заголовков, снабженных гипертекстовыми ссылками, возвращается пользователю в его программу просмотра Web. Для того чтобы быстро искать записи инвертированного списка, над ним надстраивается еще несколько файлов, например, файл буквенных пар с указанием записей инвертированного списка, начинающихся с этих пар. Кроме этого, применяется механизм прямого доступа к данным — хэширование.
Для обновления индекса используется комбинация двух подходов. Первый можно назвать коррекцией индекса "на ходу" с помощью таблицы модификации страниц. Суть подобного решения довольно проста: старая запись индекса ссылается на новую, которая и используется при поиске. Когда число таких ссылок становится достаточным для того, чтобы ощутить это при поиске, то происходит полное обновление индекса — его перезагрузка. Эффективность поиска в каждой конкретной поисковой системе определяется исключительно архитектурой индекса. Как правило, способ организации этих массивов является "секретом фирмы" и ее гордостью.
Так как сканирование файлов в сети и индексирование полученной при сканировании информации выполняются автоматически, то информационно-поисковые системы, основанные на построении индексов, функционируют в полностью автоматическом режиме, что делает их доступными для компьютерных сетей любых организаций.
Основным способом поиска информации для пользователя поисковой системы, базируемой на построении индексов, является поиск по ключевым словам, который намного мощнее аналогичного способа поиска по отношению к системам, основанным на построении каталогов. Информационно-поисковый язык позволяет сформулировать запрос в простой и наглядной форме. При обработке запроса его содержимое разбивается на лексемы, из которых удаляются запрещенные и общие слова. Иногда производится нормализация лексики, а затем все слова связываются указанными пользователем либо действующими по умолчанию логическими операциями.
Кроме обычного набора логических операций AND, OR, NOT наиболее развитые поисковые системы позволяет использовать еще и операцию NEAR, обеспечивающую контекстный поиск. В запросе можно указать также части документа для поиска: ссылка, заглавие, аннотация и т. п. Можно также задавать поле ранжирования выдачи и критерий близости документов запросу.
В ряде поисковых систем используется коррекция запросов по релевантности. Релевантность — это мера соответствия найденного системой документа потребности пользователя. Различают формальную релевантность и реальную. Первую вычисляет система, и на основании чего ранжируется выборка найденных документов. Вторая — это оценка самим пользователем найденных документов. Некоторые системы имеют для этого специальное поле, где пользователь может отметить документ как релевантный. При следующей поисковой итерации запрос расширяется терминами этого документа, а результат снова ранжируется. Так происходит до тех пор, пока не наступит стабилизация, означающая, что ничего лучше, чем полученная выборка, от данной системы не добьешься.
В Internet большой популярностью пользуются такие международные поисковые системы, основанные на построении индексов, как AltaVista (http://altavista.digital.com) и Lycos (http://www.lycos.com). Популярными русскоязычными поисковыми системами данного типа являются:
- Rambler (http://www.rambler.ru);
- Ау (http://www.au.ru);
- Русская машина поиска (http://search.interrussia.com);
- Russian Internet Search (http://www.search.ru).
Поисковые системы Lycos, Ay и Rambler являются комбинированными, объединяющими индексированные списки и тематические каталоги.
В настоящее время появился ряд информационно-поисковых систем для корпоративных компьютерных сетей. В рамках Web-сервера Enterprise Server компании Netscape реализована поисковая система, основанная на построении индексов. Корпорация Netscape выпустила и отдельный поисковый сервер Catalog Server, объединяющий функции построения индексированных списков и каталогов. В состав операционной системы Microsoft Windows NT Server, начиная с четвертой версии, включена поисковая система Index Server, основанная на построении индексов.
2.6. Электронная почта и системы новостей.
Помимо Web-сервиса одними из наиболее популярных сетевых сервисов являются электронная почта (E-mail) и система новостей (Network News), часто называемая еще системой телеконференций. Эти службы сети функционируют на прикладном уровне модели OSI и предназначены для обработки и доставки электронных сообщений в распределенной сетевой среде. Однако если при отправке сообщения электронной почты конкретизируется адрес получателя, то при отправке сообщения системы новостей адрес получателя не указывается, а задается лишь тема сообщения.
Сообщение электронной почты доставляется получателю, адрес которого указан в заголовке сообщения. Сообщение же системы новостей, называемое еще статьей, могут получить все, кто подписался по теме, также указанной в заголовке сообщения. Соответственно аналогом сообщений электронной почты являются обычные письма, а аналогом статей системы новостей — газеты и журналы, доставляемые по подписке.
Современные программы электронной почты и систем новостей позволяют не только создавать сообщения в формате HTML, используемом в Web-документах, но и добавлять к отправляемым сообщениям любые файлы, например, файлы с аудио- или видеоинформацией.
Обмен электронными сообщениями Рекомендации стандарта Х.400. Использование электронной почты для оперативного обмена информацией между людьми как внутри отдельно взятой организации, так и за ее пределами существенно повышает эффективность совместного труда.
Структура и принципы функционирования любой современной почтовой системы в общем случае соответствуют рекомендациям стандарта Х.400, являющимся результатом деятельности международного комитета по средствам телекоммуникаций (CITT во французской транскрипции или ITU в английской). Рекомендации Х.400 охватывают все аспекты построения среды управления сообщениями: компоненты и схемы их взаимодействия, протоколы управления и передачи, форматы сообщений и правила их преобразования.
Система обмена электронными сообщениями в рамках большой компьютерной сети представляет собой совокупность почтовых отделений, объединенных между собой сетевой средой. Локальная сеть может содержать лишь одно почтовое отделение, обслуживающее всех пользователей.
Схема построения системы обмена сообщениями
Схема функционирования каждого почтового отделения реализуется в соответствии с технологией "клиент-сервер", когда почтовый сервер осуществляет обработку запросов, поступающих от почтовых клиентов. В качестве почтовых клиентов выступают программы электронной почты, установленные на компьютерах пользователей. Программы, исполняющие роль почтовых серверов, чаще всего устанавливаются на серверах сети.
Основными компонентами почтового сервера являются:
- подсистема передачи сообщений, выполняющая их пересылку;
- хранилище сообщений, предназначенное для промежуточного хранения сообщений перед их пересылкой получателю или передачей почтовым клиентам.
В зависимости от масштабности сети пересылка сообщений подсистемой передачи может выполняться либо напрямую почтовому серверу получателя, либо через промежуточные почтовые серверы в соответствии с правилами маршрутизации, определяемыми используемым протоколом обмена электронными сообщениями.
Хранилище сообщений каждого почтового сервера состоит из почтовых ящиков пользователей этого сервера, а также перевалочных почтовых ящиков, используемых для промежуточного хранения транзитных сообщений. Хранилище позволяет осуществлять отправку сообщений в наиболее удобное для почтового сервера время. Кроме того, хранилище не требует постоянного подключения к почтовому серверу компьютеров пользователей, что актуально для Internet. В этом случае почтовые клиенты могут извлекать предназначенные для пользователей сообщения при подключении к серверу.
Таким образом, основными способами отправки почтовых сообщений являются следующие:
- отправка сообщения почтовым клиентом через хранилище, когда пользователь, используя свою программу электронной почты, помещает отправляемое сообщение непосредственно в хранилище сообщений; оттуда оно выбирается и отправляется подсистемой передачи;
- отправка сообщения почтовым клиентом через подсистему передачи, когда сообщение передается напрямую данной подсистеме и далее доставляется ее средствами.
- основным способам получения сообщений относятся:
- получение сообщения почтовым клиентом из хранилища; в этом случае подсистема передачи осуществляет доставку сообщения в почтовый ящик получателя для его дальнейшей обработки программой электронной почты пользователя;
- получение сообщения почтовым клиентом от подсистемы передачи, когда данная подсистема непосредственно отправляет сообщение программе электронной почты получателя.
Первые из перечисленных способов отправки и получения электронных сообщений используют в случае отсутствия постоянного подключения компьютеров пользователей к почтовому серверу, вторые — при постоянном подключении пользовательских компьютеров к сети.
В качестве дополнительного, но очень важного компонента почтового сервера выступает служба каталогов, поддерживающая имена, описания и адреса пользователей сети. В состав почтового клиента должна входить адресная книга, также предназначенная для хранения имен, описаний и адресов пользователей сети. Но в отличие от службы каталогов, хранящей всю справочную информацию, адресная книга заполняется пользователем. Адресная книга, по сути, является службой каталогов, поддерживаемой пользователем, и должна обеспечивать взаимодействие с общей службой каталогов сети.
Адресная книга и служба каталогов сети должны иметь возможность создания, сохранения и выборки списков рассылки. Список рассылки представляет собой группу электронных адресов, по которым можно одновременно отправить одно сообщение. Будучи отправлено на адрес списка рассылки, сообщение будет доставлено по всем входящим в него адресам.
Для описания формата сообщения электронной почты в рекомендациях Х.400 была принята привычная парадигма конверта и его содержимого, используемая в традиционных почтовых системах.
Структура электронного сообщения
Как и положено, конверт содержит исчерпывающую информацию о том, куда и кому должно быть доставлено письмо, обратный адрес отправителя и пометку о срочности доставки. При этом системе нет необходимости знать, что бы то ни было о содержимом письма. На основе информации, указанной на конверте, среда доставки выполняет необходимую маршрутизацию и передачу с возможным промежуточным хранением. Роль перевалочных пунктов и средств транспортировки выполняют транзитные почтовые серверы.
Конверт может иметь специальную пометку о необходимости установки на нем электронного "штампа" каждым почтовым сервером, через который проходит сообщение на пути к адресату. Это, в частности, позволяет системе автоматически отслеживать возникновение маршрутных петель.
Содержимое конверта состоит из заголовка и тела. Заголовок обычно включает в себя копию информации, указанной на конверте, и дополнительные поля, определяющие расширенные свойства сообщения. Тело в свою очередь может быть составным и включать различные типы информации, такие как текст, графика, документы различных форматов, вложенные файлы и т. д.
Рекомендации Х.400 предусматривают также возможность автоматического уведомления отправителя о факте доставки и/или прочтения посланного им сообщения.
Протокол SMTP.Несмотря на мощную теоретическую базу и практически безупречный архитектурный дизайн, стандарт Х.400 не получил широкого распространения за пределами государственных и банковских учреждений. Недостатками этого стандарта явились чрезмерная сложность реализации и значительная стоимость внедрения и эксплуатации систем на его основе. Однако вытекающие из этого стандарта общие принципы управления сообщениями стали основой современных почтовых служб.
Наиболее распространенным протоколом электронной почты является протокол SMTP (Simple Mail Transfer Protocol — простой протокол передачи почты), ставший стандартом обмена сообщениями в Internet и intranet. Популярность этого протокола объясняется сравнительной простотой реализации и широкими возможностями расширяемости без ущерба ддя обратной совместимости с существующими версиями почтовых систем. Немаловажным фактором является также широкая доступность спецификаций и отсутствие необходимости отчислять средства за их использование.
Протокол SMTP в качестве транспортного протокола использует TCP и применяется для реализации двух функций:
- пересылки отправляемых сообщений от почтовых клиентов к почтовым серверам этих клиентов;
- передачи сообщений между почтовыми серверами.
Начальная версия протокола SMTP поддерживала ограниченный набор команд и сервисов для приема и передачи сообщений. В последнее время был разработан его расширенный вариант (Extended SMTP или ESMTP), обеспечивающий стандартную возможность дальнейшего расширения и поддержку таких функций, как подтверждение доставки (Delivery Notification Request или DNR), согласование максимального допустимого размера сообщений, передаваемых между серверами, и принудительная инициация передачи накопленной почты.
Схема обмена сообщениями на базе протокола SMTP
Однако протокол SMTP при автономном применении все еще обладает рядом недостатков:
- отсутствие возможности аутентификации входящих соединений;
- ориентация на передачу только текстовой информации;
- отсутствие возможности шифрования передаваемых сообщений.
Для устранения этих недостатков SMTP используется совместно с дополняющими его протоколами и стандартами.
Отсутствие средств аутентификации входящих соединений не позволило использовать SMTP для обслуживания клиентского доступа. Классическая почтовая SMTP-система требует наличия файлового доступа клиента к своему почтовому ящику для получения и работы с сообщениями. Для реализации работы в режиме клиент-сервер был создан протокол обслуживания почтового офиса (Post Office Protocol или POP). Наиболее удачной оказалась версия РОРЗ, широко используемая в современных SMTP-системах. Протокол РОРЗ позволяет пользователю с помощью программы электронной почты, выполняющей роль клиента, забрать из своего почтового ящика, расположенного на почтовом сервере, поступившие сообщения.
Наиболее продвинутые реализации РОРЗ поддерживают аутентификацию с шифрованием имени и пароля, а также шифрование трафика по протоколу Secure Socket Layer (SSL). Однако при использовании протокола РОРЗ отсутствует возможность просмотра характеристик сообщения без предварительной загрузки его на станцию клиента. Для решения проблемы просмотpa и манипуляции свойствами почтового сообщения непосредственно на сервере, а также преодоления ряда других функциональных ограничений был разработан протокол IMAP4. В отличие от РОРЗ протокол IMAP4 предоставляет следующие возможности:
- просмотр заголовков сообщений, чтобы определить, какие из них следует читать (загружать с почтового сервера на рабочую станцию);
- избирательную загрузку с сервера частей сообщений в формате MIME;
- поиск сообщений на сервере;
- создание как стандартных, так и определенных пользователем атрибутов сообщений, например, для идентификации рабочих групп, проектов и т. д.;
- организацию на сервере иерархии папок вне входного почтового ящика;
- распределение по созданным на сервере папкам почтовых сообщений, их обновление и долговременное централизованное хранение;
- централизованное резервирование и восстановление почтовых сообщений, хранящихся на сервере.
Современные программы электронной почты, например Microsoft Outlook Express, поддерживают в качестве клиентского почтового протокола как РОРЗ, так и IMAP4.
Следует заметить, что если для получения сообщений почтовым клиентом с сервера используется протокол РОРЗ или IMAP4, то отправка сообщений от почтового клиента на сервер все равно реализуется в соответствии с протоколом SMTP (рис. 1.25).
Изначально SMTP-системы рассчитывались на передачу информации исключительно в текстовом виде и не были ориентированы на передачу символов национальных алфавитов, т. е. использовали 7-битный набор символов.
Для решения проблемы передачи двоичных файлов был разработан стандарт UUENCODE, позволяющий внедрять предварительно преобразованные из бинарного в текстовый вид произвольные данные непосредственно в текст сообщения. Однако универсальным данный подход назвать было трудно, так как в общем случае никакой информации о типе передаваемых данных и породившем их приложении принимающая сторона не имела.
По мере расширения сети Internet, усложнения программного обеспечения и активного внедрения мультимедиа назрела необходимость создания универсального формата типизации и представления двоичных данных и текста, содержащего национальные символы. Таким универсальным форматом стали многофункциональные расширения почты Internet (Multipurpose Internet Mail Extensions или MIME). Формат MIME оказался чрезвычайно удачным, поскольку в него были заложены возможности неограниченного расширения как поддерживаемых типов данных, так и национальных кодировок.
Использование MIME позволяет включить в электронное письмо аудиоинформацию, двоичные данные или оцифрованный видеосигнал, а также подсоединять к передаваемому сообщению любые файлы. С помощью MIME можно создавать и читать электронные письма, содержащие информацию в RTF- и HTML-формате, в частности различные текстовые шрифты, сканированные изображения и электронные таблицы.
Немаловажной проблемой при передаче данных через SMTP-системы является обеспечение конфиденциальности. Для решения проблем с защитой информации был создан стандарт на шифрование тела сообщения, называемый засекреченные многофункциональные расширения почты (Secure MIME или S/MIME). Однако этот протокол не в состоянии защитить от перехвата заголовков сообщений.
Сообщение SMTP в соответствии с рекомендациями стандарта Х.400 состоит из конверта и содержимого. Содержимое в свою очередь имеет заголовок и тело. Функциональное назначение их полностью идентично. Состав полей в заголовке определяется форматом тела сообщения (UUENCODE или MIME). Ни одно поле не является обязательным, но, как правило, указываются такие поля, как кому (То:), от кого (From:) и тема (Subject:). В случае использования формата MIME в заголовке обязательно должно присутствовать поле MIME-Version:, в котором указывается номер версии стандарта MIME.
Адресация и маршрутизация.Для отсутствия противоречий в процессе обмена сообщениями каждый пользователь почтовой системы должен иметь в ней уникальный почтовый адрес. Этот адрес должен идентифицировать именно пользователя, а не используемый этим пользователем компьютер. Схему назначения уникальных адресов пользователям в той или иной почтовой системе называют адресацией.
При наличии в сети избыточных связей доставка сообщения получателю должна осуществляться по оптимальному маршруту от почтового сервера отправителя к почтовому серверу получателя. Процесс выбора очередного пункта на пути следования сообщения к почтовому серверу-получателю, называемый маршрутизацией, осуществляется на основе специальных таблиц. Маршрутизация почтовых сообщений реализуется поверх маршрутизации пакетов сетевого уровня. После выбора очередного транзитного почтового сервера в соответствии с правилами маршрутизации почтовых сообщений осуществляется маршрутизация на сетевом уровне модели OSI для оптимальной доставки выбранному транзитному серверу.
Схемы адресации и маршрутизации в конкретной системе электронной почты определяются применяемым протоколом обмена почтовыми сообщениями. Администратору, в чьи задачи входит обеспечение взаимодействия между несколькими разнородными системами передачи сообщений, необходимо знать методы адресации и маршрутизации, используемые в каждой из них. Рассмотрим схемы адресации и маршрутизации на примере протокола SMTP.
Адресация в SMTP.В системах на базе SMTP используется интуитивно понятная, простая и одновременно очень мощная иерархическая схема адресации, аналогичная той, что принята в службе имен Internet (Domain Name Services или DNS). Данная схема может обеспечить уникальность адреса практически неограниченному числу пользователей. Почтовый адрес SMTP записывается в следующем виде:
mailbox@domain
где mailbox — символическое имя почтового ящика пользователя (длиной до 63 символов), a domain — уникальное имя почтового домена, в котором зарегистрирован упомянутый пользователь (длиной до 255 символов). Сочетание имен почтового ящика и почтового домена образует уникальный идентификатор пользователя.
Почтовый домен хранит полную информацию о положении системы в иерархии почтового пространства организации (рис. 1.26). В имени домена имя каждого следующего уровня иерархии отделяется от предыдущего точкой. Разбор имени домена выполняется справа налево. Самый верхний уровень, называемый корневым доменом, соответствует либо типу организации (например, corn — коммерческая, gov — государственная, org — общественная), либо географическому региону (например, ru — Россия, a fr — Франция). Следующими в иерархии идут домены первого уровня, как правило, представляющие имя организации.
Пример иерархической схемы адресации в SMTP
Регистрацией имен доменов первого уровня занимается международный центр Internet (Internet Network Information Center или InterNIC). За назначение имен доменов более низкого уровня чаще всего отвечают сами компании. Поскольку организациям не запрещается регистрировать для собственных нужд несколько параллельных доменов (например, spektr.spb.ru и spektr. corn), пользователь может иметь более одного SMTP-адреса. Кроме того, современные SMTP-системы зачастую позволяют назначать псевдонимы для самого почтового ящика.
В приведенном примере spektr.spb.ru является субдоменом spb.ru, который в свою очередь является субдоменом ru. Компания SPEKTR имеет два зарегистрированных имени, и каждый пользователь может иметь два почтовых адреса.
Маршрутизация в SMTP.Для того чтобы SMPT-сервер доставил почту на имя адресата [email protected], ему предварительно нужно узнать IP-адрес почтового сервера, обслуживающего домен spektr. corn, обратившись с соответствующим запросом к серверу DNS. В службе имен DNS предусмотрен специальный тип ресурсной записи для обслуживания такого рода запросов — MX или Mail Exchanger. Данная запись имеет следующий формат:
domain MX [cost] hostname
где domain — это имя почтового домена, к которому принадлежит адресат;
hostname — символическое имя почтового сервера, располагающего знаниями о том, как осуществлять дальнейшую доставку сообщения; cost — относительная стоимость доставки через этот компьютер. Для получения IP-адреса компьютера с именем hostname выполняется поиск адресной ресурсной записи в DNS. При наличии нескольких МХ-записей для одного и того же домена сначала будет выполнена попытка установить соединение с тем почтовым сервером, у которого стоимость доставки ниже. Если такой компьютер окажется недоступным или перегруженным, будут использоваться компьютеры с большими значениями стоимости.
Таким образом, чтобы доставить сообщение на имя адресата [email protected], сначала будет выполнен запрос к серверу DNS на получение списка ресурсных записей с типом MX. Если список не пуст, по имени компьютера с наименьшим значением стоимости доставки будет получен его адрес (опять же через DNS), после чего будет установлено соединение и отправлена почта. Если для домена spektr. corn нет МХ-записи, домен будет трактоваться как имя компьютера. Будет выполнена попытка получить его IP-адрес и доставить сообщение напрямую.
В связи с тем, что служба имен DNS полагается источником статической информации, схема маршрутизации сообщений SMTP является статической. В соответствии с протоколом SMTP в сетях, не имеющих прямого выхода в Internet и не использующих возможности МХ-записей DNS, могут использоваться отдельные статические таблицы маршрутизации почтовых сообщений.
В зависимости от возможностей маршрутизации SMTP-сервер может выступать в одной или нескольких из следующих ролей:
- mail exchanger — компьютер, непосредственно подключенный к Internet и выполняющий доставку сообщений напрямую адресатам внутри организации, к которой он принадлежит; в организации может быть несколько таких компьютеров с различными или одинаковыми значениями показателя стоимости доставки;
- relay — компьютер, выполняющий прием почтового трафика от лица других доменов, не имеющих непосредственного и/или постоянного подключения к Internet и, как правило, не принадлежащий к организациям, чьи домены он обслуживает; для каждого отдельного домена может быть определено не более одного relay-сервера;
- smart host — компьютер, который способен осуществлять пересылку сообщений на основе собственной статической таблицы маршрутизации;
- одной из функций smart host является переписывание на конверте адреса получателя и/или отправителя перед осуществлением дальнейшей передачи сообщения.
Большинство современных реализации SMTP-серверов позволяют сочетать все перечисленные функции на одном компьютере.
Передача новостей
В компьютерных сетях актуальной является не только задача оперативного обмена данными, но и тиражирования электронных сообщений для совместного использования информации различной тематики. Системы новостей, предназначенные для решения этой задачи, обеспечивают распространение посланных по каждой теме электронных статей всем подписавшимся на эту тему пользователям сети.
В системах новостей используются два основных метода тиражирования:
- отправка статей по спискам рассылки;
- использование распределенной базы новостей, статьи из которой пользователи получают сами.
В первом случае серверы тиражирования хранят у себя списки адресов подписчиков на статьи по различным темам. При необходимости тиражирования какой-либо статьи по определенной тематике пользователь отправляет данную статью в виде сообщения электронной почты по адресу соответствующего сервера. Тот, в свою очередь, рассылает копии данной статьи непосредственно по электронным адресам пользователей, подписавшихся на указанную в статье тему. Тиражирование статей на основе списков рассылки становится неэффективным при росте количества подписчиков. Это связано, прежде всего, со сложностью поддержания списков рассылки в актуальном состоянии, а также дополнительными требованиями по надежности функционирования серверов, осуществляющих рассылку.
Указанный недостаток устраняется при тиражировании путем использования распределенной базы новостей, статьи из которой пользователи получают сами. Данный способ тиражирования положен в основу службы USENET, являющейся наиболее популярной в сети Internet и ставшей общепризнанным стандартом для систем новостей.
Служба USENET изначально ориентирована на работу в архитектуре "клиент-сервер" и позволяет поддерживать базы новостей, распределенные между несколькими серверами с возможностью автоматической репликации вновь поступающих сообщений. Для взаимодействия серверов новостей друг с другом, а также клиентов с серверами был разработан протокол NNTP (Network News Transport Protocol — протокол передачи сетевых новостей).
В USENET используется формат и способ адресации сообщений, совпадающий с принятыми в SMTP-системах. Информация, специфическая для службы новостей, указывается в расширенных полях заголовка сообщения. Это позволяет разрабатывать клиентские программы для чтения почты и новостей на основе единого кода, а также использовать существующие сети SMTP для получения новостей в тех местах, где непосредственный доступ к серверу новостей по каким-либо причинам невозможен. Кроме того, применяются служебные сообщения, предназначенные для обмена управляющей информацией между серверами новостей. Благодаря служебным сообщениям упрощается процесс автоматического создания и удаления тематических групп новостей, а также ликвидации устаревших статей.
Вся информация, хранимая в USENET, представляется единым иерархическим деревом, организованным по тематическому признаку. В этом смысле USENET выступает в роли тематического каталога, содержащего мнения людей на ту или иную тему. Статьи, объединенные общей тематикой, помещаются в тематические группы, называемые группами новостей. Группы новостей, в свою очередь, могут содержаться внутри других групп, образовывая тематические иерархии. Каждый уровень иерархии называется категорией. В рамках категории группа имеет уникальное имя. Полное характерное имя группы получается последовательным добавлением слева направо имен категорий при движении вниз от корня по дереву иерархии. Имена категорий разделяются точкой. Например, имя relcom.comp.security соответствует группе новостей по компьютерной безопасности (comp.security) русскоязычной сети Relcom.
Иерархии или их отдельные ветви реплицируются между серверами новостей, образующими пространство USENET. В качестве единицы репликации выступает отдельная статья. При репликации используется схема издатель-подписчик. Каждый сервер USENET может быть подписан на некоторое подмножество групп, предоставляемых другими серверами. Одновременно он может публиковать некоторое подмножество групп, расположенных непосредственно на нем, в том числе группы, получаемые по подписке.
В терминах USENET репликация именуется заполнением (feed). В зависимости от того, какой сервер выступает инициатором этого процесса, различают два типа заполнения:
- вытягивание (pull feed), когда сервер, ожидающий поступления новых статей, сам обращается к своему издателю;
- проталкивание (push feed), когда сервер, имеющий у себя новые статьи, производит попытку передать их подписчику.
Еще одним немаловажным моментом службы USENET является возможность создания модерированных групп новостей. В модерируемой группе каж-дое новое сообщение автоматически перенаправляется лицу, выполняющему роль цензора или модератора. Если сообщение не противоречит уставу конференции и одобрено модератором, оно становится публично доступным для прочтения. В противном случае — просто удаляется.
Поскольку служба новостей изначально создавалась как средство ведения хранилища публично доступной информации, в ней не были предусмотрены функции назначения и проверки прав доступа на отдельные ветви каталога. Большинство существующих служб новостей способны выполнить лишь однократную проверку имени и пароля пользователя при установлении соединения с сервером, после удачного завершения которой все статьи становятся доступны клиенту. Кроме того, не предусмотрена возможность авторизации серверов и служебных сообщений. Как следствие этого, массовое применение USENET оправдано только для организации публичных групп новостей с анонимным режимом доступа.
Возможностями надежной проверки подлинности пользователей и разграничения их доступа к статьям по темам обладают системы электронной почты и новостей, специально разработанные для корпоративных сетей, например, система Mic