Тема: Універсальний ідентифікатор ресурсів URІ
Мета: дати поняття про види технологічного процесу, етапи та графічне уявлення. Визначити основну думку теми, що вивчається, привчити до самостійного аналізу матеріалу
Завдання: скласти опорний конспект на задану тему
Гіпертекст - Текст зі вставленими в нього словами (командами) розмітки, що мають посилання на інші місця цього тексту, інші документи, картинки і т.д.
Основні компоненти технології World Wide Web.
До 1989 гіпертекст представляв нову, багатообіцяючу технологію, яка мала відносно велике число реалізацій з одного боку, а з іншого боку робилися спроби побудувати формальні моделі гіпертекстових систем, які носили скоріше описовий характер і були навіяні успіхом реляційного підходу опису даних.
Ідея Т.Бернерс-Лі полягала в тому, щоб застосувати гіпертекстове модель до інформаційних ресурсів, розподіленим у мережі, і зробити це максимально простим способом. Він заклав три наріжних камені системи з чотирьох що існують нині, розробивши:
мову гіпертекстової розмітки документів HTML (HyperText Markup Lan-guage);
універсальний спосіб адресації ресурсів у мережі URL (Universal Resource Locator);
протокол гіпертекстової обміну інформацією HTTP (HyperText Transfer Protocol).
Пізніше команда NCSA додала до цим трьох компонентам четвертий:
універсальний інтерфейс шлюзів CGI (Common Gateway Interface).
Ідея HTML - приклад надзвичайно вдалого рішення проблеми побудови гіпертекстової системи за допомогою спеціального засобу керування відображенням. На розробку мови гіпертекстової розмітки істотний вплив зробили два фактори: дослідження в області інтерфейсів гіпертекстових систем і бажання забезпечити простий і швидкий спосіб створення гіпертекстової бази даних, розподіленої на мережі.
В 1989 активно обговорювалася проблема інтерфейсу гіпертекстових систем, тобто способів відображення гіпертекстової інформації і навігації в гіпертекстової мережі. Значення гіпертекстової технології порівнювали зі значенням друкарства. Стверджувалося, що лист паперу і комп'ютерні засоби відображення/відтворення серйозно відрізняються один від одного, і тому форма представлення інформації теж повинна відрізнятися. Найбільш ефективною формою організації гіпертексту були визнані контекстні гіпертекстові посилання, а крім того було визнано розподіл на посилання, асоційовані з усім документом в цілому та окремими його частинами.
Самим простим способом створення будь-якого документа є його набивання в текстовому редакторі. Досвід створення добре розмічених для подальшого відображення документів у CERN-е був - важко знайти фізика, який не користувався б системою TeX або LaTeX. Крім того на той час існував стандарт мови розмітки - Standard Generalised Markup Language (SGML).
Слід також взяти до уваги, що згідно зі своїми пропозиціями Т.Бернерс-Лі припускав об'єднати в єдину систему наявні інформаційні ресурси CERN, і першими демонстраційними системами повинні були стати системи для NeXT і VAX/VMS.
Зазвичай гіпертекстові системи мають спеціальні програмні засоби побудови гіпертекстових зв'язків. Самі гіпертекстові посилання зберігаються у спеціальних форматах або навіть складають спеціальні файли. Такий підхід гарний для локальної системи, але не для розподіленої на безлічі різних комп'ютерних платформ. У HTML гіпертекстові посилання убудовані в тіло документа і зберігаються як його частину. Часто в системах застосовують спеціальні формати збереження даних для підвищення ефективності доступу. У WWW документи - це звичайні ASCII-файли, які можна підготувати в будь-якому текстовому редакторі. Таким чином, проблема створення гіпертекстової бази даних була вирішена надзвичайно просто.
В як базу для розробки мови гіпертекстової розмітки був обраний SGML (Standard Generalised Markup Language). Слідуючи академічним традиціям, Бернерс-Лі описав HTML у термінах SGML (як описують мова програмування в термінах форми Бекуса-Наура). Природно, що в HTML були реалізовані всі розмітки, пов'язані з виділенням параграфів, шрифтів, стилів і т. п., тому що реалізація для NeXT мала на увазі графічний інтерфейс. Важливим компонентом мови став опис вбудованих і асоційованих гіпертекстових посилань, вбудованої графіки і забезпечення можливості пошуку за ключовими словами.
З моменту розробки першої версії мови (HTML 1.0) пройшло вже п'ять років. За цей час відбулася досить серйозний розвиток мови. Майже вдвічі збільшилася число елементів розмітки, оформлення документів все більше наближається до оформлення якісних друкованих видань, розвиваються засоби опису не текстових інформаційних ресурсів і способи взаємодії з прикладним програмним забезпеченням. Удосконалюється механізм розробки типових стилів. Фактично, в даний час HTML розвивається убік створення стандартної мови розробки інтерфейсів як локальних, так і розподілених систем.
Другим наріжним каменем WWW стала універсальна форма адресації інформаційних ресурсів. Universal Resource Identification (URI) являє собою досить струнку систему, що враховує досвід адресації й ідентифікації e-mail, Gopher, WAIS, telnet, ftp і т.п.
E-mail (Electronic mail) - електронна пошта (простонародн. - електронний аналог звичайної пошти).
Gopher - Це інтегратор можливостей Internet. Він у зручній формі дозволяє користуватися всіма послугами, що надаються Internet.
WAIS - Діалогова система з віконним інтерфейсом для пошуку даних за ключовими словами в контексті.
telnet має і свій власний набір команд, що керують власне цієї програмою, тобто сеансом зв'язку, його параметрами, відкриттям нових, закриттям і тощо; ці команди подаються з командного режиму telnet, у який можна перейти, натиснувши так звану escape-послідовність клавіш, яка вам повідомляється при досягненні віддаленої машини.
ftp (File Transfer Protocol) - протокол передачі файлів - протокол, що визначає правила передачі файлів з одного комп'ютера на інший. ftp - також назва програми з прикладного забезпечення. Використовує протокол ftp для того, щоб пересилати файли.
Але реально з усього, що описано в URI, для організації баз даних у WWW потрібно тільки Universal Resource Locator (URL). Без наявності цієї специфікації вся міць HTML виявилася б марною. URL використовується в гіпертекстових посиланнях і забезпечує доступ до розподілених ресурсів мережі. У URL можна адресувати як інші гіпертекстові документи формату HTML, так і ресурси e-mail, telnet, ftp, Gopher, WAIS, наприклад. Різні інтерфейсні програми по різному здійснюють доступ до цих ресурсів. Одні, як наприклад Netscape, самі здатні підтримувати взаємодія по протоколах, відмінним від протоколу HTTP, базового для WWW, інші, як наприклад Chimera, викликають для цієї мети зовнішні програми. Однак, навіть у першому випадку, базовою формою представлення що відображається, є HTML, а посилання на інші ресурси мають форму URL. Слід зазначити, що програми обробки електронної пошти у форматі MIME також мають можливість відображати документи, представлені у форматі HTML. Для цієї мети в MIME зарезервований тип "text/html".
Третім в списку коштує протокол обміну даними в World Wide Web - HyperText Transfer Protocol. Даний протокол призначений для обміну гіпертекстовими документами і враховує специфіку такого обміну. Так у процесі взаємодії, клієнт може отримати нову адресу ресурсу на мережі (relocation), запросити вбудовану графіку, прийняти і передати параметри і т. п. Управління в HTTP реалізовано у виді ASCII-команд. Реально розроблювач гіпертекстової бази даних зіштовхується з елементами протоколу тільки при використанні зовнішніх розрахункових програм або при доступі до зовнішнім відносно WWW інформаційним ресурсам, наприклад базам даних.
Остання складова технології WWW - це вже плід роботи групи NCSA - специфікація Common Gateway Interface. CGI була спеціально розроблена для розширення можливостей WWW за рахунок підключення всілякого зовнішнього програмного забезпечення. Такий підхід логічно продовжував принцип публічності і простоти розробки і нарощування можливостей WWW. Якщо команда CERN запропонувала простий і швидкий спосіб розробки баз даних, то NCSA розвинула цей принцип на розробку програмних засобів. Треба зауважити, що у загальнодоступній бібліотеці CERN були модулі, що дозволяють програмістам підключати свої програми до сервера HTTP, але це вимагало використання цієї бібліотеки. Запропонований і описаний в CGI спосіб підключення не вимагав додаткових бібліотек і буквально приголомшував своєю простотою. Сервер взаємодіяв з програмами через стандартні потоки введення/виводу, що спрощує програмування до межі. При реалізації CGI надзвичайно важливе місце зайняли методи доступу, описані в HTTP. І хоча реально використовуються тільки два з них (GET і POST), досвід розвитку HTML показує, що співтовариство WWW чекає розвитку і CGI у міру ускладнення задач, в яких буде використовуватися WWW-технологія.
Архітектура WWW-технології
WWW побудована за добре відомою схемою "клієнт-сервер". Програма-клієнт виконує функції інтерфейсу користувача і забезпечує доступ практично до всіх інформаційних ресурсів Internet. У цьому сенсі вона виходить за звичайні рамки роботи клієнта тільки із сервером визначеного протоколу, як це відбувається в telnet, наприклад. Почасти, досить широко поширене думка, що Mosaic чи Netscape, які безумовно є WWW-клієнтами, це просто графічний інтерфейс у Internet, є почасти вірним. Однак, як уже було відзначено, базові компоненти WWW-технології (HTML і URL) грають при доступі до інших ресурсів Mosaic не останню роль, і тому мультипротокольні клієнти повинні бути віднесені саме до World Wide Web, а не до інших інформаційних технологій Internet. Фактично, клієнт - це інтерпретатор HTML. І як типовий інтерпретатор, клієнт у залежності від команд (розмітки) виконує різні функції. У коло цих функцій входить не тільки розміщення тексту на екрані, але обмін інформацією із сервером у міру аналізу отриманого HTML-тексту, що найбільш наочно відбувається при відображенні вбудованих в текст графічних образів. При аналізі URL-специфікації або по командах сервера клієнт запускає додаткові зовнішні програми для роботи з документами у форматах, відмінних від HTML, наприклад GIF, JPEG, MPEG, Postscript і т.п. Узагалі говорячи для запуску клієнтом програм незалежно від типу документа була розроблена програма Luncher, але в Останнім часом набагато більше поширення одержав механізм узгодження запускаються, через MIME-типи. Іншу частину програмного комплексу WWW становить сервер протоколу HTTP, бази даних документів у форматі HTML, керовані сервером, і програмне забезпечення, розроблене в стандарті специфікації CGI. До останнього часу (до утворення Netscape) реально використовувалося два HTTP-сервери: сервер CERN і сервер NCSA. Але в даний час число базових серверів розширилося. З'явився дуже непоганий сервер для MS-Windows і Apachie-сервер для Unix-платформ. Існують і інші, але два останніх можна виділити з міркувань доступності використання. Сервер для Windows - це shareware, але без вбудованого самоліквідатора, як у Netscape. З огляду на поширеність персоналок в нашій країні, таке програмне забезпечення дає можливість спробувати, що таке WWW. Другий сервер - це відповідь на погрозу комерціалізації. Netscape вже не поширює свій сервер Netsite вільно і пройшов слух, що NCSA-сервер також буде поширюватися на комерційній основі. У результаті був розроблений Apachie, який за словами його авторів буде freeware, і реалізує нові доповнення до протоколу HTTP, пов'язані із захистом від несанкціонованого доступу, які запропоновані групою по розробці цього протоколу і реалізуються практично у всіх комерційних серверах.
База даних HTML-документів - це частина файлової системи, яка містить текстові файли у форматі HTML і зв'язані з ними графіку й інші ресурси. Особливе увагу хотілося б звернути на документи, що містять елементи екранних форм. Ці документи реально забезпечують доступ до зовнішнього програмного забезпечення.
Прикладне програмне забезпечення, що працює із сервером, можна розділити на програми-шлюзи та інші. Шлюзи - це програми, що забезпечують взаємодію сервера із серверами інших протоколів, наприклад ftp, чи з розподіленими на мережі серверами Oracle. Інші програми - це програми, що приймають дані від сервера і виконують які-небудь дії: одержання поточної дати, реалізацію графічних посилань, доступ до локальних баз даних чи просто розрахунки.
Завершуючи обговорення архітектури World Wide Web хотілося б ще раз підкреслити, що її компоненти існують практично для всіх типів комп'ютерних платформ і вільно доступні в мережі. Будь-хто, хто має доступ в Internet, може створити свій WWW-сервер, або, принаймні, подивитися інформацію з інших серверів.