Вопрос 7. Поиск информации в World Wide Web
Основные понятия всемирной паутины
К основным видам сервиса Интернет относят WWW, электронную почту, группы новостей, чат, FTP, Gopher, Wais, Telnet,IP-телефония и др. Рассмотрим подробнее наиболее популярные виды сервиса WWW и электронная почта.
WWW (World Wide Web, Web) – всемирная паутина – одна из последних по времени появления (первые программы, демонстрирующие работу системы, были закончены в 1992 году) среди услуг Интернет, но наиболее динамично и быстро развивающаяся. Технология WWW была разработана в Женеве в лаборатории физики элементарных частиц Европейского центра ядерных исследований (CERN) и первоначально предназначалась для создания единой сети, которая позволила бы ученым, занимающимся физикой высоких энергий, обмениваться результатами исследований. В марте 1989 сотрудник лаборатории Тим Бернерс-Ли предложил использовать для этой цели систему гипертекста. Успех World Wide Web был предопределен простотой в использовании и универсальностью, хотя еще не было возможности использовать мультимедиа-технологии, не рассматривалась возможность передачи изображений. До появления World Wide Web сеть Интернет была доступна только квалифицированным пользователям, система же WWW дала возможность реализовывать все возможности этой сети людям, не имевшим большого компьютерного опыта.
Гипертекст – документ или множество документов, непременной составной частью которых являются гиперссылки.
Гиперссылка– это текст, выделенный цветом или подчеркиванием, графическое изображение или кнопка, заключенные в подсвеченную рамку, при выборе которого осуществляется переход к другому документу или к определенному месту в данном документе. Если подвести указатель мыши к гипертекстовой ссылке, он примет вид «указывающей руки». Щелчок по гипертекстовой ссылке позволяет открывать другие Web-страницы или перемещаться по уже открытому документу.
Любое слово в гипертекстовом документе может быть указателем или ссылкой (link, hyperlink) на другой документ, содержащий более подробную информацию по данной теме. Подобные документы могут быть подготовлены различными средствами, разными авторами и храниться на различных серверах (в том числе и физически удаленных друг от друга, часто находящихся в другом городе, в другой стране, на другом континенте). Для того чтобы открыть следующий документ, достаточно выбрать нужную ссылку.
Постепенно принцип гипертекста был распространен и на другие виды объектов. Появилось понятие «гипермедиа». Гипермедиа-документы имеют связи не только с иными фрагментами текста, но и с разнообразными средствами мультимедиа (звуком, изображением, видео).
Для создания и оформления гипертекстовых документов используется язык разметки гипертекста HTML (Hypertext Markup Language). Созданным файлам присваивается расширение .html или .htm. Мультимедиа-элементы, рисунки (стандартно поддерживаются только форматы картинок .GIF и .JPEG) и другие нетекстовые компоненты не вставляются в документ непосредственно и хранятся отдельно. Вместо этого в текст вставляется ссылка, указывающая программе просмотра имя файла, содержащего необходимый объект.
Web-страница – это гипертекстовый документ в формате .html. Он может содержать текст, графические иллюстрации, мультимедийные и другие вставные объекты. Группа Web-страниц,размещенных на одном узле, связанных вместе единой темой, общим стилем оформления и взаимными гипертекстовыми ссылками называетсяWeb-сайтом.Информация в виде гипертекстовых документов хранится на Web-серверах. Web-сервер представляет собой компьютер, на котором работает соответствующее программное обеспечение, позволяющее пользователям Интернет подсоединяться и пользоваться WWW-ресурсами этого компьютера для поиска и просмотра информации.
Адресация Web-страниц
Официально World Wide Web описывается как «огромная база гипермедиа-документов, предназначенная для того, чтобы обеспечить универсальный доступ к различной информации». World Wide Web использует протокол передачи гипертекста – HTTP (Hypertext Transfer Protocol) в качестве основного протокола работы. Для доступа к объектам (Web-страницам) протокол НТТР использует их универсальный указатель ресурса – URL (Uniform Resource Locator). В общем виде формат URL можно представить следующим образом:
метод доступа://сетевой адрес компьютера/путь/имя файла,
где параметр метод доступа к Web-ресурсу имеет значение http;параметр сетевой адрес компьютера указывает доменный или IP-адрес компьютера (например, bseu.by), содержащего данный ресурс в сети Интернет; путь/имя файла –полный путь к файлу на сервере. Очень часто URL не содержит имени файла и пути, например: http://www.microsoft.com.
Использование браузера Microsoft Internet Explorer
Как и большинство видов сервиса Интернета, WWW построен на основе модели клиент – сервер. Со стороны Интернета работу службы WWW обеспечивают серверные программные средства – Web-серверы, основной функцией которых является прием поступающих от пользователей сети запросов по прикладному протоколу http и отправке им отдельных Web-страниц или ответов сервера на запросы. Информацию запрашивают, получают и отображают Web-клиенты. В качестве клиента выступает программа, называемая Web-браузером. Браузер (Browser) – программное обеспечение, предоставляющее графический интерфейс для интерактивного поиска, обнаружения, просмотра и обработки данных в сети Интернет. Наиболее широкое распространение получили браузеры Microsoft Internet Explorer корпорации Microsoft и Netscape Navigator корпорации Netscape. Они снабжены средствами просмотра текстовой, графической и мультимедиа информации, имеют редакторы для создания собственных гипертекстовых страниц в формате .html и их публикации на Web-серверах, предоставляют возможность доступа к электронной почте, телеконференциям и имеют ряд других средств.
К основным функциональным возможностям браузераMicrosoft Internet Explorer относятся:просмотр документов, открытых одновременно в разных окнах; поддержка работы электронной почты; сохранение просматриваемого документа или его части на магнитном носителе; сохранение текста текущей страницы в текстовом формате, в формате .html; сохранение рисунков и объектов, расположенных на странице; сохранение Web-страницы целиком; остановка процесса загрузки страницы; ускорение процесса загрузки путем отключения загрузки мультимедийного содержимого; обновление (повторная загрузка) информации для текущей страницы; редактирование Web-страницы в Front Page.
Рассмотрим технологию работы с Web-браузером на примере Microsoft Internet Explorer 5.0.
1. Для запуска Internet Explorer 5.0 выберите соответствующую пиктограмму на рабочем столе Windows или выполните команду Пуск► Программы►Internet Explorer.
Окно браузера Internet Explorer (рис. 8.1) обычно содержит: строку заголовка, в которой отображается название самого приложения и открытой в браузере Web-страницы; строку основного меню; панель инструментов; адресную строку, в которой указывается адрес открытой Web-страницы; значок состояния, который вращается, если происходит поступление данных с удаленного компьютера; строку состояния, в которой отображается информация о текущем состоянии программы; область просмотра Web-страниц, в которой отображается содержимое Web-страницы. При запуске Internet Explorer в области просмотра загружается страница, называемая домашней, то есть страница, с которой начинается просмотр.
2. Для получения доступа к сайту Белорусского государственного экономического университета укажите в поле Адрес URL-адрес http://www.bseu.by и нажмите [Enter]. Также можно использовать команду Файл►Открыть основного меню Internet Explorer и в диалоговом окне Открытие ввести URL-адрес затем нажать [ОК].
1. 3. Установите текущую Web-страницу в качестве домашней. Для этого выберите команду меню Сервис►Свойства обозревателя►вкладка Общие, в группе Домашняя страница нажмите кнопку [С текущей]. Если нажать кнопку [C исходной], установится в качестве домашней страница фирмы-производителя Microsoft,при нажатии кнопки [С пустой] – пустая страница.
При необходимости остановки вывода страницы (например, если страница загружается слишком долго) используется кнопка [Остановить] панели инструментов или команда Вид►Остановить а для повторного открытия страницы (например, если связь оборвалась)по введенному адресу – кнопка [Обновить] или команда Вид►Обновить.
2. 4. Осуществите настройку отображения объектов, выбрав команду Сервис►Свойства обозревателя и вкладку Дополнительно. На вкладке Дополнительно, если не установлены, то установите флажки: Воспроизводить анимацию, Воспроизводить звуки, Воспроизводить видео, Отображать рисунки. Запустите Microsoft Internet Explorer и убедитесь в том, что после запуска программы на Web-странице отображаются все указанные объекты.
3. 5. Выберите гиперссылку Факультеты, и ознакомьтесь с содержимым открытой Web-страницы.
4. 6. Просмотрите предыдущую Web-страницу, открытую в текущем сеансе работы, нажав кнопку панели инструментов [Назад] или выбрав команду меню Переход►Назад.Для просмотра следующих страниц (те, которые были открыты на предыдущем шаге, в нашем случае Web-страница с факультетами) – кнопку [Вперед] или команду меню Переход►Вперед.Дляперехода к домашней странице нажмите кнопку [Домой] или выберите команду Переход►Домашняя страница.
5. 7. На панели инструментов нажмите кнопку [Журнал] для показа содержимого папки Журнал, которое отображается в левой части окна браузера. Папка Журнал содержит список ссылок за определенное количество дней на открытые ранее Web-страницы. Если папка содержит ссылки за достаточно большой промежуток времени, то они группируются по соответствующим неделям, дням недели и т.п. Выберите команду Сервис►Свойства обозревателя и на вкладке Общие в группе Журнал установите количество дней хранения ссылок равное 10 и нажмите кнопку [ОК]. (Если нажать кнопку [Очистить], то все предыдущие записи из журнала при подтверждении удаления будут удалены). Выберите Web-страницу с перечнем факультетов и откройте ее щелчком мыши по найденной ссылке. Повторно нажмите кнопку [Журнал], чтобы закрыть эту папку.
6. 8. Откройте домашнюю Web-страницу (см. п. 6). Для добавления ссылки на домашнюю Web-страницу в папку Избранноевыберите команду основного менюИзбранное►Добавить в избранноеи в появившемся диалоговом окне нажмите кнопку [ОК].Содержимоепапки Избранноеформирует сам пользователь, занося в нее необходимые ссылки на Web-страницы. Выберите следующую Web-страницу, нажав гиперссылку Для студентов и занесите ссылку на нее в папку Избранное.
7. 9. Просмотрите содержимое папки Избранное,нажав кнопку [Избранное] панели инструментов. Содержимое папки Избранное как и папки Журналотобразится в левой части окна браузера. В папке Избранное требуемая страница открывается щелчком мыши. Повторное нажатие кнопки [Избранное] закрывает ее. Для удаления, перемещения, переименования ссылок на Web-страницы в папке Избранное используется команда Избранное►Упорядочить избранное.
8. 10. Сохраните в файл в своей папке на жестком диске домашнюю Web- страницу с помощью команды Файл►Сохранить как. В диалоговом окне Сохранение веб-страницы в поле Папка укажите свою папку, в поле Имя файла – БГЭУ_домашняя, в поле Тип файла – одно из предлагаемых значений: Веб-страница полностью, текстовый файл .txt, Веб-страница, только HTML. Сначала сохраните файл в формате .txt, при этом сохраняется только текстовая информация. Этот же файл еще раз сохраните в формате .html.Откройте сохраненные файлы, просмотрите их и сравните их размер.
9. 11. Сохраните рисунок на Web-странице с именем Мой_рисунок, щелкнув правой кнопкой мыши по выбранному рисунку и выбрав команду Сохранить рисунок как. Обычно Web-страницы содержат рисунки с форматом .jpeg и .gif.
Содержимое Web-страницы можно вывести на печать, применив команду Файл►Печать.
Технология поиска информации в WWW
Узнать адреса объектов Интернет можно, например, из средств печати и телевидения. Если URL-адрес ресурса, содержащий интересующую информацию, заранее не известен, используются специальные средства, называемые поисковыми системами. В табл.8.2 приведены наиболее популярные белорусские, российские, и зарубежные поисковые системы. Существует несколько моделей, на которых основана работа поисковых систем, но исторически две модели приобрели наибольшую популярность – это поисковые машины и поисковые каталоги.
Большинство поисковых машин включают как строку поиска, так и тематический каталог ресурсов, т.е. объединяют две модели поиска.
Основной принцип работы поисковой машины заключается в поиске Web-ресурсов с помощью ключевых слов.
Таблица 8.2