Поиск во Всемирной паутине
В web размещены миллионы сайтов, причем с актуальной информацией соседствует много устаревших ресурсов, мусора и недобросовестной рекламы.
Интернет - это наиболее демократичный источник информации. Каждый может разместить в Сети собственный ресурс и высказать свое мнение. В этом одновременно сила и слабость Всемирной сети.
Находить информацию в Интернете, вероятно, было бы очень трудно, если бы не были созданы мощные поисковые инструменты: поисковые машины (поисковики), каталоги-рейтинги (рубрикаторы), тематические списки ссылок, онлайновые энциклопедии и словари.
Для поиска разного рода информации наиболее эффективными оказываются различные инструменты.
Каталоги ресурсов
Каталог имеет иерархическую структуру. Тематические разделы первого уровня определяют максимально широкие темы, такие как "спорт", "отдых", "наука", "магазины" и т.д. В каждом таком разделе могут быть подразделы. Пользователь может уточнять интересующую его область, путешествуя по дереву каталога и постепенно сужая зону поиска. Например, при поиске информации о ноутбуках цепочка поиска может выглядеть так: Информационные технологии -> Компьютеры -> Ноутбуки. Дойдя до нужного подкаталога, пользователь находит в нем набор ссылок.
Обычно в каталоге все ссылки являются профильными, поскольку составлением каталогов занимаются не программы, а люди. Очевидно, что если ведется поиск общей информации по некоторой широкой теме, то целесообразно обратиться к каталогу. Если же необходимо найти конкретный документ, то каталог окажется малоэффективным поисковым средством.
Часто каталоги ресурсов одновременно являются и рейтингами, т.е. каталог предлагает зарегистрированным в нем сайтам установить на своих страницах счетчик посещений, и отображает списки ссылок на сайты в соответствии с их популярностью (посещаемостью). Популярность ресурса оценивается по ряду параметров, в том числе по так называемым хостам (количество уникальных посетителей в сутки) и хитам (количество заходов на сайт в сутки).
Одним из наиболее популярных каталогов-рейтингов является Rambler's Top 100. (http://top100.rambler.ru/top100/). Часто бывает интересно оценить состояние не общероссийских, а региональных ресурсов по конкретной тематике. Для обзора web-ресурсов Красноярска и края можно рекомендовать каталоги-рейтинги ресурсов Krasland (http://www.krasland.ru/) и Сталкер (http://www.stalker.internet.ru/).
Поисковые машины
Релевантный документ - документ, смысловое содержание которого соответствует информационному запросу. Современные поисковые машины осуществляют поиск по контексту, т.е. словам, содержащимся в запросе, учитывая вариации словоформ и расширяя запросы синонимами. Но смысла компьютеры не понимают, поэтому в списке ответов на запрос, наряду с релевантными вашему запросу документами, вы можете получить и те, которые вам никоим образом не подходят.
Очевидно, что от умения грамотно выдавать запрос зависит процент получаемых релевантных документов. Доля релевантных документов в списке всех найденных поисковой машиной называется точностью поиска. Нерелевантные документы называют шумовыми. Если все найденные документы релевантные (шумовых нет), то точность поиска составляет 100%. Если найдены все релевантные документы, то полнота поиска - 100%.
Таким образом, качество поиска определяется двумя взаимозависимыми параметрами: точностью и полнотой поиска. Увеличение полноты поиска снижает точность, и наоборот.
Поисковые системы можно сравнить со справочной службой, агенты которой обходят предприятия, собирая информацию в базу данных. При обращении в службу информация выдается из этой базы. Данные в базе устаревают, поэтому агенты их периодически обновляют. Иными словами, справочная служба имеет две функции: 1) создание и постоянное обновление данных в базе и 2) поиск информации в базе по запросу клиента.
Аналогично, поисковая машина состоит из двух частей: так называемого поискового робота (или паука), который обходит серверы Сети и формирует базу данных, и механизма поиска релевантных запросу пользователя ссылок в базе.
Следует отметить, что, отрабатывая конкретный запрос пользователя, поисковая система оперирует именно внутренней базой данных (а не пускается в путешествие по Сети). Несмотря на то, что база данных поисковой машины постоянно обновляется, поисковая машина не может проиндексировать все Web-документы: их число слишком велико. Проблема недостаточности полноты поиска состоит не только в ограниченности внутренних ресурсов поисковика, но и в том, что скорость робота ограниченна, а количество новых Web-документов постоянно растет.
Наиболее популярными на сегодня поисковыми системами являются Google (www.google.com, www.google.ru) и Яндекс (www.yandex.ru).
Онлайновые энциклопедии и справочники
В ряде случаев бывает нужно найти не просто документ, содержащий ключевое слово, а именно толкование некоторого слова. При поиске незнакомого термина с помощью поисковой машины вы рискуете получить целый ряд статей, в которых этот термин используется, и при этом так и не узнать, что же он все-таки обозначает. Подобный поиск предпочтительнее проводить в онлайновой энциклопедии.
Одной из крупнейших онлайновых энциклопедий является ресурс "Яндекс. Энциклопедии" (http://encycl.yandex.ru/) - этот проект содержит 14 энциклопедий, в том числе статьи из Большой Советской Энциклопедии и "Энциклопедию Брокгауза и Эфрона". К крупным относится и "Энциклопедия Кирилла и Мефодия" (http://www.km.ru).
Помимо переноса в гипертекстовую среду традиционных словарей бурно развиваются энциклопедические wiki-проекты. Ви́ки — веб-сайт для сбора и структуризации письменных сведений. Характеризуется тем, что наполнять и редактировать размещаемую на нем информацию могут все посетители. http://ru.wikipedia.org/ - википедия на русском языке — часть многоязычного проекта, целью которого является создание полной энциклопедии на всех языках Земли.
История Всемирной паутины
Изобретателями всемирной паутины являются Сэр Ти́моти Джон Бе́рнерс-Ли (род. 8 июня 1955) и, в меньшей степени, Роберт Кайо. Тим Бернерс-Ли является автором технологий HTTP, URI/URL и HTML. В 1980 году он работал в Европейском совете по ядерным исследованиям (фр. Conseil Européen pour la Recherche Nucléaire, CERN) консультантом по программному обеспечению. Именно там, в Женеве (Швейцария), он для собственных нужд написал программу «Энквайр», которая и заложила концептуальную основу для Всемирной паутины.
В 1989 году, работая в CERN над внутренней сетью организации, Тим Бернерс-Ли предложил глобальный гипертекстовый проект, теперь известный как Всемирная паутина.
В рамках проекта Бернерс-Ли написал первый в мире веб-сервер и первый в мире гипертекстовый веб-браузер, называвшийся «WorldWideWeb».
Первый в мире веб-сайт Бернерс-Ли создал по адресу http://info.cern.ch/, теперь сайт хранится в архиве. Этот сайт появился в Интернете 6 августа 1991 года. На этом сайте описывалось, что такое Всемирная паутина, как установить веб-сервер, как использовать браузер. Этот сайт также являлся первым в мире интернет-каталогом, потому что позже Тим Бернерс-Ли разместил и поддерживал там список ссылок на другие сайты.
И всё же теоретические основы веба были заложены гораздо раньше. Ещё в 1945 году Ванни́вер Буш разработал концепцию «Memex» — вспомогательных средств «расширения человеческой памяти». Memex — это устройство, в котором человек хранит все свои книги и записи (а в идеале — и все свои знания, поддающиеся формальному описанию) и которое выдаёт нужную информацию с достаточной скоростью и гибкостью. Бушем было также предсказано всеобъемлющее индексирование текстов и мультимедийных ресурсов с возможностью быстрого поиска необходимой информации. Следующим значительным шагом на пути к Всемирной паутине было создание гипертекста (термин введён Тедом Нельсоном в 1965 году).
Рис. 75. Логотип Консорциума Всемирной паутины
С 1994 года основную работу по развитию Всемирной паутины взял на себя Консорциум Всемирной паутины, основанный и до сих пор возглавляемый Тимом Бернерсом-Ли. W3C — организация, разрабатывающая и внедряющая технологические стандарты для Интернета и Всемирной паутины.
Перспективы развития
Актуальная на сегодня концепция развития Всемирной паутины - создание семантической (осмысленной) паутины. Автор концепции семантической паутины также Ти́м Бе́рнерс-Ли. Семантическая паутина (semantic web) — это надстройка над существующей Всемирной паутиной, которая призвана сделать размещённую в сети информацию более понятной для компьютеров.
В настоящее время компьютеры принимают довольно ограниченное участие в формировании и обработке информации в сети Интернет. Функции компьютеров в основном сводятся к хранению, отображению и поиску информации. В то же время создание информации, её оценку, классификацию и актуализацию — всё это по-прежнему выполняет человек. Как включить компьютер в эти процессы? Если компьютер пока нельзя научить понимать человеческий язык, то нужно использовать язык, который был бы понятен компьютеру. То есть, в идеальном варианте вся информация в Интернете должна размещаться на двух языках: на человеческом языке для человека и на компьютерном языке для понимания компьютера. Семантическая паутина — это концепция сети, в которой каждый ресурс на человеческом языке был бы снабжён описанием, понятным компьютеру.
Программы смогут сами находить нужные ресурсы, обрабатывать информацию, классифицировать данные, выявлять логические связи, делать выводы и принимать решения на основе этих выводов. При широком распространении и грамотном внедрении семантическая паутина может вызвать революцию в Интернете.
Фундаментальным трудом по семантической паутине является книга Бернерса-Ли «Прядя семантическую паутину: полное раскрытие потенциала Всемирной паутины», вышедшая в 2005 году.
Задачи
1. Первая глобальная компьютерная сеть носила имя:
- BITNet;
- ARPANet;
- NSFNet.
2. Провайдер Internet это:
- организация-поставщик услуг Internet;
- организация, занимающаяся созданием web-сайтов;
- периферийное устройство, служащее для связи с другим компьютером.
3. FTP - это:
- почтовый клиент;
- программа IP-телефонии;
- протокол передачи файлов.
4. Задан URL-адрес web-страницы: http://www.sgzt.com/sgzt/archive/content/2005/03/043. Каково имя протокола доступа к этому информационному ресурсу?
- sgzt/archive/content/2005/03/043;
- com;
- http;
- www.sgzt.com.
5. В какой из приведенных доменных зон первого уровня может приобрести себе доменное имя юридическое лицо, зарегистрированное на территории РФ?
- .com;
- .ru;
- и в том и в другом.
6. Среди приведенных записей укажите корректный IP-адрес компьютера:
- 198.15.19.216;
- 298.15.19.216;
- 200,6,201,13;
- http://www.ipc.ru;
- www.ip-address.com.
7. Какой из приведённых адресов e-mail корректен?
- Глеб@mur.ru;
- mur.ru@gleb;
- [email protected];
- [email protected];
- gleb @ mur. ru;
- gleb@mur;
- http://www.mur.ru/gleb.
8. Что такое HTML?
- Один из протоколов семейства TCP/IP;
- Язык гипертекстовой разметки документа;
- Язык программирования.