Поиск новостей, карт, адресов, телефонов, энциклопедий и словарей
Лабораторная работа №9
Тема: Основы работы в сети Интернет. Алгоритмы поиска информации с использованием поисковых машин.
Цель работы: Овладеть навыками поисковой работы в сети Интернет.
Теоретические сведения
Интернет (Internet) - всемирная система добровольно объединённых компьютерных сетей, построенная на использовании протокола IP и маршрутизации пакетов данных. Интернет образует всемирную (единую) информационную среду — совокупность оцифрованной информации.
Интернет состоит из многих тысяч корпоративных, научных, правительственных и домашних компьютерных сетей. Объединение сетей разной архитектуры и топологии стало возможно благодаря протоколу IP (сокр. от Internet Protocol) и принципу маршрутизации пакетов данных. Протокол IP был специально создан агностическим в отношении физических каналов связи. То есть любая система (сеть) передачи цифровых данных, проводная или беспроводная, может передавать и трафик Интернет. На стыках сетей специальные маршрутизаторы (программные или аппаратные) занимаются автоматической сортировкой и перенаправлением пакетов данных, исходя из IP-адресов получателей этих пакетов. Протокол IP образует единое адресное пространство в масштабах всего мира, но в каждой отдельной сети может существовать и собственное адресное подпространство, которое выбирается исходя из класса сети. Такая организация IP-адресов позволяет маршрутизаторам однозначно определять дальнейшее направление для каждого мельчайшего пакета данных. В результате между отдельными сетями Интернет не возникает конфликтов, и данные беспрепятственно и точно передаются из сети в сеть по всей планете и ближнему космосу.
Поиск в Интернете может осуществляться с использованием специальной программы просмотра – браузера (другое название – броузер). В России и Украине наиболее популярным браузером является Internet Explorer (IE) фирмы Microsoft. Его конкурент – Netscape Navigator (NN), несколько лучше работает с графическими файлами.
Кликнув (щелкнув левой клавишей мыши) по иконке, либо запустив из меню браузер, обратим внимание на поле Адрес (Address). Если на заре появления Интернета было необходимо вводить адрес полностью (http://www.altavista.com), то теперь достаточно ввести собственно адрес (www.altavista.com). Чаще всего адрес начинается с www (World Wide Web) и компьютер подставит начальные http:// (hyper text transfer protocol). Обратите внимание, что все адреса вводятся только латинскими буквами.
Итак, обратимся к одной из самых мощных русскоязычных поисковых систем – Яндекс. Вводим ее адрес www.yandex.ru и нажимаем клавишу Enter. Эту клавишу необходимо нажимать каждый раз при введении нового адреса. Перед вами откроется страница Яндекса (чаще называемая сайтом - site). Не пытайтесь вводить адрес, так как он изображен на сайте (Яndex) – это брэнд, и как вы заметили, имеет одну русскую букву и четыре – латинские.
Адрес сайта называют также доменным именем. Он состоит из доменов - символов, разделяемых точками (www.yandex.ru). Самый главный домен называется доменом первого уровня и стоит на крайней правой позиции в строке адреса. У нас это – ru. Далее влево идет домен второго уровня, в нашем случае это yandex, и последний – домен третьего уровня – www.
Все домены первого уровня уже давно распределены. Доменом .ru владеет РОСНИИРОС (Российский НИИ Развития Общественных Сетей). Почти всегда по этим доменам можно определить, где находится сайт. Например .uk (United Kingdom) – в Великобритании, .de (Deutschland) – в Германии, .dk (Denmark) – в Дании.
Компьютер трактует сайт как набор специальных файлов, формат которых понятен браузеру. При введении адреса и нажатии клавиши Enter, компьютер определяет, где находится сайт и, если искомый документ на месте, он доставляется в виде файла и отображается в окне браузера у владельца, т.е. у вас.
Ваш браузер работает в основном с файлами в формате HTML (hyper text make-up language). HTML - это язык разметки, где участки текста обрамляются специальными значками (метками) – тегами, которые подсказывают браузеру, что делать с текстом. Например, заголовок вашего текста будет выглядеть так: <HTML><HEAD><TITLE> Пушкин – наше все! </TITLE>. Посмотреть, как все это располагается на нашей стартовой странице Яндекса можно, наведя стрелку на любой участок экрана (только не на ссылку) и, кликнув правой клавишей мышки, выбрать Просмотр в виде HTML.
Отметим также важную для нас особенность. Тег <IMG> указывает на наличие картинки, которая хранится отдельно (!) от HTML страниц, состоящих только из текста. Изображения вставляются извне, при этом они могут храниться отдельно от текстового документа – на разных компьютерах и даже в разных странах. N.B. Если у вас не отображается картинка – кликните по ней правой клавишей мышки и выберите Show picture).
Итак, осуществляя поиск необходимой вам информации, используя слова и словосочетания мы не можем найти графические файлы (картинки, фотографии и т.д.), т.к. они не содержат букв, слов и цифр. Для их поиска существуют другие ресурсы, и речь о них пойдет на занятии «Поиск изображений».
Общие принципы поиска
Один из первых индексирующих англоязычных, поисковых серверов AltaVista("вид с высоты") корпорации Digital (теперь Compaq), появился в 1995 году. Нескольким служащим корпорации пришла в голову мысль использовать новейшие сервера для считывания содержимого Всемирной Паутины в базу данных и осуществления поиска по ней. Рассмотрим основные правила использования этого ресурса.
· Если вам просто нужно найти слово, то вы вводите это слово на строке для аргументов поиска и нажимаете кнопку Submit. Если вам нужно найти словосочетание - заключаете его в кавычки.
· Если вы не уверены в том, как сочетаются в искомом тексте верхние и нижние регистры букв - пишите все слово строчными буквами, и тогда будут найдены все варианты его написания. Если вы указали хотя бы одну букву в искомом слове прописной буквой, то система будет искать только такие варианты. Например, Black , а не black.
· Если вы не уверены в том, как пишется искомое слово, можно пользоваться аргументом шаблонного поиска. Например, если вы не уверены в том, как пишется слово leasure, можно искать leas*re или просто leas*.
· Если вы хотите найти не текст, а картинку с каким-либо изображением, то можно пользоваться словом image. Например, image:sea даст список страниц с изображением моря.
· Если вы хотите найти все страницы, находящиеся на одном сервере, то тут помогает ключ host:. Например, поиск на host:www.narod.ru.
· Если вы хотите, чтобы часть слов обязательно содержалась в найденном документе, а часть - предпочтительно, то к обязательным словам следует добавить +. Например, +Prince Charles +UK.
· Если слово, которое вы ищете, может встречаться в разных контекстах, и вам точно известно, какие из контекстов вам не годятся, можно исключить слова, которые встречаются в ненужном контексте. Например, указать аргумент поиска +Prince Charles +UK -France.
Подробную информацию обо всех возможностях Альтависты вы получите, изучив справочную систему этого поискового ресурса по адресу www.altavista.com
Яndex (www.yandex.ru) – один из самых лучших русскоязычных поисковых ресурсов. Для детального ознакомления со всем, что предлагает нам Яndex, обратитесь опять же к справочному аппарату этой поисковой системы. Ниже дается лишь небольшой фрагмент, который поможет вам лучше ориентироваться на первых этапах работы. Самый простой способ.Вы не хотите углубляться в детали техники поиска? Просто задайте Яндексу вопрос так же, как бы вы его задали библиотекарю или всезнайке-эрудиту. Например, "где раки зимуют", " ярчайшая звезда северного полушария" или "как выбрать компьютер".
ü Проверяйте орфографию
Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы "Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.
ü Используйте синонимы
Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо "рефераты" возможно больше подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо "фотографии" попробуйте "фотографии | фото | фотоснимки".
ü Ищите больше, чем по одному слову
Слово "психология" или "продукты" дадут при поиске поодиночке большое число бессмысленных ссылок. Добавьте одно или два ключевых слова, связанных с искомой темой. Например, "психология Юнга" или "продажа и покупка продовольствия". Рекомендуем также сужать область вашего вопроса. Если вы интересуетесь автомобилями ГАЗа, то запросы "автомобиль Волга" или "автомобиль ГАЗ" выдадут более подходящие документы, чем "легковые автомобили".
ü Не пишите большими буквами
Начиная слово с большой буквы, вы не найдете слов, написанных с маленькой буквы, если это слово не первое в предложении. Поэтому не набирайте обычные слова с Большой Буквы, даже если с них начинается ваш вопрос Яндексу. Заглавные буквы в запросе рекомендуется использовать только в именах собственных. Например, "группа Черный кофе", "телепередача Здоровье".
ü Найти похожие документы
Если один из найденных документов ближе к искомой теме, чем остальные, нажмите на ссылку "найти похожие документы". Ссылка расположена под краткими описаниями найденных документов. Яndex проанализирует страницу и найдет документы, похожие на тот, что вы указали. Но если эта страница была стерта с сервера, а Яндекс еще не успел удалить ее из базы, то вы получите сообщение "Запрошенный документ не найден".
ü Используйте знаки "+" и "-"
Чтобы исключить документы, где встречается определенное слово, поставьте перед ним знак минуса. И наоборот, чтобы определенное слово обязательно присутствовало в документе, поставьте перед ним плюс. Обратите внимание, что между словом и знаком плюс-минус не должно быть пробела. Например, если вам нужно описание Парижа, а не предложения многочисленных турагентств, имеет смысл задать такой запрос "путеводитель по парижу -агентство -тур". Плюс стоит использовать в том случае, когда нужно найти так называемые стоп-слова (наиболее частотные слова русского языка, в основном это местоимения, предлоги, частицы). Чтобы найти цитату из Гамлета, надо задать запрос "+быть или +не быть".
ü Попробуйте использовать язык запросов
С помощью специальных знаков вы сможете сделать запрос более точным. Например, укажите, каких слов не должно быть в документе, или что два слова должны идти подряд, а не просто оба встречаться в документе (Описание синтаксиса языка запросов).
ü Искать без морфологии
Вы можете указать Яндексу не перебирать все словоформы слов из запроса при поиске. Например, !лукоморья найдет только страницы, цитирующие строчку из стихотворения Пушкина ("У лукоморья дуб зеленый").
ü Тонкий поиск
Яндекс обладает развитым языком запросов, позволяющим осуществлять тонкий поиск. Для того, чтобы воспользоваться широким спектром возможностей, используйте страницу "расширенный поиск", где большая часть настроек Яндекса задается простым образом. Обратите внимание, что, при заполнении нескольких полей, запрос будут составлен таким образом, чтобы все условия выполнялись одновременно (через документное "И" - &&).
Синтаксис языка запросов (строгий поиск)
1. Пробел или & - логическое И (русский хоккей);
2. + - обязательное наличие слова в найденном документе (+быть или +не быть);
3. ( ) - группирование слов (технология изготовление) (сыра творога);
4. поиск в заголовке $title (Дон Кихот);
Поиск общих понятий
Yahoo
Yahoo – тематический каталог и, следовательно, как любой каталог, построен в виде дерева. Сначала идут основные рубрики, затем рубрики делятся на разделы, подразделы и так до описания сайтов. Сейчас Yahoo один из самых больших каталогов и один из самых посещаемых сайтов в мире.
Одной из лучших поисковых машин (search engines) нового поколения является Google (www.google.com). Уникальная технология поиска и инфраструктура позволяют быстро находить ответы даже на самые сложные запросы. Если попытаться определить политику Google одним словом, это было бы слово «фокусирование». В то время как гиганты сетевого поиска вроде Yahoo! или AltaVista разворачивают порталы с электронной почтой, чатами и прочими услугами, Google продолжает фокусироваться именно на технологии поиска, улучшая и оттачивая ее. Google определяет полезность любой страницы на основе дополнительной информации, которой в самой странице нет. “Важность” страницы определяется по тому, как часто на нее ссылаются другие страницы.
Oingo
Для тех из вас, кто хочет провести углубленное исследование терминов и другой информации на английском языке, представляет интерес поисковая система Oingo (www.oingo.com). Ее основное отличие от других систем в том, что она способна “понимать” смысл вводимых в нее слов. Вам представляется возможность протестировать эту систему запросив информацию, например о термине “protector”. Посмотрите, также, что происходит при использовании русскоязычных терминов.
Файлы и FTP-серверы
Работая с различными документами вы сохраняете их (на жестком диске компьютера или дискете) в виде файлов. Строго говоря, вся информация хранится в виде файлов разного вида. Например, чаще всего вы видите, что в названии документа после точки справа стоят символы .doc или .txt. Это расширения файлов, показывающие, что первый документ сделан в Microsoft Word, а второй – текстовой файл. Часть информации в Интернете (документы, изображения и т.д.) хранится не только на web- серверах, но и на ftp-серверах. Это практически так, как хранится информация на вашем домашнем компьютере, только является доступной для всех, кто пользуется Интернетом. Кроме упомянутых нами расширений файлов .doc и .txt, существуют и другие расширения, которые помогают нам определить тип файла:
ü pdf – весьма популярный формат, особенно в англоговорящих странах. Для чтения таких файлов используется программа Adobe Reader (Adobe Acrobat), распространяемая бесплатно;
ü .jpg, .jpeg, .gif, .tif, .tiff, .bmp – содержат графику. Браузеры на ваших компьютерах работают с изображениями в формате .gif и .jpg;
ü .zip, .arg, .rar – архивные файлы. Эти файлы необходимы для уплотнения и сжатия информации, что удобно для экономии места на диске (или дискете). Сжимать, а затем запаковывать подобные файлы призваны специальные программы – архиваторы, например WinZip и WinRar;
ü .mp3 .wav – музыкальные файлы.
Поиск необходимых нам файлов будет не сложен, если мы знаем адрес файла. В строку Адрес вводим ftp:// и собственно нужный нам адрес.
Поиск изображений
До середины 1990-х годов в Интернете было очень сложно найти нужное нам изображение. Теперь основные поисковые системы, в первую очередь Google, а также Yahoo, AltaVista и другие позволяют делать это довольно эффективно. Они также показывают уменьшенные копии найденных картинок, что ускоряет и облегчает поиск.
Несомненно, лучшей на сегодняшний день поисковой системой, работающей с изображениями, является Google. Войдя в Google (www.google.com), нужно кликнуть на папке Images, которая располагается сразу над строкой, в которую вы вводите имя искомой картинки.
Какие критерии использует поисковая система Google, когда ищет нужную нам картинку? Это имя картинки, содержимое тэга <alt>, а также более десяти других признаков, плюс сложный алгоритм, который является секретом компании. При этом саму картинку Google не анализирует.
Как вы наверное заметили, картинки найденные вами – небольшие по размеру и при печати дают весьма посредственные изображения. Но существуют базы данных, хранящие гигантское количество изображений. И, естественно, не бесплатно! Ознакомьтесь с некоторыми из таких хранилищ, например Eyewire (www. eyewire.com), Getty (www. getty-images.com) или Corbis (www. corbis.com). все желающие могут приобрести размещенные там изображения по фиксированной цене и использовать их как им заблагорассудится: обрабатывать, публиковать и т.д. такие условия называются royalty-free. Если же права на изображения четко оговариваются, вплоть до уступки целиком, то такие условия называются традиционным лицензированием.
Поиск аудиофайлов
Многие из вас уже имели возможность прослушать музыкальные файлы на своем компьютере, использую CD ROM’ы (Compact Disc Read Only Memory). Вы можете это делать, если ваш компьютер оснащен звуковой картой или платой. Можно ли передавать и получать музыкальные файлы? Да. Еще несколько лет назад это было весьма проблематично из-за огромного объема таких файлов. Но теперь, благодаря распространению формата сжатия MP3 можно получать запись хорошего качества объемом всего 2-8 Мбайт. Правда, такие возможности нанесли (и наносят!) огромный урон звукозаписывающим компаниям, авторам и исполнителям музыкальных произведений. Используя полученные вами навыки работы, вы можете найти материалы о двух основных фигурантах многочисленных скандалов KaZaA и Napster, чьи сайты пытались закрыть в судебном порядке, закрывали (а они снова открывались) и сейчас возможно работают под другими именами. В связи с чем я бы рекомендовал скорее теоретическое знакомство с подобного рода возможностями обмена музыкальными файлами.
Многие радиостанции радуют нас сегодня не только наличием на их сайтах текстовой, графической, но и звуковой информации. Одна из моих любимых станций – «Радио Свобода» (www.svoboda.org) позволяет бесплатно загрузить (и так делают все радио станции) на ваш компьютер программу Real Audio и слушать радиопередачи live (в режиме реального вещания), а также некоторые наиболее интересные передачи из архива. Также работает, например, BBC (www.bbc.co.uk), где есть много полезного для изучающих английский язык. Постарайтесь использовать эти возможности и приятных вам минут у “компьютерных приемников”! Вы также можете найти в Интернете различные звуки и шумовые эффекты коллекции WAV- файлов. Существует два основных пути поиска нужных вам звуков.
Первый – попытаться представить и угадать как может выглядеть этот файл. Например, вам необходимо найти звук скрипки. Используем либо хорошо вам знакомые поисковые системы, либо, что еще лучше, менее объемные AllTheWeb (www.alltheweb.com) и Teoma (www.teoma.com). Почему? В небольших системах поиск осуществляется быстрее и эффективнее. Войдя в выбранную вами поисковую систему, вводим в окно поиска violin.wav и работаем далее с полученными файлами.
Для поиска библиотеки звуков были созданы специальные поисковые системы. Одна из них Findsouns (www.findsounds.com), которую вы и протестируете на предмет нахождения нужных нам звуков скрипки.
Второй путь поиска нужных звуков – традиционный, заключается в помещении искомой нами информации (сейчас это слово violin) в окно поиска одной из популярных систем (Yahoo и др.). Сообщите, какой из способов более предпочтителен в вашей работе и почему.
Поиск новостей, карт, адресов, телефонов, энциклопедий и словарей
У каждого из в определенный момент возникает необходимость узнать или уточнить какие-либо новости. Обратившись к Интернету, мы выясняем, что самым “быстро успевающим” новостным агентством является англоязычное CNN (www.cnn.com), чей сайт обновляется каждые полчаса. Откройте начальную страницу (home page) этого агентства и проверьте, какие новости вынесены в заголовки и, следовательно, считаются главными. Думаю, что многие из вас вряд ли согласятся с выбором CNN.
А существуют ли менее предвзятые источники новостей? Несомненно! Знакомьтесь, RocketInfo
(www.rocketinfo.com). Эта поисковая система (опять же англоязычная) опрашивает тысячи новостных сайтов и обладает мощным языком запросов. С этим языком вам поможет ознакомиться справочный аппарат RocketInfo. Введите, например, в окно запроса nord ost moscow и посмотрите, что у вас получится.
Что касается русскоязычных новостей, то все основные поисковые системы также предоставляют нам эту возможность. Открыв любую из них, скажем Rambler или Yandex кликните на переключателе Новостии, вводите искомое вами слово (слова) в окно поиска.
Иногда нам нужно искать новости по определенной тематике. Здесь нам поможет система поиска Moreover (www.moreover.com). Она группирует новости по таким разделам как Internet features, Top stories и т.д. Более того (как переводится слово moreover?) эта система еще позволяет получать новости по электронной почте. Выбрав необходимую вам категорию новостей, отправьте пустое письмо по адресу on-index_выбранная вами категория[email protected]. Буква d (daily), стоящая перед собачкой, обозначает ежедневное получение корреспонденции. Я, лично, предпочитаю еженедельное получение. Для этого замените d на w (обозначает weekly). Примерно в том же ключе работают и другие новостные поисковые системы, например NewsTrove
(www.newstrove.com). Эта система к тому же постоянно подсказывает нам и направляет нас, создавая рубрики, тем самым, ускоряя поиск и делая его более качественным.
Заканчивая разговор о новостных поисковых системах, хотелось бы обратить ваше внимание на сайт NewsIsFree (www.newsisfree.com). Кстати, название сайта подсказывает изучающим английский язык, что слово news существительное неисчисляемое и используется только в единственном числе. Итак, вы увидите, что NewsIsFree позволяет создавать “обойму” новостей и получает их из тысяч разных источников на многих языках!
Обратимся теперь к поиску определенных мест (городов, улиц и т.д.) на карте. Проще всего поиск осуществлять на карте США, так как на карте нашей страны, да и других государств еще много белых пятен. Если у вас есть знакомые в Америке, попробуйте найти их местожительство, используя Интернет- атлас MapsOnUS (mapsonus.switchboard.com). Любая информация, улица, номер дома, почтовый индекс облегчит процесс поиска. Сделали ли вы какие-либо маленькие открытия?
Не менее удивительные вещи можно найти с помощью Terraserver (terraserver.microsoft.com), которая позволяет “видеть” многие уголки земного шара. Теперь самое время найти адрес и телефон вашего знакомого (знакомых), которые затерялись на просторах Северной Америки. Нам поможет в этом TheUltimates (www.theultimates.com/white). Опять же, чем более полной информацией о вашем знакомом вы располагаете, тем успешнее будет поиск. Будет любопытно узнать, так ли хорошо ищет эта система, как утверждают ее создатели.
Одним из самых мощных порталов, своего рода “монстром” в русскоязычном Интернете является мега энциклопедии Кирилла и Мефодия (mega.km.ru). Здесь очень удобно начинать путешествие по различным энциклопедиям (музыкальной, кулинарной, кино, здоровья и другим) и словарям (в том числе экономическому, иностранных терминов и т.д.). Не менее могуч новый портал Rubricon (www.rubricon.ru).
Как вы догадываетесь мир англоязычных энциклопедий и словарей еще более обширен и многообразен. Пожалуй, стоит начать с Infoplease (www.infoplease.com). Среди рубрик его стартовой страницы Day in History, Birthdays и другие. У одного моего знакомого написано в визитке curmudgeon. Поможет ли Infoplease и как быстро найти этот термин? Ну и конечно жемчужина Интернета Encyclopedia Britannica (www.britannica.com).
Философия поиска
Рассмотрим основные пути, по которым идут создатели поисковых систем, пытающиеся облегчить нам этот сложный процесс.
Сортировка
Первый способ, созданный на заре развития Интернета – сортировка. Разработчики поисковых программ пытались создать такую поисковую систему, которая расставляет запрашиваемые документы в порядке убывания “важности”. Так алгоритм считает документ “хорошим”, если ключевые слова встречаются в заголовке, ближе к началу текста и т.д. Но с этим постоянно борются (и небезуспешно) желающие увидеть свои страницы в числе выдаваемых первых десяти. Вот почему, мы часто бываем очень удивлены находя среди показанных нам ссылок уж совершенно курьезные.