Адреси найбільш популярних пошукових машин за кордоном і в Росії.
Інформаційно-пошукова система
Розглянемо постановку задачі пошуку в загальному вигляді. Для цього нам необхідно відповісти на три питання: що шукати, тобто, які джерела інформації, де шукати (місця розміщення цих джерел) і як шукати (які інструменти для цього використовувати).
Які основні джерела інформації, представлені в Інтернеті?
Це документи WWW, статті у групах новин і списках розсилки, файли в бібліотеках файлів, довідники адресної інформації організацій і людей (електронна пошта, адреса, телефон), статті в тематичних базах даних, енциклопедіях.
Де ці джерела інформації розміщуються?
Це такі популярні ресурси Інтернет, як WWW, групи новин, списки розсилки і FTP-сервери. Безумовно, можна шукати потрібні джерела інформації вручну, дізнаватися адреси із спеціалізованих журналів з інформатики та Інтернету, використовувати спеціальні паперові довідники з класифікованими по категоріях адресами. Однак для такого мінливого простору як Інтернет необхідно навчитися користуватися спеціальними інструментами, мета яких - збирати дані про інформаційні ресурси та надавати користувачам послугу швидкого пошуку.
ІПС (інформаційно-пошукова система) - це система, що забезпечує пошук і відбір необхідних даних у спеціальній базі з описами джерел інформації (індексі) на основі інформаційно-пошукової мови і відповідних правил пошуку.
Головним завданням будь-якої ІПС є пошук інформації релевантної інформаційним потребам користувача. Дуже важливо в результаті проведеного пошуку нічого не втратити, тобто знайти всі документи, пов'язані з запитом, і не знайти нічого зайвого. Тому вводиться якісна характеристика процедури пошуку - релевантність.
Релевантність - це відповідність результатів пошуку сформульованому запитом. Далі ми будемо, в основному, розглядати ІПС для всесвітньої павутини (WWW). Основними показниками ІПС для WWW є просторовий масштаб і спеціалізація. По просторовому масштабом ІПС можна розділити на локальні, глобальні, регіональні та спеціалізовані. Локальні пошукові системи можуть бути розроблені для швидкого пошуку сторінок в масштабі окремого сервера. Регіональні ІПС описують інформаційні ресурси певного регіону, наприклад, російськомовні сторінки в Інтернеті. Глобальні пошукові системи на відміну від локальних прагнуть обійняти неосяжне - по можливості найбільш повно описати ресурси всього інформаційного простору мережі Інтернет.
У загальному випадку, можна виділити наступні пошукові інструменти для WWW: каталоги, пошукові системи, Автономні пошукові агенти.
Каталог
Каталог - пошукова система з класифікованими за темами списком анотацій з посиланнями на web-ресурси. Класифікація, як правило, проводиться людьми. Пошук в каталозі дуже зручний і проводиться за допомогою послідовного уточнення тем. Тим не менш, каталоги підтримують можливість швидкого пошуку певної категорії або сторінки за ключовими словами за допомогою локальної пошукової машини.База даних посилань (індекс) каталогу зазвичай має обмежений обсяг, заповнюється вручну персоналом каталогу. Деякі каталоги використовують автоматичне оновлення індексу. Результат пошуку в каталозі представляється у вигляді списку, що складається з короткого опису (анотації) документів з гіпертекстової посиланням на першоджерело.
Адреси популярних каталогів:
Зарубіжні каталоги:
Yahoo - www.yahoo.com Magellan - www.mckinley.com
Російські каталоги:
@ Rus - www.aport.ru Weblist - www.weblist.ru Равлик - www.ulitka.ru
Пошукова машина
Пошукова машина - пошукова система з формованої роботом базою даних, яка містить інформацію про інформаційні ресурси.Відмінною рисою пошукових машин є той факт, що база даних, що містить інформацію про Web-сторінках, статтях Usenet і т.д., формується програмою-роботом. Пошук в такій системі проводиться за запитом, що складається користувачем, що складається з набору ключових слів або фрази, укладеної в лапки. Індекс формується і підтримується в актуальному стані роботами-індексіровщікамі. В описі документа найчастіше міститься кілька перших речень або витяги з тексту документа з виділенням ключових слів. Як правило, вказана дата оновлення (перевірки) документа, його розмір у кілобайтах, деякі системи визначають мову документа і його кодування (для російськомовних документів). Що можна робити з отриманими результатами? Якщо назва та опис документа відповідає вашим вимогам, можна негайно перейти до його першоджерела по посиланню. Це зручніше робити в новому вікні, щоб мати можливість далі аналізувати результати видачі.Багато пошукових систем дозволяють проводити пошук в знайдених документах, причому ви можете уточнити ваш запит введенням додаткових термінів. Якщо інтелектуальність системи висока, вам можуть запропонувати послугу пошуку схожих документів. Для цього ви обираєте особливо сподобався документ і вказуєте його системі в якості зразка для наслідування. Однак, автоматизація визначення схожості - вельми нетривіальна задача, і часто ця функція працює неадекватно вашим надіям. Деякі пошуковики дозволяють провести пересортіровка результатів. Для економії вашого часу можна зберегти результати пошуку у вигляді файлу на локальному диску для подальшого вивчення в автономному режимі.
Адреси найбільш популярних пошукових машин за кордоном і в Росії.
Зарубіжні пошукові машини:
Google-www.google.com
Altavista - www.altavista.com
Excite - www.excite.com
HotBot - www.hotbot.com
Nothern Light - www.northernlight.com Go (Infoseek) - www.go.com (infoseek.com ) Fast - www.alltheweb.com
Російські пошукові машини:
Яndex - www.yandex.ru (або www.ya.ru) Ремблер - www.rambler.ru Апорт - www.aport.ru
Метапоісковая машина
Метапоісковая система. Зверніть увагу на те, що різні пошукові системи описують різну кількість джерел інформації в Інтернет.Тому не можна обмежуватися пошуком лише в одній із зазначених пошукових системах. Тепер познайомимося з інструментами пошуку, які не формують власний індекс, але вміють використовувати можливості інших пошукових систем. Це Автономні пошукові агенти (пошукові служби) - системи, здатні послати запити користувача одночасно декількох пошукових серверів, потім об'єднати отримані результати і представити їх користувачеві у вигляді документа з посиланнями.
Адреси відомих Автономні пошукові агенти систем:
MetaCrawler - www.metacrawler.com SavvySearch - www.savvysearch.com
Пошук джерел інформації
Обговоримо проблему пошуку такого джерела інформації, як статті в групах новин. Інструментами пошуку в даному випадку можуть бути розглянуті пошукові машини WWW, які індексують не тільки простір WWW, але і статті в телеконференціях і мають спеціальний режим пошуку саме в цьому ресурсі. Пошук в групах новин підтримує, наприклад, пошуковий сервер Altavistа. Слід зазначити, що пошукові системи WWW вельми оперативно індексують групи новин і містять інформацію про статті, реально існують в мережі. Для пошуку в архівах новин існую спеціалізовані системи, найвідомішою з яких є система Deja (www.deja.com). Ця система дозволяє проводити як пошук окремих статей, що містять введений термін, так і пошук певних груп новин, присвячених обговоренню заданої теми. Можна зареєструватися в Deja і підписатися на певні групи новин.
Тепер розглянемо інструменти, що дозволяють проводити пошук файлів. Багато пошукових систем WWW стали надавати послугу пошуку мультимедійних файлів (Altavista, Aport). Для цього зовсім не потрібно знати спеціальні оператори, а досить перейти з домашньої сторінки по посиланнях Картинки (Images), MP3/Audio або Video до спеціального режиму пошуку. Пошук проводиться по можливому імені файлу або за текстом в коментарі до посиланням на мультимедійний файл.
Що стосується пошуку програмного забезпечення, у всесвітній павутині існують пошукові Web-сервери з колекціями умовно-безкоштовного ПЗ, деякі з них спеціалізуються на пошук програмного забезпечення для Інтернету або для конкретної операційної системи.Ці системи в кінцевому підсумку приведуть вас до конкретного сервера, з якого і можна завантажити шуканий програмний продукт. Слід згадати сервери Archie, також надають послугу пошуку файлів на FTP-серверах, проте користуватися Web-серверами набагато зручніше.
Розглянемо пошукові інструменти для пошуку адресної інформації. Введемо поняття Білого (White) і Жовтого (Yellow) пошуку.
White-пошук - пошук адресної інформації за заздалегідь відомим власного імені адресата (ім'я людини чи організації)
Yellow-пошук - пошук власного імені за додатковими ознаками (за родом діяльності, за географічною ознакою), а потім пошук його адресної інформації.
Зазвичай Yellow Pages системи фактично відразу включають в себе і White Pages - у знайденого адресата відразу видно його телефон та поштову адресу. Крім того, деякі Yellow Pages дозволяють шукати просто в алфавітному списку своїх абонентів (white-пошук). З іншого боку, White pages також містять елементи yellow-пошуку - крім завдання власного імені вони зазвичай дозволяють вказати назву міста, штату і інші, що звужують пошук, дані (що необхідно в разі багатьох однофамільців). Можливо, саме тому багато on-line телефонні довідники, що виконують, фактично white-пошук, називають себе Yellow pages.
Тут наведено адреси Web-систем для пошуку адресної інформації для людей та організацій.
Пошук людей:
· Пошук людей на Yahoo (http://people.yahoo.com).
· Система WhoWhere (www.whowhere.com).
· Система Bigfoot (www.bigfoot.com).
Пошук організацій: розділ Жовті сторінки (Yellow pages) на пошукових системах спеціалізовані сервера www.yellowpages.com - для пошуку в США та інших країнах.
Користувачам Internet вже добре відомі назви таких сервісів і інформаційних служб, як Lycos, AltaVista, Yahoo, OpenText, InfoSeek, а без послуг цих систем сьогодні практич но не можна знайти що-небудь корисне в морі інформаційних ресурсів Мережі. Але що собою представляють ці сервіси зсередини, як вони влаштовані, чому результат пошуку в терабайтних масивах інформації здійснюється досить швидко і як влаштовано ранжування документів при видачі - все це звичайно залишається за кадром. Тим не менш без правильного планування стратегії пошуку, знайомства з основними положеннями теорії ІПС (інформаційно-пошукових систем), що нараховує вже двадцятирічну історію, важко ефективно використовувати навіть такі скорострільні сервіси, як AltaVista або Lycos.
Інформаційно-пошукові системи з'явилися на світ досить давно. Теорії і практиці побудови таких систем присвячено безліч статей, основна маса яких припадає на кінець 70-х - початок 80-х років. Серед вітчизняних джерел слід виділити науково-технічний збірник "Науково-технічна інформація. Серія 2", який виходить до цих пір. Російською мовою видано так само і "біблія" по розробці ІПС - "Динамічні бібліотечно-інформаційні системи" Ж. Солтона , у якій розглянуті основні принципи побудови інформаційно-пошукових систем і моделювання процесів їх функціонування. Таким чином, не можна сказати, що з появою Internet і бурхливим входженням його в практику інформаційного забезпечення з'явилося щось принципово нове, чого не було раніше. Якщо бути точним, то ІПС в Internet - це визнання того, що ні ієрархічна модель Gopher, ні гіпертекстова модель World Wide Web ще не вирішують проблему пошуку інформації у великих обсягах різнорідних документів. І на сьогоднішній день немає іншого способу швидкого пошуку даних, окрім пошуку за ключовими словами. При використанні ієрархічної моделі Gopher доводиться досить довго бродити по дереву каталогів, поки не зустрінеш потрібну інформацію. Ці каталоги повинні кимось підтримуватися, і при цьому їх тематичне розбиття має збігатися з інформаційними потребами користувача. Враховуючи анархічність Internet і величезна кількість всіляких інтересів у користувачів Мережі, зрозуміло, що комусь може й не пощастити і в мережі не буде каталогу, що відображає конкретну предметну область.
Аналогічне розвиток подій спостерігається і в World Wide Web. Власне ще у 1988 році в спеціальному випуску журналу "Communication of the ACM" серед інших проблем розробки гіпертекстових систем та їх використання Франк Халаза назвав це як пріоритетне завдання для наступного покоління систем цього типу назвав проблему організації пошуку інформації у великих гіпертекстових мережах. До цих пір багато ідей, висловлені в тій статті, не знайшли ще своєї реалізації. Природно, що система, запропонована Бернерсом-Лі і отримала таке широке поширення в Internet, повинна була зіткнутися з тими ж проблемами, що і її локальні попередники. Реальне підтвердження цьому було продемонстровано на другій конференції з World Wide Web восени 1994 року, на якій були представлені доповіді про розробку інформаційно-пошукових систем для Web, а система World Wide Web Worm, розроблена Олівером МакБрайном з Університету Колорадо, отримала приз як найкращий навігаційне засіб . Слід також зазначити, що все-таки довге життя судилося аж ніяк не дивним програмами талановитих одинаків, а засобам, що є результатом планового і послідовного руху наукових і виробничих колективів до поставленої мети. Рано чи пізно етап досліджень закінчується, і настає етап експлуатації систем, а це вже зовсім інший рід діяльності. Саме така доля чекала два інших проекти, представлених на тій же конференції: Lycos, підтримуваний компанією Microsoft, і WebCrawler, що став власністю America On-line.
Розробка нових інформаційних систем для Web не завершена. Причому як на стадії написання комерційних систем, так і на стадії досліджень. За минулі два роки знятий тільки верхній шар можливих рішень. Проте багато проблем, які ставить перед розробниками ІПС Internet, не вирішені до цих пір. Саме цією обставиною і викликана поява проектів типу AltaVista компанії Digital , головною метою якого є розробка програмних засобів інформаційного пошуку для Web і підбір архітектури для інформаційного сервера Web.