Організація ускладненого пошуку

ЛАБОРАТОРНА РОБОТА №2

Тема: оптимізація (підвищення ефективності) пошуку інформації за рахунок організації ускладненого пошуку та використання мови пошукових запитів.

Мета: навчитись використовувати мову пошукових запитів для підвищення точності та швидкості результатів пошуку. Виконати уточнення результатів пошуку.

ТЕОРЕТИЧНІ ВІДОМОСТІ

Організація ускладненого пошуку

Складні запити застосовують коли пошук за одним чи декількома ключовими словами не дає бажаного наслідку, бо кількість знайдених документів залишається непомірно великою. На жаль, загальних стандартів побудови складних запитів не існує, і кожна пошукова система має свої особливості, детально ознайомитись з якими можна на її сайті, скориставшись сторінкою допомоги.

Ускладнена техніка пошуку дозволяє полегшити і прискорити його процес. Почнемо з пошуку за одним ключовим словом. Тут можливі такі варіанти:

- пошук за цілим словом;

- пошук за підрядком.

Пошук за цілим словом відповідає наявності обов’язкових пропусків праворуч і ліворуч від ключового слова. Отже, пошук за словом program уже не захопить документів, що містять слово „programs”. На противагу цьому, під час пошуку за підрядком, досить наявності у тексті ключового слова в будь-якому оточенні. Наприклад, пишете ключове слово науковий, а до вас приходять документи, що містять слова „наука”, „наукова” і навіть „антинауковий”.

Інший варіант: Вам потрібно зібрати відомості, наприклад, про політичні партії в Україні. Задаючи ключове слово партія з пошуком за цілим словом Ви виключаєте з пошуку документи, що містять це слово в іншому відмінку або числі: партії, партіях і т.п. Однак, якщо Ви задасте пошук за підрядком, наприклад, за ключовим словом партія, то Ваш пошук охопить усі документи, що містять, наприклад, слова: партитура, партизан та інші, що мало відносяться до предмета пошуку.

Під час пошуку за двома і більшою кількістю слів – кількість варіантів пошуку значно зростає. Тут, по-перше, надається можливість комбінації їх за критерієм об’єднання або збігу, тобто за логічними функціями АБО та І, відповідно. Наприклад, можна здійснювати пошук за двома словами: мережа ИЛИ комп’ютерна. Після чого Вам прийдуть документи, що містять крім інформації про комп’ютерні мережі інформацію і про телефонні мережі, і рибальські, і навіть, може бути, про любовні або мережі шпигунства. Задавши ті ж самі два слова, зв’язані логічною функцією І: мережа И комп’ютерна, Ви значно звузите пошук, але виключите інформацію про глобальні мережі, всесвітні мережі і т. п., що містять у тому числі і потрібну Вам інформацію. У зв’язку з цим використовується ще одна логічна функція І-НЕ. Вона дозволяє використовувати таку, наприклад, комбінацію ключових слів: мережа И-НЕ риболовна або мережа И-НЕ шпигунська.

Тут напрошується об’єднання виключень, пов’язаних логічною функцією АБО: телефонна ИЛИ риболовна ИЛИ шпигунська ИЛИ любовна і взятих у дужки, а потім приєднаних до основного слова функцією И-НЕ: мережа И-НЕ (телефонна ИЛИ риболовна ИЛИ шпигунська ИЛИ любовна).

Такі ускладнені логічні функції пошуку допускаються деякими пошуковими серверами. Крім російських позначень логічних функцій використовуються англійські: AND, OR, AND, або ж спеціальні значки: &(І), ((АБО) &! (І-НЕ). Інші варіанти позначення логічних функцій: ИЛИ (використовується як пробіл), И (використовується знак +), И-НЕ (використовується знак –).

Крім логічних функцій можна використовувати лапки для позначення словосполучень. Наприклад, „політична партія” або „виставка фотографій”. Це дозволяє відшукати за зазначеними сполученнями ключових слів потрібні нам документи, що містять їх строго в тому вигляді, у якому вони безпосередньо подані. При цьому в область пошуку не потраплять документи, що включають зазначені словосполучення не у безпосередньому вигляді, а тільки, наприклад, у такому: політична незалежна партія або виставка художніх фотографій, оскільки в них потрапили „сторонні слова”.

Варіанти пошуку за ключовими словами, точніше словосполученням, взятими у лапки, і за ключовими словами, не пов’язаними ніякими знаками (за замовчуванням знаком АБО) є, фактично, двома полярними випадками. Між ними знаходиться варіант, де ключові слова пов’язані службовим оператором: БІЛЯ або БЛИЗЬКО або ПОРУЧ або англійською мовою – NEAR. Поруч з цим службовим символом ставиться число, яке виражає максимально припустиму кількість проміжних слів, які розділяють ключові слова. Наприклад: генетичні РЯДОМ алгоритми.

Це означає, що між ключовими словами “генетичні” і „алгоритми” може знаходитись у тексті не більше десяти слів, тобто вони знаходяться у документі на невеликій відстані. І в цьому випадку даний документ відповідає заданому критерію пошуку. В протилежному випадку такий документ у Вашу область пошуку не потрапить.

Слід пам’ятати, що існує і цілий ряд слів, котрі нехтуються пошуковими системами під час запиту і пошук за ними неможливий. Це так звані стоп-слова, наприклад: на, що, це, для. Стоп-слова настільки часто зустрічаються у мові (у нашому випадку в тексті документа), що шукати за ними дуже важко. Цікаво, що до таких списків стоп-слів на деяких машинах вже входять, наприклад слова інтернет, комп’ютер, мережа. Ці слова вже настільки поширені, що „нічого не означають”.

Слід пам’ятати, що однакове написання різних за значенням слів (омонімія) під час пошуку за ключовими словами може привести до появи у списку відповідей досить несподіваних результатів. Наприклад, слово „лист”. Додатково до омонімії російської мови: „лист каштана” і „лист бумаги”, під час пошуку за допомогою МЕТИ додається ще значення „лист” з української. Тобто крім омонімії в російській та українській мовах окремо, з’являється ще українсько-російська омонімія: приклад перекладу – приклад ружья, свято перемоги – свято верить, важкий стан – прокатный стан, влада народу – позвать Влада тощо.

Частково зняти таку неоднозначність можна за допомогою оператора нормальної форми (поставити поперед „підозрілим” словом у запиті знак оклику). Якщо ж використати пошук за фразою, омонімія мови майже не впливає на видачу результатів пошуку.

Запит з використанням стійких фраз і виразів, що відносяться до теми Вашого пошуку, є одним з найпотужніших засобів швидко отримати добротну добірку результатів.

Для пошуку у таких випадках треба використати лапки (дужки) або оператори відстані, тобто слід шукати не слова, а словосполучення. Наприклад, за запитом у лапках „Век живи” Мета з великою точністю видасть сторінки, де міститься прислів’я „Век живи – век учись” та його варіації, при цьому в короткій анотації ресурсу буде підсвічена саме ключова фраза. Запити за фразою „Комп’ютерна периферія”, „курс валют”, „прайс-лист” тощо значно скорочують загальне число знайдених документів та дозволяють уточнити пошук.

У деяких випадках під час пошуку слід застосовувати так званий розширений пошук. Різниця між простим і розширеним засобами пошуку полягає в тому, що при розширеному пошуку використовуються групи операторів, які дозволяють точно вказати, яким чином повинні бути пов’язані між собою слова запиту, вказати відстань між ними тощо. Перша група – це логічні оператори (таблиця 1), друга – дозволяє задати відстань між словами запиту (таблиця 2).

Таблиця 1 – Логічні оператори

Оператор Синоніми Опис
І AND И & + Логічне “І” мається на увазі, його можна опускати, тобто запит потрібна інформація повністю еквівалентний запиту потрібна та інформація. За будь-яким з цих запитів будуть знайдені документи, що містять обидва слова. Оператор І уточнює область Вашого пошуку.
АБО OR ИЛИ | Логічне “АБО” дозволяє шукати документи, що містять хоч би одне з слів в запиті. Так, за запитом швидкий або пошук будуть знайдені документи, що містять будь-яке з вказаних слів або обидва слова одночасно. Оператор АБО розширює сферу Вашого пошуку.
НЕ NOT - Логічне „НЕ” обмежує пошук документами, що не містять слово, вказане після оператора. Наприклад, за запитом напій не кава будуть знайдені документи, що містять слово „напій”, але не містять слово „кава”. Оператор НЕ обмежує область Вашого пошуку.
( )   Круглі дужки задають порядок дії логічних операторів. Наприклад, Ви друкуєте запит швидкий або якісний пошук. За таким запитом Ви отримаєте документи, що містять або слово „швидкий”, або одночасно слова „якісний” та „пошук” (оскільки оператор ТА мається на увазі і діє першим). Якщо ж Ви напишете запит (швидкий або якісний) пошук, то отримаєте документи, де зустрічаються одночасно слова „швидкий” та „пошук”, або „якісний” та „пошук”.

Таблиця 2 – Оператори, що задають відстань між словами запиту

Оператор Синоніми Опис
" "   Подвійні лапки дозволяють знаходити словосполучення, вказане в них, або близьке до нього. Останнє застереження пов’язано з двома обставинами. По-перше, стоп-слова в лапках нехтуються, як у звичайному запиті. По-друге, граматична форма слів також лапками не фіксується (щодо запитів українською та російською мовами). Наприклад за запитом „погода у Вінниці” будуть знайдені документи, що містять такі словосполучення: „погода у Вінниці”, „погода та Вінниця”, „погода Вінниця” тощо.
Сл2(...) с2(...) w2(...) [2,...] Обмеження відстані у словах (двійка вказана як приклад). Якщо Ви бажаєте, щоб задані Вами слова зустрічались, скажімо, у межах 5 слів, треба написати: сл5(сонце вітер вода). В такому випадку будуть знайдені документи, де між словами „сонце”, „вітер” та „вода” розташовано не більш двох інших слів (тобто загальне число слів у фрагменті не перевищує 5). Порядок, у якому зустрічаються задані слова не важливий.
пр2(...) п2(...) реч2(...) s2(...) {2,...} Обмеження відстані у реченнях (двійка вказана як приклад). Якщо Ви потребуєте, щоб задані Вами слова зустрічались, скажімо, у межах 1 речення, треба написати: пр1(сонце вітер вода).

Таблиця – Оператори зрізання та нормальної форми

Оператор Опис
* Оператор зрізання. Зірочка наприкінці слова замінює довільне число будь-яких літер. Отже за запитом вол* окрім „вола” буде знайдено документи, що містять слова „воля”, „Волинь”, „вольт” та інші у будь-якій граматичній формі.
! Оператор нормальної форми. Іноді деякі форми різних слів збігаються за написанням. Наприклад, слово „лада” – це нормальна форма іменника жіночого роду та одночасно родовий відмінок слова „лад”. Для того, щоб усунути таку неоднозначність, Ви можете поставити перед словом у запиті знак оклику (!), підкресливши, що це нормальна форма, та відкинувши деяку частину непотрібних словоформ. Наприклад, за запитом !лад не буде знаходитись словоформа „ладой”, що є тільки у іменника жіночого роду „лада”.

ПОРЯДОК ВИКОНАННЯ РОБОТИ

В цій роботі Вам слід підвищити повноту, точність та ефективність пошуку інформації у мережі Інтернет за темою, що виконувався у попередній лабораторній роботі. Для цього Вам пропонується виконати такі кроки.

1. Сформуйте ускладнений пошуковий запит, використовуючи логічні оператори та виконайте пошук інформації у мережі Інтернет за допомогою однієї з пошукових систем, які Ви використовували під час виконання першої лабораторної роботи.

2. Використовуючи параметри „розширеного“ („складного“) пошуку оптимізуйте пошукову процедуру, розширюючи чи звужуючи область пошуку, наприклад:

- використовуючи оператори, що задають відстань між словами запиту;

- використовуючи оператори, що задають обмеження інтервалу дат;

- застосовуючи оператори зрізання та нормальної форми.

3. Оцініть результати виконання пошуку, уточніть результати шляхом застосування функції „шукати у знайденому”.

4. Порівняйте результати поточного пошуку у плані пертинентності, точності та повноти з результатами пошуку, отриманими у попередній лабораторній роботі.

5. Зробіть висновки стосовно підвищення ефективності пошуку інформації завдяки застосуванню як мови запитів та інших параметрів „розширеного“ („складного“) пошуку

3. ПОДАННЯ РЕЗУЛЬТАТІВ РОБОТИ (ЗВІТ)

1. Звіт подається у вигляді листа електронної пошти (E-mail) на адресу [email protected].

Тема листа (обов'язково): Лр2 Оптимізація пошуку інформації в Інтернет.

Зміст листа: довільний, але обов’язковою є інформація про виконавця – ПІБ студента, група.

2. До листа має бути прикріплений файл (документ Word95/XP) з результатами роботи:

- копія екрану сторінки з параметрами розширеного (складного) пошуку;

- копія екрану сторінки, яка видається пошуковою системою як відповідь на запит користувача;

- таких пар копій має бути мінімум 3, одна з яких має бути оптимальною (візначити);

- порівняльний аналіз результатів пошуку;

- висновки стосовно оптимізації пошуку фахової інформації за допомогою параметрів розширеного пошуку.

3. Мінімум 10 робіт за заданою темою (електронні версії).

Контрольні питання

1. Що таке складний запит? Наведіть приклади застосування операторів логічних операцій у тексті запиту.

2. Що таке ускладнений пошук? Яке його основне призначення?

3. В чому полягає різниця між простим і розширеним способами пошуку?

4. Що таке розширений пошук і які параметри можна у ньому задавати?

5. Поясніть термін „стоп-слово”. Наведіть приклади відомих Вам стоп-слів.

6. Поясніть суть терміну “омонімія”. Наведіть кілька прикладів омонімії.

7. Назвіть оператори, які дозволяють вказати, яким чином повинні бути пов’язані між собою слова запиту. Наведіть приклади застосування таких операторів.

8. Яким чином і з якою метою вказують відстань між словами пошуку? Наведіть відповідні приклади.

9. В чому полягає пошук за адресами Web-серверів? Наведіть відповідні приклади.

10. Для чого потрібні і яким чином використовуються оператори зрізання та оператори нормальної форми? Наведіть відповідні приклади.

11. Назвіть призначення операторів параметрів запиту. Наведіть кілька відповідних прикладів.

12. Яким чином виконують пошук програмного забезпечення? Поясніть різницю у програмному забезпеченні, що відноситься до „shareware” і „freeware”.

Наши рекомендации