Базовые принципы поиска информации в сети Интернет.
Поиск информации в Интернете проводится двумя основными способами – с помощью каталогов (их еще называют директориями) и с помощью поисковых машин. Директории обеспечивают контекстный поиск для структурированного просмотра, тогда как поисковые машины, как следует из их названия, контекста не обеспечивают, однако позволяют находить конкретные слова или фразы. Директории можно уподобить оглавлению книги, а поисковые машины – предметному указателю.
Часто поисковые системы объединяют в себе как поисковую машину, так и директории. Это хорошо видно на примере первой страницы Яндекса (www.yandex.ru/), где под поисковой строкой размещается список директорий, которые позволяют пользователю уточнять запрос по мере продвижения в глубь каждой из них. Все поисковые машины работают по одному и тому же алгоритму и основаны на одних и тех же принципах. Различия между ними возникают лишь на уровне технической реализации этих принципов в работе. Чтобы понять принцип работы поисковой машины, попробуем разделить вопрос на две части: на чем основан поиск и как он реализован.
На чем основан поиск
Все поисковые машины базируются на трех основных операторах, лежащих в основе Булевой алгебры (ее также называют Булевой логикой или Boolean). Это логические операторы «И», «ИЛИ» и «НЕ». Работают они следующим образом.
1. Логическое «И». Если между двумя словами в запросе стоит оператор «И», то в результате поиска будут найдены лишь те документы, в которых содержатся оба слова. Так, например, по запросу собака И кошка будет найден документ, содержащий предложение «собака гналась за кошкой», документов же, состоящих из текста «кошка отдыхала» или «корм для собак», мы не увидим.
2. Логическое «ИЛИ». Если между словами стоит оператор «ИЛИ», то результатом поиска станут документы, в которых содержится хотя бы одно из этих слов. Если мы не сделаем специальных ограничительных оговорок, то материалы, в которых оба эти слова присутствуют, также будут найдены. По запросу собака ИЛИ кошка мы получим документы, исключенные в прошлом запросе и содержащие текст «кошка отдыхала» или «корм для собак», а также материал с предложением «собака гналась за кошкой».
3. Логическое «НЕ». Если два предыдущих оператора описывали те слова, ко торые вы хотите включить в запрос, то оператор «НЕ» слова из запроса исключает. Пользователи, впервые сталкивающиеся с операторами запросов, нередко высказывают удивление: мол, не проще ли и вовсе не включать ненужное слово в запрос? Зачем вводить дополнительный оператор? Увы, нет. Не проще. На самом деле, чтобы понять важность логического оператора «НЕ», имеет смысл вспомнить, что наш запрос не создает в Интернете ничего нового. Мы лишь выуживаем то, что нам нужно, из имеющегося огромного, но все же конечного массива информации. При этом необходимо отсечь информационный мусор. Его-то мы и отсекаем с помощью оператора «НЕ». К сожалению, не нам решать, увидим ли мы этот мусор в выдаче. Так, например, по запросу сведений о коньке крыши неизменно появляется информационный мусор в виде документов о Коньке-Горбунке, фигурном катании, хоккее, лошадях и т. п. Без логического «НЕ» тут никак не обойтись. Давайте рассмотрим примеры работы логического оператора «НЕ». По запросу собака НЕ кошка будет найден документ, содержащий текст «корм для собак», а вот документы со словами «кошка отдыхала» или «собака гналась за кошкой», и даже «корма для собак и кошек» из выдачи будут исключены.
Часто встречается чуть более сложный вариант написания запроса, который содержит все или почти все вышеперечисленные операторы. В этом случае лучше пользоваться таким элементом, как круглые скобки. Скобки позволяют отделять однотипные слова запроса от остальных. Кроме того, самому составителю при этом визуально гораздо удобнее различать отдельные фрагменты запроса. Мы не будем чересчур теоретизировать о скобках, а просто продемонстрируем работу указанного элемента на конкретных примерах. На наш взгляд, так будет понятнее, как и для чего используются скобки. Так, запрос пушистые И (собаки ИЛИ кошки) позволит получить документы, относящиеся как к пушистым собакам, так и к пушистым кошкам – по отдельности или вместе. Скобки при этом «раскрываются» по обычным арифметическим правилам вынесения за скобку общего множителя (для тех, кто не любит математику, поспешим сказать, что болеше углубляться в нее мы не будем). А вот запрос пушистые И (собаки ИЛИ кошки) НЕ (собаки И кошки) выдаст документы, в которых написано про пушистых собак или пушистых кошек, но не будет содержать текстов, где одновременно будут упомянуты и кошки, и собаки. Еще раз повторимся, все поисковые машины сегодня работают на основе анализа этих трех операторов, хотя нюансы их написания в разных поисковых машинах могут отличаться.
Как поиск реализован
Каждая полноценная поисковая машина располагает собственным штатом роботов, или пауков. Их еще называют краулерами (crawlers) и спайдерами (spiders,). Это программы, которые перескакивают со страницы на страницу и сканируют находящиеся на них тексты, не вникая при этом в их содержание. После чего сбрасывают документы на серверы своих хозяев и идут к следующим страницам. Как паук определяет, куда ему пойти? Он находит так называемую гиперссылку (ту самую, при наведении на которую курсор приобретает вид раскрытой ладони, и при клике по которой происходит переход на другую страницу) и идет по ней. Вот почему, если на страницу не ведет ни одна ссылка, паук на нее тоже не придет. Исключение составляет ситуация, когда владелец страницы вручную сообщит о ней поисковой машине, заполнив специальную форму на сайте поисковой машины. На сервере поисковой машины текст разбивается на отдельные слова, каждому из которых присваиваются координаты, после чего они заносятся в таблицу сервера вместе со ссылкой на тот адрес в Интернете, по которому текст размещался в момент посещения его пауком. Сам по себе поисковик представляет собой большую локальную сеть, состоящую из мощных компьютеров с огромным объемом дисковой памяти. Эти машины разделены на подгруппы (так называемые кластеры), между которыми распределяется информация, собранная пауками.
Когда поисковая система получает запрос, она ищет ответ именно в своей таблице, а не в Интернете.
При этом важно понять, как паук решает, с какой частотой ему следует посещать ту или иную страницу.
Выглядит этот алгоритм приблизительно следующим образом. Поработав со страницей, паук возвращается на нее, ну, например, через две недели. И если видит, что никаких изменений не произошло, он планирует следующее посещение через более длительный период – скажем, через месяц. А если и тогда не обнаружит ничего нового, то наведаетсяя сюда еще позже, месяца через полтора-два. Вот почему нередко бывает так, что поисковая машина по запросу результат выдает, а попытка перейти на страницу по полученной ссылке безрезультатна – вероятнее всего, никакой страницы уже просто не существует на прежнем месте, но паук на нее давно не заходил, и, соответственно, поисковая система о ее удалении не знает.
Весь комплекс процессов, описанных выше, называется индексацией.
Язык запросов поисковой машины Яндекс
1. Логическое «И». Яндекс поддерживает три разных оператора, относящихся к логическому «И», что делает его самым гибким из всех поисковиков, работающих с русским языком. Столь развитая, практически уникальная система операторов поисковых запросов дает возможность предельно точно настроить запрос и сформировать такой фильтр для данных в Интернете, который максимально качественно выбирает нужную информацию и отсекает ненужную.
1.1. Пробел. Слова, разделенные пробелом, должны располагаться недалеко друг от друга. Специалисты поясняют, что термин «недалеко» отнюдь не фиксированная величина и меняется в зависимости от того, с какими словами указанный оператор в каждом конкретном случае используется. Если они часто употребляются, то «недалеко» – значит, на расстоянии нескольких слов друг от друга. Если же они редко встречаются в обиходе, то даже их нахождение в разных концах документа будет восприниматься как «недалеко». При этом, несмотря на то, что логическое «И» в общем виде Булевой алгебры подразумевает присутствие всех упомянутых слов, Яндекс, тем не менее, действительно выдает сначала те документы, в которых есть все ключевые слова, представленные в запросе. После чего начинает выдавать документы, в которых на одно ключевое слово меньше, чем в запросе, затем – на два слова меньше и так далее.
Запрос: маркетинг менеджмент - попробуйте сами
1.2. Амперсанд (&). Слова, разделенные амперсандом, находятся в одном предложении. Важно: амперсанд должен быть отделен пробелами с двух сторон от любых других слов.
Запрос: маркетинг & менеджмент
Нашлось ...
1.3. Двойной амперсанд (&&). Слова, разделенные двойным амперсандом, находятся в любом месте одного и того же документа. Важно: между амперсандами не должно быть пробелов, но сам оператор должен быть отделен пробелами с двух сторон от любых других слов.
Запрос: маркетинг && менеджмент
Нашлось ...
2. Логическое «НЕ». Логическое «НЕ» представлено двумя операторами. Прежде чем рассказать о них, отвечу на вопрос, который часто возникает у людей, впервые приступивших к изучению операторов поиска: «Зачем нужно логическое „НЕ"? Его ведь можно и вовсе не вводить, и тогда оно нам не понадобится!». Отвечаем: если мы сами решаем, что нам вводить, а что нет, то это утверждение справедливо. Но проблема в том, что часто в выдаче принудительно оказывается «мусор» и другого способа избавиться от него, кроме как убрать эти слова при помощи логического «НЕ», у нас нет. Так, например, если вас интересует конек крыши, то по слову «конек» в выдаче окажется информация и о роликовых, и о фигурных коньках, и даже о Коньке-Горбунке. Для таких-то случаев логическое «НЕ» и придумано. Итак, вернемся к нашим операторам.
2.1. Тильда (~). Знак тильды – это верхняя левая клавиша на буквенно-цифровой клавиатуре. Символ вводится на английском регистре с нажатой клавишей SHIFT. Как и амперсанд, тильда должна быть отделена пробелами с обеих сторон. Часто допускают ошибку, «приклеивая» тильду к следующему за ней слову. Иногда отсутствие пробела между тильдой и последующим словом не влияет на результат, но бывает и наоборот, поэтому лучше внимательно проследить за пробелами вокруг этого знака. Тильда означает, по аналогии с диаметрально противоположным символом – амперсандом, что слова не должно быть в предложении.
Запрос: маркетинг ~ менеджмент
Нашлось ...
2.2. Двойная тильда (~~). По аналогии с двойным амперсандом, двойная тильда пишется слитно внутри самого этого оператора, но отделяется от остальных слов пробелами с обеих сторон. Она означает, что слова, которое за ней расположено, не должно быть в документе совсем.
Запрос: маркетинг ~~ менеджмент
Нашлось ...
Обратите внимание: в результатах выдачи слова «маркетинг» и «маркетингу» выделены как релевантные, «маркетинговые» же – нет. Это происходит потому, что термин «маркетинг» – существительное, а «маркетингу» – его словоформа, тогда как «маркетинговые» – совсем другая часть речи, а отнюдь не производное от слова «маркетинг». Подобное явление надо учитывать, если вы рассчитываете на способность Яндекса самостоятельно перебирать словоформы. Игнорирование этого факта нередко приводит к искажению результатов выдачи и также является частой ошибкой начинающих специалистов по поиску в Интернете. На самом деле, в Яндексе есть еще один оператор логического «НЕ», который обозначается знаком «минус». По мнению Дениса Фурсова, с которым автор полностью согласен, _ «минус» – это не всегда корректно работающая двойная тильда, поэтому пользоваться им смысла нет. Мы не знаем наверняка, но предполагаем, что знак «минус» в качестве логического «НЕ» – это способ унифицировать Яндекс с другими поисковыми машинами, поскольку в большинстве своем они обозначают логическое «НЕ» именно этим знаком. Мы не пользуемся оператором «минус» при поиске в Яндексе.
3. Логическое «ИЛИ» (оператор |). Логическое «ИЛИ» представлено оператором, имеющим вид вертикальной черты |. На клавиатуре этот оператор находится обычно выше (реже он расположен ниже) клавиши Enter и вводится в английском регистре, при нажатой клавише SHIFT. В подавляющем большинстве случаев оператор | и слова, с которыми он используется, заключаются в скобки, так как чаще всего этот оператор относится сразу к двум и более словам. Если мы хотим сделать запрос, который должен показать, что нас интересует документ, содержащий в одном предложении слова «маркетинг» и «менеджмент», но при этом нигде по тексту не должно быть слов «курс», «работа», «конференция», «теория», «книга», «семинар», «бизнес», «прибыль», «клиент», то сформулировать его необходимо следующим образом: маркетинг & менеджмент ~~ (курс | работа | конференция | теория | книга | семинар | бизнес | прибыль | клиент)
Нашлось ...
Обратите внимание, что скобки, как в арифметике при вынесении за скобку общего множителя, позволяют распространить действие оператора «двойная тильда» на все слова, расположенные внутри них. Кстати, для удобства восприятия этот запрос лучше оформить так, чтобы слова «маркетинг» и «менеджмент» были сгруппированы. Смысловой нагрузки это не несет, а потому и на выдачу не влияет, однако снижает вероятность того, что вы сами запутаетесь в своем запросе, если он будет достаточно длинным..
Соответственно, мы бы советовали обратиться к поисковику так:
(маркетинг & менеджмент) ~~ (курс | работа | конференция | теория | книга | семинар | бизнес | прибыль | клиент)
4. Яндекс учитывает морфологию слов. Это означает, что Яндекс по запросу Учет выдаст результаты, содержащие слова «Учету», «Учетом», «Учетов» и т. п., которые он выделяет как релевантные теме поиска.
Запрос: Учет
Нашлось ...
Запрос: Учетом
Нашлось ...
5. Можно отключить поддержание морфологии слов. Если слова с изменяющимися окончаниями «замусоривают» результаты, то можно принудительно заставить Яндекс искать только слова в нужной словоформе. Это бывает полезно, например, при совпадении названия компании с общеупотребительными словами. Скажем, маловероятно, чтобы фирма «Река» упоминалась в публикациях со словами «Реке» или «Реку». Для того чтобы принудительно искать только нужную словоформу в Яндексе, используют оператор восклицательный знак. Он пишется слитно со словом, которое за ним следует, как если бы этот символ был первой его буквой.
Запрос: [!Река]
Нашлось ...
Видно, что количество страниц и сайтов в случае запроса с оператором «восклицательный знак» уменьшается почти в пять раз за счет исключения форм слова «река», таких как «реки», «рекой», «рекам» и пр.
6. Заглавные и строчные буквы. Яндекс периодически меняет некоторые нюансы в этом вопросе, стараясь, однако, придерживаться главного правила: слова, написанные с маленькой буквы, будут выдаваться и с маленькой, и с заглавной, а слова, написанные с заглавной буквы, будут выдаваться только с заглавной. Изменения, которые периодически происходят в подходах Яндекса к этой проблеме, обычно касаются попыток исправить наиболее распространенные ошибки пользователей. Однако для эффективной работы достаточно просто следовать приведенному в этом разделе правилу. Если же слово написано целиком заглавными буквами, Яндекс будет рассматривать его как представленное прописными. То есть, результаты ввода в поисковую строку понятия «РИТЕЙЛЕР» будут такими же, как и в том случае, если мы оформим запрос иначе – «ритейлер».
Запрос: бухгалтерский Учет
Нашлось ...
7. Обязательное включение слов запроса в выдачу. Чтобы искомые слова непременно присутствовали в документах к выдаче, используется оператор «плюс» (+). Для того чтобы наглядно показать работу этого оператора, сделаем запрос со словами, которые редко оказываются в одном документе. При этом разделим их пробелом. А затем сделаем точно такой же запрос, но поставим знак «плюс» перед каждым словом, запретив тем самым Яндексу выдавать документы, в которых набор искомых терминов неполный. Результаты отличаются!
Запрос: литейщик провизор стоматолог маркшейдер
Нашлось ...
Запрос: +литейщик +провизор +стоматолог +маркшейдер
Нашлось ...
Оператор «плюс» бывает незаменим и в тех случаях, когда есть необходимость обязательно включить в выдачу стоп-слова. Если какие-то слова должны быть в результатах, поставьте перед ними +'. Помогает со стоп-словами. Сейчас Яндекс, кажется, учитывает стоп-слова только в запросе из трех и менее слов (даже не операндов!).
+не покупай (samsung|lg) позволит найти негативные отзывы о продукции этих фирм (сравните с простым 'не покупай (samsung|lg)).
Запрос: +не покупай (samsung | lg)
Нашлось ...
Правда, Яндекс игнорирует стоп-слова как-то бессистемно.
Так, запросы: +не покупай (троллейбус | автобус) и не покупай (троллейбус | автобус) — дают одинаковое количество результатов, в которых слово «не» учитывается как релевантное. Тем не менее, поскольку нет возможности проверить, как Яндекс отреагировал на запрос в каждом конкретном случае, мы рекомендуем воспользоваться советом Дениса и ставить «плюс» перед стоп-словами, как, впрочем, и перед теми словами, которые вы обязательно хотели бы видеть в выдаче.
8. Поиск точной фразы. Не исключено, что вам понадобится найти определенную цитату либо рекламный слоган какой-либо компании. Для этого используется оператор «двойные кавычки», аналогичные тем, что применяются в прямой речи. В выдаче при поиске цитаты будут присутствовать документы, содержащие все слова искомой фразы, в той же форме и последовательности, что и в оригинальной ее версии. Важно помнить, что точной цитата будет лишь в том случае, если кроме фразы, указанной в кавычках, в запросе не будет никаких лишних слов. Если помимо фразы в кавычках появится еще хотя бы одно слово, Яндекс будет выдавать документы, которые содержат все слова цитаты, сохранит их последовательность, варьируя при этом их формы. Как следствие, количество документов в выдаче заметно возрастет. Яндекс называет это «слова идут подряд».
Запрос: «ты всегда думаешь о нас»
Нашлось ...
Интересно понаблюдать при такой слаженности результатов за тем, как работает оператор исключения слова из предложения:
Запрос: «ты всегда думаешь о нас» ~ (tefal | тефаль)
Нашлось ...
9. Слова находятся на определенном расстоянии. Этот оператор очень часто используется на практике, так как позволяет достаточно четко ограничить поиск. Вид он имеет следующий: /n, где n, по определению самого Яндекса, – это «максимально допустимое расстояние между двумя любыми словами запроса». Мы предлагаем следующим образом запомнить значение цифры в операторе: эта цифра (n) показывает, каким по счету будет второе слово после первого. Например, если в запросе написано: годовой /1 отчет то в выдаче будет присутствовать фраза «годовой отчет». Потому что слово «отчет» будет первым после слова «годовой». Если в запросе написано: годовой /2 отчет о в выдаче может появиться «годовой финансовый отчет», потому что слово «отчет» может быть вторым после слова «годовой», а первым может быть любое другое слово. Надеемся, мы объясняем доступно, потому что хотим рассказать еще о двух нюансах оператора расстояния между словами. На самом деле, по запросу: годовой /2 отчет документы, содержащие выражение «годовой отчет», также будут выданы, потому что меньшее значение расстояния возможно, а большее – нет. Мало того, в выдачу попадет не только сочетание «годовой отчет», но и «отчет годовой». Расстояние между словами распространяется на оба слова. Если же есть необходимость ограничить выдачу фразой «годовой отчет», исключив из нее выражение «отчет годовой», то оператор можно написать вот так: годовой /+1 отчет. Это практически эквивалентно запросу: годовой /1 отчет ~ «отчет годовой». Количество документов в выдаче совпадает, и в первых рядах в момент составления запроса был документ: Годовой отчет – 2005. О книге. Только с «Годовым отчетом – 2005» от журнала «Главбух» вы получите удобный мини-справочник по годовому отчету…
Мы не будем чрезмерно загружать читателя описанием оператора расстояния между словами, так как сказанного вполне достаточно для работы, а изучение всех нюансов функционирования поискового движка Яндекса не входит в круг основных наших задач.
Чтобы увидеть разницу между наличием и отсутствием знака «плюс» в операторе расстояния между словами, проведем напоследок такой эксперимент: сначала сделаем запрос, который позволяет появиться в выдаче документам, содержащим, согласно оператору расстояния, как фразе «годовой отчет», так и «отчет годовой», при этом исключив из результатов «годовой отчет»; а затем создадим запрос, требующий, за счет написания оператора расстояния между словами, выдачи только «годового отчета», и убедимся, что при попытке исключения конкретной фразы «годовой отчет» результат получить не удастся.
Запрос: годовой /1 отчет ~ «годовой отчет»
Нашлось ...
30. Информационные ресурсы органов государственной власти в сети Интернет.
В наст. Время у всех гос.органов треб-я отражение деят-ти в интеренете- любой сайт, что в нем отражено.