Применение языка запросов

Каждый запрос, адресованный поисковой машине Рамблера, обрабатывается в соответствии с правилами языка запросов. Некоторые слова и символы трактуются как операторы языка запросов и обрабатываются специальным образом. Фактически, языком запросов описывается некая формула, которая используется при поиске - каждый из документов "сопоставляется" с ней, и результатом поиска являются только те документы, которые ей удовлетворяют.

Например, запросу 'самолет' удовлетворяют все документы, в которых хотя бы раз встретилось слово 'самолет' в любой форме. Запросу, состоящему из нескольких слов, удовлетворяют документы, содержащие каждое из этих слов в любой форме (при некоторых условиях). Вопрос соответствия документа более сложному запросу определяется логикой операторов и конструкций языка запросов.

Морфология

По каждому слову запроса поиск ведется с учетом правил словоизменения соответствующего языка. Рамблер понимает и различает слова русского и английского языков - по умолчанию, поиск ведется по всем формам слова.

Например, при поиске по слову 'человек' будут также найдены документы, содержащие слова 'человеку', 'человеком', 'человека' и даже 'люди'. Чтобы провести поиск только по одной определенной форме слова, нужно взять его в двойные кавычки или воспользоваться поиском точной фразы в расширенном поиске.

Стоп-слова

Некоторые слова и символы по умолчанию исключаются из запроса в связи с их малой информативностью. Это так называемые стоп-слова - самые частотные слова русского и английского языков, например, предлоги, частицы и артикли. Присутствие этих слов может замедлить поиск и негативно повлиять на полноту результатов. Есть возможность обозначить необходимость этих слов в запросе, взяв запрос в двойные кавычки или воспользовавшись поиском точной фразы в расширенном поиске.

Ограничение расстояния

Если запрос составлен из одного или нескольких слов без применения операторов и конструкций языка запросов, то будут найдены документы, в которых встречаются все слова запроса. При этом для каждого запроса всегда существует так называемое ограничение контекста - положительное число, по умолчанию равное расстоянию в 40 слов. Документ, в котором встретились все слова запроса, будет выдан только в том случае, если расстояние в словах между вхождениями слов запроса будет меньше этого числа. Например, по запросу 'красная армия' будут найдены те документы, в которых слова 'красная' и 'армия' хотя бы один раз встретятся менее чем в 40 словах друг от друга.

Значение ограничения контекста можно изменять конструкцией '(число, запрос)', где число - любое положительное число, запрос - любой корректный с точки зрения поисковой машины запрос, состоящий более чем из одного слова (очевидно, ограничение расстояния между словами в случае однословного запроса не имеет смысла). Таким образом, по запросу '(2, красная армия)' найдутся только те документы, в которых между словами 'красная' и 'армия' хотя бы раз не стоит ни одного слова (поскольку лишь в случае их непосредственного соседства разница в порядковых номерах слов меньше 2, т.е. равна 1)

Ненайденные слова

Если запрос состоит из нескольких слов, и при этом некоторые из них вообще не удалось найти в Интернете, то выдаются результаты поиска по частичному запросу, из которого отсутствующие в Интернете слова исключены. При этом на странице результатов поиска выдается соответствующая диагностика.

Расширенный поиск

Форма расширенного поиска дает возможность:

· задавать дополнительные параметры поиска;

· редактировать параметры поиска и поля, заданные по умолчанию;

· выбирать наиболее удобную форму показа результатов поиска.

Поиск по тексту ...

· всего документа - поиск осуществляется по всему документу, включая его название и заголовки; включено по умолчанию;

· названия - учитываются только названия документов (тег <title>);

· заголовков - учитываются только заголовки документов (теги <h1>, <h2>, <h3>, <h4>)

Искать слова запроса ...

· все ("и") - документ находится только в том случае, если в нем присутствуют все слова запроса; включено по умолчанию;

· хотя бы одно ("или") - документ находится, если в нем встретилось хотя бы одно слово из запроса;

· точную фразу - документ находится, если в нем встретились все слова запроса, причем в том же порядке и в тех же формах, что и в запросе; выбор этой опции равнозначен заключению поискового запроса в двойные кавычки.

Расстояние между словами запроса ...

· ограничивать - расстояние между словами из запроса в тексте документа не должно быть слишком большим; включено по умолчанию, поскольку повышает точность поиска;

· не ограничивать - расстояние между словами не играет роли; будут найдены все документы, содержащие слова запроса, вне зависимости от того, на каком расстоянии друг от друга они находятся.

Исключить документы, содержащие следующие слова ...

Из списка найденного исключаются те документы, в которых есть слова, перечисленные в этом поле.

Язык документа ...

· любой - находятся любые документы, независимо от языка; включено по умолчанию;

· русский - поиск только по "русскоязычным" (кириллическим) документам;

· английский - поиск только по "англоязычным" документам (набранным латиницей).

Дата документа ...

Позволяет отбирать только те документы, дата создания которых укладывается в заданный диапазон. В частности, можно ограничить выдачу только "новыми" (начиная с указанной даты) или "старыми" документами (до указанной даты). Все даты задаются в формате день/месяц/год, например, 29/02/2000. По умолчанию находятся любые документы, вне зависимости от даты. Внимание: если сервер не возвращает даты документа, то в качестве таковой проставляется дата индексирования (день, когда документ был считан "пауком" Рамблера).

Искать документы только на следующих сайтах ...

Позволяет отбирать только те документы, которые найдены на указанных сайтах. Под сайтом понимается либо уникальное DNS-имя (домен), либо DNS-имя c каталогом первого уровня, начинающимся с тильды. Например:

top100.rambler.ru, www.lenta.ru, www.hosting.ua/~name - но не www.rambler.ru/domains/.

Можно указать несколько сайтов через запятые. По умолчанию в поиске участвуют документы со всех проиндексированных сайтов.

Вывод результатов поиска

Сортировать ...

· сайты по релевантности - найденные документы группируются по сайтам, так что одна позиция в списке результатов поиска может соответствовать нескольким документам; порядок выдачи сайтов определяется их релевантностью (степенью соответствия запросу документов с сайта); включено по умолчанию;

· страницы по релевантности - документы не группируются по сайтам, то есть все документы с одного сайта выдаются по-отдельности; порядок выдачи определяется релевантностью (соответствием запросу) каждого отдельного документа;

· страницы по дате (сначала новые) - документы не группируются по сайтам; порядок выдачи - от более новых документов к более старым;

· страницы по дате (сначала старые) - то же, что и в предыдущем случае, но сначала выводятся самые старые из найденных документов.

Выдавать ...

· по 15 - на страницах результатов поиска выводится по 15 найденных документов (сайтов); включено по умолчанию;

· по 30 - количество позиций на страницах результатов поиска увеличивается до 30;

· по 50 - количество позиций на страницах результатов поиска увеличивается до 50.

Форма вывода ...

· стандартная - включено по умолчанию;

· краткая - в результатах поиска показываются только заголовки найденных документов;

· детальная - выводится максимум информации о найденных документах: заголовок, аннотация, идентификатор документа, даты модификации и индексирования, размер, кодировка, адрес, и т.п.

Связанные запросы ...

· показывать - в левой части экрана выводится список запросов, "связанных" с данным - то есть часто задаваемых теми пользователями, которые вводили данный запрос;

· не показывать - включено по умолчанию; колонка со списком "связанных" запросов не выводится (начало списка показывается внизу страницы под заголовком "У нас также ищут").

·

Тема2 (практика)

Наши рекомендации