Поиск документов на русском языке
Вполне вероятно, что еще пару лет назад о появлении мощных поисковых систем, помогающих в нахождении документов на русском языке, можно было лишь мечтать. Достаточно сложная морфология русского языка затрудняла эту задачу, не позволяя «в лоб» применить проверенные западные алгоритмы. Но бурное развитие российской части Интернета помогло и эту «сказку сделать былью».
Создание достаточно полных русскоязычных Web-каталогов, которые можно было бы сравнивать с Yahoo!, по видимому, еще впереди – слишком больших финансовых и людских ресурсов они требуют. Тем не менее, первые и достаточно серьезные шаги в этом направлении уже делаются, – поисковая система Rambler на сегодня представляет уже не просто индекс, а гибридную систему с большим классификатором по тематическим разделам.
Среди поисковых систем, работающих с русскоязычными документами, можно выделить как международные Web-индексы, так и системы, разработанные и внедренные российскими компаниями. Начнем с международных поисковых систем: здесь выбор невелик – это знаменитая AltaVista (http://www.altavista.com). Несмотря на способность целого ряда зарубежных Web-индексов заносить в базу данных русскоязычные слова, лишь AltaVista делает это на уровне, достойном быть примером для остальных.
Как вы наверняка представляете, российский Интернет, как и все в России, многогранен и противоречив. Одна из главных его проблем – это наличие нескольких национальных сетевых кодировок. Для обычного англоязычного Web-сервера эта проблема решается просто. К русскоязычной поисковой машине предъявляются более жесткие требования. Дело в том, что далеко не все серверы поддерживают все или по крайней мере основные кодировки. Часть из них поддерживает или только KOI-8, или только Windows 1251, и только примерно треть поддерживает все или 2-3 основные кодировки. Если вы вводите запрос в окне на поисковом сервере в определенной кодовой странице, то не сможете найти ту информацию, которая существует в другой кодировке на серверах, поддерживающих какую-либо одну кодировку, если ваши кодовые страницы не совпадают. Для получения полной информации вам придется воспользоваться всеми кодировками, поддерживаемыми поисковыми серверами.
Хотя сегодня существует около десятка русскоязычных поисковых систем, мы ограничим свой рассказ о тех системах, которые стандартно вызываются на панели поиска
Internet Explorer – Rambler, Яndex, Апорт!
Rambler, http://www.rambler.ru
Поисковая система Rambler была изначально создана в фирме «Стек» для возможности поиска по русскоязычным серверам. Компания «СТЕК» образовалась в Научном Центре Биологических Исследований в г. Пущино (Московская область) в 1991 г., а автором поисковой системы является Дмитрий Крюков.
Рамблер – единственный в российском Интернете портал, объединивший поисковую систему, рейтинг-классификатор, а также ряд бесплатных сервисов и информационных проектов. Ресурсы портала регистрируют ежесуточно более 3,5 млн посещений, а ежемесячная аудитория Рамблера составляет 60-70% всех пользователей Рунета.
Только поисковая система содержит информацию о более чем 12 миллионах документов, расположенных на серверах России и стран СНГ. Рамблер обрабатывает ежесуточно не менее 500 тысяч поисковых запросов (в среднем – 5 запросов в секунду), сканируя 48 тысяч web-серверов и используя несколько одновременно работающих программ-роботов. Все проекты Интернет-холдинга реализованы на базе собственных технологических разработок.
Поисковая система Rambler поддерживает различные логические операции между словами, а также усечения слов с помощью метасимволов. Пользователь может определить выходной формат документов, максимальное количество результатов поиска и
т. д.
Яndex, http://www.yandex.ru
Эта поисковая система Интернета – часть проекта фирмы Comptek по разработке набора средств полнотекстовой индексации и поиска в текстовых данных с учетом морфологии русского языка. Яndex (произносится как «яндекс») расшифровывается как Языковый Индекс или, в английском написании, Yandex – Yet Another Index.
Как указывается в документе на сервере, продукты Яndex предназначены для работы с большими объемами русских текстов всех типов – в виде файлов различных форматов, полей баз данных и страничек Интернет.
Поисковая машина Яndex была запущена в эксплуатацию в конце сентября 1997 г. и область поиска системы – русскоязычный Интернет. Отличительные особенности системы, в соответствии с описанием на http://yandex.ru:
· полнотекстовый поиск с полным учетом морфологии русского и английского языков;
· мощный язык запросов (в том числе возможность поиска с расстоянием);
· возможность запроса на естественном языке;
· корректная обработка сленговых слов;
· возможность поиска похожего документа;
· очень компактный индекс;
· подсветка слов из запроса в найденных документах;
· развитая релевантность, позволяющая найти искомую информацию, не перегружая пользователя тысячами ссылок на не нужные документы;
· высокая скорость поиска.