Каталоги составляются людьми - редакторами, просматривающими каждый новый сайт до его включения в индекс, или самими составителями описаний.
Качество при этом выше, чем у поисковых машин, но люди не могут успеть за темпами расширения и изменения Интернета: индекс популярного каталога Yahoo! содержит лишь немногим более миллиона записей. Кроме того, часто в каталогах накапливаются устаревшие адреса - если, конечно, авторы не удосужились автоматизировать процесс проверки.
Каталоги обычно организованы в соответствии с предметной классификацией и содержат сведения о web-страницах (так называемый "видимый" Интернет). Отдельной разновидностью каталога являются рейтинги - счетчики посещений.
Хороший каталог должен быть сбалансированным по количеству ресурсов; по размеру описаний; по оперативности обновления описаний; по размеру и глубине рубрикатора.
Хороший каталог должен быть удобным, то есть уметь представлять наиболее востребованные ресурсы первыми; обладать интуитивно понятной навигацией; быстро загружать страницы; иметь эффективные механизмы настройки и управления.
Хороший каталог должен быть гибким, то есть допускать изменение состава атрибутов описаний; изменение форм визуализации результатов навигации и поиска; изменение механизмов публикации.
Таким образом, хороший каталог – высокозатратный проект, требующий профессионализма как в области формирования и поддержки контента, так в области разработки и развития программного обеспечения.
Таблица 3.
Сводная таблица избранных предметных каталогов
Апорт | Яндекс | Rambler | Yahoo! | About | |
Общая характеристика | 14 разделов верхнего уровня, каталог ресурсов по регионам (подраздел рубрики Страны и регионы) | 10 основных разделов, 7 комбинированных, дополнительная классификация по региону, источнику информации, целевой аудитории и сектору экономики. | 56 разделов (Рейтинг - одноуровневый каталог) | 14 основных разделов | 36 разделов.Авторский контент - аннотации, сделанные экспертами. |
Сортировка ресурсов внутри раздела | Алфавит, хиты (посещаемость), лига (оценка гидов), индекс цитируемости (оценка числа ссылок на данный ресурс), оценка (мнение пользователей) | Алфавит, дата добавления, индекс цитируемости (кол-во ссылок на данный ресурс с других ресурсов) | по посещаемости | по алфавиту | по оплаченности ссылок |
Булевские операторы | Используется язык поисковой машины Апорт | Используется язык поисковой машины Яndex | Используется язык поисковой машины Rambler | Нет | Нет |
Поиск по фразе | " " | " " | |||
Префиксы | +, - | +, - | |||
Итеративный поиск (в результатах) | Есть поиск внутри категории | После входа щелкните More… | |||
замена части слова | * | * (не всегда | |||
Булевские операторы | Нет | Нет |
Вопрос 5. Планирование поисковой процедуры.
Трудоемкие поисковые работы, связанные с масштабным сбором информации из Сети, нуждаются в планировании. Ошибочная логика построения запроса, неоптимизированная последовательность применения инструментов, попытка форсировать поиск - все это не просто затягивает получение результата на дни и даже недели, но может поставить под вопрос смысл всей поисковой кампании.
Несмотря на постоянный рост индексов поисковых систем, оценки показывают, что увеличение общего числа документов в WWW за последний год с 320 до 550 миллионов в целом ухудшило картину доступности информации. Доля документов, захваченная отдельным индексом значительно упала и не превышает 30 процентов. Отсюда ясно, что только применение совокупности поисковых машин, способно дать полноценную информационную картину для поисковых задач, при решении которых существенна полнота поиска.
Тем не менее, независимо от характера задачи, непродуманное метание от одного поискового сервиса к другому существенно увеличивает время получения результата.
Остановимся на нескольких важных моментах, связанных с планированием и первыми шагами поисковой процедуры.
Начинать обычно приходится со всестороннего лексического анализа информации, подлежащей поиску. Необходимо получить из любого источника прецедент подробного и грамотного описания исследуемого вопроса. Таким источником вполне может стать как узко специальный справочник, так и электронная энциклопедия общего профиля. На основе изученного материала необходимо сформировать максимально широкий набор ключевых слов в виде отдельных терминов, словосочетаний, профессиональной лексики и клише, при необходимости - и на нескольких языках. Заранее стоит побеспокоиться о потенциальной возможности уточнения поискового запроса - редких словах, возможно, названий и фамилий, тесно связанных c проблемой. Желательно также предвидеть, какие из выбранных терминов, могут привнести в отклик поисковых систем нерелевантные документы. После накопления этого багажа можно перейти к получению предварительной информации из Сети.
Основная задача этой фазы работы - преломить проблему через призму Интернета, который является не только носителем технологий, но и традиций, и собственной этики. Сетевая лексика, сленг и написание общеупотребительных слов здесь могут отличаться от общепринятых.
Довольно трудно, например, догадаться, что появление огромного количества англоязычных электронных текстов литературных произведений в Сети связано с именем сетевого проекта "Gutenberg". Или что название операционной системы OS/2 допускает два вида написания - "OS/2" и "OS2". Одно неловкое движение - и десятки тысяч полезных документов выпадают из поля зрения.
Рейтинги потенциальных поставщиков нужной информации в обычной жизни и в электронном пространстве также могут существенно отличаться. В этой связи возможно, одно из главных положений, которое должно привлекать заказчика поисковых работ в Сети - это присутствие в ней совершенно уникальных источников, не допускаемых или неконкурентных на традиционном рынке информации. При поиске в Сети заметную роль начинает играть видение психологического портрета поставщика информации, к чертам которого могут проявлять чувствительность поисковые инструменты.
Прецедент существования в Сети необходимых данных лучше всего найти в известном каталоге, поддерживающем поиск по ключевым словам. В целом при решении простых, "любительских" задач уровня "погода в Сочи" или "карта метро Рима" каталог может быть более быстрым источником получения информации, чем на автоматический индекс и при больших гарантиях достоверности.
После лексического анализа информации наступает технологический этап. Выбор информационного поля Сети и поисковых инструментов производится на основе подходов, изложенных нами ранее.
Используются тестовые запросы из 1-2 ключевых слов или фразы, затем анализируется количественный отклик. Содержательный анализ данных позволяет корректировать запросы по релевантности отклика. В этой работе могут применяться и метапоисковые, и крупные автономные системы. В результате тестирования выясняются наиболее представительные источники информации, после чего следует уточнить последовательность применения поисковых инструментов. На этом этап планирования завершается.
Технология поиска
Проверяйте орфографию.
Если поиск не нашел ни одного документа, то вы, возможно, допустили орфографическую ошибку в написании слова. Проверьте правильность написания. Если вы использовали при поиске несколько слов, то посмотрите на количество каждого из слов в найденных документах (перед их списком после фразы "Результат поиска"). Какое-то из слов не встречается ни разу? Скорее всего, его вы и написали неверно.
Используйте синонимы.
Если список найденных страниц слишком мал или не содержит полезных страниц, попробуйте изменить слово. Например, вместо "рефераты" возможно больше подойдет "курсовые работы" или "сочинения". Попробуйте задать для поиска три-четыре слова-синонима сразу. Для этого перечислите их через вертикальную черту (|). Тогда будут найдены страницы, где встречается хотя бы одно из них. Например, вместо "фотографии" попробуйте "фотографии | фото | фотоснимки".