Тема 9. Специфика работы в сети Internet
Современный человек вряд ли представляет свою профессиональную деятельность без применения ресурсов, доступных при помощи Internet. Интернет – это совокупность государственных, региональных, корпоративных и других компьютерных сетей, а также отдельных компьютеров, объединенных между собой разнообразными каналами передачи данных и унификацией применяемых технологий, таким образом, по своей структуре это полностью децентрализованная сеть.
Современная Сеть в состоянии предложить пользователю массу информации самого разного профиля. Самой главной проблемой, возникающей при работе с Сетью, стал быстрый и качественный поиск информации.
В этом помогают поисковые серверы, служащих отправной точкой для пользователей Сети. Поисковые сервера достаточно многочисленны и разнообразны. Принято различать поисковые каталоги и индексы.
Каталоги выросли из списков интересных ссылок, закладок (bookmarks). Они представляют собой многоуровневую смысловую классификацию ссылок, построенную по принципу «от общего к частному». Каталогами пользуются тогда, когда не вполне четко знают, что именно ищут. Поисковые каталоги уместно сравнивать с тематическими библиотечными каталогами, словарями-тезаурусами или биологическими классификациями животных и растений. Ведение поисковых каталогов частично автоматизировано, но до сих пор классификация ресурсов осуществляется главным образом вручную.
Чаще современные пользователи используют сервера-индексы — это довольно сложная программа, точнее комплекс программ, в которых используются специальные алгоритмы анализа содержимого веб-сайтов в масштабах всего Интернета. В основе работы большинства современных поисковиков лежит индекс цитирования, который вычисляется индексатором в результате анализа ссылок на текущую страницу с других страниц Интернета. Чем их больше, тем выше индекс цитирования анализируемой страницы и тем выше эта страница будет отображена в результатах поиска. Кроме того, учитывается индекс цитирования страниц, которые ссылаются на страницу, изучаемую индексатором.
Кроме индекса цитирования учитываются также следующие параметры: наличие искомых слов в заголовке страницы или названии сайта; частота повторений искомых слов на странице; размер шрифта, которым на странице написаны слова из поискового запроса, а также выделение этих слов шрифтами и стилями; тематика ссылающихся сайтов и некоторые другие.
Один из первых индексирующих поисковых серверов AltaVista (http://www.av.com) корпорации Digital (теперь Compaq), появился в 1995 году. Она имеет встроенный переводчик страниц с английского языка на французский, немецкий, итальянский, испанский и т. д. и обратно. На русский язык переводить не умеет.
На сегодняшний день существует множество серверов-индексов (поисковиков). На практике — это веб-сайты, где можно набрать в соответствующей строке ключевые слова, касающиеся интересующей темы, и получить множество ссылок на ресурсы с нужной информацией.
Наиболее крупные русскоязычные поисковые системы: Яндекс, Google, Rambler, Yahoo, Mail.Ru
Большинство поисковых серверов (кроме, пожалуй, Google) игнорирует короткие слова, не несущие смысловой нагрузки. В русском языке это предлоги, союзы и т. д., в иностранных, например, артикли. Многие поисковые серверы позволяют бороться с опечатками и неправильной раскладкой клавиатуры, для систем не имеет значения регистр. Применять знаки препинания в поисковых запросах вовсе не обязательно, точнее, даже не нужно, так как они также игнорируются поисковыми серверами. Зато многие традиционные знаки препинания могут быть использованы при построении сложных расширенных запросов, результаты поиска по которым обычно гораздо ближе к ожидаемым. В каждой поисковой системе они свои.
Таблица 10.Основные команды языка запросов поисковых серверов «Яндекс» и Google
Значение | Команда Yandex | Команда Google | Комментарий |
Поиск точного соответствия с запросом | «» (кавычки) | «» (кавычки) | Полезно использовать при поиске цитат |
Обязательно искать слово | + (плюс) | Принудительное включение в поиск слов (например, предлогов и п.д.) | |
Исключать слово из результатов поиска | ~~ (две тильды без пробела) | - (минус) | Команда полезна при поиске слов, имеющих множество значений. |
Слова должны встречаться в одном предложении | & (амперсанд) | Запрос культура & Китая найдет страницы, где есть сочетания слов «культура Древнего Китая» или «Китай и его культура» | |
Слова должны находится рядом | * (звездочка) | При запросе жизнь * творчество система найдет страницы, где слова разделены одним или несколькими словами. | |
Слова должны встречаться в одном документе | && (два амперсанда без пробела) | По запросу «продажа сканеров && Новосибирск» найдутся страницы есть эти слова. | |
Указание максимально допустимого расстояния между словами, после знака / сразу должна следовать цифра | / (слэш) | Запрос великий /2 князь найдет страницы, где есть фразы «великий князь», или «великий киевский князь» и т.д. | |
Искать любое из слов | | (вертикальная черта) | Or (или) | Например, при запросе веник | метелка | (or) пылесос поисковик выдаст страницы, на которых встречается хотя бы одно из этих слов |
Не изменять морфологию слова | ! (восклицательный знак) | + (плюс) | Запрос «! (+) день» найдет страницы, где слово «день» встречается только в такой форме, то есть в именительном падеже. |
Задать первоначальную форму слова | !! (два восклицательных знака) | Если одна или несколько форм слова совпадают с другими словами, то поиск может находить лишние страницы. При указании первоначальной формы слова из поиска убираются многие ненужные страницы. Например, запрос!!день найдет все формы этого слова: «дня», «дню», «днем» и др., но не найдет форм слова «деть» (одна из которых совпадает со словом «день») | |
Синонимы слова | ~ (тильда) | По запросу «аренда ~жилья» будут найдены страницы, содержащие слова «аренда домов», «аренда квартир» и т.д. | |
Найти определения значения слова | Define: (двоеточие) | Запрос «Define:экономика» покажет найденные определения слова «экономика» |
Таблица 10 показывает, что каждая поисковая система имеет свою специфику. Например, так как «Яндекс» игнорирует короткие слова, создана команда «+» принудительно, включающая их в поиск. Одни и те же символы могут обозначать для систем разные команды, например, «+». Не все команды, присутствующие в одном поисковике есть в другом. Таким образом, для эффективного использования, пользователю приходится выбирать одну из поисковых систем, досконально изучать её возможности.
Выбор поисковой системы.
По состоянию на март 2012 года на российском рынке поисковых услуг 50,9% запросов идет через Яндекс, 33,7% - Google, оставшиеся 15,4% контролируют другие поисковые системы, например, Mail.ru, Rambler. Таким образом, Яндекс одна из немногих национальных поисковых систем, которая устояла перед экспансией Google. На данный момент большинство оптимизаторов интересуют именно позиции по запросам на Яндекс.
Яндекс – самая крупная отечественная поисковая система. Помимо основного поиска предоставляет возможность поиска по блогам, картинкам, видео. В 2009 году разработан и внедрен новый метод машинного обучения «Матрикснет». В декабре 2012г. был внедрен новый алгоритм «Калининград», который позволил сделать поиск персонализированным. Другими словами, результаты поиска по одному и тому же вопросу для двух разных пользователей теперь будет различаться в зависимости от нужд и предпочтений самих пользователей. Кроме того, среди нововведений Яндекса можно отметить: введение геозависимости запросов в зависимости от региональной принадлежности пользователя и сайта; учет поведенческих факторов; разработка механизма подсказок, исправления ошибок и распознавания аббревиатур.
Google -общепризнанный лидер среди поисковых систем. Поисковая система появилась в 1996 году, и изначала предназначалась для поиска в картотеке библиотеки Стэнфорда. Корпорация Google была основана в 1998 году. В настоящий момент имеет более 100 региональных версий в различных странах. Кроме того, Google это не только поиск, но и еще более 50 различных сервисов, в том числе самый популярный браузер Google Chrome.
С этих двух самых популярных поисковых систем на сайт приходит больше всего посетителей на сайты. Для того, чтобы оказаться среди сайтов, которые выдаются поисковыми системами как ответы на запросы пользователей, необходимо добавить свой сайт. Для этого существуют так называемые «аддурилки» - это название произошло от словосочетания Add URL, что в переводе на русский означает «добавить URL-адрес сайта».
Для того, чтобы добавить сайт в Яндекс переходим по ссылке http://webmaster.yandex.ru/addurl.xml. Все, что нужно это указать URL-адрес сайта, ввести число с картинки и нажать кнопку «Добавить». Добавить сайт в поисковую систему Google можно по следующему адресу: http://www.google.ru/intl/ru/addurl.html. Rambler уже давно использует в своей работе поисковые алгоритмы Яндекс, поэтому если сайт добавлен в Яндекс, то в Rambler он появиться автоматически. Mail.ru тоже очень популярная поисковая система. Добавить свой сайт можно по адресу: http://go.mail.ru/addurl
Для владельцев Internet-ресурсов важно постоянно отслеживать изменение видимости ресурсов в основных поисковых системах. Для анализа позиций в поисковиках Google и Яндекс вполне подходит сервис Top Inspector (http://top-inspector.ru/), начавший свое существование как бесплатный, но в 2013 году стал условно-бесплатным. Аналогичные услуги предлагают и другие ресурсы: самый крупный из них - All Positions (http://allpositions.ru/). Явными достоинствами являются: быстрота обработки запросов, учет изменения позиции; анализ улучшения и ухудшения позиции; определение частотности поисковых запросов (разными сервисами); определение видимости сайта; анализ основных конкурентов сайта на основе проверяемых запросов; косвенный анализ конкурентности поисковых запросов и др. Аналогичные услуги предлагает сервис Promo park Диспетчер (http://promopark.ru/dispetcher/), предлагающий в том числе бесплатный тестовый доступ.
Одной из бесплатных программ для определения позиций сайта в поисковых системах является Site Auditor (http://www.site-auditor.ru/download.html). Она не требует установки, предъявляет минимальные системные требования, обладает большим функционалом и простым, удобным интерфейсом.
Для того, чтобы на сайт пришли посетители через запросы в поисковых системах, ему недостаточно просто присутствовать в результатах поиска. Необходимо попасть в началосписка результатов поиска.
Критерии, от которых зависит положение ссылки на сайт на страницах результатов поиска, можно разделить на две группы - текстовые и нетекстовые.
В работе с индексирующими поисковыми системами всегда следует помнить, что командой на поиск в поисковике является поисковый запрос, введенный пользователем - слово, несколько слов, словосочетание, фраза. Здесь возникает довольно существенный смысловой (семантический) разрыв. Язык сайтов радикально отличается от языка запросов. Характеристиками языка текстов сайта в массе являются грамотность, литературная корректность, четкость изложения мыслей. Основная масса поисковых запросов относится к нечетким (т.е. допускающим более одного варианта понимания); запросы часто слишком лаконичны, полны опечаток, смешивают кириллицу и латиницу и т.п.
Поэтому всегда перед тем, как планировать сайт, стоит ознакомиться с тем, как часто и в какой форме пользователи запрашивают информацию, предполагаемую к размещению в Интернете (единственным сервисом, который может предоставить подобную информация является «Яндекс-Директ»).
Современные поисковые системы игнорируют содержание этого поля «ключевые слова». Имеют значение титульная фраза (титул) - это текст, который содержится на странице в дескрипторе title. Слова титульной фразы имеют очень большое значение при упорядочивании (ранжировании) результатов поиска в поисковой системе. А именно, если формулировка запроса совпадает с титульной фразой, либо титульная фраза содержит несколько слов запроса, то страница с таким титулом при прочих равных условиях окажется выше. Титульная фраза отображается на рамке окна браузера, то есть в месте, куда обычно никто не смотрит.
Описание страницы - это содержание поля, помеченного тегом meta description. Слова описания (не более 200 символов) обычно не влияют на ранжирование результатов поиска, и среди русских поисковых систем данный тег используется на практике лишь «Яндексом» - ведущей системой поиска. Текст описания показывается в результатах поиска «Яндекса» под текстом титульной фразы.
Дополнительные текстовые критерии:позиция найденных слов в титульной фразе, «вес» найденного слова и близость его к началу документа, наличие найденных слов в заголовках и фрагментах, выделенных жирным шрифтом, близость найденных слов друг к другу (компактность цитаты).
Нетекстовые критерии релевантности можно разделить на три основных типа.
Ссылочно-расчетные критерии - это алгоритм поисковой системы Google - так называемый взвешенный индекс цитирования PageRank (PR)[11]. Индекс цитирования учитывает, как много ссылок имеется в Сети на ваш сайт, и насколько авторитетны ссылающиеся на вас сайты. Авторитетность "цитирования" определяется также по количеству ссылок на «цитирующего». Для расчета индекса цитирования Google и подобные ему системы регулярно «перетряхивают» невообразимо огромные матрицы связей между сайтами Интернета, пересчитывая вес ссылок и авторитетность ресурсов (Google использует для этого более чем 10.000 серверов). Подобный алгоритм используется также «Яндексом».
Каталожные критерии – этоиндекс цитирования «Яндекса» (citation index, CY) и алгоритм выдачи результатов поиска «Рамблера». В обоих случаях принцип один - наверху результатов поиска по запросу в индексах выдается несколько ссылок на сайты, зарегистрированные в принадлежащих порталам тематических каталогах. В случае «Яндекса» показывается до трех ссылок на сайты из каталога «Яндекса», если в их описании имеются слова запроса. «Рамблер» на первую страницу выводит результаты поиска по запросу до пяти ссылок на сайты, зарегистрированные в каталоге-рейтинге Rambler's Top100, если их посещаемость выше некоторого минимального порога.
Ссылочно-текстовые критерии – это алгоритм индексирования текста ссылки (то есть текст, выделенный как гиперссылка, на странице сайта). При этом при показе результатов поиска подобная страница не имеет титула, и «Яндекс» сопровождает ссылку на нее явным указанием – «адрес найден по ссылке».
Для того, чтобы иметь возможность проникнуть в недра всемирной паутины необходимо позаботится и о специальном программном обеспечении – браузере. Браузеры постоянно развивались со времени зарождения Всемирной паутины и с её ростом становились всё более востребованными программами. В целом пользователи всего мира используют около четырех десятков web браузеров, однако наиболее популярными для русскоязычного Интернета остаются 5-6. Практически все популярные браузеры распространяются бесплатно или «в комплекте» с другими приложениями: Internet Explorer (совместно с Microsoft Windows), Mozilla Firefox (бесплатно, СПО, совместно со многими дистрибутивами Linux), Safari (совместно с Mac OS X и бесплатно для Microsoft Windows), Google Chrome (бесплатно), Opera (бесплатно, начиная с версии 8.5).
Первые итоги 2013 года показывают стабильность лидирующей пятерки браузеров (см. схема 6).
Схема 6. Наиболее популярные браузеры на начало 2013 года
На сегодняшний день самым популярным является Google Chrome. Тесты показали, что производительность его очень высокая, обработка сценариев JavaScript и загрузка страниц быстрая. Браузер хорошо защищен, модулей расширения и дополнительных функций тоже достаточно.
Mozilla Firefox, занявшая второе место, отличается высокой скоростью обработки графики HTML5 и большой библиотекой надстроек. Удобный интерфейс, простое открытие вкладок и перемещение по сайтам.
Бывший еще несколько лет назад беспрекословным лидером (занимавший до 90% на рынке) браузер от Microsoft Internet Explorer уже привычно получает не высокие оценки за свою функциональность. Хотя HTML5 браузер обрабатывает довольно быстро, но аналогам все равно проигрывает. Сейчас практически каждый браузер поддерживает HTML5 и неплохо с этим справляется. Даже совершенно новый браузер Internet Explorer 10 уже сейчас уступает по производительности своим конкурентам.
Браузер Safari отличается довольно высоким уровнем защищенности. Причина тому как раз низкая популярность (его чаще устанавливают приверженцы Mac OS) - его просто невыгодно взламывать.
Считается, что Opera очень быстрый браузер. На самом деле, данный браузер имеет самый быстрый кэш: при повторных загрузках страницы открываются практически молниеносно. Однако первоначальное открытие страниц Opera проигрывает все тому же браузеру Google Chrome. Кроме этого, данный браузер реализован в мобильной версии. Функционально он проигрывает своим собратьям.
С недавнего времени в спор за первенство вступил еще один игрок – браузер Yandex. Он сделан на движке Chrome, поэтому вряд ли стоит рассматривать как отдельный браузер.
Таблица 11. Сравнения наиболее популярных браузеров
достоинства | недостатки | |
Google Chrome | Не нужно перезапускать браузер, чтобы закрыть зависшие страницы. Поддержка «песочницы» способствует избеганию заражения вредоносными программами. | Нет интегрированного механизма чтения каналов RSS. Аскетичный дизайн нравится не каждому. |
Mozilla Firefox | Высокая производительность обработки HTML5. Множество доступных надстроек. | Медленная загрузка страниц. Излишнее количество надстроек замедляет работу браузера. |
Internet Explorer | Быстрая обработка HTML-кода. Неплохие функции безопасности. | Отсутствие тем. Отсутствие автоматической синхронизации закладок. Сложное управление вкладками. |
Safari | Сеть безопасности устойчива. Есть мобильная синхронизация для пользователей устройств на базе iOS | Чересчур медленное открытие страниц на основе HTML5 или JavaScript. |
Opera | Быстрая загрузка страниц. Есть уникальные возможности для расширения функционала браузеров при помощи виджетов. | Настройки систем безопасности хуже, чем у других браузеров. |
Вопросы по теме:
1. Какие типы поисковых систем существуют? Какой является наиболее востребованным современным информационным сообществом?
2. Определите причины популярности отдельных поисковых систем?
3. В чем заключается сложность работы с несколькими поисковыми системами параллельно?
4. Для чего необходимо отслеживать позиции ресурсов их владельцам в основных поисковых системах?
5. Перечислите критерии, определяющие положение ресурса в списках поисковых систем.
6. Дайте краткую характеристику основных браузеров.