Сбор информации из открытых источников

Когда нам необходимо найти нужную нам информацию в Интернете, у нас есть несколько способов достичь желаемого. Большинство людей используют поисковики, вбивая необходимый запрос и изучая предоставленную поисковую выдачу. Для определенных целей нельзя обойтись без использования специализированных баз данных (БД) или же сайтов-каталогов.

То, как вы ищите необходимую информацию, зависит только от вашего желания и определяет, как много информации вам придется переработать перед тем как найти то, что вы ищите, и сколько времени на этом понадобится.

Рассмотрим кратко несколько способов поиска:

1. Если вы решили воспользоваться поисковиком для получения общей информации о чем-либо, то выдача из миллионов страниц и многочисленные переходы по ссылкам не должны вас испугать. Но если ваша цель – это поиск конкретной информации, то могут возникнуть проблемы. Этот способ не гарантирует достоверность информации и требует много времени.

С другой стороны, большинство поисковиков, например, таких как Яндекс и Google, позволяют сузить границы поиска. Во-первых, можно воспользоваться фильтрами расширенного поиска. С помощью данных фильтров можно выбрать нужный вам регион, ограничить результаты поиска по дате обновления документов, определить язык документа и многое другое. Во-вторых, в том же Яндексе, имеется «язык запросов». Его суть в том, что для ограничения области поиска можно использовать специальные операторы, которые позволяют:

- получить в выдаче только документы, содержащие запрашиваемое слово в заданной форме

- уточнить наличие и взаимное расположение запрашиваемых слов в документе

- ограничить поиск по типу файла, хосту и т. д.

2. Если вам необходимо найти информацию по определенной теме, то подойдет поиск по каталогам. На подобных сайтах информация систематизирована и структурирована, разбита по темам и подтемам, что упрощает поиск нужного именно вам раздела. Такие сайты редактируются живыми людьми, поэтому чаще всего предоставленным там ссылкам можно доверять. Конечно, такой способ поиска, если вам нужно найти конкретный документ, не особо эффективен, но он хорошо подходит в случаях, когда вам надо найти как можно больше информации по широкой теме.

В Интернете имеется огромное количество каталогов, как специализированных, посвященных одной широкой теме, так и многопрофильных.

В качестве примера можно рассмотреть два крупных, многопрофильных каталога. DMOZ – это один из крупнейших каталог ресурсов Интернета. Если рассматривать сугубо русскоязычные каталоги, то можно выделить list.mail.ru. Далее мы расскажем чуть больше о данных ресурсах.

3. Поиск по базам данных эффективен при тематическом поиске. Сбор нужной нам информации в зарубежных и русскоязычных информационных, образовательных и научных ресурсах очень часто требует больших усилий и может стоить значительных затрат средств и времени.

В Сети существует огромное количество баз данных - фактографических, библиографических, полнотекстовых, объектографических и т.д., которые, в зависимости от содержания хранящейся в них информации, можно подразделить на универсальные, отраслевые и тематические. Например, библиографические базы данных по своей сути являются электронными аналогами традиционных печатных библиографических изданий. Библиографические базы данных, как правило, поддерживают единожды заданный, четкий алгоритм описания документов по определенным критериям. Это способствует нахождению необходимой информации, особенно, если ставится задача найти какую-либо конкретную публикацию, вышедшую в периодическом издании.

Пример. Каталоги.

Каталог сайтов Интернета, или каталог Интернет-ресурсов, или просто Интернет-каталог (англ. webdirectory) — структурированный набор ссылок на сайты с кратким их описанием. Сайты внутри каталога разбиваются по темам.

1. OpenDirectoryProject (ODP, Открытый Каталог (ODP)), также известный как DMOZ (от одного из своих первых доменных имён directory.mozilla.org) — многоязычный свободный каталог ссылок на сайты всемирной паутины, поддерживаемый интернет-сообществом добровольных редакторов.

DMOZ был основан Ричардом Скрентой и Бобом Труелом. Его запуск состоялся 5 июня 1998 года.

На данный момент на сайте можно найти:

- 1,031,462 категорий

- 3,884,779 сайтов

Информация доступна на 90 языках, в том числе нарусском, немецком, английском, греческом, французском, японском, корейском, итальянском и так далее.

На сайте работают 91,790 редакторов.

Основные категории: искусство, бизнес, компьютеры, игры, здоровье, дом, новости, отдых, справочники, регионы, наука, покупки, общество, спорт, каталог для детей и подростков. Каждая из этих основных категорий подразделяется на огромное количество подтем.

DMOZ-ом управляет AOL Inc. (американский медийный конгломерат, поставщик онлайн-служб и электронных досок объявлений). Управлением занимается небольшая команда специалистов, ответственных за редакционную политику и руководство, управление сообществом и его развитие, а также за системное проектирование.

Однако, в первую очередь, DMOZ - это саморегулирующиеся сообщество. С помощью системы самоуправления, редакторы-добровольцы управляют ростом каталога и его развитием, а система сдержек и противовесов обеспечивает высокое качество контента.

DMOZ является открытым источником, основанном на волонтерской инициативе. AOL Inc. Управляет им в большей степени как некоммерческой организацией и стремится сохранить его атмосферу открытого и свободного ресурса.

2. Если говорить о русскоязычных каталогах, то можно выделить Каталог@mail.ru. По аналогии с DMOZ, здесь есть основные темы, которые потом разбиваются на более мелкие. Всего 18 основных категорий: автомобили, интернет, медицина и здоровье, новости и СМИ, производство, бизнес и финансы, компьютеры, наука и образование, спорт и так далее.

Для удобства пользователей внутри каждого раздела можно видеть разбивку всех имеющихся по этой теме ссылок по:

- Регионам (Россия, Азия, Европа и так далее)

- Типам сайтов (информационные, корпоративные, персональные, сайты-сервисы, частные, информационно-сервисные)

Так же можно сортировать выдачу по алфавиту, дате и популярности.

Каждый день Каталог@mail.ru предоставляет топ самых посещаемых сайтов за день из тех, что имеются в каталоге.

Пример. Базы данных.

Espacenet (ранее часто упоминался как esp@cenet) это бесплатный онлайн сервис для поиска патентов и патентных заявок. Espacenet разработан Европейским патентным ведомством (ЕПВ) совместно с государствами-членами Европейской патентной организации. Большинство государств-членов имеют возможность пользоваться Espacenet на своем государственном языке и имеют доступ к Всемирной базе данных ЕПВ, большинство из которых на английском языке. В 2015 году Espacenet утверждали, что у них зарегистрированы записи о более чем 90 миллионов патентных публикациях.

Проект Espacenet был запущен впервые в 1998 году, совершив революцию в сфере международной патентной информации, сделав её общедоступной и тем самым навсегда изменив порядок распространения, проверки и поисков патентов.

В 2012 ЕПВ запустило проект «PatentTranslate», бесплатный онлайн-сервис автоматического перевода патентов. Этот сервис был созданный в партнерстве с Google и был "специально построен так, чтобы обрабатывать сложную патентную лексику". «PatentTranslate» охватывает 31 язык.

С марта 2016 года, Espacenet начали предлагать полнотекстовый поиск по базе английских, французских и немецких патентных документов.

Пример. Поисковик.

Поисковая система — это компьютерная система, предназначенная для поиска информации. Одно из наиболее известных применений поисковых систем — веб-сервисы для поиска текстовой или графической информации во Всемирной паутине.

Для поиска информации с помощью поисковой системы пользователь формулирует поисковый запрос. Работа поисковой системы заключается в том, чтобы по запросу пользователя найти документы, содержащие либо указанные ключевые слова, либо слова, как-либо связанные с ключевыми словами.

В архитектуру поисковой системы обычно входят:

- поисковый робот, собирающий информацию с сайтов сети Интернет или из других документов,

- индексатор, обеспечивающий быстрый поиск по накопленной информации, и

- поисковик - графический интерфейс для работы пользователя.

На данный момент у пользователей есть широкий выбор, каким именно поисковиком они хотят воспользоваться для нахождения необходимой им информации: Google, Bing, Yahoo!, Яндекс, Рамблер и так далее.

В качестве примера мы рассмотрим поисковую систему Bing. Bing является относительно молодым поисковым сервисом, впервые заявившим о своем существовании лишь в 2009 году, и был представлен генеральным директором Microsoft Стивом Балмером. Однако, несмотря на свою молодость, данная поисковая система уже сегодня в некоторых европейских странах, а также странах Северной Америки уступает по своей популярности лишь поисковому гиганту компании Google.

Bing наиболее популярен в таких странах как: США, Китай, Германия, Индия и Великобритания.

Поисковик обладает лаконичным внешним видом, а для нахождения информации можно использовать также категории «Изображения», «Видео», «Карты», «Новости». Кроме того, Bing имеет своего переводчиком на базе MicrosoftTranslator. К особенностям данного поисковика можно отнести то, что прямо в поисковике, без установки на компьютер, можно пользоваться лицензионным продуктами MicrosoftOffice.

Если оценивать данный сайт как источник информации, то можно столкнуться с одной особенностью, которая усложняет быстрый и точный поиск. Особенность поискового алгоритма Bing является его отношение к плотности ключевых слов. Если для успешного продвижения в других поисковых системах тексты сайта должны содержать от 5 до 8% ключевых слов, то Bing считает естественной плотностью ключей цифру в 3%. Таким образом, вероятность того, что по вашему запросу могут быть предоставленный ссылки на сайты, не содержащие нужной информации, повышается.

Как и у конкурентов, в Bing есть возможность фильтрация выдачи по временному периоду, языку и региону.

ЗАКЛЮЧЕНИЕ

Интернет образует гигантское хранилище данных по всем отраслям человеческого знания. Виртуальные библиотеки, архивы, ленты новостей содержат огромное количество текстовых, графических, аудио- и видеофайлов – всемирная компьютерная сеть, предоставляет нам огромное количество открытой информации. И ориентироваться в этом информационном потоке, находить нужное – очень важно для человека 21 века.

Мы ознакомились с такими видами открытых источников информации сети Интернет, как каталоги, базы данных и поисковые системы на частных примерах и рассмотрели, как происходит поиск информации в рамках данных ресурсов.

Источники

1) Статья «Сбор информации из открытых источников» [Электронный ресурс] // Всепоиск, 2015, URL: http://www.vsepoisk.ru/2009/03/blog-post_27.html (Дата обращения: 13.12.2016)

2) Официальный сайт DMOZ [Электронный ресурс] // DMOZ, 2016, URL: http://www.dmoz.org/ (Дата обращения: 13.12.2016)

3) Официальный сайт Каталог@Mail [Электронный ресурс] // Mail.ru, 2016, URL: http://list.mail.ru/ (Дата обращения: 13.12.2016)

4) Официальный сайт Espacenet [Электронный ресурс] // Espacenet, 2015 URL: http://www.epo.org/index.html (Дата обращения: 13.12.2016)

5) Статья «Ищем в базах данных» [Электронный ресурс] // Всепоиск, 2015, URL: http://www.vsepoisk.ru/2009/04/blog-post_08.html (Дата обращения: 13.12.2016)

6) Статья-обзор поисковой системы Bing [Электронный ресурс] // Moydrugpc, 2016, URL: http://moydrugpc.ru/poiskovik-bing (Дата обращения: 13.12.2016)

Наши рекомендации