Лекция 22. Информационные хранилища
Использование баз данных не даёт желаемого результата от автоматизации деятельности предприятия. Причина проста: реализованные функции значи-тельно отличаются от функций ведения бизнеса, так как данные, собранные в базах, не адекватны информации, которая нужна лицам, принимающим ре-шения. Решением данной проблемы стала реализация технологии информа-ционных хранилищ (складов данных).
Информационное хранилище(data warehouse) –это автоматизированнаясистема, которая собирает данные из существующих внутренних баз пред-приятия и внешних источников, формирует, хранит и эксплуатирует инфор-мацию как единую.
К внутренним базам данных предприятия относятся локальные базы пред-метных приложений и подсистем ИС. К внешним – любые данные, доступ-ные по Интернету и размещённые на Web-серверах предприятий-конкурентов, правительственных и законодательных органов, других учреж-дений. Информационное хранилище представляет собой совокупность про-граммно- аппаратных средств, позволяющих предоставлять данные в целост-ном виде для последующего анализа и принятия управляющих решений.
Отличие реляционных баз данных, используемых в ИС, от информационного хранилища заключается в следующем:
• Реляционные базы данных содержат только оперативные данные предпри-ятия. Информационное хранилище обеспечивает доступ как к внутренним данным предприятия, так и к внешним источникам данных, доступных по Интернету.
• Модели данных реляционных баз ориентированы на предметные и функ-циональные приложения ИС. Они обеспечивают запросы оперативных дан-
ных предприятия. Информационные хранилища поддерживают большое чис-ло моделей данных, включая многомерные и ER-модели, что обеспечивает исторические запросы (запросы за прошлые годы и десятилетия), запросы как к оперативным данным предприятия, так и к данным внешних источни-ков, запросы аналитических (агрегированных) данных для анализа тенденций и принятия стратегических решений.
• Данные информационных хранилищ хранятся не только на сервере, но и на вторичных устройствах хранения.
Для доступа и размещения данных на устройствах , используемых для орга-низации информационных хранилищ, разработано много файловых систем.
Из них можно выделить системы HSM (Hierarchycal Storage Management) и
DM (Data Migration). HSM реализует функции иерархического хранилища, Data Migration – миграции данных.
HSM- система создаёт как бы«продолжение»дискового пространства фай-лового сервера на вторичных устройствах (библиотеках - автоматах), доступ-ного приложениям (рисунок 5).
Рисунок 5 – Организация HSM-системы
При конфигурации HSM указывается размер пространства на сервере, отво-димого под буфер для обмена с оптическими библиотеками. Как только это пространство становится занятым и требуется подкачка новых данных из оп-тической библиотеки-автомата , реализуется алгоритм миграции данных: наименее используемые файлы с сервера переносятся в библиотеку -автомат, освободившееся пространство передаётся буферу. Из библиотеки в буфер перекачиваются требуемые файлы. Если приложение обратится к « унесённо-му» файлу, HSM повторяет алгоритм миграции. Все перемещения выполня-ются автоматически и приложения «не подозревают» о наличии вторичных устройств хранения. Смена оптических дисков в библиотеках–автоматах по-зволяет неограниченно увеличивать базу данных.
Для хранения данных в информационных хранилищах обычно используются выделенные серверы, кластеры серверов (группа накопителей, видеоуст-ройств с общим контроллером), мейнфреймы.
Для доступа к серверам требуются технологии, удовлетворяющие следую-щим условиям:
• малая задержка. Хранилища данных порождают два типа трафика. Первый содержит запросы пользователей, второй – ответы. Для формирования ответа требуется время. Но так как число пользователей велико, время ответа стано-вится неопределённым. Для обычных данных такая задержка не существен-на, а для мультимедийных – существенна;
• высокая пропускная способность. Так как данные для ответа могут нахо-диться в разных базах на значительных расстояниях друг от друга, требуется время на синхронизацию при формировании ответа. Поэтому для обеспече-ния сбалансированной нагрузки требуется скорость передачи не менее 100 Мега бит/сек;
• надёжность. При работе с кластерами серверов интенсивный обмен данны-ми требует, чтобы вероятность потери пакета была очень мала;
• возможность работы на больших расстояниях. Если серверы кластера уда-лены друг от друга, то требуется технология, обеспечивающая передачу со скоростью не менее 100 Мбит/с на расстояние 1 км.
Всем этим требованиям удовлетворяет ATM-технология, технологии Fast Ethernet, Fibre Channel и др.
При слиянии данных из разных источников и размещении их в информаци-онном хранилище обеспечивается:
• Предметная ориентация. Данные организованы в соответствии со способом их представления в предметных приложениях. В отличие от локальных баз информационное хранилище содержит агрегированные данные приложений и не содержат ненужной с точки зрения анализа информации, что значитель-но сокращает объемы хранимой информации.
• Целостность и внутренняя взаимосвязь. Хотя данные погружаются из раз-ных внутренних и внешних источников, они объединены едиными законами наименования, способами измерения размерностей и т.д. В разных источни-ках одинаковые по наименованию данные могут иметь разные формы пред-ставления (например, даты) или названия (например, «вероятность доведения информации» в одном источнике и «вероятность получения информации» – в другом). Подобные несоответствия удаляются автоматически.
• Отсутствие временной привязки. Оперативные базы предприятия содержат данные за небольшой интервал времени (неделя, месяц), что достигается за счет периодического архивирования данных. Информационное хранилище содержит исторические данные, накопленные за большой интервал времени (года, десятилетия).
• Упорядоченность во времени; данные согласуются во времени (например, приводятся к единому курсу рубля на текущий момент) для использования в сравнениях, трендах и прогнозах.
• Неизменяемость. Данные не обновляются и не изменяются, а только переза-гружаются и считываются из источников на сервер, поддерживая концепцию «одного правдивого источника». Данные доступны только для чтения, так как их модификация может привести к нарушению целостности данных хра-нилища.
Таким образом, данные, погруженные в хранилище, организуясь в интегри-рованную целостную структуру, обладающую естественными внутренними связями, приобретают новые свойства, придающие им статус информации. Они являются основой для построения аналитических систем и систем под-держки принятия решений. Именно поэтому технологии информационных хранилищ ориентированы на руководителей, ответственных за принятие ре-шений.