Контекст и основные элементы архитектуры информации
Сегодня организации должны искать эффективные способы работы с информацией, которая поступает из самых разнообразных источников и должна быть доступна там, где это нужно, и тогда, когда это необходимо. Ситуация осложняется тем, что различные формы информации зачастую требуют специфических технологий и методов работы с ней: 1) структурированная информация (реляционные и объектные модели); 2) развивающиеся, основанные на XML стандарты для полуструктурированной информации; 3) неструктурированная информация в форме текстов, графиков, образов, сопровождаемая определенными описательными данными (метаданными и каталогами).
Архитектура информации включает в себя видение, принципы, модели и стандарты, которые обеспечивают процессы создания, использования и поддержания информации, относящиеся к деятельности предприятия.
Архитектура информации описывает, как информационные технологии обеспечивают в организации возможности для быстрого принятия решений, распространения информации внутри организации, а также за ее пределы, например, партнерам по бизнесу. Архитектура информации является как бы "зеркальным отражением" бизнес-архитектуры. Бизнес-архитектура отвечает на вопрос: "С учетом нашего общего видения, целей и стратегий, кто и что будет делать?" Архитектура информации отвечает на вопрос: "Какая информация должна быть предоставлена для того, чтобы эти процессы могли выполняться теми, кто их должен выполнять?" Архитектура информации включает в себя модели, которые описывают процессы обработки информации (information value chain), основные информационные объекты, связанные с бизнес-событиями, информационные потоки, принципы управления информацией. Архитектура должна описывать как те данные, которые требуются для выполнения процессов (операционные), так и аналитические данные и "контент", публикуемый на Web.
Это действительно обширная задача. Приведем следующую цитату, касающуюся создания архитектуры информации в Citibank: "В силу сложности банковских продуктов, услуг и разнообразия условий ведения бизнеса, задача разработки корпоративной модели данных заняла несколько лет. Отсутствие общекорпоративного подхода к управлению данными было слабостью банка в прошлом, но теперь у банка имеется возможность обеспечить единые стандарты обслуживания клиентов". Речь идет, конечно, об одном из крупнейших финансовых институтов мира, и большинство компаний столкнется с гораздо меньшими проблемами, но в любом случае, разработка и реализации архитектуры информации – это длительный итеративный процесс.
Разработка архитектуры информации как части дисциплины архитектуры предприятия не состоит в создании структур баз данных или моделей всех данных, использующихся предприятием. Суть заключается в организации более общего описания информации, требующейся для бизнеса, а также политик и правил работы с информацией. В связи с этим следует отметить, что в контексте архитектуры предприятия более правильно говорить об архитектуре и моделях информации, а не данных, хотя эти понятия и пересекаются. Модели архитектуры информации являются более абстрактными, они используют язык бизнеса и обеспечивают контекст, который требуется для моделирования данных. Модели данных уже предполагают четкие описания структуры объектов, атрибутов, отношений между сущностями.
Поэтому понятие "архитектура информации" является расширением понятия "архитектура данных". В общем, под архитектурой информации понимается процесс организации и представления значимой информации для пользователей в интуитивно-понятной форме, с использованием соответствующих средств каталогизации, навигации, пользовательского интерфейса. Этот аспект архитектуры предприятия также призван подчеркнуть позиционирование хранимой и обрабатываемой информации как стратегического корпоративного ресурса и неотъемлемой части "интеллектуального капитала" организации. Поэтому описание этой области будет дополнительно включать средства для оценки качества данных, их востребованности, учета стоимости как нематериального актива и т.п.
Потребность в архитектуре информации сейчас велика как никогда. Аналитические компании, такие как META Group и Aberden, считают, что при разработке новых систем до 70% времени тратится на решение задач, связанных с идентификацией источников данных, которые должны использоваться прикладной системой, и на написание программного кода для доступа и трансформации данных. Для большинства средних и практически всех крупных предприятий использование нескольких различных СУБД, средств управления и преобразования данных является скорее правилом, чем исключением. Кроме того, в течение последнего десятилетия мы являлись и являемся свидетелями тенденции все более широкого использования готовых прикладных систем (финансового учета, управления кадрами, управления закупками, управления продажами и т.д.), каждая из которых имеет свои модели данных. С учетом наличия и других унаследованных систем тенденция к росту количества источников данных только увеличивается.
Объективными факторами, приводящими к дальнейшему усложнению проблемы, является объединение информационных систем разных предприятий как следствие слияний и поглощений, а также углубление специализации обслуживающего персонала.
На рисунке 8 приводится пример упрощенной схемы перемещения данных в процессе работы над ними на некотором гипотетическом предприятии.
Рис. 8.Пример потоков данных на предприятии
Этот пример показывает, что данные на предприятии проходят через большое количество шагов в процессе своего жизненного цикла. При этом в таком потоке могут встречаться разветвления и слияния, одни и те же данные могут обрабатываться разными прикладными системами и храниться в различных базах данных: базах оперативного хранения информации, хранилищах данных, витринах данных (предназначенных для анализа и быстрого получения отчетов). Все это приводит к фрагментации данных, работе с ними различных подразделений и требует координации в рамках единой архитектуры информации предприятия.
В ходе разработки архитектуры информации решаются следующие задачи:
· идентификация и инвентаризация существующих данных, включая определение их источников, процедур изменения и использования, ответственность, оценка качества;
· сокращение избыточности и фрагментарности данных с целью уменьшения затрат на устройства хранения, стоимости их обслуживания, а также повышение качества данных за счет исключения неоднозначности и противоречивости различных экземпляров;
· исключение ненужных перемещений или копирования данных, особенно связанных с наличием большого количества унаследованных или устаревших приложений;
· формирование интегрированных представлений данных, таких как витрины и хранилища; обеспечение доступности данных в режиме, приближенном к режиму реального времени, за счет использования средств обмена сообщениями, интеграционных брокеров и шлюзов;
· интеграция метаданных, что позволит обеспечить целостное представление данных из различных источников;
· сокращение числа используемых технологий и продуктов, что позволяет снизить расходы на обслуживание, а также получить дополнительные, объемные скидки от поставщиков применяемых продуктов;
· улучшение качества данных, прежде всего, за счет привлечения бизнес-пользователей к управлению и определению данных;
· улучшение защиты данных на основе использования последовательных и согласованных мер, обеспечивающих, с одной стороны, защиту от несанкционированного доступа, а с другой – доступность данных для их использования на практике.
Критическими факторами для обеспечения успеха процесса разработки архитектуры информации являются тщательное планирование и привязка к бизнес-целям предприятия. Обычно рекомендуется проводить анализ данных последовательно для каждого бизнес-процесса, выбирая их в порядке приоритета по важности.
На концептуальном уровне абстракции архитектура информации должна описывать аспекты, связанные с получением, хранением, трансформацией, презентацией, анализом и обработкой информации. Это включает в себя следующие процессы управления информацией:
· получение данных из внутренних и внешних источников;
· классификация данных по типам;
· хранение и извлечение данных;
· редактирование (или обновление) данных;
· контроль качества (удаление или исправление некорректных данных);
· презентация (трансформирование данных для определенной аудитории потребителей);
· распространение информации для различных групп потребителей;
· оценка (полезности, а также соотношения цены/качества данных);
· обеспечение безопасности информации (например, аутентификация данных от различных источников, назначение адекватного уровня доступа; определение требований по аудиту; обеспечение механизмов резервного хранения и восстановления).
Рисунок 9 показывает общую картину архитектуры информации, взятую из документов описания архитектуры правительства штата Северная Каролина, США.
Рис. 9.Общая архитектура информации (данных)
Безусловно, эта картина является далеко не полной. Она, например, не отражает наличие в организации огромного пула неструктурированной и полуструктурированной информации, которая хранится в форме текстов и образов документов, сообщений электронной почты, неявных знаний и т.д.
Реализация архитектуры информации обеспечивает единый в масштабах всего предприятия доступ к определениям элементов данных, своевременный доступ к корректным данным и соответствующий уровень безопасности и защиты для всех данных. Это является основой для реализации систем поддержки принятия решений, систем обработки транзакций и аналитических систем.
Для понимания архитектуры информации и того, как данные хранятся и обновляются, важно отличать типы прикладных систем, которые обеспечивают доступ к данным. Два наиболее важных типа таких систем – это системы онлайновой обработки транзакций (OLTP – Online Transaction Processing) и системы он-лайновой аналитической обработки (OLAP – Online Analitical Processing). Третий тип – системы управления неструктурированными данными (контентом).
OLTP-системы применяются для выполнения критически важных, повседневных операций. Чаще всего они используются многими пользователями одновременно для ввода, обновления и извлечения данных. OLTP-системы способны выполнять атомарные бизнес-функции и четко обозначенные единицы работ – как правило, в форме одной или нескольких транзакций, выполняемых как одно целое (например, транзакция "изменение адреса клиента").
OLAP-системы используются для анализа, планирования и управления получением отчетов путем обеспечения интерактивного доступа к широкому спектру информации. В OLAP-системах обычно обрабатываются агрегированные данные для получения ответа на такие вопросы: "Сколько было потрачено на покупку офисной техники в прошлом году?", "Каков был объем продаж изделия X в городе N в первом квартале?" Данные для OLAP-систем, как правило, извлекаются из транзакционных OLTP-систем и помещаются или реплицируются в специальные базы данных – хранилища или витрины данных. Витрины данных являются специализированными хранилищами, которые ориентированы на предоставление информации, требующейся для бизнес-анализа на предприятии.
Таким образом, мы можем сказать, что архитектура информации включает в себя, в частности, такие области (а также связанные с ними стандарты, руководства и пр.), как:
· федеративные данные (метаданные);
· моделирование данных;
· системы управления базами данных;
· программное обеспечение промежуточного слоя (middleware) для доступа к данным;
· механизмы доступа к данным;
· безопасность данных.
Однако окончательный набор дисциплин, связанных с архитектурой информации, определяется, в конечном итоге, потребностями предприятия.
Безусловно, область архитектуры информации имеет пересечения с остальными доменами архитектуры предприятия. Типичным примером такого пересечения является стандарт XML, который имеет отношение одновременно как к архитектуре информации, так и к архитектуре приложений. Другим примером являются системы управления базами данных, которые относятся и к архитектуре информации, и к технологической архитектуре (инфраструктуре). Реализация сложных систем, таких, например, как хранилища и витрины данных, требует участия специалистов по архитектуре информации, прикладным системам и инфраструктуре.
Рекомендуемыми первыми шагами на пути создания архитектуры информации являются следующие шаги:
· создание словаря данных и репозитория метаданных;
· выбор системы записи информации о каждом элементе данных.
Эти шаги впоследствии будут способствовать созданию оперативного хранилища данных (ODS – Operational Data Store), которое обеспечивает стандартные процессы извлечения, трансформации и загрузки данных (ETL – Extract, Transform, Load), а также очистки данных и создания метаданных. Оперативное хранилище является краеугольным камнем для повторного, многократного использования данных, а в последующем – для создания хранилищ и витрин данных.
После того как решены эти первые задачи, необходимо обеспечить такие условия, чтобы все процессы создания и доступа к информации на предприятии соответствовали разработанной архитектуре.