Структура данных и системы управления базами данных.
Организация работы с данными и знаниями. Инженерия знаний.
Информационные системы создаются для достижения различных целей. Одной из главных целей является эффективная переработка данных в информацию или знания. Определим эти понятия.
Данные представляют собой элементарные описания предметов, событий, действий и транзакций, которые запомнены, классифицированы и сохранены, но не организованы для передачи какого – либо специального смысла. Элементы данных могут быть числовыми, алфавитно – числовыми, цифровыми, звуковыми или образными. База данных содержит хранящиеся элементы данных, организованные для доступа.
Информация – это данные, которые организованы так, что они имеют значение и ценность для получателя. Получатель (пользователь) интегрирует значения и выводит заключения и смыслы.
Знания состоят из данных или информации, которые организованы и обработаны с целью передачи понимания, накопленного опыта, результатов обучения и экспертизы таким образом, что они могут использоваться для решения текущих проблем или выполнения действий. Данные, которые обработаны для извлечения смыслов и для отражения прошлого опыта и экспертизы, обеспечивают пользователя организованным знанием, которое имеет очень высокую потенциальную ценность.
Эти три термина, особенно данные и информация, часто используются взаимозаменяемо. Данные, информация и знания могут быть для информационной системы входными или выходными.
Данные. Источники данных.
Данные в информационной системе поддержки решений могут включать документы, иллюстрации, карты, звуки и анимацию. Эти данные могут быть сохранены и организованы различными путями до и после их использования. Они также включают понятия, предметы и мнения (оценки). Данные могут быть предварительные, необработанные или обобщенные. Многие прикладные системы поддержки решений используют обобщенные или извлеченные данные, которые получают из трех основных источников: внутренних, внешних и персональных.
Внутренние данные хранятся в одном или более местах в корпорации .Это данные о людях, продукции, услугах и процессах. Информационная управляющая система может использовать как необработанные, так и обработанные данные (такие, как отчеты и сводки). Внутренние данные доступны через компьютерные сети организации.
Существует много источников внешних данных. Например, коммерческие базы данных, Интернет, спутниковая информация, фильмы, музыка, звуковая информация, иллюстрации, диаграммы, атласы, телевидение.
Постановления, нормативные акты и отчеты правительства являются главными источниками внешних данных.
Информация торгово – промышленных палат, локальных банков, исследовательских институтов, финансово – аналитических структур, биржевых сводок и другая, подобно наводнению обрушивается на пользователя информационной системы, вызывая у него информационные перегрузки.
Большинство внешних данных являются не относящимися к деятельности конкретной информационной системы. Поэтому осуществляется целенаправленный мониторинг данных с целью извлечения необходимой информации и минимизации возможности пропуска и недооценки важности информации.
Пользователи информационных систем или другие сотрудники корпорации или предприятия могут использовать свои собственные экспертные знания и информацию для создания персональных данных. Они включают субъективные оценки продаж, мнения о возможных действиях конкурентов, интерпретации рыночной или производственной информации, прогнозные оценки и т.д.
Необходимость выделения данных из многих внутренних и внешних источников усложняет задачу построения информационной системы поддержки решений.
Необработанные данные могут быть собраны вручную или при помощи инструментов и сенсоров.
Типичными методами сбора данных являются изучение во времени (посредством наблюдения), обследования (с использованием анкетирования), наблюдение (например, используя видеокамеры) и информация от экспертов (например, с использованием интервью).
Общеизвестна необходимость в достоверных и точных данных для любой системы поддержки решений. Однако в реальной жизни пользователи сталкиваются со слабоструктурированными задачами в зашумленных предметных областях с высоким уровнем неопределенности.
Данные должны быть доступны системе или система должна включать подсистему извлечения данных.
Как отмечалось, внешние данные стекаются в организацию из многих источников. Некоторые данные поступают на постоянной основе посредством межмашинного обмена по каналам связи между организациями, другие – посредством Интернет, который делает возможным доступ ко многим тысячам баз данных во всем мире.
Развитие Web – систем привело к использованию Web – браузеров для доступа к жизненно – важной информации для сотрудников и покупателей.
Другие Web – системы включают исполнительные информационные системы, системы поддержки, развернутые посредством Web - браузеров и системы управления базами данных (СУБД), которые обеспечивают данными непосредственно в формате, представляемом web – браузером с передачей посредством Интернет или интранет.
Большая тройка продавцов реляционных СУБД – компании Informix, Oracle и Sybase переработали свои основные продукты с целью приспособления клиент – серверных и Интернет интранет приложений, которые включали бы нетрадиционные или мультимедийные типы данных.
Структура данных и системы управления базами данных.
Сложность большинства корпоративных БД иногда делает стандартные операционные системы (ОС) компьютеров неадекватными эффективному интерфейсу между пользователем и БД. СУБД созданы для дополнения стандартных ОС возможностями более полной интеграции данных, сложных структур файлов, быстрого поиска и обмена, лучшей защиты данных. СУБД – это часть программного обеспечения для пополнения информации в БД и модернизации, удаления, манипулирования, хранения и поиска информации. СУБД в сочетании с языком моделирования является типичным инструментом развития системы, который используется при разработке информационной системы поддержки решений.
Отношения между многими индивидуальными записями, хранящимися в БД могут быть выражены несколькими логическими структурами.
СУБД для выполнения своих функций разрабатываются с использованием таких структур.
Тремя основными структурами являются реляционная, иерархическая и сетевая. Более новыми структурами являются объектно – ориентированные БД и мультимедийные БД.
Рассмотрим две последние структуры подробнее.
Информационные системы поддержки решений в таких сложных предметных областях как интегрированное производство, требуют возможности доступа к сложным данным, которые могут включать иллюстрации и сложные отношения.
Ни иерархическая, ни сетевая, на даже реляционная архитектура не может эффективно справляться с такими БД. Даже когда для создания и доступа в реляционной БД используется SQL, решения могут быть неэффективными.
Названные три типа БД являются алфавитно - числовыми. Но иногда для достижения лучших результатов требуется графическое представление.
Объектно – ориентированное управление данными базируется на принципах объектно – ориентированного программирования. Системы с объектно – ориентированными БД объединяют характеристики объектно – ориентированных языков, таких как Smalltalk или C++ с механизмом хранения данных и доступа к ним. Объектно – ориентированная СУБД позволяет анализировать данные на концептуальном уровне, который делает упор на естественные отношения между объектами.
Абстракция используется для установления наследственных иерархий, а описание и представление в сжатой форме позволяет проектировщику БД хранить обычные и процедурные коды внутри одних и тех же объектов.
Объектно – ориентированная СУБД определяет данные как объекты и представляет данные в сжатой форме в соответствии с их подходящей структурой и поведением.
Система использует иерархию классов и подклассов объектов. Структура (в терминах отношений) и поведение (в терминах методов и процедур) содержаться внутри объекта.
Объектно – ориентированные СУБД особенно полезны в распределенных информационных системах поддержки решений для очень сложных приложений и предметных областей.
Мультимедийные СУБД управляют данными в различных форматах (в дополнение к стандартному тексту или числовым полям). Эти форматы включают следующие образы: цифровые фотографии и формы компьютерной графики, такие как карты и .pic файлы; гипертекстовые образы; видеоклипы; звук и виртуальную реальность (многомерные образы).
Хранилище данных.
Современным организациям присуще использование как старых централизованных систем, так и новых распределенных систем. Широкое разнообразие технологий обеспечено также большим числом продавцов программных продуктов. Сталкиваясь с таким технологическим и коммерческим окружением, менеджеры должны использовать новые понятия в управляющих информационных технологиях. Одним из таких понятий является складирование данных (или хранение данных).
Определение понятия «хранилище данных» начинается с физического разделения оперативного окружения, поддерживающего решения. В сердцевине многих компаний используется хранилище оперативных данных, обычно извлекаемых из неавтономных систем обработки транзакций в режиме онлайн (OLTP – online transaction processing – оперативная обработка транзакций) и базирующихся на головных компьютерах (фейн – фрейм; mainframe).
OLTP – системы, например, для финансов, инвентаризации запасов или управления, также производят оперативные данные. В оперативном окружении доступ к данным, прикладные логические задачи и логика представления данных тесно взаимодействуют вместе, обычно в нереляционных БД. Эти нереляционные хранилища данных не очень способствуют эффективному поиску данных при поддержке решений.
Целью хранилища данных является установление такого репозитария данных, который делает оперативные данные доступными в форме, которая приемлема для приложений в информационных системах поддержки решений. Как часть этого нового уровня доступности, процесс должен преобразовать детализированные по уровням оперативные данные в реляционную форму, которая делает их более подходящими для обработки при поддержки решений.
Хранение данных (или хранение информации) – это понятие, предложенное и разработанное для обеспечения решения проблемы эффективного доступа к данным, описанным выше. Хранилище данных объединяет различные источники данных в простые источники для доступа конечного пользователя.
Существует несколько базовых структур для хранения данных. Основными являются двухрядные и трехрядные структуры. Вариант трехрядной архитектуры представлен на рис.3.1.
Перед размещением в хранилище данные, поступающие из внутренних (связанных) и внешних источников извлекаются, очищаются, фильтруются и суммируются посредством специального ПО. Далее данные снова обрабатываются и помещаются в дополнительную специальную многомерную БД (третий ряд в архитектуре), организованную для легкого многомерного представления. Пользователи информационной системы поддержки решений могут запрашивать сервер и осуществлять анализ.
Рис. 3.1. Трехрядная архитектура хранилища данных.
В двухрядной архитектуре отсутствует многомерная БД или сервер.
Подобное хранение данных наиболее подходит для организаций, где:
- данные хранятся в различных системах;
- используется информационно – аналитический подход к менеджменту;
- имеется большая и разнообразная покупательская и клиентская база;
- одни и те же данные представлены по – разному в различных системах;
- данные хранятся в высокотехнических, трудных для расшифровки форматах.