Виды экономической информации
Конспект лекций
по дисциплине
«Методы обработки информации»
для студентов 1 курса
Содержание:
1.Информационные технологии и информационные системы в экономике и промышленности. 3
2.Виды экономической информации. 7
3.Компоненты системы обработки информации. 9
4.Извлечение информации. 11
5.Транспортирование информации. 13
6.Обработка информации. 18
7.Хранение информации. 21
8.Представление и использование информации. 26
9.Технические средства обработки информации. 29
10.Информационные технологии документационного обеспечения управленческой деятельности. 34
11.Технологии подготовки текстовых документов. 43
12.Текстовый процессор Word. 48
13. Системы машинного перевода. 54
14.Технологии обработки экономической информации на основе табличного процессора Excel 59
16.Финансовые функции Excel 70
17.Технологии использования систем управления базами данных (СУБД). 73
18.Распределенная обработка информации. 79
19.Понятие корпоративной информационной системы.. 83
20. Методы обработки бухгалтерской информации. 88
21. Программные продукты создания бюджета. 88
22. Технологии стратегического корпоративного планирования. 88
23. Технологии прогнозирования деятельности предприятия. 88
24. Технологии автоматизации аналитических исследований. 88
25. Технологии автоматизации управления в масштабах всего предприятия26.Информационные технологии в образовании. 88
26.Информационные технологии в образовании. 89
27.Моделирование. 97
28.Защита информации. 100
1.Информационные технологии и информационные системы в экономике и промышленности
Внедрение информационных технологий в сферу производства, торговли, банковского дела первоначально развивалось по пути создания доморощенных информационных систем. Термин АСУП (автоматизированная система управления производством), появившийся в 60-е годы был на слуху десятки лет. Однако главная проблема комплексной автоматизации не была решена, но при этом был накоплен опыт разработок подобных систем и подготовлены специалисты, способные решать задачи внедрения информационных технологий в сферу управления бизнесом на современном уровне.
При проектировании АСУП зачастую игнорировались вопросы совместимости, стандартизации, что затрудняло внедрение современных технологий и приводило к большим затратам на модернизацию. В настоящее время, не смотря на специфику предметных областей, широкое распространение получили корпоративные информационные системы (КИС), базирующиеся на принципах корпоративных информационных технологий (см. подразд. 6.1) и современных стандартов (подразд. 8.3).
Выделяют три основных класса задач, решаемых с помощью КИС [27]. Это задачи:
• формирования отчетных показателей (налоговые службы, статистика, инвесторы и т.д.), получаемых на основе стандартной бухгалтерской и статистической отчетности;
• выработки стратегических управленческих решений по развитию бизнеса на основе базы высокоагрегированных показателей;
• выработки тактических решений, направленных на оперативное управление и решаемых на основе базы частных, высокодета-лизированных показателей, отражающих различные стороны локальных характеристик функционирования структуры.
Основной трудностью при внедрении КИС является диагностика.
Здесь можно выделить три этапа:
1) обследование, системный анализ и оценка существующей структуры и технологий управления;
2) разработка новых вариантов организационных структур и технологий управления на основе информационных технологий;
3) разработка положения по реорганизации управления, плана внедрения, регламента управленческого документооборота.
Условно выделяют тиражируемые, полузаказные и заказные КИС.
Тиражируемая КИС не требует доработки со стороны разработчика, существует сама по себе, не предоставляет возможности внесения изменений. Такие системы предназначены для малых предприятий.
Заказные системы при существующем уровне информационных технологий ушли в прошлое, они ненадежны, не соответствуют принятым стандартам и с трудом поддаются модернизации. Основная область их применения — производства с очень большой спецификой.
Полузаказные системы являются наиболее гибкими, в большей степени удовлетворяют требованиям заказчика, требуют меньших капитальных затрат. Основная область их применения — крупные предприятия (сотни документов в месяц и более пяти человек в цепочке бизнес-процессов).
В настоящее время на рынке корпоративных систем представлено большое число зарубежных разработок. Учитывая специфику принципов учета, управления, планирования, в российской экономике отечественные КИС занимают более прочные позиции. В табл. 6.1 представлены характеристики, функциональные возможности и области использования наиболее популярных отечественных КИС («Ай-Ти», «Галактика», «Парус», «1С»)
Таблица 6.1
Характеристики | Ф1тмаг разработчик | |||
АйТи | Галактика | Парус | 1С | |
Тираж КИС: | ||||
проданных лицензий | ||||
готовых проектов | Н/д | |||
в стадии внедрения | Н/д | |||
Управление финансами: | ||||
главная книга | + | + | + | + |
бюджет | + | + | + | + |
расчеты с заказчиками и по | + | + | + | + |
ставщиками | ||||
учет расчетов с подотчетны | + | + | + | + |
ми лицами | ||||
учет банковских операций | + | + | + | + |
управление затратными цен | + | + | + | * |
трами | ||||
субучет | + | + | + | + |
финансовая отчетность и | + | + | + | + |
сподный баланс | ||||
организация произвольного | + | + | + | + |
состава справочников | ||||
организация произвольного | + | + | • | + |
набора документов, их струк | ||||
туры, взаимосвязей и алгорит | ||||
мов обработки информации | ||||
построение произвольных | + | + | * | + |
отчетов (по выборке данных | ||||
и формам представления) | Н/д | |||
организация многоуровневого | + | + | + | |
учета средств по произвольно | ||||
му количеству ресурсов | Н/д | |||
организация периодических | — | + | + | |
расчетов произвольной глу | ||||
бины, периодичности и слож- | ||||
. ности |
В информатизации банковской деятельности происходили процессы, аналогичные рассмотренным выше. Выделяют два основных направления [8, 46]:
1)информатизация задач ввода и обновления оперативной информации, получения стандартной отчетности (OLTP-систе-мы-On-Line Tranzaction Processing на базе промышленных СУБД);
2)информатизация аналитических задач высокого уровня (анализ деятельности банка, подготовка консолидированного отчета, расчет и управление рисками и др.).
В первом случае используются системы на базе промышленных СУБД, так называемые OLTP-системы
Во втором случае используется технология информационных хранилищ (Data Warrehouse) и приложений оперативной аналитической обработки OLAP (On-Line Analytic Processing). В табл.представлены характеристики наиболее распространенных банковских информационных систем
№ п/п | Фирма- разработчик | Система | Базовый элемент технологии | СУБД | ОС сервера, БД | Инструмент разработки приложений | Число банков- клиентов |
«R-Style Software Lab» | «RS-Bank 4» | Сделка | Btrieve | Novell NetWare; Windows NT | Си, Си++ | ||
«Диасофт» | «DiasoflBank 4.4» | Документ | Btrieve | Novell NetWare; Windows NT | Clarion for Windows | ||
«Про- граммм- Банк» | DOS-комплекс «Афина» | Проводка/документ | BtiieveOra- cle | Novell NetWare Unix; Windows NT | Clipper | ||
«Инверсия» | «InvoBank» «Банк XXI век» | Сделка/ документ Сделка/ документ | Btrieve Oracle | Novell NetWare Unix; Windows NT | Си++ Developper 2000 | 250 6 | |
ЦФТ | «IB System» «IB System Objcct» | Документ Документ | Btrieve Oracle | Novell NetWare; Windows NT Unix | Clipper IB Object | 200 3 | |
«Кво рум» | «Банк Кво рум» | Операция | Btrieve | Novell NetWare; Windows NT; Unix | Турбо Паскаль 7.0, Ат- лантис | ||
«CSB1 ЕЕ» | «Банкир» | Документ | Progress | Unix; OS/2, Windows NT | 4GL Progress |
Кроме КИС следует отметить программные системы, реализующие отдельные функции управления:
1. Бухгалтерские программы: 1С: Бухгалтерия, БЭСТ, Турбо-бухгалтер, Парус, Инфо-бухгалтер;
2. Системы автоматизации торговли 1С: Торговля, Парус, БЭСТ 4, Фолио;
3. Информационно-справочные системы: Гарант, Консультант Плюс, Кодекс;
4. Программы для бизнес-планирования: Project Expert, Microsoft Project, Триумф-аналитик;
5. Системы автоматизации складского учета: 1С: Склад, Фолио, БЭСТ, Парус;
6. Системы автоматизации документооборота: Дело, Lotus Notus, 1С: Документооборот.
Отдельно от проблем построения КИС рассматривается направление создания автоматизированных систем управления технологическими процессами (АСУ ТП). Актуальность этой проблемы объясняется тем, что в старых системах зачастую выбранные элементы не стыкуются между собой, не удовлетворяют предъявляемым требованиям и нет средств и возможностей для исправления сложившейся ситуации. В настоящее время в области АСУ ТП гос подствующей является концепция открытых систем на основе системной интеграции, базирующаяся на следующих принципах [21]:
• совместимость программно-аппаратных средств различных фирм-производителей снизу-вверх;
• комплексная проверка и отладка всей системы на стенде фирмы-интегратора на основе спецификации заказчика.
В большинстве случаев АСУ ТП представляют двухуровневую систему управления. Нижний уровень включает контроллеры, обеспечивающие первичную обработку информации, поступающей непосредственно с объекта управления. Программное обеспечение контроллеров обычно реализуется на технологических языках типа языка релейно-контактных схем.
Верхний уровень АСУ ТП составляют мощные компьютеры, выполняющие функции серверов баз данных и рабочих станций, обеспечивающих хранение, анализ и обработку всей поступающей информации, а также взаимодействие с оператором. Основой программного обеспечения верхнего уровня являются пакеты SCADA (Supervision Control And DATA Acquisition).
Наиболее ярко концепция открытых систем прослеживается в открытой модульной архитектуре контроллеров — ОМАС (Open Modular Architecture Controls), разработанной фирмой General Motors. Близкие к ним концепции предложены европейскими (European Open Systems Architecture for Controle within Automamation Systems — OSACA), японскими (Japan International Robotics and Factory Automation — IFORA, Japan Open Systems Environment for Controller Architecture — OSEC) и американскими (Technologies Enabling Agile Manufacting — TEAM Projects) организациями. Содержание ОМАС-требований заключается в основных терминах:
Open — открытая архитектура, обеспечивающая интеграцию аппаратного и программного обеспечения;
Modular — модульная архитектура, позволяющая использовать компоненты в режиме Pluge and Play;
Scaleable — масштабируемая архитектура, позволяющая легко изменять конфигурацию для конкретных задач;
Economical — экономичная архитектура;
Maintenable — легко обслуживаемая архитектура.
Аппаратная платформа контроллеров базируется на миниатюрных PC-совместимых компьютерах, обладающих высокой надежностью, быстродействием, совместимостью в силу «родственности» с компьютерами верхнего уровня. Операционная среда РС-контроллеров также должна удовлетворять требованиям открытости.
Здесь наиболее распространенной является операционная система QNX (фирма QSSL, Канада). Архитектура QNX является открытой, модульной, легко модифицируемой. Спецификой работы с контроллерами является использование языков технологического программирования, описывающих сам технологический процесс и ориентированных на работу не программистов, а технологов. Накопленный опыт работы с подобными языками обобщен в стандарте IEC 1131-3, где определены пять основных языковых средств:
SFG — язык последовательных функциональных схем;
LD — язык релейных диаграмм;
FBD — язык функциональных блоковых диаграмм;
ST — язык структурированного текста;
IL — язык инструкций.
Извлечение информации
Источниками данных в любой предметной области являются объекты и их свойства, процессы и функции, выполняемые этими объектами или для них. Любая предметная область рассматривается в виде трех представлений .
По аналогии с добычей полезных ископаемых процесс извлечения информации направлен на получение ее наибольшей концентрации. В связи с этим процесс извлечения можно представить,
как прохождение информации через трехслойный фильтр, в котором осуществляется оценка синтаксической ценности (правильность представления), семантической (смысловой) ценности, прагматической (потребительской) ценности.
При извлечении информации важное место занимают различные формы и методы исследования данных:
• поиск ассоциаций, связанных с привязкой к какому-либо событию;
• обнаружение последовательностей событий во времени;
• выявление скрытых закономерностей по наборам данных, путем определения причинно-следственных связей между значениями определенных косвенных параметров исследуемого объекта (си туации, процесса);
• оценка важности (влияния) параметров на развитие ситуации;
• классифицирование (распознавание), осуществляемое путем поиска критериев, по которым можно было бы относить объект (события, ситуации, процессы) к той или иной категории;
• кластеризация, основанная на группировании объектов по каким-либо признакам;
• прогнозирование событий и ситуаций.
Следует упомянуть неоднородность (разнородность) информационных ресурсов, характерную для многих предметных областей. Одним из путей решения данной проблемы является объектно-ориентированный подход, наиболее распространенный в настоящее время. Кратко рассмотрим его основные положения
Декомпозиция на основе объектно-ориентированного подхода основана на выделении следующих основных понятий: объект, класс, экземпляр.
Объект — это абстракция множества предметов реального мира, обладающих одинаковыми характеристиками и законами поведения. Объект характеризует собой типичный неопределенный элемент такого множества. Основной характеристикой обьекта является состав его атрибутов (свойств).
Атрибуты — это специальные объекты, посредством которых можно задать правила описания свойств других объектов.
Экземпляр объекта — это конкретный элемент множества. Например, объектом может являться государственный номер автомобиля, а экземпляром этого объекта — конкретный номер К 173 ПА.
Класс — это множество предметов реального мира, связанных общностью структуры и поведением. Элемент класса — это конкретный элемент данного множества. Например, класс регистрационных номеров автомобиля.
Обобщая эти определения, можно сказать, что объект — это типичный представитель класса, а термины «экземпляр объекта» и «элемент класса» равнозначны. На рис. 4.2 показаны отношения между классами, объектами и предметами реального мира.
Важная особенность объектно-ориентированного подхода связана с понятием инкапсуляции, обозначающим сокрытие данных и методов (действий с объектом) в качестве собственных ресурсов объекта.
Понятия полиморфизма и наследования определяют эволюцию объектно-ориентированной системы, что подразумевает определение новых классов объектов на основе базовых.
Полиморфизм интерпретируется как способность объекта принадлежать более чем одному типу.
Наследование выражает возможность определения новых классов на основе существующих с возможностью добавления или переопределения данных и методов.
Для уменьшения избыточности используется процесс обогащения информации, например, при хранении в компьютере списка сотрудников организации иногда достаточно использовать первые 3—4 буквы их фамилий.
Среди методов обогащения информации различают структурное, статистическое, семантическое и прагматическое обогащения.
Структурное обогащение предполагает изменение параметров сообщения, отображающего информацию в зависимости от частотного спектра исследуемого процесса, скорости обслуживания источников информации и требуемой точности.
При статистическом обогащении осуществляют накопление статистических данных и обработку выборок из генеральных совокупностей накопленных данных.
Семантическое обогащение означает минимизацию логической формы, исчислений и высказываний, выделение и классификацию понятий, содержания информации, переход от частных понятий к более общим. В итоге семантического обогащения удается обобщенно представить обрабатываемую либо передаваемую информацию и устранить логическую противоречивость в ней.
Прагматическое обогащение является важной ступенью при использовании информации для принятия решения, при котором из полученной информации отбирается наиболее ценная, отвечающая целям и задачам пользователя.
Обработка информации
Обработка информации состоит в получении одних «информационных объектов» из других «информационных объектов» путем выполнения некоторых алгоритмов и является одной из основных операций, осуществляемых над информацией, и главным средством увеличения ее объема и разнообразия.
На самом верхнем уровне можно выделить числовую и нечисловую обработку. В указанные виды обработки вкладывается различная трактовка содержания понятия «данные». При числовой обработке используются такие объекты, как переменные, векторы, матрицы, многомерные массивы, константы и т.д. При нечисловой обработке объектами могут быть файлы, записи, поля, иерархии, сети, отношения и т.д. Другое отличие заключается в том, что при числовой обработке содержание данных не имеет большого значения, в то время как при нечисловой обработке нас интересуют непосредственные сведения об объектах, а не их совокупность в целом.
С точки зрения реализации на основе современных достижений вычислительной техники выделяют следующие виды обработки информации:
• последовательная обработка, применяемая в традиционной фоннеймановской архитектуре ЭВМ, располагающей одним процессором,
• параллельная обработка, применяемая при наличии нескольких процессоров в ЭВМ;
конвейерная обработка, связанная с использованием в архитектуре ЭВМ одних и тех же ресурсов для решения разных задач, причем если эти задачи тождественны, то это последовательный конвейер, если задачи одинаковые — векторный конвейер.
Принято относить существующие архитектуры ЭВМ с точки зрения обработки информации к одному из следующих классов [35].
Архитектуры с одиночным потоком команд и данных (SISD). К этому классу относятся традиционные фоннеймановские однопроцессорные системы, где имеется центральный процессор, работающий с парами «атрибут — значение».
Архитектуры с одиночными потоками команд и данных (SIMD). Особенностью данного класса является наличие одного (центрального) контроллера, управляющего рядом одинаковых процессоров. В зависимости от возможностей контроллера и процессорных элементов, числа процессоров, организации режима поиска и характеристик маршрутных и выравнивающих сетей выделяют:
• матричные процессоры, используемые для решения векторных и матричных задач;
• ассоциативные процессоры, применяемые для решения нечисловых задач и использующие память, в которой можно обращаться непосредственно к информации, хранящейся в ней;
• процессорные ансамбли, применяемые для числовой и нечисловой обработки;
• конвейерные и векторные процессоры.
Архитектуры с множественным потоком команд и одиночным потоком данных (MISD). К этому классу могут быть отнесены конвейерные процессоры.
Архитектуры с множественным потоком команд и множественным потоком данных (MIMD). К этому классу могут быть отнесены следующие конфигурации: мультипроцессорные системы, системы с мультобработкой, вычислительные системы из многих машин, вычислительные сети.
Основные процедуры обработки данных представлены на рис. 4.5.
Создание данных, как процесс обработки, предусматривает их образование в результате выполнения некоторого алгоритма и дальнейшее использование для преобразований на более высоком Уровне.
Модификация данных связана с отображением изменений в реальной предметной области, осуществляемых путем включения новых данных и удаления ненужных.
Контроль, безопасность и целостность направлены на адекватное отображение реального состояния предметной области в информационной модели и обеспечивают защиту информации от несанкционированного доступа (безопасность) и от сбоев и повреждений технических и программных средств.
Поиск информации, хранимой в памяти компьютера, осуществляется как самостоятельное действие при выполнении ответов на различные запросы и как вспомогательная операция при обработке информации.
Поддержка принятия решения является наиболее важным действием, выполняемым при обработке информации. Широкая альтернатива принимаемых решений приводит к необходимости использования разнообразных математических моделей [32, 33].
Создание документов, сводок, отчетов заключается в преобразовании информации в формы, пригодные для чтения как человеком, так и компьютером. С этим действием связаны и такие операции, как обработка, считывание, сканирование и сортировка документов.
При преобразовании информации осуществляется ее перевод из одной формы представления или существования в другую, что определяется потребностями, возникающими в процессе реализации информационных технологий.
Реализация всех действий, выполняемых в процессе обработки информации, осуществляется с помощью разнообразных программных средств.
Наиболее распространенной областью применения технологической операции обработки информации является принятие решений.
Решение задач с помощью искусственного интеллекта заключается в сокращении перебора вариантов при поиске решения, при этом программы реализуют те же принципы, которыми пользуется в процессе мышления человек.
Экспертная система пользуется знаниями, которыми она обладает в своей узкой области, чтобы ограничить поиск на пути к решению задачи путем постепенного сужения круга вариантов.
Для решения задач в экспертных системах используют:
• метод логического вывода, основанный на технике доказательств, называемой резолюцией и использующей опровержение отрицания (доказательство «от противного»);
• метод структурной индукции, основанный на построении дерева принятия решений для определения объектов из большого числа данных на входе;
• метод эвристических правил, основанных на использовании опыта экспертов, а не на абстрактных правилах формальной логики;
• метод машинной аналогии, основанный на представлении информации о сравниваемых объектах в удобном виде, например, в виде структур данных, называемых фреймами.
Источники «интеллекта», проявляющегося при решении задачи, могут оказаться бесполезными либо полезными или экономичными в зависимости от определенных свойств области,в которой поставлена задача. Исходя из этого, может быть осуществлен выбор метода построения экспертной системы или использования готового программного продукта.
Процесс выработки решения на основе первичных данных, можно разбить на два этапа: выработка допустимых вариантов решений путем математической формализации с использованием разнообразных моделей и выбор оптимального решения на основе субъективных факторов.
Информационные потребности лиц, принимающих решение, во многих случаях ориентированы на интегральные технико-экономические показатели, которые могут быть получены в результате обработки первичных данных, отражающих текущую деятельность предприятия. Анализируя функциональные взаимосвязи между итоговыми и первичными данными, можно построить так называемую информационную схему, которая отражает процессы агрегирования информации. Первичные данные, как правило, чрезвычайно разнообразны, интенсивность их поступления высока, а общий объем на интересующем интервале велик. С другой стороны состав интегральных показателей относительно мал, а требуемый период их актуализации может быть значительно короче периода изменения первичных данных — аргументов.
Для поддержки принятия решений обязательным является наличие следующих компонент:
• обобщающего анализа;
• прогнозирования;
• ситуационного моделирования.
В настоящее время принято выделять два типа информационных систем поддержки принятия решений.
Системы поддержки принятия решений DSS (Decision Support System) осуществляют отбор и анализ данных по различным характеристикам и включают средства:
• доступа к базам данных;
• извлечения данных из разнородных источников;
• моделирования правил и стратегии деловой деятельности;
• деловой графики для представления результатов анализа;
• анализа «если что»;
• искусственного интеллекта на уровне экспертных систем Системы оперативной аналитической обработки OLAP (OnLine Analysis Processing) для принятия решений используют следующие средства
• мощную многопроцессорную вычислительную технику в виде специальных OLAP-серверов;
• специальные методы многомерного анализа;
• специальные хранилища данных Data Warehouse.
Реализация процесса принятия решений заключается в построении информационных приложений. Выделим в информационном приложении типовые функциональные компоненты, достаточные для формирования любого приложения на основе БД [2].
PS (Presentation Services) — средства представления. Обеспечиваются устройствами, принимающими ввод от пользователя и отображающими то, что сообщает ему компонент логики представления PL, плюс соответствующая программная поддержка. Может быть текстовым терминалом или X-терминал ом, а также персональным компьютером или рабочей станцией в режиме программной эмуляции терминала или Х-терминала.
PL (Presentation Logic) — логика представления. Управляет взаимодействием между пользователем и ЭВМ. Обрабатывает действия пользователя по выбору альтернативы меню, по нажатию кнопки или выбору элемента из списка.
BL (Business or Application Logic) — прикладная логика. Набор правил для принятия решений, вычислений и операций, которые должно выполнить приложение.
DL (Data Logic) — логика управления данными. Операции с базой данных (SQL-операторы SELECT, UPDATE и INSERT), которые нужно выполнить для реализации прикладной логики управления данными.
DS (Data Services) — операции с базой данных. Действия СУБД, вызываемые для выполнения логики управления данными, такие как манипулирование данными, определений данных, фиксация или откат транзакций и т.п. СУБД обычно компилирует SQL-приложения.
FS (File Services) — файловые операции. Дисковые операции чтения и записи данных для СУБД и других компонент. Обычно являются функциями ОС.
Среди средств разработки информационных приложений можно выделить следующие основные группы:
• традиционные системы программирования;
• инструменты для создания файл-серверных приложений;
• средства разработки приложений «клиент—сервер»;
• средства автоматизации делопроизводства и документооборота;
• средства разработки Интернет/Интранет-приложений;
• средства автоматизации проектирования приложений.
Хранение информации
Хранение и накопление являются одними из основных действий, осуществляемых над информацией и главным средством обеспечения ее доступности в течение некоторого промежутка времени. В настоящее время определяющим направлением реализации этой операции является концепция базы данных, склада (хранилища) данных.
База данных может быть определена как совокупность взаимосвязанных данных, используемых несколькими пользователями и хранящихся с регулируемой избыточностью. Хранимые данные не зависят от программ пользователей, для модификации и внесения изменений применяется общий управляющий метод.
Банк данных — система, представляющая определенные услуги по хранению и поиску данных определенной группе пользователей по определенной тематике.
Система баз данных — совокупность управляющей системы, прикладного программного обеспечения, базы данных, операционной системы и технических средств, обеспечивающих информационное обслуживание пользователей.
Хранилище данных (ХД — используют также термины Data Warehouse, «склад данных», «информационное хранилище») — это база, хранящая данные, агрегированные по многим измерениям. Основные отличия ХД от БД: агрегирование данных; данные из ХД никогда не удаляются; пополнение ХД происходит на периодической основе; формирование новых агрегатов данных, зависящих от старых — автоматическое; доступ к ХД осуществляется на основе многомерного куба или гиперкуба.
Альтернативой хранилищу данных является концепция витрин данных (Data Mart). Витрины данных — множество тематических БД, содержащих информацию, относящуюся к отдельным информационным аспектам предметной области.
Еще одним важным направлением развития баз данных являются репозитарии. Репозитарий, в упрощенном виде, можно рассматривать просто как базу данных, предназначенную для хранения не пользовательских, а системных данных. Технология репози-тариев проистекает из словарей данных, которые по мере обогащения новыми функциями и возможностями приобретали черты инструмента для управления метаданными.
Каждый из участников действия (пользователь, группа пользователей, «физическая память») имеет свое представление об информации.
По отношению к пользователям применяют трехуровневое представление для описания предметной области: концептуальное, логическое и внутреннее (физическое) (рис. 4.7).
Концептуальный уровень связан с частным представлением данных группы пользователей в виде внешней схемы, объединяемых общностью используемой информации. Каждый конкретный пользователь работает с частью БД и представляет ее в виде внешней модели. Этот уровень характеризуется разнообразием используемых моделей (модель «сущность—связь», ER-модель, модель Чена), бинарные и инфологические модели, семантические сети). На рис. 4.8 представлен фрагмент предметной базы данных «Сбыт» и одно из возможных его концептуальных представлений, которое отражает не только объекты и их свойства, но и взаимосвязи между ними.
Логический уровень является обобщенным представлением данных всех пользователей в абстрактной форме. Используются три вида моделей: иерархические, сетевые и реляционные.
Сетевая модель является моделью объектов-связей, допускающей только бинарные связи «многие к одному» и использует для описания модель ориентированных графов.
Иерархическая модель является разновидностью сетевой, являющейся совокупностью деревьев (лесом).
Реляционная модель использует представление данных в виде таблиц (реляций), в ее основе лежит математическое понятие теоретико-множественного отношения, она базируется на реляционной алгебре и теории отношений.
Физический (внутренний) уровень связан со способом фактического хранения данных в физической памяти ЭВМ. Во многом определяется конкретным методом управления. Основными компонентами физического уровня являются хранимые записи, объединяемые в блоки; указатели, необходимые для поиска данных; данные переполнения; промежутки между блоками; служебная информация.
По наиболее характерным признакам БД можно классифицировать следующим образом:
по способу хранения информации:
• интегрированные;
• распределенные;
по типу пользователя:
• монопользовательские;
• многопользовательские;
по характеру использования данных:
• прикладные;
• предметные.
В настоящее время при проектировании БД используют два подхода. Первый из них основан на стабильности данных, что обеспечивает наибольшую гибкость и адаптируемость к используемым приложениям. Применение такого подхода целесообразно в тех случаях, когда не предъявляются жесткие требования к эффективности функционирования (объему памяти и продолжительности поиска), существует большое число разнообразных задач с изменяемыми и непредсказуемыми запросами.
Второй подход базируется на стабильности процедур запросов к БД и является предпочтительным при жестких требованиях к эффективности функционирования, особенно это касается быстродействия.
Другим важным аспектом проектирования БД является проблема интеграции и распределения данных. Господствовавшая до недавнего времени концепция интеграции данных при резком увеличении их объема, оказалась несостоятельной. Этот факт, а также увеличение объемов памяти внешних запоминающих устройств при их удешевлении, широкое внедрение сетей передачи данных способствовало внедрению распределенных БД. Распределение данных по месту их использования может осуществляться различными способами:
1. Копируемые данные. Одинаковые копии данных хранятся в различных местах использования, так как это дешевле передачи данных. Модификация данных контролируется централизованно;
2. Подмножество данных. Группы данных, совместимые с исходной базой данных, хранятся отдельно для местной обработки;
3. Реорганизованные данные. Данные в системе интегрируются при передаче на более высокий уровень;
4. Секционированные данные. На различных объектах используются одинаковые структуры, но хранятся разные данные;
5. Данные с отдельной подсхемой. На различных объектах используются различные структуры данных, объединяемые в интегрированную систему;
6. Несовместимые данные. Независимые базы данных, спроектированные без координации, требующие объединения.
Важное влияние на процесс создания БД оказывает внутреннее содержание информации. Существует два направления:
• прикладные БД, ориентированные на конкретные приложения, например, может быть создана БД для учета и контроля поступления материалов;
• предметные БД, ориентированные на конкретный класс данных, например, предметная БД «Материалы», которая может быть использована для различных приложений.
Конкретная реализация системы баз данных с одной стороны определяется спецификой данных предметной области, отраженной в концептуальной модели, а с другой стороны типом конкретной СУБД (МБД), устанавливающей логическую и физическую организацию.
Для работы с БД используется специальный обобщенный инструментарий в виде СУБД (МБД), предназначенный для управления <