Основные направления развития методов обработки и хранения данных

Современные корпоративные системы могут быть представлены в виде нескольких информационных слоев (рис. 7.1). Первым слоем являются детальные данные, полученные в результате функционирования систем, ориентированных на операционную обработку данных (финансовые, кадровые и др.) в режиме реального времени (OLTP, On-Line Transactional Processing – системы оперативной обработки данных). Современные OLTP-системы реализованы, как правило, на основе реляционных баз данных, хотя возможны и другие решения. Они выступают источником данных, на которых строится второй слой – хранилище данных (Data Warehouse). Хранилище данных представляет единую среду для хранения корпоративных данных, в которой данные преобразованы и структурированы в виде, удобном для выполнения аналитики. Аналитические возможности информационных систем, относящиеся к классу систем поддержки принятия решений, ориентированы на выполнение таких задач, как ведение отчетности, анализ данных в реальном режиме времени и интеллектуального анализа данных.

Среди систем поддержки принятия решений выделяют два основных типа - EIS (Execution Information System) и DSS (Desktop Support System). EIS-системы рассчитаны на рядовых пользователей, имеют упрощенный интерфейс и располагают базовым набором возможностей и фиксированными формами представления информации. Системы класса DSS (Decision Support System) – это полнофункциональные системы анализа, рассчитанные на подготовленных пользователей как в предметной области так и в области информационных технологий. Такое деление систем является условным и в большинстве случаев системы ESD и SDD могут функционировать параллельно, предоставляя аналитическую информацию руководителям предприятий и данные для аналитических отделов.

Основные направления развития методов обработки и хранения данных - student2.ru

Рис. 7.1 Структура систем поддержки принятия решений

Представленная структура системы принятия решения позволяет выделить в ней две основные части: хранилище данных и средства аналитической обработки данных. К функции аналитической обработки данных руководителями компаний проявляется все больший интерес. Остановимся на них несколько подробнее.

Формирование отчетности – наиболее активно используемый инструмент в технологиях анализа данных позволяет автоматизировать процесс подготовки отчетов, справок, документов, сводных таблиц и т. д. Системы регламентированной отчетности могут содержать дополнительные утилиты, обеспечивающие авторизацию пользователей, контроль над выполнением отчетов, автоматическую установку времени формирования отчета.

OLAP-системы (On-Line Analytical Processing) представляют инструмент для анализа больших объемов данных в режиме реального времени. Взаимодействуя с OLAP-системой, пользователь может осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции детализации, свертки, сравнения во времени. Если системы регламентированной отчетности позволяют ответить на вопрос «Какова прибыль предприятия за последний месяц?», то OLAP-системы дают ответ на «На сколько следует увеличить расходы на рекламу, чтобы прибыль компании возросла на 15%?»

Основные направления развития методов обработки и хранения данных - student2.ru   Примечание
Автором концепции хранилищ данных (Data Warehouse) является Б. Инмон, который определил хранилища данных как предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений. В основе концепции хранилищ лежат идеи об интеграции и согласовании ранее разъединенных детализированных данных (архивов, данных из традиционных систем обработки данных, данных из внешних источников информации) и разделение наборов данных, используемых для операционной обработки и решения задач анализа.
Основные требования к данным в хранилище данных
Предметная ориентированность Все данные о некотором предмете (бизнес-объекте) собираются (обычно из множества различных источников), очищаются, согласовываются, дополняются, агрегируются и представляются в единой, удобной для их использования в бизнес анализе форме.
Интегрированность Все данные о разных бизнес-объектах, взаимно согласованы и хранятся в едином общекорпоративном хранилище
Не изменчивость Исходные (исторические) данные, после того как они были согласованы, верифицированы и внесены в общекорпоративное хранилище, остаются неизменными и используются исключительно в режиме чтения
Поддержка хронологии Данные хронологически структурированы и отражают историю за достаточный для выполнения задач бизнес анализа и прогнозирования, период времени.


По материалам сайта http://www.olap.ru

Интеллектуальный анализ данных или извлечение данных (Data Mining) –позволяют проводить более глубокие исследования данных. Эти исследования включают в себя поиск закономерностей и зависимостей между данными. С точки зрения маркетинга важно выявление закономерностей типа ассоциация, которое позволяет, например, на основе исследований в супермаркете показать, что 65% клиентов, купивших чипсы, приобретают и «кока-колу». Если существует цепочка связанных во времени событий, то методы интеллектуального анализа выявляют закономерность типа последовательность. Так, например, приобретение новой кухни в 45% случаев приводит к покупкам новой посуды. Выявление закономерностей типа классификация или кластеризация позволяют определить признаки, характеризующие группу, к которой принадлежит тот или иной исследуемый объект или выделить однородные группы из данных. Этот анализ важен при выборе и оценке целевой аудитории.

В основе Data Mining лежит математический аппарат, возникший и развивающийся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и т.д. Наличие различных методов и алгоритмов, на которых базируются современные системы Data Mining, привели к их многообразию. Некоторые системы интегрируют в себе сразу несколько подходов, хотя, как правило, в каждой системе есть свой ключевой компонент[47]:

Основные направления развития методов обработки и хранения данных - student2.ru   Классы систем Data Mining
- Предметно-ориентированные аналитические системы. Наиболее распространенный подкласс таких систем, который получил распространение в области исследования финансовых рынков, носит название «технический анализ». Эти системы используют несложный статистический аппарат и максимально учитывают сложившуюся в предметной области специфику. - Статистические пакеты. Основное внимание в данных пакетах уделяется классическим методикам статистического анализа – корреляционному, регрессионному, факторному. Детальный обзор пакетов для статистического анализа представлен на страницах Центрального экономико-математического института http://is1/cemi/rssi/ru/. В качестве примеров наиболее мощных пакетов можно назвать SAS (компания SAS Institute), SPSS (SSPS), STATGRAPICS (Manugistics), STATISTICA и др. - Нейронные сети. Примерами нейросетевых систем являются системы BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL ( HyperLogic) и др. - Система рассуждений на основе аналогичных случаев. Идея такой системы, их еще называют Case Based Reasoning (CBR), заключается в том, чтобы сделать прогноз на будущее или выбрать правильное решение, находя аналогичные ситуации в прошлом. Примеры систем, использующих CBR, – KATE Tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США). - Деревья решений. Это наиболее популярный подход к решению задач Data Mining, основанный на создании иерархической структуры классифицирующих правил типа «ЕСЛИ … ТО…». Самыми известными в этом классе систем являются See5/C5.0 (RuleQuest, Австралия, http://www.rulequest.com/), SIPINA (University of Lion, Франция) и др. - Эволюционное программирование. В таких системах гипотеза о виде зависимости целевой переменной от других переменных выстраивается в виде программ, из которых выбирается та, которая удовлетворительно описывает искомую зависимость, затем выполняется ее корректировка на основе дочерних программ, повышающих точность.   Дюк В., Самойленко А. Data Mining: учебный курс(+CD). — Спб.:Питер,2001. — 368с.: ил.

Однако, обработка оперативных данных, хранение и аналитическая обработка информации не означают увеличения корпоративного знания как высокоструктурированной (классифицированной, с выявленными логическими, семантическими и ассоциативными связями) информации. В этой связи практическую значимость для бизнеса имеет управление знаниями (KM, Кnowledge Management) как совокупность стратегических и оперативных усилий, направленных на увеличение и повышение эффективности использования интеллектуального капитала организации.

Процесс управления знаниями можно рассматривать с нескольких позиций – с точки зрения инновационного менеджмента, экономики, образования, психологии, социологии и т.д. Ограничим рассмотрение этой проблемы позициями маркетинга и теорией информационных систем.

В структуре интеллектуального капитала согласно классификации, предложенной основоположником современной теории интеллектуального капитала Т.Стюртом[48], выделяют человеческий, организационный и потребительский капиталы (рис.7.2). Элементы интеллектуального капитала могут быть соотнесены с индивидуальной компетенцией сотрудников, внутренней и внешней структурами компании соответственно, и являются взаимосвязанными. В такой структуре стратегии управления знаниями, учитывающие все взаимосвязи, должны быть направленные на повышение эффективности формирования и использования каждого из элементов интеллектуального капитала и поддерживаться современными корпоративными информационными системами.

Основные направления развития методов обработки и хранения данных - student2.ru

Рис. 7.2 Структура интеллектуального капитала

Основные функции по управлению знаниями можно сформулировать как:

- Поиск источников знаний.

- Освоение источников знаний.

- Накопление знаний.

- Создание знаний.

- Запись и хранение знаний.

- Распространение знаний.

- Обучение организации.

- Использование знаний.

Даже поверхностный анализ этих функций и структуры интеллектуального капитала показывает, что управление знаниями - проблема чрезвычайно сложная. Это предопределило появление большого класса программных продуктов, каждый из которых ориентируются на решение некоторого подкласса задач и базируются на технологиях, поддерживающих управление знаниями:

- системы поддержки принятия решений;

- системы управления документооборотом (Document management) — хранение, архивирование, индексирование, разметка и публикация документов;

- средства для организации совместной работы (Collaboration) — сети Интранет, технологии группой работы, синхронные и асинхронные конференции;

- корпоративные порталы и т. д.

Все эти технологии - новый виток в развитии средств и методов обработки и хранения данных, широкое применение которых наступит уже в ближайшие годы. Сегодня службы маркетинга российских компаний уже могут ответить на вопросы «Какие физические или юридические лица покупают продукты компании?» или «Какая комбинация инструментов продвижения рекламы наиболее эффективна с точки зрения минимизации бюджета рекламной компании?». Однако для получения ответа на вопрос «Почему фактические результаты маркетингового плана отличаются от теоретических и что нужно сделать для эффективного использования новых возможностей при минимизации рисков?» - на эти и другие аналогичные вопросы можно ответить, только изменив технологии реализации маркетинговой деятельности.

Наши рекомендации