Основные направления развития методов обработки и хранения данных
Современные корпоративные системы могут быть представлены в виде нескольких информационных слоев (рис. 7.1). Первым слоем являются детальные данные, полученные в результате функционирования систем, ориентированных на операционную обработку данных (финансовые, кадровые и др.) в режиме реального времени (OLTP, On-Line Transactional Processing – системы оперативной обработки данных). Современные OLTP-системы реализованы, как правило, на основе реляционных баз данных, хотя возможны и другие решения. Они выступают источником данных, на которых строится второй слой – хранилище данных (Data Warehouse). Хранилище данных представляет единую среду для хранения корпоративных данных, в которой данные преобразованы и структурированы в виде, удобном для выполнения аналитики. Аналитические возможности информационных систем, относящиеся к классу систем поддержки принятия решений, ориентированы на выполнение таких задач, как ведение отчетности, анализ данных в реальном режиме времени и интеллектуального анализа данных.
Среди систем поддержки принятия решений выделяют два основных типа - EIS (Execution Information System) и DSS (Desktop Support System). EIS-системы рассчитаны на рядовых пользователей, имеют упрощенный интерфейс и располагают базовым набором возможностей и фиксированными формами представления информации. Системы класса DSS (Decision Support System) – это полнофункциональные системы анализа, рассчитанные на подготовленных пользователей как в предметной области так и в области информационных технологий. Такое деление систем является условным и в большинстве случаев системы ESD и SDD могут функционировать параллельно, предоставляя аналитическую информацию руководителям предприятий и данные для аналитических отделов.
Рис. 7.1 Структура систем поддержки принятия решений
Представленная структура системы принятия решения позволяет выделить в ней две основные части: хранилище данных и средства аналитической обработки данных. К функции аналитической обработки данных руководителями компаний проявляется все больший интерес. Остановимся на них несколько подробнее.
Формирование отчетности – наиболее активно используемый инструмент в технологиях анализа данных позволяет автоматизировать процесс подготовки отчетов, справок, документов, сводных таблиц и т. д. Системы регламентированной отчетности могут содержать дополнительные утилиты, обеспечивающие авторизацию пользователей, контроль над выполнением отчетов, автоматическую установку времени формирования отчета.
OLAP-системы (On-Line Analytical Processing) представляют инструмент для анализа больших объемов данных в режиме реального времени. Взаимодействуя с OLAP-системой, пользователь может осуществлять гибкий просмотр информации, получать произвольные срезы данных и выполнять аналитические операции детализации, свертки, сравнения во времени. Если системы регламентированной отчетности позволяют ответить на вопрос «Какова прибыль предприятия за последний месяц?», то OLAP-системы дают ответ на «На сколько следует увеличить расходы на рекламу, чтобы прибыль компании возросла на 15%?»
Примечание | |||||||||
Автором концепции хранилищ данных (Data Warehouse) является Б. Инмон, который определил хранилища данных как предметно-ориентированные, интегрированные, неизменчивые, поддерживающие хронологию наборы данных, организованные для целей поддержки управления, призванные выступать в роли единого и единственного источника истины, обеспечивающего менеджеров и аналитиков достоверной информацией, необходимой для оперативного анализа и принятия решений. В основе концепции хранилищ лежат идеи об интеграции и согласовании ранее разъединенных детализированных данных (архивов, данных из традиционных систем обработки данных, данных из внешних источников информации) и разделение наборов данных, используемых для операционной обработки и решения задач анализа.
По материалам сайта http://www.olap.ru |
Интеллектуальный анализ данных или извлечение данных (Data Mining) –позволяют проводить более глубокие исследования данных. Эти исследования включают в себя поиск закономерностей и зависимостей между данными. С точки зрения маркетинга важно выявление закономерностей типа ассоциация, которое позволяет, например, на основе исследований в супермаркете показать, что 65% клиентов, купивших чипсы, приобретают и «кока-колу». Если существует цепочка связанных во времени событий, то методы интеллектуального анализа выявляют закономерность типа последовательность. Так, например, приобретение новой кухни в 45% случаев приводит к покупкам новой посуды. Выявление закономерностей типа классификация или кластеризация позволяют определить признаки, характеризующие группу, к которой принадлежит тот или иной исследуемый объект или выделить однородные группы из данных. Этот анализ важен при выборе и оценке целевой аудитории.
В основе Data Mining лежит математический аппарат, возникший и развивающийся на базе достижений прикладной статистики, распознавания образов, методов искусственного интеллекта, теории баз данных и т.д. Наличие различных методов и алгоритмов, на которых базируются современные системы Data Mining, привели к их многообразию. Некоторые системы интегрируют в себе сразу несколько подходов, хотя, как правило, в каждой системе есть свой ключевой компонент[47]:
Классы систем Data Mining | |
- Предметно-ориентированные аналитические системы. Наиболее распространенный подкласс таких систем, который получил распространение в области исследования финансовых рынков, носит название «технический анализ». Эти системы используют несложный статистический аппарат и максимально учитывают сложившуюся в предметной области специфику. - Статистические пакеты. Основное внимание в данных пакетах уделяется классическим методикам статистического анализа – корреляционному, регрессионному, факторному. Детальный обзор пакетов для статистического анализа представлен на страницах Центрального экономико-математического института http://is1/cemi/rssi/ru/. В качестве примеров наиболее мощных пакетов можно назвать SAS (компания SAS Institute), SPSS (SSPS), STATGRAPICS (Manugistics), STATISTICA и др. - Нейронные сети. Примерами нейросетевых систем являются системы BrainMaker (CSS), NeuroShell (Ward Systems Group), OWL ( HyperLogic) и др. - Система рассуждений на основе аналогичных случаев. Идея такой системы, их еще называют Case Based Reasoning (CBR), заключается в том, чтобы сделать прогноз на будущее или выбрать правильное решение, находя аналогичные ситуации в прошлом. Примеры систем, использующих CBR, – KATE Tools (Acknosoft, Франция), Pattern Recognition Workbench (Unica, США). - Деревья решений. Это наиболее популярный подход к решению задач Data Mining, основанный на создании иерархической структуры классифицирующих правил типа «ЕСЛИ … ТО…». Самыми известными в этом классе систем являются See5/C5.0 (RuleQuest, Австралия, http://www.rulequest.com/), SIPINA (University of Lion, Франция) и др. - Эволюционное программирование. В таких системах гипотеза о виде зависимости целевой переменной от других переменных выстраивается в виде программ, из которых выбирается та, которая удовлетворительно описывает искомую зависимость, затем выполняется ее корректировка на основе дочерних программ, повышающих точность. Дюк В., Самойленко А. Data Mining: учебный курс(+CD). — Спб.:Питер,2001. — 368с.: ил. |
Однако, обработка оперативных данных, хранение и аналитическая обработка информации не означают увеличения корпоративного знания как высокоструктурированной (классифицированной, с выявленными логическими, семантическими и ассоциативными связями) информации. В этой связи практическую значимость для бизнеса имеет управление знаниями (KM, Кnowledge Management) как совокупность стратегических и оперативных усилий, направленных на увеличение и повышение эффективности использования интеллектуального капитала организации.
Процесс управления знаниями можно рассматривать с нескольких позиций – с точки зрения инновационного менеджмента, экономики, образования, психологии, социологии и т.д. Ограничим рассмотрение этой проблемы позициями маркетинга и теорией информационных систем.
В структуре интеллектуального капитала согласно классификации, предложенной основоположником современной теории интеллектуального капитала Т.Стюртом[48], выделяют человеческий, организационный и потребительский капиталы (рис.7.2). Элементы интеллектуального капитала могут быть соотнесены с индивидуальной компетенцией сотрудников, внутренней и внешней структурами компании соответственно, и являются взаимосвязанными. В такой структуре стратегии управления знаниями, учитывающие все взаимосвязи, должны быть направленные на повышение эффективности формирования и использования каждого из элементов интеллектуального капитала и поддерживаться современными корпоративными информационными системами.
Рис. 7.2 Структура интеллектуального капитала
Основные функции по управлению знаниями можно сформулировать как:
- Поиск источников знаний.
- Освоение источников знаний.
- Накопление знаний.
- Создание знаний.
- Запись и хранение знаний.
- Распространение знаний.
- Обучение организации.
- Использование знаний.
Даже поверхностный анализ этих функций и структуры интеллектуального капитала показывает, что управление знаниями - проблема чрезвычайно сложная. Это предопределило появление большого класса программных продуктов, каждый из которых ориентируются на решение некоторого подкласса задач и базируются на технологиях, поддерживающих управление знаниями:
- системы поддержки принятия решений;
- системы управления документооборотом (Document management) — хранение, архивирование, индексирование, разметка и публикация документов;
- средства для организации совместной работы (Collaboration) — сети Интранет, технологии группой работы, синхронные и асинхронные конференции;
- корпоративные порталы и т. д.
Все эти технологии - новый виток в развитии средств и методов обработки и хранения данных, широкое применение которых наступит уже в ближайшие годы. Сегодня службы маркетинга российских компаний уже могут ответить на вопросы «Какие физические или юридические лица покупают продукты компании?» или «Какая комбинация инструментов продвижения рекламы наиболее эффективна с точки зрения минимизации бюджета рекламной компании?». Однако для получения ответа на вопрос «Почему фактические результаты маркетингового плана отличаются от теоретических и что нужно сделать для эффективного использования новых возможностей при минимизации рисков?» - на эти и другие аналогичные вопросы можно ответить, только изменив технологии реализации маркетинговой деятельности.