Технології інтелектуального аналізу даних
Поняття технологій інтелектуального аналізу даних (ІАД) об’єднує групу технологій, метою яких є видобування знань із даних, тобто виявлення у вихідних даних раніше невідомих нетривіальних практично корисних і доступних для інтерпретації знань, необхідних для прийняття рішень в різних предметних областях.
Вибір методу ІАД визначається у першу чергу тим, які саме знання підлягають видобуванню і як саме представлені вихідні дані [8]. Якщо типом знань, витягуваних за допомогою технологій ІАД, є закономірності предметної області, суттєве значення при виборі методу ІАД має домінуючий тип подій, що спостерігаються (домінують випадкові, чи причинно обумовлені події, чи спостерігаються рівною мірою події обох типів).
Методи ІАД оперують з даними, представленими: а) атрибутивно (об'єкти описуються значеннями фіксованого набору атрибутів); б) структурно (об’єкти визначаються типологічно); в) повнотекстово (вихідними даними є тексти на природній мові). Розрізняють три основних класи методів ІАД [28]: а) алгебра (вихідні дані представляються у вигляді структур алгебри; б) статистичні (використовують апарат теорії ймовірності і математичної статистики); в) методи м'яких обчислень (використовують нечітке представлення даних і нейромережі). Вважається, що вихідні дані у ІАД представлені у цифровій чи символьній формі. Водночас до 80 % всіх даних існує у неструктурованому вигляді (містится у текстових документах), що зумовлює важливість інтегрування засобів ІАД та аналізу тексту у технологіях управління знаннями..
Методи ІАД реалізуються у трьох основних технологіях: технології інтерактивної аналітичної обробки даних (On-Line Analytical Processing — OLAP); технології глибинного аналізу чи видобування даних (Data Mining — DM) та технології візуалізації даних.
Технологія інтерактивної аналітичної обробки даних (OLAP)
Технологія OLAP орієнтована переважно на обробку нерегламентованих запитів до сховищ даних. Саме виникнення сховищ даних значною мірою зумовлено тим, що безпосередній аналіз OLTP-систем (On-Line Transactional Processing) неможливий або утруднений внаслідок різнорідності, різноформатності та розподіленості вихідних даних у корпоративній мережі. Сховища даних забезпечують їх збереження у одному місці в межах доступної для реалізації запитів структури. Принципи OLAP, використовувані для якісної і кількісної оцінки результатів і динаміки діяльності компанії, відомості про яку розміщуються в сховищі даних, були сформульовані Е. Кодом. Головним принципом є підтримка багатовимірного представлення даних [8]. У багатовимірній моделі даних БД представляється у вигляді одного або кількох кубів даних (гіперкубів), осями яких виступають основні атрибути аналізованого бізнес-процесу. На перетині осей, в комірці гіперкуба, знаходяться дані (міри, показники), які кількісно характеризують аналізований процес.
В процесі аналізу виконуються операції побудови перетинів гіперкуба фіксацією значень наборів атрибутів-координат; операції стискання гіперкуба за рахунок переходу до значень атрибутів-вимірів вищих рівнів ієрархії і відповідної агрегації значень асоційованих з ними показників; операції деталізації даних, зворотні до операцій стискання. Ієрархічні відношення природно виводяться для певних атрибутів: наприклад, для атрибуту «час» ієрархія має вигляд: роки — квартали — місяці, для атрибуту «територія»: регіони — міста — райони тощо. Зручність сприйняття даних аналітиками забезпечується обертанням куба із зміною порядку вимірів; візуалізація даних з гіперкубу переважно здійснюється двовимірними представленнями у вигляді таблиць із складними ієрархічними заголовками рядків і стовпців.
Багатовимірність в OLAP-додатках реалізується у межах дво- або трирівневої архітектури. Перший рівень містить засоби багатовимірної візуалізації і маніпулювання даними для кінцевого користувача і підтримує багатовимірне представлення даних, абстраговане від їх фізичної структури. До засобів першого рівня можна віднести, наприклад, OLAP-клієнтів Pivot Tables з Microsoft Excel 2007 чи OLAP-сервери, зокрема, Oracle Express Server та Microsoft OLAP Services. Другий рівень містить спеціальну, відмінну від SQL мову формулювання багатовимірних запитів та здатний їх виконувати програмний процесор, забезпечує багатовимірну обробку даних. Цей рівень переважно вбудовується у OLAP-клієнт чи OLAP-сервер, хоча може існувати і як незалежний продукт (наприклад. Microsoft Pivot Tables Service). На третьому рівні засобами звичайних реляційних чи спеціальних багатовимірних OLAP-СУБД реалізується фізична організація зберігання багатовимірних даних. Переважно OLAP-додатки застосовують комбінацію цих засобів, зокрема: у MOLAP (Multidimensional OLAP) і окремі факти, і агрегати даних зберігаються у багатовимірній БД; у ROLAP (Relational OLAP) — окремі факти зберігаються у реляційній БД, а агрегати — у спеціально створених службових таблицях; у HOLAP (Hybrid OLAP) — окремі факти зберігаються у реляційній БД, агрегати — у багатовимірній БД.
Технологія глибинного аналізу, чи видобування даних (Data Mining, DM)
Поняття дейтамайнингу (Data Mining, DM), чи глибинного аналізу даних об’єднує інструментальні програмні засоби добування корисної інформації з нагромаджених у електронному вигляді обсягів сирих даних за допомогою знаходження прихованих від користувача шаблонів, чи взірців (patterns) зв'язків між даними.
На відміну від аналізу даних суто статистичними методами, який проводиться у «режимі верифікації (verification mode)» (спочатку висувається гіпотеза про певний зв'язок між даними, яка підтверджується чи відхиляється аналізом отриманих за запитом до БД даних), програмне забезпечення DM працює у «режимі відкриття (discovery mode)», не перевіряючи попередньо створену гіпотезу стосовно зв'язків між даними, а виявляючи приховані закономірні зв’язки між ними, які і називають патернами, чи шаблонами (patterns). Нині дейтамайнинг представлений сімейством комерційних програмних продуктів (аналітичних додатків) підтримки прийняття рішень на основі пошуку у базах чи сховищах даних прихованих шаблонів з наданням у відповідь на інформаційні запити користувача важливих для нього інформаційних фрагментів чи результатів їх аналізу у вигляді, зручному для користувача (графіків, діаграм, зведених таблиць, звітів тощо). При цьому у технології DM під час автоматизованого аналізу даних ініціатива щодо генерування взірців (шаблонів) належить інтелектуальній системі.
Англомовний термін Data Mining перекладається як «видобуток», «добування» чи «розкопування даних» і часто тлумачиться як пошук, аналіз, інтерпретація та подання інформації зі сховищ, баз даних чи Всесвітньої мережі. Добування даних переважно передбачає фільтрування великих обсягів даних для відбору суттєвої для прийняття певного рішення інформації. Корпорація ІВМ тлумачить Data Mining як «процес екстракції з великих баз даних заздалегідь невідомої важливої інформації, що дає підстави для дій та використання її для розроблення критичних бізнесових рішень» [92], у вітчизняній літературі як аналог вказаного терміну деколи застосовують термін «інтелектуальні обчислення» [102]. У разі проведення досліджень даних у Інтернеті, застосовується також термін Data Surfing.
Технологія DM призначена для аналізу структурованих даних за допомогою математичних моделей, заснованих на статистичних, імовірнісних і оптимізаційних методах, з метою виявлення в них заздалегідь невідомих закономірностей, залежностей і видобування непередбаченої інформації [37], тобто для отримання із загальних масивів інформації нових корисних знань, що піддаються інтерпретуванню.
До головних задач, розв’язання яких підтримує DM, відносять задачі класифікації, кластеризації, пошуку асоціацій і кореляцій, виявлення типових взірців на заданій множині, виявлення аномалій (об'єктів даних, не відповідних встановленим характеристикам і поведінці), дослідження тенденцій у часових рядах з побудовою відповідних регресійних моделей для передбачення ситуації у майбутньому тощо. Класифікація передбачає виявлення ознак, що характеризують групу, до якої належить певний об'єкт, за допомогою аналізу вже класифікованих об'єктів і формулювання деякого набору правил та/чи ідентифікацію групи, до якої належить об'єкт, з розповсюдженням на нього суттєвих для прийняття рішення властивостей групи. Наприклад, ідентифікація за класифікатором категорії позичальника стосовно ризику повернення позики забезпечує обґрунтоване прийняття рішення про надання йому позики взагалі та умови цієї позики. Кластеризація передбачає розподіл об'єктів за заздалегідь невідомими групами за ознакою збіжності чи близькості значень певних ознак. Асоціації та кореляції стосуються групування елементів даних на основі виявлення зв’язку між ними (наприклад, встановлення того, що дії одного типу, як показує аналіз масиву даних, переважно супроводжуються діями другого типу чи навпаки). Виявлення типових взірців базується на використанні заданих продукційних правил «якщо А, то Б», виявлених аналізом раніше встановлених закономірностей. Загалом, у відповідності до використовуваних моделей обробки даних та отримуваних результатів, процеси дейтамайнингу поділяють на 3 групи: відкриття, чи добування (discovery), моделювання передбачень (predictive modeling) та аналіз аномалій (forensic analysis). Процеси відкриття передбачають перегляд масиву інформації для виявлення невідомих прихованих патернів без попередньої гіпотези про наявність чи характер цих патернів на основі формованих системою запитів за критерієм відповідності інтересам користувача стосовно вирішуваної задачі. При моделюванні передбачень (моделюванні наслідків чи прогнозуванні тенденцій) з інформаційного масиву видобуваються і обробляються взірці, які система визнає за потрібні для отримання прогнозу, тобто нових значень даних у нових умовах. Аналіз аномалій є процесом застосування вибраних шаблонів для виявлення аномалій (незвичайних, нехарактерних елементів даних) на основі встановлення системою норми та допустимого рівня відхилень від неї.
Вирішення всіх цих задач вимагає обробки великих обсягів інформації. При створенні використовуваних для їх розв’язання алгоритмів необхідно враховувати організацію джерел даних, їх значний обсяг, великі розмірності задач, забезпечувати масштабованість алгоритмів. У DM для сегментування даних застосовують штучні нейронні мережі та методи кластерного аналізу, для індуктивного виводу — дерева прийняття рішень, генетичні алгоритми та методи нечіткої логіки, для виявлення в інформаційних масивах часто спотиканих пар об'єктів — статистичні (кореляційний та регресійний аналіз) і асоціативні методи (метод «найближчого сусіда», методи встановлення асоціацій тощо) [41]. Для представлення отриманих результатів (дистильованих даних) застосовують візуалізацію та крос-табуляцію (представлення даних у перехресних таблицях).
Кластерний аналіз (таксономія) є способом групування багатовимірних даних, значення яких подаються точками багатомірного геометричного простору, у однорідні підмножини (групи, «грона», скупчення, кластери) так, щоб точки у середині груп були схожими («близькими») за певними ознаками у багатовимірному просторі ознак, а точкі з різних груп – несхожими. В результаті застосування методу дерев рішень для навчальної вибірки даних створюється ієрархічна структура правил класифікації типу, "ЯКЩО... ТОДІ...", що має вид дерева. Для того щоб вирішити, до якого класу віднести певний об'єкт або ситуацію, ми відповідаємо на питання, що стоять у вузлах цього дерева, починаючи з його кореня. Після проходження останньої гілки ідентифікується тип об’єкту чи ситуації і з бази даних видобуваються рекомендовані правила їх опрацювання для отримання максимального корисного чи мінімального шкідливого ефекту. Концепція генетичних алгоритмів запозичена з живої природи і полягає у комп’ютерній імітації еволюційного процесу формування, модифікування, відбору та оптимізації кращих рішень, які у процесі подальшого розвитку та модифікування (селекції) здатні генерувати ще кращі рішення (кращих «нащадків»), як це відбувається у механізмах генетичного успадкування і природного відбору. Ідея методу «найближчого сусіда» (інакше – методу міркування на основі аналогічних випадків) полягає у знаходженні у минулому (у раніше збережених рядах даних) близького аналогу наявної ситуації (подібної сукупності даних) і обранні того ж наслідку, який спостерігався для аналога, тобто відповіді правильної для аналога. Алгоритми виявлення асоціацій знаходять правила одночасної появи окремих об’єктів, їх властивостей чи способів їх прояву (поведінки) у певних умовах.
Схема процесу ІАД за технологією DM містить чотири основні етапи (рис. 9.18). На першому етапі формулюють постановку задачі в термінах цільових змінних. На другому здійснють підготовку даних для аналізу у вигляді таблиці, рядки (записи) якої відповідають об'єктам чи їх станам, а стовпці (поля, змінні) — властивостям (ознакам) об'єктів. З множини властивостей виключають надлишкові і малоінформативні елементи, тобто властивості, що мають одне і те ж значення майже для всіх записів, а також властивості, кількість значень яких наближається до записів. Також виключають записи щодо рідкісних особливих ситуацій (якщо їх виявлення не є метою аналізу) та помилкові чи дуже неточні записи значень, здатні істотно негативно вплинути на результати аналізу. Власне аналіз даних за методами DM проводиться на третьому етапі. Змістом четвертого етапу є верифікація і інтерпретація отриманих результатів (витягнутих знань). При верифікації застосовується тестовий набір записів, які були виділені з вихідних даних, але не піддавалися аналізу.
Рис. 9.18. Інтелектуальний аналіз даних за технологією DM, за [8, с. 264]
Програмне забезпечення дейтамайнингу представлене сьогодні значною кількістю програмних продуктів, серед яких можна виділити такі, як: Intelligent Miner фірми IBM на базі ШНМ, моделювання передбачень, виявлення асоціацій тощо; Decision Series фірми Neo Vista Software) на базі ШНМ, асоціативних правил, дерев та кластерів рішень; Polyanalyst російської фірмы Megaputer, яка використовує метод групування та «найближчого сусіда», генетичені алгоритми, ШНМ, статистичні та асоціативні методи, дерева рішень, регресійні моделі, методи кластерного аналізу та еволюційного програмуваня; система KnowledgeStudio сімейства програмного забезпечення Angoss на базі ШНС, різноманітних алгоритмів дерев рішень та кластерного аналізу; система MineSet фірми Silicon Graphics на базі численних алгоритмів видобування даних та унікальної технології візуалізації зв’язків у багатовимірних базах даних. Практично всі ці системи дають змогу виявляти багатофакторні залежності у вигляді функціональних виразів, формувати структурні і класифікаційні правила, здійснювати передбачення та візуалізувати виявлені закономірності.