Базові інформаційні процеси. Збирання, попередня обробка та аналіз даних

Конкретна інформаційна технологія (ІТ) реалізується шляхом компіляції та синтезу базових і спеціалізованих технологічних операцій за допомогою відповідних апаратних та програмних засобів реалізації цих операцій [87, с. 59 - 65]. Інформаційні технологічні операції являють собою окремі дії чи сукупності дій зі зміни стану інформації, а інформаційні технологічні процеси можна розглядати як функціонально завершені підсистеми (сукупності) інформаційних технологічних операцій, на які може бути декомпонована інформаційна технологія у цілому.

Серед різноманітних інформаційних технологічних процесів, на яких грунтується будь-яка конкретна інформаційна технологія, виділяють базові інформаційні процеси, притаманні кожній ІТ. До таких базових процесів відносять процеси збирання, попередньої обробки та відбору, аналізу даних, траннспортування, обробки, зберігання, накопичення та видавання інформації користувачу у довільних формах. Структура системи базових інформаційних процесів з виділеними окремими технологічними операціями представлена на рис. 3.4 нижче.

Базові інформаційні процеси. Збирання, попередня обробка та аналіз даних - student2.ru

Рис. 3.4. Структура базових інформаційних процесів ІТ

Як видно з рис. 3.4, ці процеси реалізується програмно-апаратними та організаційними засобами у певній послідовності і самі можуть бути декомпоновані на окремі базові операції.

При цьому на сучасному етапі ефективна реалізація кожного з базових інформаційних процесів підтримується відповідною предметною інформаційною технологією чи їх сукупністю. Так, процес збирання інформації пов'язаний з використанням технології дейтамайнингу (data mining – видобування даних, див. розділ 12) та пошуковими процедурами у Всесвітній мережі; процес обробки та аналізу інформації – з технологіями підтримки прийняття рішень, експертними та інтелектуальними системами, процес збереження та накопичення даних – з технологією баз даних та знань; процеси транспортування та представлення інформації користувачу – з технологіями телекомунікацій.

Збирання даних – це процес їх отримання з зовнішнього світу і представлення у вигляді, придатному для подальшого структурування та сприйняття прикладною інформаційною системою. Джерелами даних в будь-якій предметній області є об'єкти, процеси, їх властивості та взаємозв’язки, дії (функції), що реалізуються через ці зв’язки, властивості та результати цих дій.

Для збирання фактичних даних використовують спостереження, порівняння, вимірювання, розрахунки, експеримент, в ході яких визначають наявність тих чи інших властивостей об’єктів та процесів та їх кількісні значення. Збирання даних переважно супроводжується їх реєстрацією, тобто фіксацією інформації на матеріальному носієві (паперовому чи машинному) в ручному чи автоматичному режимах; дані можуть поступати від людини чи технічного пристрою, спорядженого давачем, який реагує на відповідні сигнали.

Виникнення інформації пов'язане з переходом від реального образу предметної області у свідомості збирача до опису цього образу у формальному виді і у вигляді даних, які відбивають це представлення, з подальшою інтерпретацією цих даних, тобто з моделюванням (рис. 3.4). В процесі збирання даних відбувається їх попередня обробка, яка полягає у виділенні з усього масиву зібраних даних тих, що є суттєвими з погляду формування адекватного інформаційного представлення предметної області. При цьому первинні дані проходять через уявний двошаровий фільтр, в якому здійснюється оцінка їх синтаксичної адекватності (правильності формально-логічного представлення) та семантичної (змістовної) відповідності представлення реальному об’єкту. Оцінка прагматичної адекватності (споживчої цінності, придатності для реалізації цілей видобування інформації) потребує детальнішого аналізу отриманих даних.

У процесі попередньої обробки даних важливим етапом є оцінювання їх якості за такими критеріями, як повнота, точність, своєчасність та можливість інтерпретації даних. Якість даних забезпечується процесами добування, перетворення та представлення даних.

Дані низької якості (їх називають ще «брудними») – це шуми, грубі викиди, пропущені значення, неточні або помилкові дані тощо. Покращення якості даних забезпечують за допомогою їх очистки певними методами.

В ході попередньої обробки даних відбувається також їх групування за тими чи іншими ознаками (часом отримання, об’єктом чи процесом предметної області, якого дані стосуються, збирачем даних чи їх джерелом (результати спостережень, вимірювань, експерименту, дані з літературних джерел, Всесвітньої мережі тощо). Результатом такого групування почасти стає частково структуроване представлення даних у вигляді окремих таблиць та їх наборів, візуальних зображень, звітів тощо.

Отримані в процесі збирання та попередньої обробки дані піддаються аналізу з метою збільшення їх споживчої цінності та зменшення обсягу шляхом вилучення неістотних для реалізації цілей видобування інформації даних, а також вилучення даних, які стосуються відомих об’єктів чи процесів більш високого рівня системної ієрархії [79].

В процесі інтерпретування дані перетворюються на інформацію. Інформація є результатом інтерпретування даних особою, яка збирає інформацію, тому інформацією і вважають дані разом з їх інтерпретацією. Відповідно в процесі збирання даних і їх перетворення на інформацію відбувається перехід від реального представлення предметної області до формального і інформаційного (рис. 3.5). Предмети, процеси, явища матеріальної або нематеріальної властивості, розглянуті з точки зору їхніх інформаційних властивостей, називаються інформаційними об'єктами.

Базові інформаційні процеси. Збирання, попередня обробка та аналіз даних - student2.ru

Рис. 3.5. Зміна представлень предметної області в процесі збирання інформації

В процесі аналізу отриманих даних використовуються різноманітні методи і процедури, які дають змогу перейти від частково структурованого інформаційного масиву до інформаційної моделі предметної області чи її досліджуваного фрагменту:

оцінка істотності даних для отримання представлення про реальний об’єкт, процес, предметну область чи її фрагмент;

оцінку достовірності та закономірності (повторюваності) отриманих даних, виділення та вилучення артефактів;

пошук аналогій, які б дали змогу ідентифікувати досліджуваний об’єкт чи процес або віднести його до певного класу об’єктів чи процесів;

встановлення часової послідовності подій;

виявлення кореляційних зв’язків між окремими групами даних;

встановлення казуальних (причинно-наслідкових) залежностей між певними групами даних;

оцінка певних груп даних як неістотних і абстрагування отриманих представлень;

класифікування об’єктів та процесів на основі порівняння отриманих даних з критеріями віднесення до певного класу;

кластеризація (обґрунтоване групування) об’єктів чи процесів на основі групування та оцінки даних, що їх стосуються;

знаходження адекватної форми представлення даних, яка забезпечує найбільшу прагматичну цінність отриманої інформації, у тому числі заміна отриманих масивів їх статистичними характеристиками та модельними представленнями;

оцінка важливості впливу того чи іншого параметру на розвиток предметної області, зміну її стану;

прогнозування розвитку предметної області з отриманням відповідних моделей;

остаточний відбір отриманих та оброблених даних для формування інформаційної моделі за критеріями синтаксичної, семантичної і прагматичної адекватності, достатньої повноти та економічності представлення обраних об’єктів та процесів.

Процес класифікування значною мірою впливає на остаточний обсяг інформації, який підлягає подальшому транспортуванню, обробці і збереженню. Класифікування полягає у розподілі об’єктів, процесів тощо по групах за фактом наявності у цих об’єктів чи процесів певних ознак чи їх сукупностей. Групи об’єктів чи процесів, яким притаманні певні спільні властивості чи їх сукупності, називають класом. Ідентифікування об’єкту чи процесу як екземпляра певного класу дає змогу формалізувати представлення інформації про нього і зменшити її обсяг.

Якщо об’єктом класифікування є інформація, то в якості класів виступають інформаційні об’єкти. Властивості інформаційного об'єкту описуються його реквізитами. Реквізитом називають логічно неподільний інформаційний елемент, що описує певну властивість об'єкту чи процессу, де під логічною неподільністю розуміють втрату семантичної адекватності при подальшому поділі елементу на складові. Наприклад, інформаційний об'єкт «телевізор» може бути описаний такими реквізитами, як марка (модель), фірма-виробник, тип монітору, розмір діагоналі монітору, тип аудіосистеми; інформаційний об’єкт «студент» - такими реквізитами, як номер заліковки, ПІБ, курс, інститут, група, рейтинг тощо. Набір реквізитів, якими описують об’єкти і за якими їх відносять до певного класу, залежить від мети видобування інформації, і має відповідати вимогам однозначності тлумачення, максимально можливої повноти об’єктів обраної предметної області та придатності для опису нових об’єктів.

Реквізити чи їх сукупності, які дають змогу встановити класифікаційну подібність об’єктів та віднести їх до певного класу, називаються класифікаційними ознаками. Розподіл об’єктів по класах залежить від обраного методу класифікування, який визначається прийнятою системою класифікації. Найбільш відомими системами класифікації є ієрархічна та фасетна.

Ієрархічна система класифікації будується за принципом піраміди. Вихідна множина елементів складає 0–рівень і поділяється залежно від класифікаційної ознаки на класи, які утворюють 1-ий рівень. Виділені класи за певними ознаками розбивають на підкласи 2-го рівня, ті, своєю чергою – на підкласи 3-го рівня тощо. Кількість рівнів визначає глибину класифікації.

Наприклад, якщо необхідно дослідити вплив на успішність студентів різних інститутів університету їх статі та проживання в умовах гуртожитку, то класифікаційними ознаками будуть «інститут», «рейтинг», «стать» та «проживання у гуртожитку», а ієрархічна структура університету, виділена за цими ознаками, матиме вигляд (рис 3.6.).

Як очевидно з рис. 3.6, до переваг ієрархічної системи класифікування можна віднести простоту побудови та незалежність ознак в різних гілках ієрархічної структури, до недоліків – високу чутливість процедури класифікування до обраних класифікаційних ознак, жорсткість структури (що не дає змоги вносити зміни без перегрупування всіх об’єктів та ознак), обмежена класифікаційна ємність внаслідок стрімкого наростання складності структури при збільшенні кількості ознак і неможливість нерегламентованого групування об'єктів (тобто групування по не передбачених заздалегідь ознаках).

Базові інформаційні процеси. Збирання, попередня обробка та аналіз даних - student2.ru
Рис. 3.6. Ієрархічна класифікація студентів університету за ознаками «інститут», «рейтинг», «стать» та «проживання у гуртожитку»: 0-рівень представлений інститутами, рівень 1 – їх назвами (класифікаційна ознака 1-го рівня); рівень 2 – рейтингом студента (класифікаційна ознака 2-го рівня, яка приймає 3 значення); рівень 3 – проживанням студента у гуртожитку (класифікаційна ознака 3-го рівня, яка приймає 2 булеві значення «проживає / не проживає»); рівень 4 – статтю студента (класифікаційна ознака 4-го рівня, яка приймає 2 значення); глибина класифікації – 4.

Фасетнасистема класифікації, за якої класифікаційні ознаки називають фасетами (від англ. «facet» - рамка) має протилежні переваги і недоліки. Розподіл об’єктів по окремих фасетах є незалежним; кожний фасет містить сукупність однорідних значень певної класифікаційної ознаки. Процедура класифікування полягає у присвоєнні кожному об'єкту відповідних значень із фасетів; отримана класифікація відбивається у вигляді таблиці (табл. 3.1). Структурна формула класу KS для випадку п фасетів Фі має вигляд: KS = {Фі}, і = 1 ÷ п.

Таблиця 3.1

Наши рекомендации