Розрахунок статистичних параметрів засобами табличного процесора MS Excel
Масиви правових даних характеризуються середніми значеннями величин різного виду, варіацією ряду, моментами і формою розподілу даних.
Для статистичного оцінювання даних використовують такі усереднені показники:
- середнє арифметичне;
- середнє квадратичне;
- середнє геометричне;
- середнє гармонічне;
- середнє кубічне.
Для оцінювання розсіювання (відхилення) даних відносно середнього значення користуються такими показниками:
- дисперсією;
- середньоквадратичним відхиленням – квадратним коренем із дисперсії (чим менше значення величини відносно її середнього значення, тим більш рівнемір ним є розподіл ряду даних);
- середнім модулем відхилень;
- ексцесом (крутістю ряду або щільністю розподілу ймовірності). Для нормального розподілу ексцес дорівнює нулю, для крутих кривих розподілу він додатний, для плоских – від’ємний порівняно з нормальною щільністю розподілу кривих;
- асиметричністю (ступенем асиметричності ряду або щільності розподілу ймовірності випадкової величини відносно її середнього значення). При симетричному розподілі коефіцієнт асиметрії дорівнює нулю;
- максимумом;
- мінімумом;
- найбільшим К-м (К – порядок значення, меншого за максимум);
- найменшим К-м (К – порядок значення, більшого за мінімум);
- інтервалом (максимум – мінімум);
- модою (значенням, що найчастіше зустрічається у ряду даних);
- медіаною (значенням, розміщеним посередині ряду даних);
- квартилями розподілу (підмножинами даних з однаковим числом елементів);
- довірчим інтервалом тощо.
Крім спеціальних статистичних функцій, для статистичного оцінювання даних можна використовувати спеціальний інструментОписательная статистика із засобу Анализ данныхExcel.
Завантаження Анализа данных здійснюється з менюСервис. У результаті на екрані монітора з’явиться діалогове вікно, в якому потрібно активізувати опціюАнализ данных(рис. 6.1.)
Рис. 6.1. Вікно аналізу даних
Анализ данных включає великий набір інструментів для проведення статистичного, кореляційно-регресійного, дисперсного та інших видів аналізу. Подальший виклик інструментів Анализ данных можна здійснювати за командоюАнализ данных... із менюСервис.
Вхідні дані, за якими проводиться їх статистичний аналіз із використанням інструментуОписательная статистика, мають відповідати таким вимогам:
- на аркуші вхідного діапазону даних не повинно бути об’єднаних клітинок;
- один рядок (стовпець) назв показників має бути розміщений поруч із даними й утворювати з ними нерозірваний діапазон клітинок.
Після подачі командиАнализ данных.../Описательная статистика з менюСервис на екрані монітора з’явиться діалогове вікно, в якому потрібно вказати такі параметри:
q вхідний діапазон – посилання на клітинки, що містять аналізовані дані. Посилання має складатися як мінімум із двох суміжних діапазонів даних, оформлених у вигляді стовпців або рядків;
q групування – перемикачГруппирование задає положенняПо столбцамабоПо строкам залежно від розташування даних у вхідному діапазоні;
q мітки в першому рядку (стовпці) – перемикач задає положення назв показниківМетки в первой строке,якщо перший рядок у вхідному діапазоні назв містить стовпці, абоМетки в первом столбце, якщо назви рядків знаходяться у першому стовпці вхідного діапазону. Якщо вхідний діапазон не містить міток, то заголовки у вихідному діапазоні створюватимуться автоматично (Строка1\Столбец1);
q вихідний діапазон – посилання на ліву верхню клітинку вихідного діапазону;
q новий листок – перемикач активізують, щоб створити новий листок у книзі та помістити результати аналізу, починаючи з клітини А1. Якщо потрібно, то можна ввести ім’я нового листка в поле, розташоване навпроти відповідного положення перемикача;
q нову книгу – перемикач активізують, щоб створити нову книгу та помістити результати аналізу в клітинку А1 на першому листку в цій книзі;
q підсумкову статистику – прапорець активізують, якщо у вихідному діапазоні потрібно одержати додаткові статистичні оцінки даних – середнє, стандартну помилку (середнього), медіану, моду, стандартне відхилення, дисперсію вибірки, ексцес, асиметричність, інтервал, мінімум, максимум, суму;
q К-й найбільший – прапорець активізують, якщо у вихідну таблицю треба включити рядок К-го найбільшого значення для кожного діапазону даних;
q К-й найменший – прапорець активізують, якщо у вихідну таблицю потрібно включити рядок К-го найменшого значення для кожного діапазону даних;
q рівень надійності – прапорець активізують, якщо у вихідну таблицю треба включити рядок для рівня надійності. Наприклад, значенню 95 % відповідає рівень надійності середнього зі значущістю 0,05.
Розглянутий інструмент аналізу виводить два стовпці результатів для кожного показника даних. Лівий стовпець містить назви статистичних оцінок, а правий – статистичні оцінки. Відповідно над першим стовпцем розміщується назва показника, якщо було виділено рядок чи стовпець назв та активізовано перемикачМетки. Діапазон із двох стовпців буде виведений для кожного стовпця або для кожного рядка вхідного діапазону показників залежно від положення перемикачаГруппирование.
Для надання вихідній таблиці статистичного аналізу більш зручного вигляду треба послідовно виконати такі дії:
- перемістити назви показників у першому рядку із першого (третього, п’ятого і т. д.) стовпця у другий (четвертий, шостий і т. д.);
- вилучити дублюючі стовпці назв статистичних оцінок (третій, п’ятий і т. д.);
- розширити перший стовпець назв статистичних оцінок;
- задати для першого рядка назв показників формат розміщення тексту в кілька рядків та підібрати потрібну ширину стовпців.
Після цього можна продовжити оформлення таблиці, ввівши її назву, рамки, формати даних і вилучивши порожній рядок.
ІнструментОписательная статистика досить зручний для здобуття 16 статистичних оцінок показників. Однак вихідна таблиця статистичного аналізу не є динамічною, оскільки включає лише результати обчислень (значення) і не зберігає зв’язку з таблицею вхідних даних. Якщо значення показників у вхідній таблиці змінюватимуться, то кожний раз розрахунки треба виконувати заново.
Побудова таблиці статистичного аналізу за допомогою статистичних функцій займає набагато більше часу (кожну функцію необхідно вводити окремо). Проте вона дасть досить великий виграш у майбутньому при зміні вхідних даних.
Трендові моделі
Значення кримінологічних показників, які мають випадковий характер, можна використовувати для побудови часових рядів – емпіричної послідовності даних, здобутих у певні моменти часу. Кожний такий ряд характеризується деякою тенденцією розвитку процесу в часі, яка називається трендом. Трендові моделі часових (динамічних) рядів забезпечують видачу прогнозів на коротко- та середньостроковий періоди при виконанні низки умов:
- період часу, за який досліджується прогнозований процес, має бути достатнім для виявлення закономірностей;
- трендова модель в аналізований період має розвиватись еволюційно;
- процес, що описується часовим рядом даних, повинен мати певну інерційність, тобто для великих змін у поведінці процесу потрібний значний час;
- автокореляційна функція часового ряду даних і його залишкового ряду мусить бути швидко згасаючою, тобто вплив більш пізньої інформації має сильніше відображатись на прогнозованій оцінці, ніж вплив більш ранньої інформації.
На практиці найпоширенішими методами статистичного дослідження тренда є:
- збільшення інтервалів для визначення тренда в часових рядах даних, що коливаються;
- метод ковзних середніх значень із заданим періодом т;
- метод аналітичного вирівнювання у вигляді функції тренда, яка залежить від часу.
Лінія тренда широко застосовується для розв’язання задач прогнозування за допомогою методів регресійного аналізу. Підбір функції тренда здійснюється методом найменших квадратів. Для оцінювання точності моделі використовують коефіцієнт детермінації, побудований на основі оцінок дисперсії емпіричних даних та значень трендової моделі.
Трендова модель показує тенденцію розвитку процесу, якщо коефіцієнт детермінації прямує до 1.
Явища, що спостерігаються у часі, можуть розвиватися так:
- рівномірно при сталому абсолютному прирості чергового рівня часового ряду даних за лінійним законом: у = a0 + a1t, де a0 – стала; a1 – коефіцієнт регресії, що визначає швидкість і напрямок (< 0 – спадання; > 0 – зростання) розвитку;
- рівноприскорено при сталому в часі збільшенні (зниженні) темпу приросту рівнів за законом (парабола другого порядку):
у = a0 + a1 t+ a2 t2, де a2– коефіцієнт, що характеризує сталу зміну швидкості (темпу) розвитку (a2 > 0 – прискорення розвитку, a2 < 0 – його сповільнення);
- із змінним прискоренням (сповільненням) при змінному в часі збільшенні (зменшенні) розвитку за законом (парабола третього – шостого порядків): у = a0 + a1 t+ a2 t2+ a3 t3....+ a6 t6 ;
- зі сповільненням зростання в кінці періоду, коли приріст у кінцевих значеннях ряду даних прямує до нуля за законом (логарифмічна функція): у = lnt +a0;
- зі зростанням за експоненціальним законом: y = а0 e a1t, де t – випадковий час появи чергової події;
- зі сталим відносним приростом за законом степеневої функції (гіпербола): у = а0t a1, у = a0 + a1/t.
Microsoft Excel будує трендові моделі графічним способом на основі двовимірних діаграм – лінійних, графіків, гістограм, точкових, що відображають динамічні зміни.
Послідовність виконання цієї процедури така:
- будують діаграму;
- діаграму переводять у режим редагування;
- виділяють ряд на діаграмі для побудови лінії тренда;
- подають командуДобавить линию тренда... з меню Диаграмма або за допомогою контекстного меню.
У результаті на екрані монітора з’являється діалогове вікно, у першому розділі якого можна визначити тип лінії тренда (лінійний, логарифмічний, поліномний, степеневий, експоненціальний, ковзних середніх значень), а у другому задати її параметри:
- ім’я (автоматично з назвою трендової моделі або ввести у текстове поле);
- кількість періодів прогнозування наперед (проводиться на 0,5; 1; 1,5 і т. д. періоди, точний прогноз може здійснюватись тільки на невеликий період, особливо якщо масив фактичних даних невеликий);
- кількість періодів прогнозування назад;
- Y-перетин – точку, в якій лінія тренда має перетинати вісь Y;
- R2 – виведення коефіцієнта детермінації, а також відобразити рівняння лінії тренда на діаграмі.
Спочатку обирають трендову модель і задають її параметри (рівняння, R2). Далі підбирають тип тренда (R2®1), двічі клацнувши лівою клавішею миші по лінії тренда, та перевіряють іншу трендову модель (рис. 6.2).
Рис. 6.2. Прогнозування обсягу квартирних крадіжок за допомогою лінії тренда
Щодо даних найкращою є логарифмічна модель. На діаграмі можна спостерігати незначну тенденцію зростання обсягу квартирних крадіжок у часі.