Характеристики центру розподілу. Середні величини
До характеристик центру відносяться середня, мода та медіана.
Середняв статистиці — абстрактна, узагальнююча величина, що характеризує рівень варіюючої ознаки в якісно однорідній сукупності. Коливання індивідуальних значень ознаки, викликані дією різних факторів, урівноважуються в середній величині.
Середні, що застосовують у статистиці, належать до класу степеневих, які в узагальненій формі мають вигляд:
де х — індивідуальні значення варіюючої ознаки (варіанти);
Z — показник степеня середньої;
п — число варіант.
Конкретний вид середньої залежить від степеня [2] Основні види степеневих середніх наведені в табл. З.1.
Таблиця 3.1
Формули степеневих середніх
Степінь (Z) | Назва середньої | Формула розрахунку | |
проста | зважена | ||
Середня арифметична | |||
-1 | Середня гармонійна | ||
Середня геометрична | |||
Середня квадратична |
При вивченні закономірностей розподілу застосовують середню арифметичну, варіації - середню квад ратичну, інтенсивності розвитку середню геомет ричну. Різні види середніх, обчислені для одних і тих же даних, мають різну величину. Співвідношення між ними має такий вигляд і називається правилом маже рантності:
У соціально-економічній статистиці обчисленню різних середніх для однієї і тієї ж сукупності недо цільне, тому постає питання вибору виду середньої ] кожному конкретному випадку дослідження.
Розглянемо умови та приклади обчислення середніх.
Середня арифметична- одна з найбільш поширених, застосовується у тих випадках, коли обсяг варіюючої ознаки для всієї сукупності є сумою індивідуальних значень її окремих елементів. Для не-згрупованих даних обчислюють середню арифметичну просту, для згрупованих — зважену. Наприклад, коли маємо список робітників будівельної бригади, який містить дані про індивідуальні заробітки за місяць, то, мабуть, легше не підраховувати кількість робітників, котрі заробили однакові суми грошей за даний період, а просто підсумувати всі заробітки, а потім поділити на чисельність бригади:
де хі - індивідуальні заробітки, п - загальна кількість робітників. Коли ж, наприклад, обчислюється середній заробіток співробітників кафедри, де професори, доценти, лаборанти мають фіксовані оклади, то зручніше перед підсумуванням перемножити кількість професорів на величину їхнього окладу і т. д.:
Де f - чисельність співробітників відповідної посади. В даному випадку частота виступає у ролі ваги,тому і середня зветься зваженою. В обох випадках результат буде однаковим.
Якщо в ролі ваги застосовують частки (w), тоді формула буде мати вигляд:
коли w подані у відсотках та
коли w подані в коефіцієнтах.
Якщо середня обчислюється для інтервального ряду розподілу, то варіантами виступають середини інтервалів, які знаходять як півсуму двох меж. Ширину відкритого інтервалу умовно приймають такою, як сусідньому закритому інтервалі.
Обчислення середньої із відносних величніf (середній процент, середня питома вага) має особли вість. В ролі ваги тут виступають знаменники тих співвідношень, за допомогою яких були обчислені індивідуальні відносні показники.
Приклад 3.1
На підставі наведених даних обчислити середнії процент виконання плану двома бригадами (табл. 3.2)
Можна було б припустити, що обидві бригади в се редньому виконали план на 103%. Але середній по казник виконання плану буде тяжіти в бік цеху, якш; має більшу частину продукції в загальному плановом^ обсязі, тобто до цеху №1.
Таблиця 3.2
Виконання бригадами цеху плану випуску продукції
Бригада | Виконання плану, % | Плановий випуск, од. |
№1 | ||
№2 |
Дійсно,
Властивості середньої арифметичної:
1) Алгебраїчна сума відхилень всіх варіант від середньої дорівнює нулю:
2) Якщо кожну варіанту збільшити або зменшити на будь-яку постійну величину, то і середня зміниться на ту ж величину:
3) Якщо кожну варіанту розділити чи помножити на будь-яке число, то і середня зменшиться або збільшиться в стільки ж разів:
4) Якщо частоти всіх варіант збільшити або зменшити в одне й те ж саме число разів, то середня при цьому не зміниться:
5) Сума квадратів відхилень варіант від середньої менша за будь-яку іншу величину:
Виходячи з формули обчислення середньої, можна ворити про те, що на середню впливає коливання структури сукупності. Пояснимо на такому прикладі.
Приклад 3.2
Маємо дані про заробітну плату та кількість співробітників кафедри у розрізі (професори, лаборанти) за два періоди (табл. 3.3).
Розрахуємо середню заробітну плату за вересень, Істуючись формулою середньої арифметичної зваженої
Тоді
За жовтень вона буде дорівнювати:
Таблиця 3.3
Оплата праці співробітників кафедри за два періоди
Посада | Оклад, грн | Кількість співробітників, чол | ||
вересень | жовтень | вересень | Жовтень | |
Професор | ||||
Лаборант | ||||
Разом | х | Х |
Тобто, при однакових умовах оплати праці та чисельності співробітників кафедри середня зменшилась завдяки зміні структури її професійного складу.
Середня гармонійна— застосовується в ти випадках, коли нам відомі не самі варіанти, а їхні обернені числа.
Приклад 3.3
Наприклад, ми маємо дані про витрати часу в го динах на виготовлення однієї деталі кожним з трьо: робітників: 1/2, 1/3 і 1/7. Треба обчислити середи витрати часу на одну деталь. Тоді
Розглянемо на прикладі застосування формули середньої гармонійної зваженої.
Приклад 3.4
Таблиця 3.4
Середній виробіток на одного робітника та обсяг продукції для двох видів бригад за квітень
Бригада | Фактичний обсяг виробленої продукції, тис. грн. | Середній виробіток одного робітника, тис.грн | Кількість бригад |
Спеціалізована | |||
Комплексна | |||
Разом | х |
Для розв`язання цього завдання необхщно виходити з економічного змісту усереднюваного показника. Тобто, середній виробіток одного робітника (W) буде дорівнювати:
В умові відсутні дані про чисельність робітників (Т), тобто ми не знаємо частоти (f), але її можна розрахувати за формулою для кожної з бригад.
Тоді в нашому прикладі треба використовувати формулу середньої гармонійної зваженої, де - середній виробіток одного робітника для кожного виду бригад, z - фактичний обсяг виробленої продукції.
Середній виробіток одного робітника для всіх бригад становив у квітні 5,4 тис. грн.
У літературі можна зустріти рекомендації для визначення середніх для ознак порядкової і номінальної шкал. Автори вважають, що, коли ранги порядкової шкали відображають приблизно однакові відстані між окремими якостями явищ, середній ранг можна обчислювати так само, як і при вимірюванні ознак метричної шкали. Як приклад вони наводять середній рівень кваліфікації (розряд), середній атестаційний бал та ін. Ми з свого боку вважаємо, що «однаковість відстані» в наведених прикладах досить сумнівна. Далі відзначається, що в деяких випадках ранги можуть бути числами додатними і від'ємними. Так, значення задоволеності робітників своєю професією, «задоволений», «байдужий», «незадоволений», пропонується позначити балами, відповідно, 1, 0, — 1, а потім визначити середню арифметичну для всієї бригади.
Ми вважаємо, що результати таких процедур можуть бути досить умовними, а тому радимо бути з ними обережними.
До характеристик центру розподілу, крім середньої арифметичної, належить мода та медіана, котрих ще називають порядковими середніми і розглядають разом із такими характеристиками, як квантилі і.децилі.,
Мода (Мо) — значення варіанти, яке найчастіше повторюється в ряді розподілу. У дискретному ряді моду легко відшукати візуально, у інтервальному ряді легко відшукати модальний інтервал, а приблизне значення моди обчислюється за формулою
де хМо - нижня межа модального інтервалу; іМо — розмір модального інтервалу; fMo — частота модального інтервалу; fMo-1 - частота попереднього інтервалу; fMo+1 - частота інтервалу, наступного за модальним.
Медіана (Me) - варіанта, що ділить ранжирований ряд на дві, рівні за чисельністю, частини. Так, якщо в ряді розподілу робітників за віком Me = 34, то це означає, що половина з них менші цього віку, половина – старші цього віку. Коли ряд містить парне число членів, медіана дорівнює середній із двох значень розташованих всередині ряду. Для знаходження медіани в дискретному ряді спочатку обчислюють півсуму частот, а потім визначають, яка варіанта припадає на неї. Для інтервального ряду медіану обчислюють за формулою
де хМе нижня межа медіанного інтервалу; іМе - розмір медіанного інтервалу; - півсума частот медіанного інтервалу; SМе-1 - сума накопичених частот перед медіанним інтервалом; fMe - частота медіанного інтервалу.
Приклад 3.5
Таблиця 3.5
Розподіл сімей за кількістю осіб у сім'ї у м. Києві у 1995 р. (за даними соціологічного обстеження)
Розмір сім’ї, чол | Частість, % | Накопичена частість, % |
9,4 | 9,4 | |
20,3 | 29,7 | |
36,6 | 66,3 | |
24,7 | 91,0 | |
6,2 | 97,2 | |
2,2 | 99,4 | |
7 і більше | 0,6 |
У цьому ряду розподілу Мо = 3 і Me = 3, тому що більше половини одиниць сукупності перебуває у перших трьох групах.
Приклад 3.6
Таблиця 3.6.
Вікова структура населення м. Києва у 1995р. — (за даними соціологічного обстеження)
Групи за віком | Частість, % | Накопичена частість, % |
16-25 | 20,8 | 20,8 |
26-35 | 18,7 | 39,5 |
36-45 | 21,5 | 61,0 |
45-55 | 17,2 | 78,2 |
56-65 | 14,4 | 92,6 |
66-75 | 5,6 | 98,2 |
75 і більше | 1,8 |
У цьому прикладі модальний інтервал Мо розташований у групі (36—45), тоді
Медіанний інтервал Me розташований у групі (36— 45), тоді за формулою
року
Кожну з двох частин, на які медіана поділяє сукупність за обсягом, в свою чергу також можна поділити за домогою квартилей Q.
Перший квартиль Q,, таким чином, відокремлює чверть сукупності, другий Q2, тобто сама медіана, -половину, третій Q3 — три чверті. Також обчислюють децилі та процентилі.Так,q— а процентиль - це число, менше якого приймають значення q% сукупності. Таким чином, 25-а процентиль є перша квартиль, а 10-а процентиль — перша дециль. Іноді Q1 та Q3 відповідно, називають нижнім та верхнім квартилями.
Міру розсіяння варіант можна характеризувати величиною (Me – Q1) або (Q3- Me), ще краще - їх середнім значенням - середнім квартальним відхиленням, що обчислюється за формулою Q = (Q1-Q3)/2-
Зазначимо, що в інтервалі (Me + Q) лежить половина всіх варіант. Мода та медіана не залежать від усіх варіант сукупності і тому не замінюють середню, як узагальнюючу величину, а лише доповнюють її. В окремих випадках вони мають навіть деяку перевагу перед середньою арифметичною. Значення усіх трьох характеристик співпадають лише у випадку симетрії ряду розподілу (рис. 3.3, 3.4, 3.5).
Рис. 3.5. Правостороння асиметрія: х > Me > Mo.
Характеристики центру, узагальнюючи індивідуальне, характеризують загальне, проте не відображають ступінь та закономірності відхилення індивідуального від загального, тобто ступінь варіації і форму розподілу.
Характеристики варіації
Варіація ознаки є властивістю статистичної сукупності і зумовлена дією безлічі взаємопов'язаних причин, серед яких є основні і другорядні. Основні формують центр розподілу, другорядні - варіацію ознак, сукупна їх дія - форму розподілу [2]. Чим менша варіація, тим більш надійними, типовішими є характеристики центру, насамперед середня.
Для характеристики варіації застосовують систему таких оцінок.
Розмах варіації- це різниця між найбільшим і найменшим значенням ознаки R= xmax - xmln.
В інтервальному ряді розподілу R визначають як різницю між верхньою межею останнього інтервалу і нижньою межею першого або ж різницю між середніми значеннями цих інтервалів.
Як міра варіації R не завжди може бути надійним, оскільки залежить від двох крайніх значень, які часто не є типовими для сукупності, або мають випадковий характер. Вони отримали назву «викиди». В практиці статистичних досліджень крайні значення підлягають обробці або, принаймні, уважному розгляданню. Як правило, це помилки кодування або реєстрації, іноді вони мають випадковий характер. Тому їх часто просто викидають, звужуючи тим самим розмах і роблячи сукупність більш однорідною. Також зменшує вплив випадкових причин так званий квартальний розмах,обчислений за формулою
Rq= Q3 – Q1
В усякому разі, відкидаючи крайні значення, слід, пам'ятати, що інколи з ними може бути пов'язане щось цікаве або навіть феноменальне. Замість простого відкидання пропонують процедури обчислення оцінок розподілу, які нечутливі до структури даних і отримали назву робастних [1]. Робастними оцінками називають також оцінки розподілу, які отримують при застосуванні цих методів.
Програми статистичних пакетів часто передбачають обчислення оцінок Хампеля, Ендрюса та Т'юки. Наприклад, Т'юки (Tukey) запропонував один з видів робастних оцінок, а саме вінзорізованіоцінки. Суть в тому, що крайні значення не відкидаються а замінюються. Якщо маємо упорядкований ряд значень х1, х2, ..., хп, то х1, надається значення х2, а хп -значення хп-1. Якщо така операція не дає бажаних наслідків, тобто сукупність ще не стає досить однорідною, то процедуру повторюють (наприклад, за допомогою пакета статистичних програм BMDP до 5 разів). Так, при двократній вінзорізації х1 та х2 присвоюється величина варіанти х3, а двом останнім у ряді — величина хп-2.
Важливо підкреслити, що статистичний аналіз відноситься до таких робіт, де від ретельності підготовки матеріалу може залежати успіх всієї справи. Щодо всіляких процедур «чистки» або попередньої обробки даних, то тут окрім професійного боку справи існує ще й етичний. Дослідник повинен прагнути до об'єктивного, науково обгрунтованого результату, а він може виявитись і не таким, як хотілось би.
Середнє відхилення обчислюється як:
1) середнє лінійне відхилення:
а) незважене:
б) зважене:
2) середнє квадратичне відхилення:
а) незважене:
б) зважене:
Характеристика варіації має назву дисперсії:
а) незважена:
б) зважена:
На практиці застосовують більш просту формулу розрахунку дисперсії:
Чим менше середнє відхилення, тим типовіша середня, тим більш однорідна сукупність, а завжди більша за d. В симетричних та помірковано асиметричних розподілах = 1,25d. Характеристики R, d та — іменовані величини, які мають одиниці виміру варіюючої ознаки.
При порівнюванні степеня варіації однієї і тієї ж ознаки в різних сукупностях використовуютькоефіцієнт варіації:
,
Лінійний коефіцієнт варіації:
.
З його допомогою можна оцінити також однорідність сукупності. Однорідною прийнято вважати сукупність, для якої Va < 33%, що приймають до уваги при попередній обробці даних.
Розглянемо особливості обчислення деяких характеристик для альтернативної ознаки. Позначимо наявність ознаки через 1, її відсутність — через 0. Частку одиниць, які мають дану ознаку позначимо через р, які не мають — через q.
Тоді:
,
, або
Очевидно, при відсутності варіації ; максимальне значення дисперсії становить 0,25 при р = q =0,5. Якщо номінальна ознака приймає більше двох значень, оцінка її варіації дорівнює добутку часток: