Розподіл ознак та параметри розподілу ознак
Основні поняття математичної обробки психологічних даних
· Статистична сукупність – це певний набір (множина) об’єктів.
· Об’єктами сукупності можуть бути люди, країни, характеристики, властивості та інше.
Кількість об’єктів у сукупності називають її обсягом.
Ознаки та змінні
Досліджувані властивості об’єктів сукупності називають її ознаками.
в статистиці вивчають не безпосередньо сукупності об’єктів, а їх ознаки.
Ознаки та зміни – це психологічні та соціальні явища, що можуть бути використані для дослідження відповідних властивостей.
1. Поняття сукупності об’єктів і сукупності їх характеристик будемо ототожнювати за деякою конкретною ознакою.
Конкретний зміст поняття сукупності залежатиме від контексту дослідження, тобто від того, яка ознака вивчається.
Іноді замість понять "ознаки та змінні" в дослідженнях використовують поняття "показник або рівень"
Змінні, які отримуємо в результаті дослідження є величинами випадковими, оскільки заздалегідь невідомо, якого саме значення вони набудуть.
Математична обробка – це оперування значеннями ознак, отриманих у процесі дослідження.
Індивідуальні результати, що отримують під час дослідження, часто називають "спостереженнями", "значеннями спостереження", "варіантами", "датами" або "індивідуальними показниками".
Як правило, значення ознаки визначають за допомогою спеціальних шкал виміру.
Шкали виміру
Вимір – присвоєння числових форм об’єктам або подіям відповідно визначених правил.
Шкала – це сукупність усіх можливих значень ознаки.
Згідно С. Стівенсу існує чотири типи вимірювальних шкал (або способів виміру):
1) номінативна, номінальна або шкала найменувань;
2) порядкова, одинарна або рангова шкала;
3) інтервальна або шкала рівних інтервалів;
4) шкала рівних відношень.
Виміри, які здійснюються за допомогою перших двох шкал, вважають якісними, а ті, що здійснюються за допомогою двох останніх шкал – кількісними. При цьому треба пам’ятати одне правило.
Правило | Вибір способу виміру повинен відповідати поставленому завданню дослідження. |
Номінативна шкала – шкала, що класифікує об’єкти або ознаки за назвою, розподіляючи їх за клітинками класифікації.
Увага | Номінативна шкала відноситься до розряду неметричних шкал. |
номінативна шкала складається з назв, які дають змогу лише розрізняти значення ознаки.
З позицій математики номінальні шкали незручні, з ними складно працювати. Єдиний спосіб статистично проаналізувати ознаку, яка вимірюється за номінальною шкалою, полягає у підрахунку кількості об’єктів сукупності, які мають конкретне значення за нею.
Найпростіша номінативна шкала – дихотомічна, зона якої складається лише з двох ячейок¹ (наприклад: "має братів та сестер – одна дитина в сім’ї"; "іноземець – співвітчизник", "проголосував "за" – проголосував "проти"").
Визначення ► Ознака, що вимірюється за дихотомічною шкалою найменувань, називається альтернативною ("так" – "ні") і складається з двох комірок: "ознака проявилася – ознака не проявилася".
Більш складний варіант номінативної шкали представляє собою класифікацію із трьох і більше ячейок (наприклад, "сангвінік, холерик, флегматик, меланхолік"; "за" – "проти" – "утримались").
1Ячейка (комірка, осередок) – організаційна одиниця таблиці
Номінативна шкала визначає, що різні властивості або ознаки якісно відрізняються одна від одної, але не припускає будь-яких кількісних операцій з ними
Висновки | · Номінативна шкала дозволяє підрахувати частоту використання різних "найменувань" або значень ознак, що попали в даний клас і які володіють даною властивістю. · При порівнянні об’єктів можна робити висновок лише про те, належать ці об’єкти до одного або різних класів, тотожні або ні за виміряними властивостями. · Одиниця виміру, якою ми оперуємо в номінативній шкалі – це кількість спостережень (досліджень, реакцій, вибірок), або частота, тобто, одиницею виміру є одне дослідження. |
Визначення ► Порядкова (рангова, одинарна) шкала – це шкала, що класифікує об’єкти (ознаки) за принципом "більше – менше", які утворюють послідовність від ячейки "найменше значення" до ячейки "найбільше значення" (або навпаки). Для цієї шкали ячейки іноді називають класами (наприклад: "низький", "середній", "високий").
Увага | Рангова (порядкова) шкала, як результат ранжування, відноситься до резерву неметричних шкал. |
Вимір у цій шкалі припускає припис об’єктам чисел в залежності від ступеня виявлення властивості, що вимірюється.
Важливо не плутати порядкові та числові шкали, де значення вимірюються за певним еталоном, який має числову природу (наприклад, 1 см, 1 м2).
· У порядковій шкалі повинно бути не менше 3-х класів (наприклад, "позитивна реакція – нейтральна реакція – від’ємна реакція"), щоб можна було б розмістити виміряні ознаки по порядку.
· У порядковій шкалі ми не знаємо істинної відстані між класами, а знаємо лише, що вони утворюють послідовність (від класів легко перейти до чисел (наприклад, даючи низькому класу ранг 1, середньому – 2 , вищому – 3 або навпаки)).
Всі психологічні методи, що використовують ранжування, побудовані на в Підкреслимо, що ранжувати можна не тільки якісні ознаки, але й кількісні ознаки будь-якої психологічної властивості, яка виміряна (наприклад, показник невербального інтелекту за тестом Векслера або показник рівня тривожності за тестом Тейлора).
Правила ранжування | 1. Якщо ранжується N ознак, то сума всіх отриманих рангів дорівнює: (1). 2. Якщо таблиця експериментальних даних складається з великої кількості рядків і стовпців, то для підрахунку загальної суми рангів використовують формулу: (2), де к – число рядків; с – число стовпців. 3. Якщо ранжування здійснюється по кожній строчці окремо, то розрахункова формула загальної суми рангів обчислюється за формулою: (3), де n – кількість досліджених в стовпці; с – кількість стовпців (груп досліджених вимірів). 4. У випадку однакових вихідних числових значень їм приписують ранг, що дорівнює середній величині тих рангів, які ці величини отримали б, якби вони стояли по порядку один за одним і не були б рівними. |
Зробимо декілька зауважень.
Увага | 1. Найменшому числовому значенню приписується найменший ранг. 2. Найбільшому числовому значенню, як правило, приписується ранг, що дорівнює кількості ранжованих величин. 3. Загальна кількість рангів повинна співпадати з розрахунковою (формула 1). |
використанні порядкових шкал.
Інтервальна шкала – шкала, що класифікує об’єкти (ознаки) за принципом: "більше на означену кількість одиниць – менше на означену кількість одиниць", причому кожне з можливих значень ознаки відстоїть від іншого на однаковій відстані.
Увага | Інтервальна шкала відноситься до метричних шкал. |
Визначення ► Інтервальна шкала – це вимір, при якому числа відображають не тільки відмінності між об’єктами на рівні виявлених властивостей (характеристика порядкової шкали), але й те, наскільки більше або менше виражена властивість.
Крім того, вимір в цій шкалі припускає можливість використання одиниці виміру, тобто об’єкту присвоюється число одиниць виміру, яке пропорційне вираженості вимірювальної властивості.
Увага | В інтервальній шкалі вибір нульової точки довільний ("нуль" не відповідає повній відсутності властивості, що вимірюється). |
Іноді для виміру за допомогою інтервальної шкали в психології користуються стенами і стенайнами.
Увага | 1. Рівноінтервальними вважаються лише такі шкали, що використовуються в одиницях стандартного відхилення і лише при умові, що розподіл значень в стандартизованій вибірці є нормальним. 2. Принцип побудови більшості інтервальних шкал базується на відомому правилі "трьох сигм", а саме, приблизно 97,7% – 97,8% усіх значень ознаки при нормальному її розподілі розміщуються в діапазоні М ± 3σ. (Тут М – середнє арифметичне (М = ); σ – стандартне відхилення). |
Р. Кеттеллом було запропоновано шкалу стенів або шкалу "стандартної десятки", де за точку відліку береться середнє арифметичне значення в "сирих" балах, а вправо та вліво відміряються інтервали, що дорівнюють 0,5 σ стандартного відхилення.
На жаль, багато дослідників не перевіряють ступінь співпадіння отриманого ними емпіричного розподілу з нормальним розподілом, використовуючи, при цьому, лише "сирі" дані, які часто можуть дати скошений, зрізаний по краях або двовершинний розподіл
Увага | У зв’язку з тим, що ми будемо працювати з методиками, які побудовані на підрахунку частот і ранжирування, тобто будемо використовувати порядкові та інтервальні шкали, то перевірка з нормальним розподілом буде використовуватися лише у випадку застосування дисперсійного аналізу. |
Визначення ► Шкала рівних відношень – це шкала, що класифікує об’єкти або суб’єкти (ознаки) пропорційно ступеню вираження вимірюваної властивості.
Увага | Шкала рівних відношень відноситься до метричних шкал. Вимір у цій шкалі відрізняється від інтервального лише тим, що в шкалі рівних відношень встановлюється нульова точка, що відповідає повній відсутності вияву властивості, яка вимірюється. |
· В психології та соціології прикладами шкал рівних відношень є шкали порогів абсолютної чутливості.
· По відношенню до показників частот в шкалі рівних відношень можна використовувати всі арифметичні дії (додавання, віднімання, множення, ділення). Одиниця виміру в цій шкалі – 1 вибір; 1 реакція; 1 спостереження.
Шкала рівних відношень є найбільш інформативною шкалою, що допускає використання будь-яких статистичних методів
Розподіл ознак та параметри розподілу ознак
Визначення ► | · Генеральна сукупність – це множина об’єктів, по відношенню до якої формулюється дослідницька гіпотеза. · Вибірка – це обмежена по чисельності група об’єктів (досліджених респондентів), що спеціально відбирається із генеральної сукупності для вивчення її властивостей. |
Увага | Основними критеріями обґрунтованості висновків дослідження є репрезентативність вибірки та статистична достовірність результатів. |
Визначення ► Репрезентативність вибірки – це здатність вибірки представити явища, що вивчаються, достатньо повно з точки зору їх змінності в генеральній сукупності.
Увага | Статистична достовірність або статистична значущість результатів дослідження визначається за допомогою критеріїв їх змінності в генеральній сукупності. |
Незалежні вибірки характеризуються тим, що імовірність відбору будь-якого дослідженого однієї вибірки не залежить від відбору будь-якого дослідженого іншої вибірки.
Визначення ► Розподілом ознаки називається закономірність зустрічальності різних значень ознаки.
В дослідженнях частіше за все звертаються до нормального розподілу ознаки, який відповідає закону Муавра (Англія), Гауса (Німеччина), Лапласа (Франція) і характеризується тим, що в ньому крайні значення ознаки зустрічаються досить рідко, а значення, що близькі до середнього – достатньо часто.
Визначення ► | · Графік нормального розподілу має дзвоноподібну форму (рис. 1). · Параметри розподілу – це числові характеристики розподілу, які вказують: - де в "середньому" розміщуються значення ознаки; - наскільки ці значення змінні; - чи спостерігається переважна поява певних значень ознаки. | ||
Зауваження | В реальних дослідженнях ми, фактично, оперуємо не самими параметрами, а їх наближеними значеннями (оцінками параметрів), причому, чим більше вибірка, тим ближче може бути оцінка параметра до його дійсного значення. | ||
1.3.1. Застосування пропорцій є найпростішим методом аналізу даних, за допомогою якого можна досліджувати ознаки, що вимірюються навіть за номінативною шкалою.
Припустимо, n – обсяг сукупності, значення x в якій зустрічається m разів.
Визначення ► | Пропорцією (часткою, відсотком) значення х у сукупності n називають число (4), або у відсотках: (4а), де m – кількість разів значення x у сукупності n. |
1.3.2. Усереднені показники є чи не найважливішими характеристиками сукупності статистичних даних, використовуючи які можна одним числом навести узагальнений опис досліджуваного набору даних.
Як правило, використовують три види усереднених показників: середнє арифметичне, моду та медіану.
Визначення ► Середнє арифметичне ознаки, як оцінка математичного очікування ознаки, представляє собою числову характеристику випадкової величини, яка обчислюється за формулою:
(5),
причому: ,
де: хі – кожне значення ознаки, яка спостерігається;
і – індекс, що вказує на порядковий номер даного значення ознаки;
n – кількість спостережень;
∑ – знак суми.
Властивості середнього арифметичного | 1. Якщо до кожного значення змінної додати одне й те ж число с, то середнє . 2. Якщо кожне значення змінної помножити на одне й те ж число с, то середнє збільшиться в с раз . 3. Сума всіх відхилень від середнього дорівнює нулю . |
Визначення ► Мода – це значення із сукупності статистичних даних, яке зустрічається найбільш часто.
Увага | Моді відповідає найбільший підйом графіка розподілу частот (Мо), але мода – це значення ознаки, а не його частота. |
Визначення ► Медіана – значення ознаки, яке ділить навпіл упорядковану (ранжовану) безліч даних так, що одна половина всіх значень є менша медіани, а інша – більша.
Увага | · Якщо кількість даних N у групі непарна, тобто N = 2n – 1,тоді медіаною є число Хn, що міститься посередині списку. Якщо кількість даних N у групі парна, тобто N = 2n, то медіана обчислюється за формулою: (6). |
1.3.3. В більшості випадків усереднених характеристик ( ; Мо; Мd) недостатньо, щоб узагальнити властивості статистичної сукупності, тому що за усередненими показниками неможливо встановити, як істотно відрізняються від них значення сукупності.
Отже, у статистиці важливо враховувати не лише усереднені характеристики, а й відхилення значень від цих характеристик. Розглянемо тепер статистичний аналіз відхилень.
Якщо досліджувана група невелика, то цілком реально оцінювати відмінності кожного елементу групи від середнього.
Визначення ► | · Індивідуальним відхиленням значення хі від усередненої характеристики називають різницю ( ). · Абсолютним відхиленням значення хі від усередненої характеристики називають число | |. · Відносним відхиленням значення хі від усередненої характеристики називають число . |
У статистиці, досліджуючи розсіювання даних, найчастіше використовують стандартне відхилення і дисперсію.
Визначення ► | Дисперсія – міра мінливості для метричних даних, що пропорційна сумі квадратів відхилень визначених величин від їх середнього значення. |
Оцінка дисперсії, як міра розсіювання випадкової величини навколо її середнього значення, визначається формулою:
(7);
де ,
де: хі – кожне значення ознаки , яка спостерігається;
n – кількість спостережень;
∑ – знак суми;
– середнє арифметичне значення ознаки.
Визначення ► | · Дисперсія – це середнє арифметичне квадратів індивідуальних відхилень від середнього значення сукупності. · Стандартне відхилення випадкової величини від її середнього значення в генеральній сукупності визначається формулою: (8); або . |
На практиці частіше використовується стандартне відхилення, а не дисперсія. Це пов’язано з тим, що:
Увага | Стандартне відхилення виражає мінливість у вихідних одиницях виміру ознаки, а дисперсія – в квадратах вихідних одиниць. |
Властивості дисперсії | 1. Якщо значення виміряної ознаки не відрізняються одне від одного, то дисперсія дорівнює нулю, що відповідає відсутності мінливості у даних. 2. При об’єднанні двох вибірок з однаковою дисперсією, але з різними середніми значеннями, дисперсія збільшується. |
Наведемо ще одну формулу для обчислення дисперсії. Нехай потрібно визначити дисперсію сукупності даних Х1; Х2; ∙∙;∙Хп. Тоді:
де Х2 – сукупність даних .
Остаточно:
. (а)
Зазвичай формулу (а) використовують, якщо до квадрата легше піднести дані Хі сукупності, ніж індивідуальні відхилення .
1.3.4. Для характеристики властивостей емпіричного розподілу часто використовують коефіцієнт асиметрії та ексцес.
Визначення ► Показник асиметрії, що фіксує відсутність або порушення симетрії, тобто ступінь відхилення графіка розподілу частот від симетричного виду відносно середнього значення, обчислюється за формулою:
(9).
Увага | Для симетричного розподілу А = 0. |
Зауваження | Формула (9) використовується для випадків, коли з’являються значення, які менше або більше середнього, тобто з’являється асиметричний розподіл (рис. 4). При цьому, для лівосторонньої (додатньої) асиметрії в розподілі частіше зустрічаються більш низькі, ніж середні значення, ознаки, а при правосторонній (від’ємній) – більш високі ніж середні значення. |
Визначення ► Показник ексцесу показує міру відступу випадкової величини від середнього значення або міру плосковершинності чи гострокінечності графіка розподілу виміряної ознаки.
Зауваження | В тих випадках, коли будь-які причини сприяють переважній появі середніх або близьких до середніх значень, то формується розподіл з додатнім ексцесом. В протилежному випадку формується розподіл з від’ємним ексцесом (рис. 5) і в центрі розподілу може утворюватися впадина, що перетворює його у двовершинне. |
Показник ексцесу визначається за формулою:
(10).
Увага | 1. В розподілах з нормальною випуклістю Е = 0. 2. Параметри розподілу можна визначити лише по відношенню до даних, що представлені в інтервальній шкалі. |
Відомо, що кожній психологічній властивості відповідає свій розподіл у генеральній сукупності. Частіше за все він є нормальним, характеризуючись наступними параметрами: середнім (М = ) і стандартним відхиленням σ.