Признаки, показатели, переменные
В статистике различаются понятия признака и показателя. Признак – это индивидуальное значение, присвоенное какому-либо свойству наблюдаемого явления, а показатель – обобщенная характеристика свойства. Например, среднее число студентов в группе – показатель, а число студентов в конкретной группе – признак. В статистике применяют и еще один термин – индекс, обозначающий показатель сравнения двух состояний одного и того же явления (само слово индекс (index) и переводится как «показатель»).
Переменная (variable) – любая измеряемая величина (характеристика, свойство), характеризующаяся множеством значений, которое она может принимать (область изменения переменной). Различают дискретные (принимающие значения только из некоторого списка определенных целых чисел: число детей в семье; количество ошибок в контрольной работе) непрерывные (приблизительные значения непрерывных свойств или признаков: время выполнения задания; возраст). Для педагогики и психологии, как уже говорилось, важно выделение независимых (называемыми также факторными, объясняющими, определяющими переменными, регрессорами и предикторами; они не изменяются, оказывают влияние) и зависимых (переменных отклика, изменяющихся под влиянием независимых) переменных. Понятие переменной относительно: величина, являющаяся переменной в одном контексте может быть параметром или признаком в другом.
Шкалы измерения;
В статистике выделяется четыре вида шкал (по С. Стивенсу):
– Шкала наименований (номинативная), в которой рассматриваемые признаки, явления группируются в отдельные классы, в которых фиксируется отделенность, отличия признаков друг от друга: мальчики и девочки; вид упражнения в игре; наличие или присутствие признака. Исследуемым объектам присваивается «имя». Подвид такой шкалы – дихотомическая шкала, составленная из двух взаимоисключающими значениями: «0» = порядок нарушен; «1» = порядок соблюден.«0» = мальчики, «1» = девочки. Основной вопрос, на который может «ответить» шкала: «какие группы предметов имеются»?
– Шкала порядка (ранговая) – расположение степеней признаков, свойств в едином порядке по принципу «больше-меньше» («лучше-хуже», «выше-ниже» и т.п.): порядок справившихся с застегиванием пуговиц (первый, второй, третий…); порядок выстроившихся в шеренгу по росту; порядок учащихся по успеваемости. Основной вопрос, на который может «ответить» шкала: «как располагаются предметы по порядку»?
– Интервальная шкала – фиксация различий между предметами через определенную условную единицу измерения: баллы, присвоенные по результатам выполнения теста; средний балл по зачетной книжке студента; температура по Цельсию. Основной вопрос, на который может «ответить» шкала: «на сколько единиц отличаются предметы по данному признаку»?
– Шкала отношений (абсолютная) – фиксация различий между предметами через единицу измерения, свойственную самому измеряемому объекту: рост; скорость; температура по Кельвину. Основной вопрос, на который может «ответить» шкала: «во сколько раз отличаются предметы по данному признаку»?
Шкала наименований и шкала порядка (неметрические шкалы, нет единицы измерения) считаются слабыми шкалами: они позволяют определить место рассматриваемого объекта в системе внешних отношений, но не свойства самого объекта. Интервальная шкала и шкала отношений (метрические, в них есть единица измерения) считаются сильными (мощными) шкалами: они измеряют свойства самого объекта. По возможностям применения статистических процедур, устанавливающих точность, вероятность исследуемых признаков, шкалы, соответственно, имеют порядок: номинативная, ранговая, интервальная, абсолютная.
Статистические гипотезы;
Статистическая гипотеза – логическое завершение сведения рассуждений и предположений к одному вопросу: что верно, а о чем нельзя сказать – это верно? Статистические гипотезы используются для верификации (проверки) эмпирических гипотез исследования, формулируется в виде двух взаимно исключающих утверждений и проверяются только тогда, когда данные, полученные в исследовании, приведены в количественный (числовой) вид. Формулируется два положения: 1) указанная связь (свойство, явление, различие) не выявлено (нулевая гипотеза, называемая Н0); 2) верно, что указанная связь (свойство, явление, различие) существует (альтернативная гипотеза, обозначаемая как H1). После этого на основе по соответствующей формуле вычисляется значение статистики критерия и на основе определения ошибки первого рода (случай, когда H1верна, но она отвергается) и ошибки второго рода (случай, когда Н0верна, но она отвергается), устанавливается вероятность ошибок (уровень значимости) и высчитывается вероятность принятия и отклонения гипотез. Бывают случаи, когда для некоторых Н0односторонние альтернативы сформулировать невозможно, но в эмпирических исследованиях чаще всего бывает так, что «нулевая» гипотеза может служить базой для проверки нескольких альтернативных гипотез, в число которых и входит сформулированная эмпирическая гипотеза. Например, могут выдвигаться разные гипотезы: о том, что (1) тревожность снижает успеваемость, что (2) тревожность усиливает успеваемость, что (3) тревожность и успеваемость влияют друг на друга, но им противостоит только одна «нулевая» гипотеза: «тревожность и успеваемость не связаны».
Если исследователем была проделана понятийная работа, проведена эмпирическая интерпретация и операционализация понятий, он уже имеет терминологический аппарат для формулировки эмпирической гипотезы. Но факт проверки не всегда свидетельствует об истинности или ложности гипотетических утверждений, нужен выход в более широкое пространство понятий, обращение к теоретическим основам науки.
Статистические критерии.
Статистический критерий – математическое правило, по которому принимается или отвергается та или иная статистическая гипотеза.
Выделяют параметрические, при расчете которых в формулы включаются параметры распределения (средние и дисперсии: t-критерий Стъюдента, критерий F и др.) и непараметрические критерии, основанные на оперировании частотами или рангами (критерий-Q Розенбаума, критерий-Т Вилкоксона и др.).
Статистические критерии характеризуются также мощностью. Более мощными считаются параметрические критерии (если признак измерен по интервальной шкале и нормально распределен), так как в них строго учитывается характеристики распределения признаков. С помощью непараметрических критериев, более простых для расчетов, нельзя оценить взаимодействие двух или более условий или факторов, влияющих на изменение измеряемого признака.
Корреляционный анализ
Совокупность методов исследования меры (тесноты и направления) связи, зависимости между переменными. Пожалуй, самый распространенный в психологии метод. А.В. Юревич, иронично замечает, что психологическая наука может быть охарактеризована как «фабрика по производству корреляций» и справедливо указывает на то, что увлечение ими основано на устаревших позитивистских стандартах, и что «корреляции пригодны для того, чтобы «склеивать» знание в пределах его локальных систем, соединение которых требует принципиально иного подхода» [116, с. 30].
Однако в прикладном эмпирическом исследовании этот метод незаменим. При его применении высчитываются различные коэффициенты корреляции. Могут вычисляться параметрические показатели корреляции в виде установления ковариации или линейного коэффициента корреляции. Распространены непараметрические показатели корреляции: коэффициенты ранговой корреляции Кендалла или Спирмена, коэффициент корреляции знаков Фехнера, коэффициент множественной ранговой корреляции (конкордации).
Для применения метода необходимо достаточно большое число наблюдений (считается, что число наблюдений должно не менее чем в 56 раз превышать число исследуемых факторов). Нужно помнить также, что исходная совокупность значений, между которыми определяется величина связи, должна быть качественно однородной.
Сам по себе факт выявления корреляционной зависимости еще не говорит, что одна из переменных является причиной изменений. Переменные вообще могут быть связаны между собой не каузальной связью, а действием постороннего фактора, или сама связь в данном конкретном измерении случайна.
Часто использующееся в психологии понятие корреляционного исследования связано с понятием статистического корреляционного анализа: в психологическом корреляционном исследовании, где выявляется связь явлений и процессов, обработка данных практически всегда требует статистического корреляционного анализа.
Дисперсионный анализ
Дисперсионный анализ (variance analysis) – раздел математической статистики, в котором разрабатываются методы выявления влияния отдельных факторов на результат эксперимента (физического, экономического, педагогического, психологического и т.п.).
Выделяют однофакторный (Analysis Of Variance – ANOVA), двухфакторный и многофакторный (Multivariate Analysis Of Variance – MANOVA) методы дисперсионного анализа.
При проведении дисперсионного анализа совокупность наблюдений сначала группируют по факторному признаку, затем находят среднее значение результата и определяют дисперсию по каждой группе. После этого определяется общая дисперсия, и вычисляется, какая доля дисперсии зависит от условий, общих для всех групп, какая от исследуемого фактора, и какая от случайных причин. Процедура завершается определением с помощью специального критерия существенности различия между группами наблюдений. На этом основании делается вывод о том, насколько велик вклад того или иного фактора в дисперсию результата.
Метод применяется в планировании экспериментов, иногда может быть предварительным этапом к регрессионному анализу.
Самостоятельно освоить методы дисперсионного анализа можно, обратившись к работе А.Н. Гусева «Дисперсионный анализ в экспериментальной психологии» [32].
Факторный анализ
Многомерный метод, применяемый для изучения взаимосвязей между значениями переменных, основанный на предположении о том, что известные переменные зависят от меньшего количества неизвестных переменных и от случайной ошибки.особо можно отметить, что метод возник в психометрике (основная его идея высказана Ф. Гальтоном) и развивался в психологии и смежных дисциплинах. Факторный анализ используется как метод сокращения данных или как метод структурной классификации, его материалом являются корреляционные связи переменных (вычисляемые в виде коэффициентов корреляции Пирсона), расположенные в матрице интеркорреляций переменных, по которой определяются факторы (факторизация матрицы), имеющие факторный вес (факторную нагрузку), выражающий меру или тесноту связи переменных. Факторы делят на генеральные (факторные нагрузки которых значительно отличаются от нуля), общие (часть факторных нагрузок отлична от нуля) и единичные (отличается от нуля только одна из нагрузок). Анализ выявленных факторов позволяет объяснить взаимозависимостьявлений.
Лучшим пособием, доступно описывающим применение факторного анализа для педагогики и для психологии являетсяработа О.В.Митиной и И.Б. Михайловской[65].
Регрессионный анализ
Регрессионный анализ (regression analysis) – раздел математической статистики, в котором разработаны методы измерения связи между зависимой переменной и одной (парный регрессионный анализ) или несколькими (множественный регрессионный анализ) независимыми переменными. Метод основан на предположении о том, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Делаются предположения о характере распределения зависимой переменной, то есть выдвигается гипотеза порождения данных, для подтверждения (или опровержения) которой выполняются статистические процедуры, называемые анализом остатков.
Регрессия может быть параметрической и непараметрической. Считается, что параметрическими являются линейные модели, а непараметрическими – модели, включающие усреднение зависимой переменной в пространстве свободной переменной.
Регрессия применяется в процедурах моделирования и прогнозирования для анализа временных рядов, проверке гипотез и выявления скрытых взаимосвязей в данных.