Вятский социально-экономический институт
С.Ю. Скворцов
МАТЕМАТИЧЕСКИЕ МЕТОДЫ В ПСИХОЛОГИИ
Киров
Методическое пособие предназначено для студентов, изучающих курс математической статистики применительно к психологическим исследованиям.
Оно содержит описание типовых задач, с которыми сталкивается психолог при проведении экспериментальных исследований и наиболее распространенных методов математической обработки результатов психологического эксперимента
Составитель:
С.Ю. Скворцов, старший преподаватель факультета психологии и социологии Днепропетровского государственного университета
Рецензенты:
А.Н. Рапопорт, кандидат физико-математических наук, доцент Вятского государственного технического университета
В.Н. Гоголев, кандидат психологических наук, доцент Вятского государственного педагогического университета
Издательский отдел ВСЭИ
г. Киров
Тираж: 500 экз.
ОГЛАВЛЕНИЕ
1. | Введение | |
2. | Измерение и измерительные шкалы | |
3. | Основные понятия математической статистики важные для психологии | |
4. | Меры центральной тенденции и квантили распределения | |
5. | Меры рассеивания | |
6. | Меры связи двух случайных величин | |
7. | Статистическая проверка гипотез | |
8. | Дисперсионный анализ | |
9. | Регрессионный анализ | |
Факторный анализ | ||
Литература | ||
Приложение: Статистические показатели, их обозначения и формулы |
1. ВВЕДЕНИЕ
На заре развития экспериментальной психологии Эдвард Торндайк как-то с сожалением сказал, что математика входит в общую культуру человека, но психолог может проработать всю жизнь, так и никогда с ней и не столкнувшись. Прошедшие с тех пор почти сто лет были постоянной попыткой внедрения математики в психологию, и уже в следующем веке поставят под сомнение горькое высказывание известного ученого.
Современная практика показывает, что психолог должен не только оперировать методами математической статистики, но и представлять предмет своей науки с точки зрения ''царицы наук'', в противном случае он обречен быть ''антропотехником'', носителем тестов, выдающих готовые результаты без их осмысления в рамках того направления, в котором они были созданы.
Данное пособие не претендует на охват большого круга вопросов, связанных с применением различных разделов математики в психологии. Оно является попыткой вычленить из всего многообразия этих вопросов тот минимум знаний, который необходим психологу для понимания специфики предмета своей науки, тех отраслей психологии, которые создавались с применением методов математической статистики и тех задач, которые ему, как специалисту придется решать. По этой причине многие важные теоретические вопросы были опущены, и можно порекомендовать для ознакомления с ними обратиться к более полным и объемным руководствам.
2. ИЗМЕРЕНИЕ И ИЗМЕРИТЕЛЬНЫЕ ШКАЛЫ
2.1. Измерение. Измерением называется приписывание чисел объектам или явлениям в соответствии с определенными правилами. Измерение является опытной, или экспериментальной процедурой, результатом активного взаимодействия исследователя с объектом познания. Переход от описания объекта познания к его измерению всегда означал переход к точному знанию. Можно сказать, что измерение сделало естественные науки такими, какими они существуют сегодня, и проникновение измерительных процедур в гуманитарные области знания приблизит их к точным наукам. Измерение позволяет перевести различия между объектами в известные, понятные любому взрослому человеку категории, называемые числами, и любая измерительная процедура, в конечном счете, обязательно должна закончиться числом. Однако, число, приписанное объекту, еще ни о чем не говорит, если не известны правила, по которым происходило это приписывание. Число приобретает смысл только в том случае, если известна шкала, в которой происходило измерение.
2.2. Измерительные шкалы. Всего существует четыре типа шкал: шкала наименований (номинальная шкала), шкала порядка (порядковая или ординальная шкала), шкала интервалов и шкала отношений (абсолютная или пропорциональная шкала). Числа в этих шкалах обладают разными свойствами: они могут говорить о степени выраженности измеряемого признака, о количественных различиях между объектами и т.д. В зависимости от типа шкалы к числам могут быть применимы, а могут быть и неприменимы те или иные математические операции.
2.3. Шкала наименований.В этой шкале числа присвоенные объектам говорят только лишь о том, что эти объекты различаются. По сути, это классификационная шкала. Так, например, исследователь может приписать женщинам ноль, а мужчинам единицу, или наоборот, и это будет говорить только о том, что это два разных класса объектов. Чисел в шкале наименований может быть столько, сколько существует классов объектов подлежащих измерению, но ни сумма этих чисел, ни их разность, ни произведение не будут иметь никакого смысла, т.к. в шкале наименований не осуществима ни одна арифметическая операция. Числа в шкале наименований могут быть любыми, хотя, как правило, отрицательные не используются. Наиболее часто в психологических исследованиях используется дихотомическая шкала наименований, которая задается двумя числами – нулем и единицей. Наиболее распространенные примеры таких шкал в психологии это: пол (мужчина – женщина), успешность выполнения задания (справился – не справился), соответствие норме (норма – патология), психологический тип (экстраверт – интроверт).
2.4. Шкала порядка. Числа, присвоенные объектам в этой шкале будут говорить о степени выраженности измеряемого свойства у этих объектов, но, при этом, равные разности чисел не будут означать равных разностей в количествах измеряемых свойств. В зависимости от желания исследователя большее число может означать большую степень выраженности измеряемого свойства (как в шкале твердости минералов) или меньшую (как в таблице результатов спортивных соревнований), но в любом случае, между числами и соответствующими им объектами сохраняется отношение порядка. Шкала порядка задается положительными числами, и чисел в этой шкале может быть столько, сколько существует измеряемых объектов. Примеры шкал порядка в психологии: рейтинг испытуемых по какому-либо признаку, результаты экспертной оценки испытуемых и т.д.
2.5. Шкала интервалов. В отличии от двух предыдущих шкал в этой шкале существует единица измерения, либо реальная (физическая), либо условная, при помощи которой можно установить количественные различия между объектами в отношении измеряемого свойства. Равные разности чисел в этой шкале будут означать равные различия в количествах измеряемого свойства у разных объектов, или у одного и того же объекта в разные моменты времени. Однако, то, что одно число оказывается в несколько раз больше другого не обязательно говорит о таких же отношениях в количествах измеряемых свойств. В шкале интервалов может быть задействована вся числовая ось, но при этом ноль не указывает на отсутствие измеряемого свойства, т.к. нулевая точка часто является произвольной, как в шкале температуры по Цельсию, либо вообще отсутствует, как в некоторых шкалах психологических тестов. Благодаря таким свойствам, шкала интервалов получила широкое распространение в психологии, на ней основано большинство психодиагностических шкал: интеллекта, самооценки, а также стандартизированных шкал (стенов, станайнов).
2.6. Шкала отношений.В шкале отношений также существует единица измерения, при помощи которой объекты можно упорядочить в отношении измеряемого свойства и установить количественные различия между ними. Особенностью шкалы отношений является то, что к числам в этой шкале применимы все математические операции, а это значит, что отношения между числами соответствуют, или пропорциональны отношениям между количествами измеряемых свойств у разных объектов. В этой шкале обязательно, по, крайней мере теоретически, присутствует ноль, который говорит об абсолютном отсутствии измеряемого свойства. Большинство ныне существующих физических шкал (длины, массы, времени, температуры по Кельвину и т.д.) являются яркими примерами шкал отношений. В психологии из шкал отношений наиболее часто используются шкала вероятностей и шкала ''сырых'' баллов (количество решенных заданий, количество ошибок, количество положительных ответов и т.д.).
Между самими шкалами тоже существуют отношения порядка. Каждая из перечисленных шкал является шкалой более высокого порядка по отношению к предыдущей шкале. Так, например, измерения произведенные в шкале отношений можно перевести в шкалу интервалов, из шкалы интервалов – в шкалу порядка и т.д., но обратная процедура будет невозможна, т.к. при переходе к шкалам более низкого порядка часть информации (о единицах измерения, количествах свойств) теряется.
Тем не менее, это не всегда означает, что шкалы более высокого порядка предпочтительней по отношению к шкалам более низкого порядка, а в ряде случаев – даже, наоборот. Например, количество правильно выполненных заданий в тесте интеллекта (шкала отношений) гораздо выгодней представить в стандартизированной шкале IQ (шкала интервалов), а множество разнообразных поведенческих реакций в виде типа личности (шкала наименований). Наконец, существуют такие признаки объектов, которые можно измерить в любой шкале, как возраст, и такие, к измерению которых подходит только одна шкала, как, например, пол. На выбор измерительной шкалы, таким образом, могут оказывать влияние многие факторы, как достоинства самой шкалы, так и специфика самого объекта измерения.
3. ОСНОВНЫЕ ПОНЯТИЯ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ ВАЖНЫЕ ДЛЯ ПСИХОЛОГИИ
3.1. Случайные события.Для понимания особенностей применения математической статистики к анализу данных психологических исследований важно понимание особенностей возникновения и проявления самих психических явлений. Подавляющее большинство из них (если не все) могут рассматриваться как случайное событие. Сложно назвать такое психическое явления, которое наступало бы всегда. Один и тот же испытуемый может показать разное время реакции в одних и тех же экспериментальных условиях, испытуемые одного пола и возраста покажут совершенно разные результаты выполнения одного и того же теста интеллекта или личностного опросника. В отличии от неслучайных событий, всегда наступающих, или никогда не наступающих при определенном комплексе условий, случайное событие может как наступать, так и не наступать. К неслучайным достоверным событиям может быть отнесено множество физических явлений, поскольку известны законы, благодаря которым эти явления наступают, а к неслучайным невозможным событиям– многие фантастические явления и события, как противоречащие законам природы.
В отличии от достоверных и невозможных событий, в отношении случайного события никогда невозможно точно предсказать, произойдет оно или не произойдет, так как законы которым оно подчиняется скорее всего неизвестны, а количество факторов, влияющих на исход события, может быть огромным и не поддаваться анализу.
3.2. Случайные величины и случайные переменные. С понятием случайного события тесно связано понятие случайной величины. Величиной называется любое событие, которое можно измерить, т.е. выразить совокупностью чисел. Величины могут быть константами (постоянными) и переменными. Константами называются величины, которые принимают только одно числовое значение. Константы играют очень важную роль в физике, т.к. входят во многие физические формулы, как например, постоянная тяготения, постоянная Планка и т.д. Переменными называются величины, которые могут принимать множество значений. Если переменная принимает значения, заранее неизвестно какие, то она называется случайной переменной или случайной величиной.
3.3. Непрерывные и дискретные случайные величины.Случайные величины делят на два вида: непрерывные и дискретные. Непрерывной случайной величиной называется величина, которая может принимать любые числовые значения и, теоретически, на сколь угодно малом интервале возможных значений количество этих значений может быть бесконечным. Например, возраст человека можно измерить с точностью до года, месяца, дня, часа, минуты, секунды, десятых и сотых долей секунды и т.д. Точность такого измерения может зависеть от желания исследователя и от точности измерительного прибора, однако, очень часто, слишком большая точность измерения оказывается помехой группирования объектов со сходными характеристиками. При социологических опросах маловероятно, даже на очень большой выборке, встретить двух человек родившихся в один день, т.е. имеющих один возраст, поэтому лучше разделить всех респондентов по возрасту на несколько групп с интервалом от двух до нескольких лет, тем более, что различие между респондентами в один-два года может оказаться несущественным. В таком случае исследователь будет иметь дело с квантованной случайной величиной, определяемой конечным числом обычно равных интервалов, внутри которых случайная величина остается непрерывной. Квантование непрерывной случайной величины позволяет свести бесконечное множество возможных значений случайной величины к конечному множеству интервалов, что значительно облегчает обработку экспериментальных данных.
Дискретная случайная величина может принимать только целочисленные неотрицательные значения и на заданном интервале возможных значений количество этих значений будет ограничено. Различие между дискретной и непрерывной случайной величиной заключается в том, что для дискретной случайной величины понятие ''часть'' не имеет смысла, как бессмысленно выражение ''полтора человека'', а для непрерывной – не только имеет смысл, но и означает большую точность измерения.
3.4. Распределение случайной величины. Распределением случайной величины называется совокупность числовых значений, которые приняла случайная величина в результате измерения. Иногда в отношении числовых значений используется термин наблюдение, и тогда распределение случайной величины называют совокупностью наблюдений. Совокупность значений случайной величины обычно обозначают X, а отдельные значения - xi, где подстрочный индекс i означает “каждый” или “отдельный”.Если исследователь хочет установить, кого больше окажется на избирательном участке – мужчин или женщин, и он решил обозначить их единицами и нолями в зависимости от пола, то совокупность единиц и нолей, полученных в результате такого измерения, будет называться распределением случайной величины (пола) измеренной в шкале наименований. Если же исследователь хочет установить, сколько времени требуется ученикам на решение арифметической задачи, то проведя множество измерений времени решения задачи каждым учеником он получит распределение случайной величины (времени решения задачи) в шкале отношений.
3.5. Генеральная совокупность и выборка.Распределение случайной величины, являющейся психологической переменной, может быть получено при исследовании одного человека, например, динамики функционального состояния человека-оператора в течении рабочего дня, а может, и при исследовании многих людей, например, распределение функционального состояния тех же операторов в начале или в конце смены. Распределение случайной величины, таким образом, может быть получено как результат воздействия множества стимулов на одного человека и одного стимула на множество людей. Во втором случае исследователь будет иметь дело с данными многих испытуемых, по которым, он будет судить об особенностях психического отражения и поведения не только участников эксперимента, но и человека в целом, что столкнет его с проблемой достоверности полученных выводов. Гипотетически, самым идеальным психологическим экспериментом мог бы быть только такой, при котором была бы реализована возможность исследования каждого человека живущего на Земле, т.е. всей генеральной совокупности людей, но практически, такая возможность неосуществима, поэтому в реальных экспериментах исследователь имеет дело прежде всего с выборкой, представляющей часть генеральной совокупности, результаты исследования которой он и будет распространять на всю генеральную совокупность. Примером генеральной совокупности может быть: все люди, живущие на Земле, все граждане СНГ, все мужчины или женщины, все жители города N и т.д. В довольно редких случаях экспериментатор имеет возможность получить данные всей генеральной совокупности, да и то, если эта совокупность не является слишком большой, как например: все студенты-психологи II курса университета, все сотрудники какой-либо фирмы или организации. Но в таком случае результаты исследования одной генеральной совокупности не могут быть распространены на другую, большую по объему генеральную совокупность.
Математические методы обработки данных экспериментальных психологических исследований – это прежде всего методы изучения эмпирических распределений случайных величин, сравнения результатов исследования разных выборок, сходства и различия людей в отношении исследуемых переменных, а также связей самих переменных друг с другом, что позволяет строить целостную картину психической жизни человека.
4. МЕРЫ ЦЕНТРАЛЬНОЙ ТЕНДЕНЦИИ
И КВАНТИЛИ РАСПРЕДЕЛЕНИЯ
Меры центральной тенденции являются наиболее часто используемыми мерами при описании совокупностей данных. Наиболее распространенными среди них являются: среднее арифметическое( ), медиана(Me или Md) и мода(Mo).
4.1. Среднее арифметическое.Средним арифметическим является мера, представляющая собой отношение суммы значений случайной величины к количеству значений случайной величины в ее распределении:
Нахождение среднего арифметического является, по сути, заменой индивидуальных варьирующих значений случайной величины на некоторую уравненную величину, которая должна сохранять основные свойства всех остальных значений. Это правило является справедливым для тех случаев, когда распределение случайной величины является равномерным, или, когда значения близкие к среднему встречаются часто, а удаленные от среднего – редко. Среднее арифметическое обладает одним очень важным свойством: сумма разностей среднего арифметического с каждым значением случайной величины в точности равна нулю, т.е. среднее – как бы уравновешивает все значения. Однако, иногда оказывается, что среднее арифметическое не отражает основные свойства совокупности данных и может даже вводить в заблуждение исследователя. Это происходит в том случае, если существует большой разброс значений случайной величины, или в совокупности наблюдений есть такие значения, которые резко отличаются от всех остальных. Например, если в некоторой фирме работают десять сотрудников с заработной платой 100$ в месяц и директор с з/п 1200$/мес., то средняя заработная плата будет составлять 200$/мес., хотя в действительности, десять сотрудников получают в два раза меньше, а один – в шесть раз больше среднего заработка. При определении среднего арифметического в таких совокупностях данных рекомендуется отбрасывать крайнее минимальное и крайнее максимальное значения, либо воспользоваться другой мерой центральной тенденции, называемой медианой.
4.2. Медиана. Это мера, которая делит упорядоченное распределение случайной величины пополам, так, что одна половина оказывается меньше медианы, а другая – больше. В рассмотренном выше примере с заработной платой, медиана будет равна 100$/мес. и более точно отражает свойства совокупности данных, так как показывает какие значения случайная величина принимает чаще, и какие являются наиболее вероятными.
Определение медианы зависит от того, какое количество значений случайная величина принимает в распределении. Если количество значений оказывается нечетным, то медиана является значением, стоящим точно посередине упорядоченного ряда чисел. Если же количество значений четное, то медиана вычисляется как среднее арифметическое двух значений, находящихся в середине распределения.
4.3. Мода. Модой называется такое значение случайной величины, которое встречается наиболее часто. Мода является, возможно самой простой из мер центральной тенденции. Для ее вычисления необходимо просто подсчитать, сколько раз встречается каждое значение случайной величины, и наиболее частое и будет являться модой.
4.4. Соотношение среднего арифметического, медианы и моды и выбор мер центральной тенденции. В рассмотренном выше примере с заработной платой медиана и мода равны между собой, и в два раза меньше среднего арифметического. Эти меры могут оказаться как равными друг другу, так и принимать совершенно разные значения. На выбор мер центральной тенденции оказывает влияние не только желание экспериментатора, многое зависит от характера распределения случайной величины. Необходимо упомянуть о некоторых особенностях всех трех мер:
1. Среднее арифметическое может принять такое значение, которое вообще не встречается в распределении, как в нашем примере, либо оказаться дробным для дискретной случайной величины (например, среднее количество детей в семье в нашей стране будет выражаться дробным числом, хотя ни в одной семье оно не встречается). Тем не менее, среднее арифметическое остается очень удобной мерой, по крайней мере, для непрерывных случайных величин, поскольку показывает куда ''тяготеют'' все остальные значения.
2. Медиана очень удобная мера для тех случаев, когда существует очень большой разброс значений случайной величины. Кроме того, медиана – это всегда реальное значение, если количество этих значений нечетное. В то же время, медиана может оказаться не самой удачной мерой, если какое-то одно значение встречается очень часто, и оно расположено либо в начале упорядоченного ряда, либо в конце. В таких случаях лучше воспользоваться модой.
3. Мода удобна для переменных измеренных в шкале наименований, и в этом случае она является единственной из возможных мер центральной тенденции. Например, если необходимо описать политическую ориентацию депутатов парламента, то эту переменную можно измерить только в шкале наименований, и наиболее часто встречаемая ориентация и будет являться модой, и в то же время единственной возможной и понятной всем мерой центральной тенденции. Мода может оказаться удобной мерой для дискретных случайных величин, особенно если какие-либо значения встречаются очень часто, и особенно, в том случае, когда их частота приближается к частоте всех остальных значений вместе взятых. Если такое значение одно, то говорят об унимодальном распределении, если два – о бимодальном, а если более двух – о полимодальном распределении. Таким образом, в отличии от среднего арифметического и медианы, мода в распределении может оказаться и не одна. Однако, в распределении непрерывной случайной величины моды может и вовсе не оказаться, так как ни одно из значений может не встретиться больше одного раза, и даже в том случае, если таких значений окажется два, для описания совокупности данных лучше использовать среднее арифметическое и медиану.
4.5. Квантили распределения. Квантиль (от лат. quantum – сколько) – это точка на числовой шкале, которая делит совокупность наблюдений на две части с известными пропорциями в каждой из них. Наиболее известный из квантилей – медиана, делящая распределение пополам. Помимо медианы существует еще несколько видов квантилей: квартили(Qi), квинтили (Ki), децили (Di) и процентили (Pi). Квартили делят совокупность наблюдений на четыре части, при этом четвертая часть наблюдений лежит ниже первого квартиля, половина – ниже второго, а три четверти – ниже третьего. Таким образом, три квартиля делят всю совокупность наблюдений на четыре части, четыре квинтиля – на пять частей, девять децилей – на десять частей, а девяносто девять процентилей – на 100 частей. Для определения квантилей, как и для определения медианы, совокупность наблюдений должна быть упорядочена либо по возрастанию значений случайной величины, либо по ее убыванию, в зависимости от исследуемой переменной.
Квантили являются одним из эффективных способов описания совокупности наблюдений. Например, если необходимо установить проходной балл для поступления в университет при конкурсе в три человека на место, то необходимо найти значение 67-го процентиля, который, как раз, и покажет ту границу, отделяющую одну треть высоких значений от двух третей низких.
Пример расчета мер центральной тенденции и квантилей распределения приведен в гл. 5.
5. МЕРЫ РАССЕИВАНИЯ
В отличии от мер центральной тенденции меры рассеивания показывают насколько данные неоднородны, изменчивы или различны. По этой причине меры рассеивания иногда называют мерами изменчивости и вместе с мерами центральной тенденции их называют параметрами распределения. Они являются не только параметрами описания распределения случайной величины, но и входят как составляющие во многие другие статистические меры.
5.1. Размах.Самой простой из таких мер является размах (d)– разность между минимальным и максимальным значением случайной величины в данном распределении. Совершенно очевидно, что два распределения, имеющие одинаковые средние арифметические, медиану и моду могут различаться по размаху, т.к. меры центральной тенденции не показывают насколько данные разбросаны на числовой оси.
Размах показывает насколько широк диапазон значений случайной величины, но в ряде случаев важно знать где находится основная часть наблюдений, и тогда можно воспользоваться другой мерой рассеивания – полумеждуквартильным размахом (полуинтерквартильное отклонение). Полумеждуквартильный размах – это половина разности между первым и третьим квартилем, который показывает, в каких пределах находится около 50% наблюдений.
Недостатком этих мер является то, что при их подсчете не учитываются все значения случайной величины, поэтому распределения, имеющие равные меры центральной тенденции и размах не обязательно будут одинаковы. Более показательны при описании неоднородности данных другие меры рассеивания: среднее отклонение (MD), дисперсия( ), стандартное (среднеквадратическое) отклонение( ),. В расчетах этих мер используется центральное отклонение – разность каждого значения случайной величины со средним арифметическим данного распределения.
5.2. Среднее отклонение.Представляет собой отношение суммы модулей центральных отклонений к числу наблюдений и вычисляется по формуле:
Очевидно, что для двух разных распределений, характеризующихся одинаковыми ранее описанными параметрами, среднее отклонение будет больше в том случае, если в распределении чаще встречаются удаленные от среднего значения.
5.3. Дисперсия.Среднее отклонение является полезной мерой рассеивания, однако используется реже, чем дисперсия – отношение суммы квадратов центральных отклонений к числу наблюдений. (''Байесовский'' метод для вычисления дисперсии генеральной совокупности). В том случае, если исследователь имеет дело не с генеральной совокупностью, а с выборкой, формула дисперсии будет немного иная – отношение суммы квадратов центральных отклонений не к n, а к n–1 (т.н. ''несмещенная'' оценка дисперсии):
Дисперсия входит как параметр распределения в ряд важных статистических критериев, но для описания данных психологических экспериментов используется значительно реже, чем стандартное отклонение.
5.4. Стандартное отклонение.Стандартное отклонение представляет собой корень из дисперсии:
Стандартное отклонение, пожалуй, одна из наиболее часто используемых мер рассеивания, благодаря тем свойствам, которые оно имеет для нормального распределения. В описании психологических переменных, стандартное отклонение часто используется как показатель границ большинства значений или условной нормы, что является особенно важным в психологии личности, исследованиях интеллекта и т.д. В настоящее время практически все важные стандартизированные психодиагностические шкалы (шкала Т-баллов, шкала стенов, шкала IQ и т.д.) созданы с учетом стандартного отклонения.
5.5. Стандартная оценка или нормированное отклонение.В отличии от физики и других естественных наук психологические переменные часто не имеют собственных единиц измерения. Если время реакции испытуемого можно измерить в секундах, и сравнить результаты исследования двух человек между собой, а также с известными из научной литературы данными, то показатель в 28 баллов по вновь созданному тесту тревожности, вряд ли кому-либо будет о чем-либо говорить. Можно будет сказать, что этот результат на 14 баллов меньше, чем 42 балла, полученных другим испытуемым, но и в этом случае невозможно сравнить эти данные с результатами этих же испытуемых по другим тестам тревожности и сказать, насколько велика эта разность.
Для решения этой проблемы существуют т.н. стандартные оценки(z). Стандартная оценка не является мерой рассеивания всего распределения, т.к. существует для оценки отклонения каждого значения от среднего в нормализованной шкале, где среднее арифметическое равно нулю, а стандартное отклонение – единице. Такая шкала может быть получена путем перевода каждого значения случайной величины в значение, представляющее собой отношение разности данного значения со средним (центрального отклонения) к стандартному отклонению распределения:
В таком случае, среднее арифметическое будет равняться нулю, а основная масса значений окажется в пределах от –1 до +1. Стандартные оценки редко бывают больше +2 и меньше –2, поэтому в отношении каждого значения можно сказать – редкое оно в данном распределении или частое, и в какую сторону от среднего находится – в большую, или в меньшую. Если в рассмотренном выше примере окажется, что баллу первого испытуемого соответствует стандартная оценка –0.254, а второму +1.23, то становится ясно, что первый результат в выборке испытуемых более частый, несколько ниже среднего и соответствует границам условной нормы, а второй – встречается реже и достаточно высокий, и кроме того, разность в 14 баллов оказалась больше одного стандартного отклонения.
5.6. Асимметрия.Это мера ''косости'' или ''скошенности'' распределения. Распределения, отличающиеся одинаковыми средними и отклонениями могут быть, тем не менее разными, поскольку ни модуль, ни квадрат разности не показывают, с какой стороны от среднего находилось отдельное значение случайной величины. В тех случаях, когда количество значений больших среднего превышает количество значений меньших, чем среднее, говорят о положительной асимметрии, в противном случае – об отрицательной. Асимметрия вычисляется как отношение среднего кубов центральных отклонений к кубу стандартного отклонения:
В симметричном распределении асимметрия точно равна нулю, но в зависимости от того, как изменяются разности значений со средним, знак асимметрии меняется на положительный или отрицательный (т.к. при возведении в куб знак сохраняется).
5.7. Эксцесс.Эта мера ''выпуклости'' или ''крутости'' распределения. При всех одинаковых других параметрах, два распределения могут различаться тем, что полигон частот будет островершинным или плоским, т.е. мода может оказаться равной, но встречаться с разной частотой. Эксцесс служит для того, чтобы определить крутизну кривой, описывающей распределение, в окрестностях единственной моды, т.к. предназначен только для унимодальных распределений. Эксцесс рассчитывается по формуле:
Особенностью всех мер рассеивания является то, что линейное преобразование значений случайной величины никак не сказывается на значениях этих мер, т.е. если к каждому значению случайной величины прибавляется или отнимается какое-либо число, то все отклонения, дисперсия, асимметрия и эксцесс останутся прежними.
Таблица 5.1. Пример расчета мер центральной тенденции,
квартилей и мер рассеивания
n | X | |||||
-7 | -343 | |||||
-5 | -125 | |||||
-4 | -64 | |||||
-7 | -343 | |||||
-18 | -5832 | |||||
-4 | -64 | |||||
-3 | -27 | |||||
-7 | -343 | |||||
-7 | -343 | |||||
-6 | -216 | |||||
-11 | -1331 | |||||
Суммы |
Расчет мер центральной тенденции и квартилей распределения:
Md = 24.5 Mo = 21 Q1 = 21 Q2 = 24.5 Q3 = 35.5
Расчет мер рассеивания:
Относительно данного распределения можно сказать, что:
1. Распределение унимодальное;
2. Основная масса значений находится в пределах (одного стандартного отклонения) от 19 до 37, а 50% наблюдений – от 21 до 35.5;
3. Оно характеризуется положительной асимметрией, что означает, что более выражены отклонения в большую от среднего арифметического сторону;