Описательная статистика
Описательная С. включает в себя методы орг-ции, суммирования и описания данных. Дескриптивные показатели позволяют быстро и эффективно представлять большие совокупности данных. К наиболее часто используемым описательным методам относятся частотные распределения, меры центральной тенденции и меры относительного положения. Регрессия и корреляции применяются для описания связей между переменными.
Частотнее распределение показывает, сколько раз каждый качественный или количественный показатель (либо интервал таких показателей) встречается в массиве данных. Кроме того, нередко приводятся относительные частоты — процент ответов каждого типа. Частотное распределение обеспечивает быстрое проникновение в структуру данных, к-рого было бы трудно достичь, работая непосредственно с первичными данными. Для наглядного представления частотных данных часто используются разнообразные виды графиков.
Меры центральной тенденции — это итоговые С., описывающие то, что яв-ся типичным для распределения. Мода определяется как наиболее часто встречающееся наблюдение (значение, категория и т. д.). Медиана — это значение, к-рое делит распределение пополам, так что одна его половина включает все значения выше медианы, а другая — все значения ниже медианы. Среднее вычисляется как среднее арифметическое всех наблюденных значений. Какая из мер — мода, медиана или среднее — будет лучше всего описывать распределение, зависит от его формы. Если распределение симметричное и унимодальное (имеющее одну моду), среднее медиана и мода будут просто совпадать. На среднее особенно влияют «выбросы», сдвигая его величину в сторону крайних значений распределения, что делает среднее арифметическое наименее полезной мерой сильно скошенных (асимметричных)распределений.
Др. полезными описательными характеристиками распределений служат меры изменчивости, т. е. того, в какой степени различаются значения переменной в вариационном ряду. Два распределения могут иметь одинаковые средние, медианы и моды, но существенно различаться по степени изменчивости значений. Изменчивость оценивается двумя С.: дисперсией и стандартным отклонением.
Меры относительного положения включают в себя процентили и нормированные оценки, используемые для описания местоположения конкретного значения переменной относительно остальных ее значений, входящих в данное распределение. Велковиц с соавторами определяют процентиль как «число, показывающее процент случаев в определенной референтной группе с равными или меньшими оценками». Т. о., процентиль дает более точную информ., чем просто сообщение о том, что в данном распределении некое значение переменной попадает выше или ниже среднего, медианы или моды.
Нормированные оценки (обычно называемые z-оценками) выражают отклонение от среднего в единицах стандартного отклонения (σ). Нормированные оценки полезны тем, что их можно интерпретировать относительно стандартизованного нормального распределения (z-распределения) — симметричной колоколообразной кривой с известными свойствами: средним, равным 0, и стандартным отклонением, равным 1. Так как z-оценка имеет знак (+ или —), она сразу показывает, лежит ли наблюденное значение переменной выше или ниже среднего (m). А поскольку нормированная оценка выражает значения переменной в единицах стандартного отклонения, она показывает, насколько редким яв-ся каждое значение: примерно 34% всех значений попадает в интервал от т до т + 1σ и 34% — в интервал от т до т - 1σ; по 14% — в интервалы от т + 1σ до т + 2σ и от т - 1σ до т - 2σ; и по 2% — в интервалы от т + 2σ до т + 3σ и от т - 2σдо т - 3σ.
Связи между переменными. Регрессия и корреляция относятся к тем способам, к-рые чаще всего используются для описания связей между переменными. Два разных измерения, полученных по каждому элементу выборки, можно отобразить в виде точек в декартовой системе координат (х, у) — диаграммы рассеяния, являющейся графическим представлением связи между этими измерениями. Часто эти точки образуют почти прямую линию, свидетельствующую о линейной связи между переменными. Для получения линии регрессии — мат. уравнения линии наилучшего соответствия множеству точек диаграммы рассеяния — используются численные методы. После выведения линии регрессии появляется возможность предсказывать значения одной переменной по известным значениям другой и, к тому же, оценивать точность предсказания.
Коэффициент корреляции (r) — это количественный показатель тесноты линейной связи между двумя переменными. Методики вычисления коэффициентов корреляции исключают проблему сравнения разных единиц измерения переменных. Значения r изменяются в пределах от -1 до +1. Знак отражает направление связи. Отрицательная корреляция означает наличие обратной зависимости, когда с увеличением значений одной переменной значения др. переменной уменьшаются. Положительная корреляция свидетельствует о прямой зависимости, когда при увеличении значений одной переменной увеличиваются значения др. переменной. Абсолютная величина rпоказывает силу (тесноту) связи: r = ±1 означает прямолинейную зависимость, а r = 0 указывает на отсутствие линейной связи. Величина r2показывает процент дисперсии одной переменной, к-рый можно объяснить вариацией др. переменной. Психологи используют r2, чтобы оценить полезность конкретной меры для предсказания.
Коэффициент корреляции Пирсона (r) предназначен для интервальных данных, полученных в отношении предположительно нормально распределенных переменных. Для обработки др. типов данных имеется целый ряд др. корреляционных мер, напр. точечно-бисериальный коэффициент корреляции, коэффициент j и коэффициент ранговой корреляции (r) Спирмена. Корреляции часто используются в психологии как источник информ. для формулирования гипотез эксперим. исслед. Множественная регрессия, факторный анализ и каноническая корреляция образуют родственную группу более современных методов, ставших доступными практикам благодаря прогрессу в области вычислительной техники. Эти методы позволяют анализировать связи между большим числом переменных.