Этап 3. Нахождение взаимосвязи между данными
Во всех приведенных выше рассуждениях считалось, что явление характеризуется каким-либо одним признаком (параметром), и изучалось статистическое распределение случайной величины, являющейся значениями изучаемого параметра, в зависимости от частоты ее появления. Однако часто явление или процесс характеризуется двумя (или более) взаимосвязанными случайными величинами X и Y. Как значения X , так и Y подвержены случайным изменениям (вариациям). В рамках этих случайных ошибок возможны любые комбинации X и Y.
Подобные распределения, в которых рассматривается частота двух взаимосвязанных случайных величин, называют двумерными распределениями. Двумерные распределения характеризуются также средним значением и дисперсией (разбросом). Эти характеристики следует вычислять отдельно для обеих СВ X и Y . Средняя точка (центр) двумерного распределения лежит при значениях и . Общая дисперсия составляет сумму двух единичных дисперсий.
Признак (параметр), от которого зависит другой признак (параметр), принято называть факторным (или предиктором, т.е. по которому предсказывают). Зависимый признак называют результативным (или предиктантом, т.е. который предсказывается). Таким образом, взаимосвязанные явления рассматриваются как причинно-следственные связи.
Связи между явлениями в статистике классифицируются по ряду признаков:
По степени зависимости связи подразделяют на динамические (функциональные, детерминированные) и статистические (стохастические).
Динамическая закономерность – это вид связи, когда строго определенным значениям каких-либо факторов (независимой переменной) всегда соответствуют строго определенные значения величин, зависимых от этих факторов (зависимых переменных). При динамической закономерности количественные соотношения между величинами остаются справедливыми для каждого отдельного случая, каждого элемента совокупности, охваченного действием известного закона. Указанные соотношения могут быть выражены математическими строго определенными формулами, системой уравнений и т.д., т.е. динамическая зависимость является функциональной. Примером динамической закономерности являются закономерности соотношений силы тяжести, массы и расстояний между телами, определяемые законом всемирного тяготения.
Термин "статистическая закономерность" – другой вид проявления всеобщей связи явлений в природе и обществе. Впервые этот термин стал употребляться в естественных науках в противоположность понятию динамической закономерности.
Статистическая (стохастическая) закономерность – другая форма закономерности, когда какое-либо правило, закон, количественное соотношение выявляются только в достаточно большом числе элементов совокупности, находят свое выражение только в массе явлений. Наступление отдельного события при этой закономерности связано с известной вероятностью (т.е. отдельное событие может наступить или не наступить). Но в массе случаев общая закономерность необходимо найдет свое проявление. При статистической связи каждому значению факторного признака будет соответствовать не одно, а совокупность значений результативного признака. В этом случае для определения действующей связи возникает необходимость определения среднего значения результативного признака для каждого факторного признака.
Термин стохастический происходит от греч. "stochos" – мишень или бычий глаз. Стреляя в мишень, даже хороший стрелок не всегда попадает в цель – центр мишени. Выстрелы ложатся в некоторой области, близкой к центру. В этом смысле стохастическая связь означает приблизительный характер значений признака.
По направлению выделяют прямую (положительную) и обратную (отрицательную) связи.
По форме связи различают линейные (прямая линия) и криволинейные (парабола, гипербола, экспонента и т.д.)
Основные задачи изучения связей между явлениями сводятся к:
1). установлению формы корреляционной связи, т.е. вида регрессии (линейной, квадратичной и т.д.);
2). установлению аналитического уравнения связи, с помощью которого аппроксимируется связь между признаками;
3). оценке точности и возможности распространения связей, выявленных на основании статистической обработки выборочных данных, на генеральную совокупность, из которой взята выборка.
4). оценке тесноты связи по показателям корреляционной связи;
При рассмотрении вопроса о точности корреляционных связей следует помнить, что она определяется точностью оценок средних выборок (т.е. параметров распределений), использованных при расчете связи.
Новые термины:
Аппроксимация – приближенное выражение математических объектов через другие, более простые.
Корреляция – зависимость между случайными величинами, выражающаяся в том, что распределение одной величины зависит от значения другой величины.
Регрессия – статистическая связь, при которой изменение одной величины приводит к изменению среднего значения другой.