Анализ взаимосвязи признаков
Анализ поведения изучаемых признаков относительно друг друга необходим для поиска ответов на вопросы:
- влияет ли один признак на значение другого признака;
- существует ли статистическая связь между двумя признаками;
- можно ли, зная значение одного признака, сделать вывод о значении другого признака.
Замечание: в курсе прикладной статистики мы будем рассматривать только взаимодействие двух признаков.
Статистическая связь двух признаков – такое соотношение между ними, при котором изменение значения одного признака меняет распределение другого признака. Существуют десятки моделей статистической связи. Многообразие моделей объясняется тем, что существует множество подходов к определению того, как именно меняется распределение признака при изменении значения другого признака. Основные модели статистической связи:
- частотная модель (анализ таблиц сопряженности) – для анализа связи 2-х качественных признаков;
- корреляционная модель связи (корреляционный анализ) – для анализа связи 2-х количественных признаков либо качественных признаков, измеренных с помощью порядковой шкалы;
- функциональная модель (регрессионный анализ) – для анализа 2-х количественных признаков;
- модель с определением дисперсии (дисперсионный анализ) – для анализа связи качественных и количественных признаков.
Выбор той или иной модели определяется не только измерительной шкалой, но и характером исследуемой связи.
По характеру статистические связи классифицируются:
1) по направленности:
- ненаправленные – связи, при которых нельзя сказать, что увеличение значения одного признака приводит к увеличению (уменьшению) другого признака;
- прямые (положительные) – такие связи, при которых увеличение значения одного признака к увеличению значения другого; уменьшение значения одного признака к уменьшению значения другого;
- обратные (отрицательные) – такие связи, при которых увеличение значения одного признака ведет к уменьшению значения другого;
2) по степени влияния изучения признаков друг на друга:
- корреляционные – такие связи, в которых признаки «равноправны» - нельзя сказать (задачей не ставится), какой признак является причиной, какой – следствием;
- причинно-следственные – такие связи, при которых один признак может быть описан как причина, а другой – как следствие. Однако причинно-следственные связи нужно обосновать – осуществляется на двух уровнях:
- теоретический (логический) – необходимо доказать, что именно эта причина порождает данное следствие;
- формальный – принимая решения, необходимо доказать выполнение трех принципов причинности (каузальность):
- причина должна во времени предшествовать следствию;
- причина и следствие должны коррелировать между собой;
- должно быть доказано, что не существует других переменных, которые могут повлиять на связь между причиной и следствием;
3) по измерение связи подраздел на:
- функциональные – связи, которые могут быть описаны точной математической формулой y = f(x);
- статистические – её можно выразить функционально, с точностью до некоторого приближения. Точки не лежат на первой линии, а представляют собой некоторое облако точек.
Понятие меры связи – рассчитываемый специальный коэффициент, величина которого
указывает силу связи между двумя переменными. Для каждой модели связи существует свой 1 или несколько коэффициентов связи. Общие свойства мер связи:
- изменение в интервалах от 0 до 1 для ненаправленных связей и в интервалах от -1 до 1 для направленных;
- значение МС = 0 может свидетельствовать:
1) об отсутствии статистической связи между переменными;
2) о том, что выбрана модель связи, не соответствующая характеру связи:
- значение МС, приближенное к 1, свидетельствует о наличии сильной ненаправленной или сильной положительной связи. Значение МС, близкое к -1, свидетельствует о наличии сильной отрицательной связи;
- значение МС, = -1 или 1 свидетельствует о наличии полной статистической связи в терминах выбранной модели.