Тема: Регрессионный анализ
Цель:представление корреляционной зависимости между признаками в виде формулы, позволяющей прогнозировать значения одного показателя по конкретному значению другого.
Теоретические сведения
В практических исследованиях возникает необходимость апроксимировать(математически описать приблизительно) корреляционную зависимость между двумя признаками уравнением. Для линейной зависимости сделать это относительно просто: вытянутое корреляционное поле заменить усредненной прямой линией и найти ее уравнение по статистическим данным коррелируемых признаков. В прямоугольной системе координат уравнение прямой линии записывается в виде:
Это математическое выражение корреляционной зависимости называется уравнением регрессии. Коэффициенты aиb называются параметрами уравнения регрессии.Параметр а определяет на графике (рис.12) отрезок, отсекаемый графиком уравнения (прямой линией) на оси Y. Параметр b показывает, как изменяется признакY при изменении признакаX.Это "b" еще называют коэффициентом регрессии.
Рис. 12.
Уравнение регрессии тем лучше описывает корреляционную зависимость, чем ближе она к линейной и чем больше ее достоверность. В случае нелинейной зависимости математически запись может выражаться в виде более сложных уравнений различных кривых линий (экспоненциальной кривой, параболы, гиперболы и т.д.).
При наличии достоверной криволинейной корреляционной зависимости можно подобрать уравнение, хорошо ее описывающее. Особенно эта возможность становится реальной при наличии электронно-вычислительной техники.
Определение уравнения прямолинейной регрессии
Как уже было сказано, в случае линейной зависимости уравнение регрессии является уравнением прямой линии. Таких уравнений два: (1)
(2)
Если уравнение (1) называть прямым, то уравнение (2) будет ему обратным, и наоборот. Параметры определяются на основании статистических данных признаковX и Y по формулам:
(3)
(4)
Коэффициенты регрессии имеют размерность, равную отношению размерностей изучаемых признаковX и Y, и тот же знак, что и коэффициенты корреляции.
(5)
(6)
Чтобы вычислить , надо просто в уравнения (1) и (2) подставить средние значения коррелируемых признаков. Для оценки качества уравнения регрессии вычисляются остаточные средние квадратические отклонения по формулам:
(7)
(8)
Эти оценки абсолютны и, следовательно, не могут быть сравнимы друг с другом. Поэтому вводят оценки относительной погрешности уравнений регрессии, которые определяются в процентах по формулам:
(9)
(10)
Значение этой оценки, еслиr = ± 1,00,равно нулю, и, если r = 0,00, максимально. Остаточное среднее квадратическое отклонение характеризует колеблемость y относительно линии регрессии по x, и наоборот в обратном случае.
Пример 9.1.
Найти уравнения регрессии для веса(Х) и роста(Y) группы студентов, если их значения таковы:
Решение:
1. Занесем результаты тестирования в рабочую таблицу:
-11 | -10 | |||||
- 6 | -12 | |||||
-2 | ||||||
= 259 | = 433 | = 314 |
2. Рассчитаем нормированный коэффициент корреляции по формуле:
;
.
3. Подставим полученные данные в уравнения регрессии:
.
Тогда уравнение регрессии примет вид:
Т.е. (1)
(2)
4. В конечные значения уравнений (1) и (2) подставим произвольные значения показателей x и y (например, 1-го исследуемого).
Тогда:
5. Разобранную в данном примере корреляционную зависимость можно представить графически в виде, приведенном на рисунке 13, учитывая следующие особенности данного представления:
1. две линии уравнения регрессии на графике пересекаются в точке M с координатами средних значений показателей x и y;
2. чем ближе коэффициент корреляции по своему значению к |1|, тем меньше угол между линиями на графике. При r=± 1 линии уравнения регрессии либо совпадают, либо расположены параллельно, так как корреляционная взаимосвязь между признаками в этом случае переходит в функциональную;
3. чем ближе значение коэффициента корреляции к нулю, тем больше угол между линиями на графике. При r=0 линии уравнения регрессии на графике расположены перпендикулярно, т.е. взаимосвязь между показателями отсутствует.
Рис. 13.
Ход работы
ЗАДАЧА 1.
Найти уравнения регрессии для показателей индекса Кетле (Х) и становой силы( Y ) у студентов группы _______________, если их значения таковы:
Решение:
1. Занести результаты тестирования в рабочую таблицу и сделать соответствующие расчеты:
2. Найти нормированный коэффициент корреляции по формуле:
,
3. Подставить полученные данные в уравнения регрессии:
;
,
4. Подставить в полученные конечные значения уравнения регрессии данные любого студента:
5. Представить данное уравнение регрессии графически:
Вывод:
Контрольные вопросы
1. Цель применения регрессионного анализа.
2. Графический способ представления уравнения прямолинейной регрессии и его основные свойства.