Проблемы регрессионного анализа

Регрессионный анализ является основой для предсказания поведения случайного явления (процесса) за пределами данных. Уже в самом простом случае – линейной регрессии – продолжение регрес-сионной прямой за пределы интервала данных (аргумента) является простейшей формой предсказания. Помимо этого, для предсказания – прогноза развития явления или процесса по располагаемым данным – наиболее часто применяются следующие стандартные процедуры, которые представлены в пакете анализа MS Excel:

Скользящее среднее. Используется для расчета значений в прогнозируемом периоде на основе среднего значения переменной для указанного числа предшествующих периодов. Скользящее среднее, в
отличие от простого среднего для всей выборки, содержит сведения о тенденциях изменения данных. Этот метод может использоваться для прогноза сбыта, запасов и других процессов. Расчет прогнозируемых значений выполняется по следующей формуле:

Проблемы регрессионного анализа - student2.ru

где:

Ø n – число предшествующих периодов, входящих в скользящее среднее;

Ø Aj – фактическое значение в момент времени j;

Ø FT – прогнозируемое значение в момент времени T.

Экспоненциальное сглаживание. Применяется для предсказания значения на основе прогноза для предыдущего периода, скорректированного с учетом погрешностей в этом прогнозе. При анализе используется константа сглаживания a, по величине которой определяется степень влияния на прогнозы погрешностей в предыдущем прогнозе. Прогноз выполняется по формуле:

Проблемы регрессионного анализа - student2.ru

Проблемы регрессионного анализа. К числу типичных проблем, возникающих при регрессионном анализе данных, относятся мультиколлинераность, гетероскедастичность и автокорреляция в остатках.

Мультиколлинеарность– термин, означающий наличие высокой степени корреляции влияющих переменных; в результате влияние таких факторов оказывается трудно разделить. Для обнаружения явления мультиколлинеарности в данных используется стандартная техника корреляционного анализа – определяются парные коэффициенты корреляции данных, описывающих влияющие переменные. Если в этих данных обнаруживается тесная корреляция, то, обычно, понижают размерность регрессионной модели исключением одной или нескольких переменных.

Гетероскедастичность – термин, обозначающий неоднородность дисперсии. В отношении регрессии речь идет о неоднородности дисперсии ошибок (остатков). Следует помнить, что метод наименьших квадратов – основа регрессионного анализа – предполагает постоянство дисперсии ошибок (только в этом случае оценки параметров линейной регрессии получаются BLUE – Best Linear Unbiased Estimators (наилучшие линейные несмещенные оценки)). Простейший тест, обнаруживающий гетероскедастичность, заключается в упорядочении данных в порядке возрастания влияющей переменных и проведении регрессионного анализа для двух вариантов – для интервала малых значений и для интервала больших значений влияющей переменной (опуская, к примеру, 5-ю часть средних по величине значений). Затем проводят анализ отношения сумм квадратов ошибок по первому и второму вариантам с использованием F-распределения с (N – D – 2k)/2 степенями свободы (здесь N – полное число наблюдений, D – число исключенных наблюдений, k – число оцениваемых параметров), используя в качестве нуль-гипотезы гипотезу о том, что это отношение существенно отлично от 0. Примечание: Если дисперсия ошибки пропорциональна X2 (частый случай!), то гетероскедастичность может быть устранена делением каждого члена уравнения регрессии на X и переоценкой регрессии в модифицированной таким образом модели.

Автокорреляция (остатков) – явление, встречающееся в регрессионном анализе временных рядов и заключающееся в том, что ошибка (остаток) в один момент времени положительно коррелирован с ошибкой (остатком) в предшествующий момент времени (автокорреляция первого порядка). На практике явление автокорреляции приводит к смещению стандартных оценок параметров регрессии вниз, к некорректности результатов статистических тестов и оценкам доверительных интервалов

Библиография

1. Ермолаев, О.Ю. Математическая статистика для психологов /
О.Ю. Ермолаев. - М.: МПСИ: Флинта. - 2002. – 325 с.

2. Наследов, А.Д. Математические методы в психологическом исследовании. Анализ и интерпретация данных / А.Д. Наследов. - СПб.: Речь. - 2004.

3. Сидоренко, Е.В. Методы математической обработки в психологии. – СПб.: ООО «Речь» - 2004. – 350 с.

4. Бурлачук, Л.Ф., Морозов С.М. Словарь – справочник по психодиагностике / Л.Ф. Бурлачук, С.М. Морозов – СПб: Питер Ком. - 1999. – 528 с.

5. Суходольский, Г. В. Математические методы в психологии /
Г.В. Суходольский. - Харьков: Изд-во Гуманитарный Центр. - 2006. – 512 с.

6. Тарасов, С.Г. Основы применения математических методов в психологии. / С.Г. Тарасов. - СПб.: Изд-во: Санкт - Петербург. ун-та. - 1999. – 326 с.

Лекция 20.

Кластерный анализ

1. Понятие кластерного анализа.

2. Выбор переменных.

3. Выбор метода кластерного анализа.

4. Последовательность кластерного анализа.

Наши рекомендации