Тема 5. Многомерный статистический анализ
Компонентный анализ является методом определения структурной зависимости между случайными переменными. В результате его использования получается сжатое описание малого объёма, несущее почти всю информацию, содержащуюся в исходных данных. Основой компонентного анализа является построение таких линейных комбинаций исходных переменных (главных компонент), которые бы имели максимальную дисперсию и минимальную зависимость друг от друга.
Более общим методом преобразования исходных переменных по сравнению с компонентным анализом является факторный анализ. Центральной проблемой, которую приходится решать при обработке экспериментальных данных, является задача её “сжатия”, выделения существенной информации, которая затемнена разного рода данными, не имеющими отношения к сути изучаемого явления. Поэтому задача уменьшения размеров исходного массива данных тесно связана с задачей выявления закономерностей изучаемого явления. Наблюдаемые параметры зачастую являются лишь косвенными характеристиками изучаемого объекта. На самом деле существуют внутренние (не наблюдаемые непосредственно) параметры или свойства, число которых мало и которые определяют значения наблюдаемых параметров. Эти внутренние параметры принято называть факторами. Задача факторного анализа – представить наблюдаемые параметры в виде линейных комбинаций факторов.
Кластерный анализ – это совокупность методов, позволяющих классифицировать многомерные наблюдения, каждое из которых описывается набором признаков (параметров). Целью кластерного анализа является образование групп схожих между собой объектов, которые принято называть кластерами (классами). Особое место кластерный анализ занимает в тех отраслях науки, которая связана с изучением массовых явлений и процессов. Необходимость развития кластерного анализа и их использования продиктована тем, что они помогают построить научно обоснованные классификации, выявить взаимосвязи между единицами наблюдаемой совокупности. Кроме того, методы кластерного анализа могут использоваться в целях сжатия информации, что является важным фактором в условиях постоянного увеличения и усложнения потоков статистических данных.
Дискриминантный анализ является разделом многомерного статистического анализа, который включает в себя методы классификации многомерных (по ряду показателей) наблюдений по принципу максимального сходства при наличии обучающих факторов (то есть используется алгоритм, автоматически учитывающий изменения в данных).
Если в кластерном анализе рассматриваются методы многомерной классификации без обучения, то в дискриминантном анализе новые кластеры не образуются, а формулируется правило, по которому на основании данных наблюдений за новым объектом производится отнесение его к одному из уже существующих классов (кластеров, обучающих подмножеств). Такое правило базируется на сравнении определённых статистических характеристик изучаемого объекта со значениями дискриминантной функции, которая строится, чаще всего, в виде линейной статистических характеристик имеющихся классов.
Предположим, что существуют две или более совокупности (группы) и что мы располагаем множеством выборочных наблюдений над ними. Основная задача дискриминантного анализа состоит в построении с помощью этих выборочных наблюдений правила, позволяющего отнести новое наблюдение к одной из совокупностей.
Дискриминантный анализ может использоваться и для прогнозирования поведения наблюдаемого объекта путем сопоставления изменения его показателей с поведением аналогичных показателей объектов обучающих подмножеств.
Например, можно по ряду показателей выделить группы развитых и развивающихся стран. При этом мы должны уже иметь некоторые группы стран, явно относящиеся к одной из этих групп, а также иметь наборы значений некоторых показателей (среднедушевой доход, продолжительность жизни, уровень образования, производительность труда и т.д.). При отнесении других стран к одному из этих классов, мы должны построить дискриминантную функцию, зависящую от статистических характеристик имеющихся наборов данных, и сравнивать значения этой функции для каждой изучаемой страны со значениями этой же функции для каждой из двух групп. Та группа, которая будет иметь более близкое значение дискриминантной функции и примет в свои ряды новую страну. Далее зная динамику изменений показателей в этой группе, мы можем делать некоторые прогнозы изменения показателей изучаемой страны. В простейшем случае одного показателя, например, среднедушевого дохода, мы можем просто вычислить среднее значение этого показателя для каждой из групп и сравнить среднедушевой доход изучаемой страны с полученными средними значениями. Если у изучаемой страны этот показатель будет ближе к доходу осреднённому для развитых стран, то мы и отнесём её к группе развитых стран.
Аналогичный подход можно применить к предприятиям, разбив их на группы: крупные, средние, мелкие. Проделав соответствующий анализ, мы можем отнести новое предприятие к одной из групп, а далее постараться сделать прогноз развития предприятия на основании сравнения с изменением показателей предприятий этой группы. Такой подход может быть достаточно продуктивным, особенно если все предприятия относятся к какой-то одной отрасли.
ПРОГРАММА КУРСА
1. Линейная регрессионная модель (ЛРМ). Оценка параметров модели методом наименьших квадратов (МНК).
2. Векторное, матричное представление ЛРМ. Геометрическая интерпретация.
3. Классическая ЛРМ (КЛРМ). Несмещенность и состоятельность оценок МНК.
4. Эффективность оценок МНК. Теорема Гаусса-Маркова для парной регрессии.
5. Статистические свойства оценок параметров в нормальной КЛРМ.
6. Проверка гипотез и доверительные интервалы в нормальной КЛРМ.
7. Дисперсионный анализ в КЛРМ. F-отношение Фишера и коэффициент детерминации. Связь между ними.
8. Нелинейные модели. Эластичность.
9. Прогнозирование в КЛРМ. Доверительные интервалы для прогнозных значений.
10. Множественная ЛРМ. Оценка параметров МНК.
11. Классическая множественная линейная регрессионная модель (КМЛРМ). Состоятельность, несмещенность, эффективность оценок МНК.
12. Оценка качества множественной регрессии. Проверка гипотез. Доверительные интервалы. Коэффициент детерминации и отношение Фишера.
13. Стандартизованная множественная регрессия.
14. Частные коэффициенты корреляции. Геометрическая интерпретация частной корреляции.
15. Скорректированный коэффициент детерминации.
16. Ошибки спецификации модели. «Лишние» и «пропущенные» регрессоры.
17. Мультиколлинеарность.
18. Фиктивные переменные. Моделирование «излома».
19. Обобщенный метод наименьших квадратов. Теорема Айткена.
20. Гетероскедастичность. Взвешенный метод наименьших квадратов.
21. Моделирование временных рядов. Авторегрессия первого порядка.
22. Оценка параметров в модели с авторегрессией. Процедуры Кохрейна-Оркатта, Хилдрета-Лу и Дарбина.
23. Автокорреляция остатков. Отношение Дарбина-Уотсона и его статистические свойства.
24. Инструментальные переменные. Двухшаговый МНК.
25. Системы внешне не связанных регрессионных уравнений.
26. Системы одновременных регрессионных уравнений.
ВОПРОСЫ ДЛЯ САМОПРОВЕРКИ
Парная линейная регрессия
1. Что называется линейной регрессионной моделью (ЛРМ)? Какие практические задачи могут решаться с помощью парной регрессии?
2. Как оценить параметры ЛРМ методом наименьших квадратов (МНК)?
3. Каким требованиям должна удовлетворять классическая ЛРМ? Сформулируйте условия Гаусса-Маркова.
4. Докажите несмещенность и состоятельность оценок параметров в классической ЛРМ.
5. Какая оценка параметра называется эффективной. Сформулируйте теорему Гаусса-Маркова для парной регрессии.
6. Какие статистические свойства у оценок параметров в нормальной классической ЛРМ?
7. Как проверяются гипотезы для значений параметров и строятся доверительные интервалы в нормальной классической ЛРМ?
8. Как вычисляется коэффициент детерминации и дисперсионное отношение Фишера? Как проверяется гипотеза о значимости модели?
9. Установите связь между F-отношением Фишера и коэффициентом детерминации R2.
10. Представьте основные нелинейные модели. Опишите процесс линеаризации.
11. Как осуществляется прогнозирование в ЛРМ? Как строятся доверительные интервалы для прогноза.
12. Как определяется эластичность в линейной и нелинейных моделях.