Корреляционно- регрессионный анализ
Различают два типа связей между различными явлениями и их признаками: функциональную (жестко детерминированную) и статистическую (стохастические детерминированную). Строго определить различие этих типов связи можно тогда, когда они получают математическую формулировку. ∆ связь двух явлений (признаков)
Если с изменением значения одной из переменных вторая изменяется строго определенным образом, т.е. значению одной переменной обязательно соответствует одно или несколько точно заданных значений другой переменной, связь между ними является функциональной. ∆ → значению х=4 соответствует не одно, а два значения у (у1=2 и у=-2).
Если с изменением значения одной из переменных вторая может в определенных пределах принимать любые значения с некоторыми вероятностями, но ее среднее значение изменяются по определенному закону – связь является статистической (стохастической). При статистической связи разным значениям одной переменной соответствуют разные распределения значений другой переменной.
В анализе финансово-хозяйственной деятельности стохастические модели используются, когда необходимо:
- оценить влияние факторов, по которым нельзя построить жестко детерминированную модель;
- изучить и сравнить влияние факторов, которые невозможно включить в одну и ту же детерминированную модель;
- выделить и оценить влияние сложных факторов, которые не могут быть выражены одним определенным количественным показателем (∆ пол, образование, занятие, семейное состояние человека, отрасль, форма собственности предприятия, т.е. признаки не имеющие количественного выражения).
Условия применения стохастического подхода:
- необходимо наличие достаточно большой совокупности объектов (детерминированную модель можно анализировать и строить по одному объекту);
- необходим достаточный объем наблюдений (считается, что при построении регрессии количество наблюдений должно в 6-8 раз превышать количество факторов, что крайне редко встречается в АХДП);
- наличие случайности наблюдений.
В реальной жизни строгое соответствие требованиям регрессионного и корреляционного анализа встречается очень редко, однако оба эти метода распространены в экономических исследованиях.
Стохастическое моделирование предназначено для решения трех основных задач:
1. установление самого факта наличия (отсутствия) связи между признаками;
2. прогнозирование неизвестных значений результативных показателей по заданным значениям факторных признаков;
3. измерение тесноты связи между показателями и сравнительный анализ степени их влияния.
Этапы стохастического моделирования.
Этап 1 – качественный анализ:
■ постановка цели анализа;
■ определение совокупности данных;
■ определение результативных признаков;
■ выбор периода анализа;
■ определение факторных признаков:
▪ 1. признаки-факторы должны находиться в причинной связи с результативным признаком. Поэтому, недопустимо, например, в модель ПТ (у) вводить в качестве одного из факторов (xj) средний разряд рабочих, хотя включение такого фактора значительно повышает коэффициент корреляции;
▪ 2. признаки-факторы не должны дублировать друг друга → не следует включать в модель ПТ и энерговооруженность рабочих и их фондовооруженность, так как эти факторы тесно связаны друг с другом в большинстве объектов;
▪ 3. не следует включать в модель факторы разных уровней иерархии. ∆ в модель себестоимости продукции не следует включать и платежеспособный спрос населения, и цену продукции, и т.е. субфактор самого спроса;
▪ 4. желательно, чтобы между результативным и факторными признаками соблюдалось единство совокупности, к которой они отнесены, т.е. ∆ у - средняя заработная плата рабочего, то хi – должны относиться к рабочему: разряд, стаж, возраст, энерговооруженность рабочего и т.д. Правило это не категорическое (в модель можно включить и уровень специализации предприятия)
Этап 2 – предварительный анализ моделируемой совокупности:
■ проверка однородности совокупности (Var < 33%), если совокупность неоднородна следует исключать из нее «аномальные» наблюдения, поскольку они, скорее всего, нетипичны для данного исследования;
■ исключение «аномальных» наблюдений (наблюдение признается аномальным и исключается, если его отклонение от средней (хi - ) более чем в 3 раза превышает среднеквадратическое отклонение выборки σ;
■ установление законов распределения изучаемых переменных. В условиях малых выборок проверка нормальности распределений признаков проводится путем сравнения эмпирических коэффициентов асимметрии и эксцесса с их средними квадратическими ошибками (σAs и σEx соответственно). Нормальность распределения подтверждается, если выполнены неравенства: │As│<3σAs и │Ex│<3σEx .
Этап 3 – построение регрессионной модели экономического объекта:
■ перебор конкурирующих вариантов моделей (как правило, осуществляется с использованием компьютера);
■ уточнение перечня факторов, включаемых в модель (например, путем расчета парных коэффициентов корреляции). Факторы xi и xj включаются в модель вида y=f (x1, x2,…, xn) одновременно, если:
и
■ расчет оценок параметров уравнения регрессии.
Этап 4 – экономическая интерпретация и практическое использование модели
■ определение пространственно-временной устойчивости зависимостей. Проверка устойчивости модели осуществляется расчетом ее параметров на усеченной или расширенной совокупности, а также по той же совокупности, но в другом временном интервале;
■ оценка прогностических свойств модели.
Корреляционный анализесть метод установления связи и измерения ее тесноты между наблюдениями, которые можно считать случайными. Особенностью корреляционного анализа следует признать то, что он устанавливает лишь факт наличия связи и степень ее тесноты, не вскрывая ее причин.
В статистике теснота связи может определяться с помощью различных коэффициентов (Фехнера, Пирсона, коэффициента ассоциации и т.д.), а в анализе финансово-хозяйственной деятельности чаще используется линейный коэффициент корреляции:
или
Значение r изменяются в интервале [-1; +1]. r = -1 свидетельствует о наличии жестко детерминированной обратной связи между факторами. r = + 1 – прямая зависимость факторов. r ≈ 0 – связи между факторами не наблюдается. При социально экономическом анализе │r│ < 0,3 – связь слабая: 0,3 <│r│ < 0,7 – связь средней тесноты; │r│ > 0,7 – тесная.
Регрессионный анализ –это метод установления аналитического выражения (модели, уравнения) стохастической зависимости между исследуемыми признаками. В отличие от корреляционного анализа, который отвечает на вопрос, существует ли связь между анализируемыми признаками, регрессионный анализ дает и ее формализованное выражение. В экономических исследованиях корреляционный и регрессионный анализ нередко объединяются в один – корреляционно-регрессионный анализ.
Регрессионная модель может быть построена при наличии любой зависимости (степенной, логарифмической, экспоненциальной и т.д.), однако в многофакторном анализе используют только линейные модели вида:
У = а + b1x1 + b2x2 +…+ bm xm
Коэффициенты рекомендуется определять с помощью аналитических пакетов для персонального компьютера. В наиболее простом случае коэффициенты регрессии однофакторного линейного уравнения регрессии вида у=а+bx можно найти по формулам:
экономический смысл коэффициентов регрессии
Кластерный анализ
В теме «метод группировок» расчленение совокупности данных на группы производиться по одному признаку. Кластерный анализ – предназначен для группировки (кластеризации) совокупности по многим признакам. Значение каждого из признаков служат координатами каждой единицы изучаемой совокупности в многомерном пространстве признаков. Каждое наблюдение, характеризующееся значениями нескольких показателей, можно представить как точку в пространстве этих показателей, значения которых рассматриваются как координаты в многомерном пространстве. Расстояние между точками p и q с k координатами определяется с помощью:
1) евклидовой метрики; этот метод применяется для переменных в одних единицах измерения
2) нормализованной евклидовой метрики; применяется для переменных в различных единицах измерения
xjp – xjq – абсолютная разность значений j-го признака у единиц совокупности с номерами p и q;
σxj – среднее квадратическое отклонение признака xj.
3) взвешенной евклидовой метрики. При выделении типов социально-экономических явлений группировочные признаки не равноправны: одни признаки имеют большее, другие – меньшее значение. Следовательно, более совершенная методика кластерного анализа должна учитывать разную значимость группировочных признаков:
wj – вес j-го признака
Основным критерием кластеризации является то, что различия между кластерами должны быть более существенны, чем между наблюдениями, отнесенными к одному кластеру, т.е. в многомерном пространстве должно соблюдаться неравенство:
rp,q < r1,2
r1,2 – расстояние между кластерами 1 и 2.
Процедура кластеризации достаточно трудоемка и сложна. Но, зная возможности этого метода и используя статистические программные макеты, их может и должен уметь применять каждый аналитик, даже не знающий деталей самой математической теории, на которой он основывается. (Подобно тому, как он может водить автомобиль, не зная устройства его двигателя).
Пример классификации 10 предприятий по структуре их отчетных балансов. Для простоты ограничим классификацию рассмотрением двух показателей.
Показатели структуры активов предприятий, %
№ предприятия | ||||||||||
Доля ликвидных активов | 0,27 | 0,32 | 0,20 | 0,27 | 0,34 | 0,20 | 0,22 | 0,22 | 0,21 | 0,23 |
Доля запасов | 0,40 | 0,39 | 0,46 | 0,39 | 0,30 | 0,39 | 0,42 | 0,52 | 0,51 | 0,42 |
Используя блок «Статистика» и процедуру «Кластерный анализ» в системе STADIA 5.0, команды и соответственно метод «Дивизивная стратегия динамических сгущений» и «Евклидова метрика», можно сгруппировать предприятия в два кластера.
Рис. Изображение двух кластеров в плоскости показателей структуры балансов
На рисунке приведено графическое изображение этих кластеров в координатах рассматриваемых показателей. В результате оказывается, что группировка предприятий в два кластера возможна, первый кластер включает предприятия № 3, 6, 7, 8, 9 и 10, второй - № 1, 2, 4 и 5.
6. методы теории принятия решений