Проведение многофакторного корреляционного анализа

При проведении многофакторного корреляционного анализа необходимо учитывать возможность возникновения явления мультиколлениарности (явление «снежного кома»). Оно возникает тогда, когда в уравнение многофакторной зависимости включаются параметры (факторы) тесно связанные между собой. Чтобы этого избежать, в уравнения регрессии в качестве переменных должны включаться только независимые факторы. Если количество параметров x1, x2, … в исследовании невелико, то выделить независимые факторы можно с помощью критерия Стьюдента. Для этого:

1) составляется матрица парных коэффициентов корреляции, имеющая треугольную форму, поскольку rx1, x2 = rx2, x1;

2) для каждой пары факторов, которые включаются в уравнение, рассчитывается критерий Стьюдента tрасч = │r │ / (1 – r2) / √ (n – 1).

Если tрасч > tтабл., то связь признается существенной, и из двух выделенных факторов в уравнение регрессии должен включаться лишь один.

Для практических целей количество факторов в многофакторной модели не должно превышать 6–7.

Для построения модели используют метод стандартизированного масштаба. При этом на первом этапе получают не само уравнение регрессии, а его стандартизированный вид:

Проведение многофакторного корреляционного анализа - student2.ru

Коэффициенты β в этом уравнении позволяют перейти к натуральному масштабу, а кроме того, они показывают, на какую часть своего стандартного отклонения изменяется у, если х изменится на одно стандартное отклонение. Исходя из этого, β-коэффициенты считаются аналогом показателя устойчивости и позволяют определить те параметры, которые требуют особого контроля в автоматических системах управления или дополнительных приемов стабилизации.

Для построения уравнения в стандартизированном масштабе используется матрица парных коэффициентов корреляции. На ее основе составляется система нормальных уравнений. Количество уравнений и столбцов в ней зависит от числа неизвестных:

Проведение многофакторного корреляционного анализа - student2.ru Проведение многофакторного корреляционного анализа - student2.ru

Стандартизированное уравнение переводится в натуральный масштаб, с помощью следующих формул:

Проведение многофакторного корреляционного анализа - student2.ru ;

Проведение многофакторного корреляционного анализа - student2.ru ;

y = b0 + b1x1 + b2x12 + …

Полученное уравнение регрессии требуется оценить на значимость. Оценку производят следующим образом:

1. Определяется остаточная дисперсия

Проведение многофакторного корреляционного анализа - student2.ru ,

где К – число факторов.

2. Рассчитывается критерий Фишера F = σ2 / σост2. Если Fрасч > Fтабл, то полученное уравнение хорошо описывает исследуемую зависимость. Чем больше критерий Фишера, тем более уравнение регрессии подходит для целей прогноза.

3. Рассчитывается коэффициенты множественной корреляции:

Проведение многофакторного корреляционного анализа - student2.ru = √ (1 – σост2 / σ2).

4. Рассчитываются коэффициенты множественной детерминации R2.

5. Дополнительно рассчитывается среднеквадратичная ошибка коэффициента корреляции: Sk = (1 – R) / √ (N – k – 1).

6. Определяется существенность коэффициента множественной корреляции: tрасч. = R / Sk. Если tрасч > tтабл, то коэффициент множественной корреляции считается существенным.

Составим по этим правилам матрицу расчетных критериев Стьюдента для всех 8 исследуемых факторов х1, х2, …, х8, сведенные в приведенную ниже таблицу:

  x1 x2 x 3 x4 x5 x6 x7 x8
x1 3,6757 2,6550 0,0280 0,5173 1,0478 2,5745 0,1641
x2 3,6757 62,2734 1,4791 0,2527 2,6270 10,8963 1,1329
x3 2,6550 62,2734 2,2296 0,0805 3,7414 6,4842 1,6404
x4 0,0280 1,4791 2,2296 1,5261 1,5071 0,4652 1,6365
x5 0,5173 0,2527 0,0805 1,5261 0,3673 0,3721 0,6368
x6 1,0478 2,6270 3,7414 1,5071 0,3673 1,2997 5,4576
x7 2,5745 10,8963 6,4842 0,4652 0,3721 1,2997 0,7004
x8 0,1641 1,1329 1,6404 1,6365 0,6368 5,4576 0,7004

Проверка на существенность и отсев второстепенных факторов производится сравнением с табличным значением tтабл = 1,71. Если связь признается существенной, то из двух выделенных факторов в уравнение регрессии должен включаться лишь один. После этого можно строить многофакторную зависимость. Построим следующие две многофакторные модели (см. табл. 1 приложения):

1. Зависимость количества переработанной руды (1) от содержания металла в руде (2), содержания металла в концентрате (4), содержание серы в концентрате (5), извлечения (6).

Стандартизированный вид уравнения:

у10 = β1 х20 + β2 х40 + β3 х50 + β4 х60 =

= –0,418 х20 + 1,014х40 – 1,339 х50 + 1,115 х60.

Уравнение в натуральном масштабе:

y1 = b0 + b1 x2 + b2 x4 + b3 x5 + b4x6 =

= 1136,08 – 122,97х2 + 529,16х4 – 17,92х5 + 2034,78х6.

Проведем оценку значимости уравнения многофакторной регрессии:

Остаточная дисперсия 11144,17
Расчетное значение критерия Фишера Fрасч 0,16
Коэффициент множественной корреляции 0,35
Коэффициент множественной детерминации 0,125
Среднеквадратичная ошибка корреляции Sk 0,168
Расчетное значение критерия Стьюдента tрасч 2,14
Табличное значение критерия Стьюдента tтабл. 1,70
Существенность коэффициента множественной корреляции 2,098

Сравнивая табличное значение критерия Стьюдента с расчетным значением, можно сделать вывод о том, что коэффициент множественной корреляции существенен. Однако значение критерия Фишера Fрасч = 0,16 очень мало, значит, данное уравнение нельзя использовать на практике для планирования и проектирования АСУТП. В то же время, хотя уравнение плохо описывает реальный процесс, его можно использовать для анализа.

2. Зависимость извлечения (6) от количества перерабатываемой руды (1), содержания металла в руде (2), содержания металла в хвосте (7), содержания металла в сульфате (8).

Стандартизированный вид уравнения:

у60 = β1 х1 0 + β2 х20 + β3 х70 + β4 х80 = 0,004 4 х10 + 1,368х20 +

+ 1,272 х70 + 1,181 х80.

Уравнение в натуральном масштабе:

у = 55,31 + 0,0003х1 + 43,27х2 – 37,34х7 + 2,78х8.

Проведем оценку значимости уравнения многофакторной регрессии:

Остаточная дисперсия 10,099
Расчетное значение критерия Фишера Fрасч 0,993
Коэффициент множественной корреляции 0,855
Коэффициент множественной детерминации 0,7307
Среднеквадратичная ошибка корреляции Sk 0,052
Расчетное значение критерия Стьюдента tрасч 16,49
Табличное значение критерия Стьюдента tтабл. 1,70

Табличное значение критерия Стьюдента значительно меньше расчетного, tрасч > tтабл., отсюда можно сделать вывод о том, что коэффициент множественной корреляции существенен. Значение критерия Фишера Fрасч = 0,993 больше по сравнению со значением критерия Фишера для первой рассмотренной зависимости, значит, последняя зависимость является более пригодной для прогноза.

В то же время, поскольку значение критерия Фишера мало, его нельзя использовать на практике для планирования и проектирования АСУТП, поскольку зависимость плохо описывает реальный процесс.

Графики и номограммы

Графики и номограммы служат для наглядного представления полученных уравнений многофакторной регрессии. Графики используются для анализа влияния каждого из входящих в уравнение факторов хi, на результирующий показатель у. Для построения графика все параметры, кроме одного, фиксируются на среднем уровне. Номограмма может быть использована как рабочий документ по двум направлениям:

– для определения уровня у по заданным уровням хi ;

– для определения уровней хi по заданному уровню у.

Рассмотрим две зависимости (см. табл. 1 приложения).

1. Зависимость количества переработанной руды (1) от содержания металла в руде (2), содержания металла в концентрате (4), содержания серы в концентрате (5), извлечения (6) (рис. 8.1).

Стандартизированный вид уравнения регрессии:

у10 = –0,418х20 + 1,014х40 1,339х50 + 1,115х60.

Уравнение регрессии в натуральном масштабе:

у = 1136,08 – 122,97х 2 + 529,16х 4 – 17,92х5 + 2034,78х6.

Проведение многофакторного корреляционного анализа - student2.ru

Рис. 8.1. Результирующий показатель

Графики на рис. 8.1 показывают, что наибольшее влияние на результирующий показатель у (количество переработанной руды) оказывает параметр х6 (извлечение). Очень слабое влияние оказывает х4 (содержания металла в концентрате). Негативную роль играют х2 и х5 (содержания металла в руде и серы в концентрате).

Для построения линий номограммы следует проанализировать β-коэффициенты в стандартизированном уравнении. Минимальное значение имеет β1, т. е. содержания металла в руде (х20) оказывает наименьшее воздействие на выходную величину. Поэтому усредняем х2020 = 0,58). Из оставшихся параметров находим тот, при котором β-коэффициент имеет минимальное значение. Из оставшихся параметров минимальное значение принимает β4, следовательно, содержание металла в концентрате (х40) будет формировать линии на монограмме (рис. 8.2).

2. Зависимость извлечения (6) от (рис. 8.3) количества перерабатываемой руды (1), содержания металла в руде (2), содержания металла в хвосте (7), содержания металла в сульфате (8).

Стандартизированный вид уравнения:

у60 = 0,004 4х10 + 1,368х20 – 1,272х70 – 1,181х80.

Уравнение регрессии в натуральном масштабе:

у = 55,31 + 0,000 3 х1 + 43,27х2 – 37,34х7 + 2,78х8.

Проведение многофакторного корреляционного анализа - student2.ru

Рис. 8.2. линии номограммы:

Проведение многофакторного корреляционного анализа - student2.ru

Рис. 8.3. Зависимость извлечения:

Графики на рис. 8.3, показывают, что наибольшее влияние на результирующий показатель у6 (извлечение) оказывает параметр х2 (содержания металла в руде). Почти не играет роли х1 (количество переработанной руды). Малое влияние оказывает х8 (содержание металла в сульфате), слабо негативную роль играет х7 (содержание металла в хвосте).

Для построения линий номограммы анализируются β-коэффи-
циенты в стандартизированном уравнении. Минимальное значение имеет β1, т. е. количества перерабатываемой руды (х10) оказывает наименьшее воздействие на выходную величину. Поэтому усредняем х1010 = 253,68). Из оставшихся параметров находим тот, при котором β-коэффициент имеет минимальное значение, т. е. β4, следовательно. содержание металла в сульфате (х80) будет формировать линии на монограмме (рис. 8.4).

Проведение многофакторного корреляционного анализа - student2.ru

Рис. 8.4. линии номограммы

Порядок выполнения работы

1. Используя приведенные методики изучить процедуру проведения многофакторного корреляционного анализа.

2. Построить уравнение регрессии в стандартизированном масштабе.

3. Построить уравнение регрессии в натуральном масштабе.

4. Оценить надежность полученного уравнения используя лекционный материал и [3].

5. Построить график и номограмму.

Контрольные вопросы

1. Что характеризует коэффициент парной корреляции?

2. Как составляется матрица парных коэффициентов корреляции многофакторной регрессии?

3. Чем уравнение регрессии в стандартизированном масштабе отличается уравнения регрессии в натуральном масштабе?

4. Как строится номограмма?

5. Чем множественная регрессия отличается от парной?


Заключение

Проведенные для исследуемых массивов (Приложения 1) аналитические группировки и однофакторный дисперсионный анализ подтверждают:

– влияние смены на количество переработанной руды (21,65 %);

– влияние декады на содержание металла в сульфате (42,85 %).

Гипотезы о влиянии смены на остальные параметры смены не подтвердились. При разработке АСУТП необходимо будет учитывать это обстоятельство.

Среди исследуемых массивов только у показателей «содержание металла в руде» и «извлечение» коэффициенты вариации < 8 %. Значит, связанные с ними процессы являются наиболее устойчивыми, сбои в них маловероятны.

Большее внимание нужно уделить тем параметрам, для которых коэффициент вариации больше 12 % и меньше 33 %, эти процессы малоустойчивы:

– количество переработанной руды;

– содержание металла в руде;

– выходной концентрации;

– содержание серы в концентрате;

– содержание металла в хвосте.

К производственным процессам, связанные с этими параметрами, следует принять дополнительные меры по стабилизации.

Для параметра «содержание металла в сульфате» коэффициент вариации больше 33 %, значит, процесс неустойчив, вероятность возникновения сбоев велика. Данный процесс нужно срочно стабилизировать, иначе велика вероятность разрушения производства. Этот коэффициент можно уменьшить, вводя на производство специальные средства контроля, заменяя оборудования для производства или улучшая сам процесс обработки руды.

Проведенный анализ показывает, что для практического использования на производстве в качестве нормативов лучше использовать линейные зависимости параметров.


Библиографический список

1. Дрейпер, Н. Прикладной регрессионный анализ / Н. Дрейпер, Г. Смит. М. ;СПб. ;Киев : Диалектика, 2008. 380 с.

2. Чурляева, Н. П. Дисперсионный и энтропийный анализ
в машиностроении : учеб. пособие для студентов / Н. П. Чурляева,
С. И. Яхимович. Сиб. аэрокосмич. акад. Красноярск, 1995. 42 с.

3. Чурляева, Н. П. Основы статистического моделирования : учеб.-метод. пособие / Н. П. Чурляева, С. И. Яхимович. Красн. ин-т космич. техники. Красноярск, 1991. 99 с.

Приложение

Таблица 1

Исходный массив данных

Дата День недели Смена Мастер Количество переработанной руды Содержание Me в руде Выход конц. Содержание Me в конц. Содержание S в конц. Извлечение Потери
Содержание Me в хвост. Содержание Me в сульф.
январь       Т   % % % % % %
0,80 0,67 66,52 0,49 72,10 0,22 0,54
0,70 0,72 68,25 0,52 70,10 0,20 0,73
0,36 0,30 69,50 0,32 58,30 0,14 0,68
0,49 0,55 64,98 0,56 72,80 0,12 0,82
0,47 0,50 68,25 0,52 72,20 0,12 0,67
0,51 0,56 66,40 0,53 72,70 0,13 0,64
0,48 0,51 68,40 0,35 72,70 0,12 0,67
0,49 0,57 65,39 0,77 76,40 0,09 0,58
0,45 0,48 69,24 0,37 74,30 0,11 0,40
0,37 0,41 65,64 0,55 72,70 0,09 0,66
0,46 0,52 64,44 0,42 72,10 0,12 0,57
0,52 0,56 65,68 0,46 70,20 0,15 0,43
0,68 0,72 68,87 0,30 73,20 0,17 0,88
0,63 0,68 65,92 0,55 70,60 0,16 1,46
0,43 0,46 66,70 0,57 70,90 0,13 0,86
0,45 0,47 68,04 0,45 70,60 0,12 0,77
0,56 0,64 65,92 0,53 74,80 0,13 0,73
0,45 0,46 66,70 0,57 67,70 0,13 0,96
0,73 0,83 68,04 0,45 77,00 0,15 1,08
               
0,67 0,79 64,47 0,31 75,90 0,16 1,36
0,54 0,59 68,62 0,47 75,00 0,13 0,42
0,55 0,59 68,57 0,28 73,30 0,14 1,10
0,48 0,50 67,27 0,36 70,40 0,13 0,76
0,64 0,73 66,20 0,38 75,60 0,14 0,96
0,50 0,53 66,45 0,42 70,30 0,14 0,63
0,54 0,59 66,51 0,33 71,90 0,14 0,76
0,57 0,60 67,34 0,34 70,70 0,16 0,57
0,67 0,76 67,44 0,36 76,60 0,14 0,64
0,58 0,64 65,89 0,62 72,90 0,15 0,54
0,48 0,48 66,75 0,32 66,30 0,14 1,26
0,46 0,40 68,84 0,45 58,70 0,18 0,73
0,58 0,63 68,56 0,47 74,90 0,14 0,60

Продолжение табл. 1

0,56 0,63 67,10 0,24 75,20 0,13 0,60
0,57 0,63 68,28 0,49 75,60 0,13 0,60
0,64 0,72 67,80 0,27 76,00 0,15 0,36
0,48 0,17 66,63 0,24 73,50 0,12 0,52
0,46 0,50 68,28 0,49 74,50 0,11 0,52
0,46 0,52 67,80 0,27 76,40 0,10 0,58
0,52 0,62 62,88 0,42 74,90 0,12 0,65
               
0,52 0,59 65,88 0,32 74,40 0,12 0,65
0,48 0,52 64,54 0,25 70,00 0,13 0,88
0,53 0,59 65,68 0,27 72,70 0,13 0,90
0,70 0,80 65,72 0,30 75,00 0,16 0,96
0,62 0,94 65,80 0,24 74,80 0,15 0,48
0,64 0,72 66,93 0,34 74,50 0,16 0,68
0,60 0,67 67,60 0,45 75,20 0,14 0,65
0,54 0,83 65,31 0,37 65,60 0,17 1,06
0,67 0,71 69,22 0,35 72,80 0,18 0,34
0,78 0,91 68,24 0,84 79,80 0,15 0,63
0,60 0,69 66,06 0,47 75,30 0,14 0,56
0,41 0,41 67,46 0,42 66,90 0,13 0,44
0,52 0,62 68,66 0,44 81,50 0,09 0,44
0,67 0,47 67,02 0,48 73,80 0,17 0,56
0,57 0,64 66,63 0,58 73,30 0,13 0,63
0,56 0,62 68,40 0,46 75,90 0,13 0,40
0,48 0,52 66,73 0,47 72,40 0,12 0,76
0,48 0,48 66,63 0,58 66,60 0,14 1,20
0,74 0,83 68,50 0,38 77,00 0,16 0,78
0,57 0,60 66,73 0,47 70,20 0,16 0,67
               
0,66 0,73 64,51 0,53 71,50 0,18 0,62
0,57 0,58 67,62 0,43 69,20 0,17 0,53
0,47 0,47 62,29 0,67 61,80 0,16 1,16
0,52 0,57 66,48 0,37 72,10 0,14 0,44
0,58 0,69 64,72 0,48 76,50 0,13 0,50
0,57 0,67 55,33 0,52 76,80 0,13 0,28
0,62 0,73 65,54 0,32 76,90 0,14 0,32
0,46 0,50 67,09 0,30 73,00 0,12 0,37
0,50 0,56 64,38 0,29 71,60 0,14 0,30
0,70 0,91 62,02 0,36 80,90 0,13 0,32
0,60 0,64 67,34 0,21 71,50 0,17 0,32
0,58 0,73 61,22 0,29 76,60 0,12 0,25
0,83 1,11 62,86 0,47 84,00 0,13 0,28
0,54 0,62 65,66 0,39 75,70 0,13 0,23
0,62 0,73 65,33 0,27 76,60 0,14 0,44
0,52 0,59 66,48 0,52 74,70 0,13 0,23
0,50 0,56 64,38 0,29 71,80 0,14 0,24
0,50 0,53 67,80 0,21 72,20 0,14 0,42
0,56 0,58 68,66 0,30 71,00 0,16 0,34
0,92 1,13 62,02 0,42 76,10 0,22 0,34
1,17 1,38 65,20 0,37 77,20 0,25 0,82
0,80 0,93 66,52 0,49 77,30 0,18 0,35
0,76 0,89 65,30 0,69 76,30 0,18 0,30
0,76 0,85 69,06 0,51 77,50 0,17 0,37
0,68 0,83 66,45 0,42 80,50 0,13 0,32
0,59 0,73 64,48 0,56 79,20 0,12 0,33
0,63 0,74 70,23 0,54 82,00 0,11 1,32
0,62 0,74 67,38 0,51 80,60 0,12 0,25

Таблица 2

Наши рекомендации