Линейная регрессия в условиях мультиколлинеарности. Ридж-оценивание.
Построение модели множественной регрессии является одним из методов характеристики аналитической формы связи между зависимой (результативной) переменной и несколькими независимыми (факторными) переменными.Модель множественной регрессии строится в том случае, если коэффициент множественной корреляции показал наличие связи между исследуемыми переменными.Общий вид линейной модели множественной регрессии: ,где yi – значение i-ой результативной переменной, – значения факторных переменных; – неизвестные коэффициенты модели множественной регрессии;εi – случайные ошибки модели множественной регрессии.Общий вид нормальной линейной модели парной регрессии в матричной форме:Y=X* β+ε,Где– случайный вектор-столбец значений результативной переменной размерности (n*1);– матрица значений факторной переменной размерности (n*(m+1)). Первый столбец является единичным, потому что в модели регрессии коэффициент β0 умножается на единицу;– вектор-столбец неизвестных коэффициентов модели регрессии размерности ((m+1)*1);– случайный вектор-столбец ошибок модели регрессии размерности (n*1).Включение в линейную модель множественной регрессии случайного вектора-столбца ошибок модели обусловлено тем, что практически невозможно оценить связь между переменными со 100-процентной точностью.Наибольшие затруднения в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторных переменных, когда более чем два фактора связаны между собой линейной зависимостью.Мультиколлинеарностью для линейной множественной регрессии называется наличие линейной зависимости между факторными переменными, включёнными в модель.Мультиколлинеарность – нарушение одного из основных условий, лежащих в основе построения линейной модели множественной регрессии.Чем сильнее мультиколлинеарность факторных переменных, тем менее надежной является оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.Включение в модель мультиколлинеарных факторов нежелательно по нескольким причинам:1) основная гипотеза о незначимости коэффициентов множественной регрессии может подтвердиться, но сама модель регрессии при проверке с помощью F-критерия оказывается значимой, что говорит о завышенной величине коэффициента множественной корреляции;2) полученные оценки коэффициентов модели множественной регрессии могут быть неоправданно завышены или иметь неправильные знаки;3) добавление или исключение из исходных данных одного-двух наблюдений оказывает сильное влияние на оценки коэффициентов модели;4) мультиколлинеарные факторы, включённые в модель множественной регрессии, способны сделать её непригодной для дальнейшего применения.Конкретных методов обнаружения мультиколлинеарности не существует, а принято применять ряд эмпирических приёмов. В большинстве случаев множественный регрессионный анализ начинается с рассмотрения корреляционной матрицы факторных переменных R или матрицы (ХТХ).Для устранения эффекта мультиколлинеарности используется метод ридж-оценивания. При использовании этого метода оценки векторов коэффициентов регрессии выглядят следующим образом: где Результатом применения гребневой регрессии является уменьшение стандартных ошибок коэффициентов модели множественной регрессии по причине их стабилизации к определённому числу.
43. Модель сетевого планирования. Методы СРН и PERT.
Выполнение комплексных научных исследований, а также проектирование и строительство промышленных, сельскохозяйственных и транспортных объектов требуют календарной увязки большого числа взаимосвязанных работ, выполняемых различными организациями. Составление и анализ соответствующих календарных планов представляют собой весьма сложную задачу, при решении которой применяются так называемые методы сетевого планирования. По существу, этот метод дает возможность определить, во-первых, какие работы или операции из числа многих, составляющих проект, являются «критическими» по своему влиянию на общую календарную продолжительность проекта и, во-вторых, каким образом построить наилучший календарный план проведения всех работ по данному проекту с тем, чтобы выдержать заданные сроки при минимальных затратах. Сетевой моделью (СМ) называется экономико-математическая модель, отражающая весь комплекс работ и событий, связанных с реализацией проекта в их логической и технологической последовательности и связи. В СПУ применяются связные, ориентированные графы без циклов, имеющие одну начальную и одну конечную вершину. Основные понятия сетевой модели: событие, работа, путь. Работа характеризует любое действие, требующее затрат времени или ресурсов. Работами считаются и процессы, не требующие затрат времени и ресурсов, а устанавливающие зависимости выполнения работ. Такие работы называются фиктивными. Работа обозначается парой чисел (i,j) где i – номер события, являющимся начальным для данной работы, j – номер события, являющимся конечным для данной работы, в которое она входит. Работа не может начаться раньше, чем свершится событие, являющееся для нее начальным. Каждая работа имеет свою продолжительность t(i,j). Работы на графах обозначаются дугами (стрелками), фиктивные работы обозначаются пунктирными стрелками. Событиями называются начало или завершение одной или нескольких работ. Они не имеют протяженности во времени. Событие совершается в тот момент, когда оканчивается последняя работа, входящая в него. На графе события изображаются кружками, внутри которых записывается номер события. В моделях СПУ имеется одно начальное событие (номер 0), одно конечное событие или завершающее (номер N) и промежуточные события (номер i). В графической интерпретации сетевой модели работы представляются дугами, а события – вершинами графа. Путь – цепочка следующих друг за другом работ (дуг), соединяющих начальную и конечную его вершины. Полный путь L – путь, начало которого совпадает с начальным событием сети, а конец – с завершающим. Продолжительность пути определяется суммой продолжительностей составляющих его работ. Путь, имеющий максимальную продолжительность, называют критическим (обозначение Lкр). Продолжительность критического пути обозначается как tкр_. Работы, принадлежащие критическому пути, называются критическими. Их несвоевременное выполнение ведет к срыву сроков всего комплекса работ.
Сетевая модель должна удовлетворяет следующим требованиям: 1.Не должно быть событий с одинаковыми номерами. 2.Для каждой работы (i,j) должно выполняться i<j. 3.Должны быть только одно начальное и одно конечное события. 4.Должны отсутствовать циклы, т.е. замкнутые пути, соединяющие событие с ним же самим. При выполнении этих требований можно приступать к вычислениям числовых характеристик СМ. Исходные числовые данные СМ представляются в виде таблицы длительности выполнения каждой работы. При расчетах для сетевой модели определяются следующие характеристики ее элементов.
Характеристики событий:1.Ранний срок свершения события tp(0) = 0, tР(j) =тахi{tр(i) + t(ij)}, j=1—N характеризует самый ранний срок завершения всех путей, в него входящих. Этот показатель определяется «прямым ходом» по графу модели, начиная с начального события сети. 2.Поздний срок свершения события tп(N) = tр(N), tп (i) = minj {(tп(j)–t(ij)}, i=1—(N-1) характеризует самый поздний срок, после которого остается ровно столько времени, сколько требуется для завершения всех путей, следующих за этим событием. Этот показатель определяется «обратным ходом» по графу модели, начиная с завершающего события сети. 3. Резерв времени события R(T) = tп(i) – tр(i) показывает, на какой максимальный срок можно задержать наступление этого события, не вызывая при этом увеличения срока выполнения всего комплекса работ. Резервы времени для событий на критическом пути равны нулю, R(i) = 0.
• Характеристики работы (i,j):1.Ранний срок начала работы: .2.Ранний срок окончания работы: .3.Поздний срок начала работы: .4.Поздний срок окончания работы: .5Резервы времени работ:• полный резерв – максимальный запас времени, на который можно отсрочить начало или увеличить длительность работы без увеличения длительности критического пути. Работы на критическом пути не имеют полного резерва времени;• частный резерв – часть полного резерва, на которую можно увеличить продолжительность работы, не изменив позднего срока ее начального события;•свободный резерв – максимальный запас времени, на который можно задержать начало работы или (если она началась в ранний срок) увеличит ее продолжительность, не изменяя ранних сроков начала последующих работ;•независимый резерв– – запас времени, при котором все предшествующие работы заканчиваются в поздние сроки, а все последующие – начинаются в ранние сроки. Использование этого резерва не влияет на величину резервов времени других работ.
Характеристики путей:Продолжительность пути равна сумме продолжительностей составляющих ее работ. Резерв времени пути равен разности между длинами критического пути и рассматриваемого пути. Резерв времени пути показывает, на сколько может увеличиться продолжительность работ, составляющих данный путь, без изменения продолжительности срока выполнения всех работ. В сетевой модели можно выделить так называемый критический путь. Критический путь Lкр состоит из работ (i,j), у которых полный резерв времени равен нулю Rп(i,j)=0, кроме этого, резерв времени R(i) всех событий iна критическом равен 0. Длина критического пути определяет величину наиболее длинного пути от начального до конечного события сети и равна . Заметим, что в проекте может быть несколько критических путей.
Метод СРМ.Исходным шагом для применения метода CPM является описание проекта в виде перечня выполняемых работ с указанием их взаимосвязи. Для описания проекта используются два основных способа: табличный и графический. Рассмотрим следующую таблицу, описывающую проект.
Работа | Непосредственно предшествующая работа | Время выполнения |
A | - | tA |
B | - | tB |
C | B | tC |
D | A, C | tD |
В первом столбце указаны наименования всех работ проекта. Их четыре: A, B, C, D. Во втором столбце указаны работы, непосредственно предшествующие данной. У работ A и B нет предшествующих. Работе C непосредственно предшествует работа B. Это означает, что работа C может быть начата только после того, как завершится работа B. Работе D непосредственно предшествуют две работы: A и C. Это означает, что работа D может быть начата только после того, как завершатся работы A и C. В третьем столбце таблицы для каждой работы указано время ее выполнения. На основе этой таблицы может быть построено следующее графическое описание проекта.
C |
B |
A |
D |
Из приведенных выше определений и соотношений непосредственно следует:
1) Длина критического пути равна T.
2) Если R(i,j) = 0, то работа (i,j) лежит на критическом пути; если R(i,j)≠0, то работа (i,j) не лежит на критическом пути.
3) Если время начала работы (i,j), которая не лежит на критическом пути, отложить на срок меньший, чем r(i,j), то наиболее раннее время наступления последующего события не изменится.
4) Если время начала работы (i,j), которая не лежит на критическом пути, отложить на срок меньший, чем R(i,j), то время, необходимое на выполнение всего проекта, не увеличится.
Метод PERT.Для того, чтобы использовать метод PERT, для каждой работы i, время выполнения которой является случайной величиной, необходимо определить следующие три оценки:1.Оптимистическое время -время выполнения работы i в наиболее благоприятных условиях. 2.Наиболее вероятное время - время выполнения работы i в нормальных условиях. 3.Пессимистическое время - время выполнения работы i в неблагоприятных условиях.
Учитывая, что время выполнения работы хорошо описывается бета – распределением, среднее или ожидаемое время tiвыполнения работы i может быть определено по формуле .Если время выполнения работы i известно точно и равно , то .Располагая указанными выше тремя оценками времени выполнения работы, мы можем также рассчитать общепринятую статистическую меру неопределенности – дисперсию или вариацию variвремени выполнения работы i: . Если время выполнения работы i известно точно, то = vari = 0. Пусть Т - время, необходимое для выполнения проекта. Если в проекте есть работы с неопределенным временем выполнения, то время Т является случайной величиной. Математическое ожидание (ожидаемое значение) времени выполнения проекта Е(Т) равно сумме ожидаемых значений времени выполнения работ, лежащих на критическом пути. Для определения критического пути проекта может быть использован метод CPM. На этом этапе анализа проекта время выполнения работы полагается равным ожидаемому времени ti. Вариация (дисперсия) общего времени, требуемого для завершения проекта, в предположении о независимости времен выполнения работ равна сумме вариаций работ критического пути. Если же две или более работы взаимозависимы, то указанная сумма дает приближенное представление о вариации времени завершения проекта. Распределение времени T завершения проекта является ассимптотически нормальным со средним Е(Т) и дисперсией (T). С учетом этого можно рассчитать вероятность завершения проекта в установленный срок T0. Для определения вероятности того, что T≤T0, следует использовать таблицу распределения величины z=(T0-E(T))/s(T), которая имеет стандартное нормальное распределение.