Вычисление коэффициентов линейной множественной регрессии
Цель работы. Используя пространственную выборку таблицы 3.1 необходимо вычислить вектор коэффициентов
уравнения регрессии (3.1).
Расчетные соотношения. Вектор коэффициентов, найденный методом наименьших квадратов является решением следующей системы уравнений:
,
где - матрица размера , первый столбец которой составлен из 1, а другие два столбца составлены из значений ,т.е. матрица имеет следующую структуру (символы … означают не отображенные элементы)
,
а - вектор, составленный из 10 значений , т.е.
.
Матрица имеет обратную матрицу и тогда вектор коэффициентов вычисляется в виде:
. (3.2)
Матричные функции Excel. Для реализации этой матричной формулы в необходимо выполнить следующие операции: транспонирование; умножение матриц (частный случай – умножение матрицы на вектор); вычисление обратной матрицы. Все эти операции можно реализовать с помощью следующих матричных функций Excel. Для работы с этими функциями можно или а) обратиться к Мастеру функций и выбрать нужную категорию функций, затем указать имя функции и задать соответствующие диапазоны ячеек, или б) ввести с клавиатуры имя функции задать соответствующие диапазоны ячеек.
Транспонирование матрицы осуществляется с помощью функции ТРАНСП (категория функций – Ссылки и массивы). Обращение к функции имеет вид:
ТРАНСП (диапазон ячеек),
где параметр диапазон ячеек задает все элементы транспонируемой матрицы (или вектора).
Умножение матриц осуществляется с помощью функции МУМНОЖ (категория функций – Математические).Обращение к функции имеет вид:
МУМНОЖ(диапазон_1;диапазон_2),
где параметр диапазон_1 задает элементы первой из перемножаемых матриц, а параметр диапазон_2 – элементы второй матрицы. При этом перемножаемые матрицы должны иметь соответствующие размеры (если первая матрица , вторая - , то результатом будет матрица ).
Обращение матрицы (вычисление обратной матрицы) осуществляется с помощью функции МОБР (категория функций – Математические). Обращение к функции имеет вид:
МОБР (диапазон ячеек),
где параметр диапазон ячеек задает все элементы обращаемой матрицы, которая должна быть квадратной и невырожденной.
При использовании этих функций необходимо соблюдать следующий порядок действий:
· выделить фрагмент ячеек, в которые будет занесен результат выполнения матричных функций (при этом надо учитывать размеры исходных матриц);
· ввести арифметическое выражение, содержащее обращение к матричным функциям Excel;
· одновременно нажать клавиши [Ctrl], [Shift], [Enter]. Если этого не сделать, то вычислится только один элемент результирующей матрицы или вектора.
Решение. Сформируем матрицу и вектор (см. рис. 3.1).
Рис. 3.1. Вычисление коэффициентов множественной регрессии
Затем выполним формирование матрицы , вектора и вычисление вектора по формуле (3.2). Все эти вычисления показаны на рис. 3.1.
Получен вектор коэффициентов и тогда уравнение регрессии (3.1) примет вид:
. (3.3)
Лабораторная работа № 3.2
Вычисление коэффициентов линейной множественной регрессии и проверка значимости в режиме Регрессия
Цель работы. Используя пространственную выборку таблицы 3.1 и используя режим Регрессия необходимо вычислить вектор коэффициентов уравнения регрессии
. (3.4)
Режим Регрессия модуля Анализ данных. Табличный процессор Excel содержит модуль Анализ данных. Этотмодуль позволяет выполнить статистический анализ выборочных данных (построение гистограмм, вычисление числовых характеристик и т.д.). Режим работы Регрессия этого модуля осуществляет вычисление коэффициентов линейной множественной регрессии с переменными, построение доверительные интервалы и проверку значимости уравнения регрессии.
Для вызова режима Регрессиямодуля Анализ данных необходимо:
· обратиться к пункту менюСервис;
· в появившемся меню выполнить команду Анализ данных;
· в списке режимов работы модуля Анализ данных выбрать режим Регрессия и щелкнуть на кнопке Ok.
После вызова режимаРегрессияна экране появляется диалоговое окно (см. рис. 3.2), в котором задаются следующие параметры:
1. Входной интервал Y – вводится диапазон адресов ячеек, содержащих значения (ячейки должны составлять один столбец).
Рис. 3.2. Диалоговое окно режима Регрессия
2. Входной интервал X – вводится диапазон адресов ячеек, содержащих значения независимых переменных. Значения каждой переменной представляются одним столбцом. Количество переменных не более 16 (т.е. ).
3. Метки – включается если первая строка во входном диапазоне содержит заголовок. В этом случае автоматически будут созданы стандартные названия.
4. Уровень надежности – при включении этого параметра задается надежность при построении доверительных интервалов.
5. Константа-ноль – при включении этого параметра коэффициент .
6. Выходной интервал – при включении активизируется поле, в которое необходимо ввести адрес левой верхней ячейки выходного диапазона, который содержит ячейки с результатами вычислений режима Регрессия.
7. Новый рабочий лист – при включении этого параметра открывается новый лист, в который начиная с ячейки А1 вставляются результаты работы режима Регрессия.
8. Новая рабочая книга - при включении этого параметра открывается новая книга на первом листе которой начиная с ячейки А1 вставляются результаты работы режима Регрессия.
9. Остатки – привключении вычисляется столбец, содержащий невязки .
10. Стандартизованные остатки – при включении вычисляется столбец, содержащий стандартизованные остатки.
11. График остатков – при включении выводятся точечные графики невязки , в зависимости от значений переменных . Количество графиков равно числу переменных .
12. График подбора – при включении выводятся точечные графики предсказанных по построенной регрессии значений от значений переменных . Количество графиков равно числу переменных .
Решение. Первоначально введем в столбец С десять значений первой переменной, в столбец D - десять значений первой переменной (см. рис. 3.2), а в столбец F – десять значений зависимой переменной.
После этого вызовем режим Регрессия и в диалоговом окне зададим необходимые параметры (см. рис. 3.2). Результаты работы приводятся рис. 3.3 – 3.5. Заметим, из-за большой «ширины» таблиц, в которых выводятся результаты работы режима Регрессия, часть результатов помещены в другие ячейки.
Рис. 3.3. Результаты работы режима Регрессия
Дадим краткую интерпретацию показателям, значения которых вычисляются в режиме Регрессия. Первоначально рассмотрим показатели, объединенные названием Регрессионная статистика (см. рис. 3.3).
Множественный - корень квадратный из коэффициента детерминации.
квадрат – коэффициент детерминации .
Нормированный квадрат – приведенный коэффициент детерминации (см. формулу (2.1)).
Стандартная ошибка – оценка для среднеквадратического отклонения .
Наблюдения – число наблюдений .
Перейдем к показателям, объединенных названием Дисперсионный анализ (см. рис. 3.3).
Столбец - число степеней свободы. Для строки Регрессия показатель равен числу независимых переменных ; для строки Остаток - равен ; для строки Итого – равен .
Столбец SS – сумма квадратов отклонений. Для строки Регрессия показатель равен величине (см. формулы (1.16)), т.е.
;
для строки Остаток - равен величине (см. формулы (1.16)), т.е.
;
для строки Итого – равен .
Столбец дисперсии, вычисленные по формуле
,
т.е. дисперсия на одну степень свободы.
Столбец – значение , равное критерию Фишера, вычисленного по формуле:
.
Столбец значимость - значение уровня значимости, соответствующее вычисленной величине критерия и равное вероятности , где - случайная величина, подчиняющаяся распределению Фишера с степенями свободы. Эту вероятность можно также определить с помощью функции FРАСП( ). Если вероятность меньше уровня значимости (обычно ), то построенная регрессия является значимой..
Перейдем к следующей группе показателей, объединенных в таблице, показанной на рис. 3.4.
Рис. 3.4. Продолжение результатов работы режима Регрессия
Столбец Коэффициенты – вычисленные значения коэффициентов , расположенных сверху-вниз.
Столбец Стандартная ошибка – значения , вычисленные по формуле .
Столбец статистика – значения статистик .
Столбец Р – значение – содержит вероятности случайных событий , где случайная величина, подчиняющаяся распределению Стьюдента с степенями свободы.
Если эта вероятность меньше уровня значимости , то принимается гипотеза о значимости соответствующего коэффициента регрессии.
Из рис. 3.4 видно, что значимым коэффициентом является только коэффициент .
Столбцы Нижние 95% и Верхние 95% - соответственно нижние и верхние интервалы для оцениваемых коэффициентов .
Перейдем к следующей группе показателей, объединенных в таблице, показанной на рис. 3.5.
Рис. 3.5. Продолжение результатов работы режима Регрессия
Столбец Наблюдение – содержит номера наблюдений.
Столбец Предсказанное У – значения , вычисленные по построенному уравнению регрессии.
Столбец Остатки – значения невязок
В заключении рассмотрения результатов работы режима Регрессия приведем график невязок (на рисунке 3.6 невязки названы остатками) при заданных значениях только второй переменной. Наличие чередующихся положительных и отрицательных значений невязок является косвенным признаком отсутствия систематической ошибки (неучтенной независимой переменной) в построенном уравнении регрессии.
Рис. 3.6. График невязок как функция переменной