Лабораторные работы № 8, 9
Линейная, экспоненциальная и полиномиальная регрессия
1. Цель работы:
1.1. Изучить методы проведения регрессионного танализа экспериментальных данных.
2. Литература:
2.1. Чернышов Ю. Н. Информационные технологии в экономике и управлении : учеб. пособие для вузов / Ю. Н. Чернышов .- 2-е изд., испр. и доп.- М. : Горячая линия - Телеком, 2008
2.2. Рагулина М. И. Информационные технологии в математике : учеб. пособие для студ. вузов / Рагулина М. И.; под ред. М. П. Лапчика .- М. : Академия, 2008.
2.3. Сырецкий Г.А. Информатика. Фундаментальный курс. Том 1, 2. – Москва, 2005- 234с.
2.4. Интернет-технологии в экономике знаний : учебник / под ред. Н. М. Абдикеева .- М. : ИНФРА-М, 2010
3. Основное оборудование:
3.1. ПЭВМ.
3.2. Электронные таблицы Microsoft Excel.
3.3. Среда математической обработки данных MathCad..
4. Задание:
4.1. Изучить теоретический материал по теме «Линейная, экспоненциальная и полиномиальная регрессия».
4.2. Решить задачи с помощью программ Excel и MathCad.
4.3. Составить отчет по работе.
Теоретические сведения
Линейная регрессия
В технике часто возникает задача подбора функциональной зависимости для двух наборов данных. Независимые переменные х называют факторами, а зависимые у — откликами. Функция у = f(x) позволяет предсказывать значение отклика для факторов, не входящих в исходную совокупность.
Так как задача отыскания функциональной зависимости очень важна, в Excel введен набор функций, которые позволяют решать эту задачу. Эти функции основаны на методе наименьших квадратов. Но регрессионный анализ — это не только метод наименьших квадратов. Относительно исходных данных делаются некоторые статистические предположения. В качестве результата выдаются не только коэффициенты функции, приближающей данные, но и статистические характеристики полученных результатов.
Рассмотрим основные функции, используемые для регрессионного анализа.
Функция ЛИНЕЙН(известные_значения_y; известные_значения_x; конст; статистика) рассчитывает статистику для ряда данных с применением метода наименьших квадратов, чтобы вычислить коэффициенты уравнения прямой, которая наилучшим образом аппроксимирует имеющиеся данные. Функция возвращает массив, который описывает полученную прямую. Поскольку возвращается массив значений, функция должна задаваться в виде табличной формулы. ЛИНЕЙН может также возвращать дополнительную регрессионную статистику.
Известные_значения_y - это множество значений y, которые уже известны для соотношения y = mx + b.
Известные_значения_x - это необязательное множество значений x, которые уже известны для соотношения y = mx + b. Если известные_значения_x опущены, то предполагается, что это массив {1;2;3;...} такого же размера как и известные_значения_y.
Конст- это логическое значение, которое указывает, требуется ли, чтобы константа b была равна 0. Если конст имеет значение ИСТИНА или опущено, то b вычисляется обычным образом. Если конст имеет значение ЛОЖЬ, то b полагается равным 0 и значения m подбираются так, чтобы выполнялось соотношение y = mx.
Статистика- это логическое значение, которое указывает, требуется ли вернуть дополнительную статистику по регрессии. Если статистика имеет значение ИСТИНА, то функция ЛИНЕЙН возвращает дополнительную регрессионную статистику. Если статистика имеет значение ЛОЖЬ или опущена, то функция ЛИНЕЙН возвращает только коэффициенты m и постоянную b.
Вместо ИСТИНА и ЛОЖЬ в функцию можно вводить аргументы 1 и 0, что намного удобнее.
Рассмотрим решение задачи линейной регрессии с помощью функции ЛИНЕЙН на примере.
Пример.
Дан набор экспериментальных данных Хi = {0, 1, 2, 3, 4} и Yi = {3, 1, 6, 3, 7}. Найти коэффициенты m и b прямой линии y = mx + b, наилучшим образом аппроксимирующей эти данные.
Решение.
Ввести массив Хi диапазон А2:А6.
Ввести массив Yi диапазон В2:В6.
Так как функция возвращает сразу несколько значений, формулу с этой функцией надо вводить как табличную. Для получения полной статистики, надо выделить блок из пяти строк и двух столбцов. Поэтому выделим блок D2:E6.
В Мастере функций выбрать в категории "Статистические" функцию ЛИНЕИН.
С помощью навигатора заполнить аргументы так, как показано на рис.1.6.
Нажать комбинацию клавиш Ctrl+Shift+Enter.
Результат решения задачи приведен на рисунке.
В ячейку D2 записан коэффициент т, в E2 — коэффициент b. Под этими коэффициентами записаны стандартные отклонения (т.е. среднеквадратичные отклонения, или корни квадратные из дисперсий) для этих коэффициентов.
В ячейку D4 записан так называемый коэффициент детерминации. Этот коэффициент лежит на отрезке [0; I]. Считается, что чем ближе этот коэффициент к 1, тем лучше регрессионное уравнение описывает зависимость.
Рис. Заполнение аргументов функции ЛИНЕЙН.
В ячейке E4 находится стандартная ошибка для оценки у. В ячейку D5 записано значение F-статистики, а в E5 — количество степеней свободы. Число степеней свободы нужно для расчета критических значений F-статистики (этого вопроса мы касаться не будем).
В последней строке таблицы записаны регрессионная сумма квадратов и сумма квадратов остатков.
Для того чтобы осмыслить значения этих статистических оценок, нужны серьезные познания в области математической статистики.
Наиболее важными являются коэффициенты т и b. Их можно вычислить с помощью функций НАКЛОН и ОТРЕЗОК, не прибегая к функции ЛИНЕИН. Названия этих функций отвечают геометрическому смыслу коэффициентов регрессии: т — это тангенс угла наклона прямой регрессии, a b — отрезок, отсекаемый этой прямой на оси ординат.
Рис. Решение задачи линейной регрессии с помощью функции ЛИНЕЙН.
Функция НАКЛОН(известные_значения_y; известные_значения_x) и функция ОТРЕЗОК(известные_значения_y; известные_значения_x)имеют одинаковый набор аргументов.
Известные_значения_y - это массив или интервал ячеек, содержащих числовые зависимые точки данных.
Известные_значения_x - это множество независимых точек данных.
Аргументы функций должны быть числами или именами, массивами или ссылками, содержащими числа. Если аргумент, который является массивом или ссылкой, содержит тексты, логические значения или пустые ячейки, то такие значения игнорируются; однако, ячейки с нулевыми значениями учитываются.
Если известные_значения_y и известные_значения_x пусты или содержат различное число точек данных, то функции возвращают значение ошибки #Н/Д.
Рис. Использование функций НАКЛОН и ОТРЕЗОК для вычисления
коэффициентов регрессионной прямой.
На рисунке приведен второй способ решения задачи из рассмотренного примера. Очевидно, что результаты решения задачи разными способами совпадают.
В некоторых случаях при решении экономических задач можно и не вычислять коэффициенты регрессионного уравнения. Ведь они нужны для оценки откликов для старых и новых значений факторов. (Старые значения — те, на основе которых вычислялось уравнение регрессии.) Для этого служат две функции: ТЕНДЕНЦИЯ и ПРЕДСКАЗ.
Функция ТЕНДЕНЦИЯ (известные_значения_y; известные_значения_x; новые_значения_x; конст) возвращает значения в соответствии с линейным трендом. Аппроксимирует прямой линией (по методу наименьших квадратов) массивы известные_значения_y и известные_значения_x. Возвращает значения y, в соответствии с этой прямой для заданного массива новые_значения_x.
Функция ПРЕДСКАЗ(x; известные_значения_y; известные_значения_x) вычисляет или предсказывает будущее значение по существующим значениям. Предсказываемое значение - это y-значение, соответствующее заданному x-значению.
5. Порядок выполнения работы:
5.1. Запустить среду разработки.
5.2. Выполнить следующие задания:
Задание1
Линейная регрессия. В таблице приведены две соответствующие величины: расходы на рекламу и соответственный объем продаж в единицах продукции.
Постройте диаграмму зависимости объема продаж от рекламного бюджета. На диаграмме получите линию тренда и уравнение регрессии.
Используя функции, определите угловой и свободный коэффициент уравнения регрессии.
Дайте приблизительную оценку объема продаж при отсутствии расходов на рекламу, при рекламном бюджете 200000 рублей (без учета влияния других факторов).
Таблица 4.3 - Расходы на рекламу и соответственный объем продаж.
Рекламный бюджет | |||||||||
Объем продаж |
Рекламный бюджет | |||||||||
Объем продаж |
Задание2
Экспоненциальная регрессия. В газете "The Chicago Maroon" за пятницу 10.11.1972 г. сообщалось, что на оптовом рынке ожидаются следующие цены на марочные портвейны в расчете на бутылку.
Постройте регрессию для цен на марочное вино в зависимости от года закладки вина.
Имея формулу регрессии, обоснованно назначьте цену на вино, год закладки которого - 1926.
В следующем объявлении в той же газете три года спустя 25.11.1975 г., во вторник, говорилось, что предлагается марочный портвейн 1937 г. по цене $20 за бутылку.
Соответствует ли это Вашему прогнозу?
Решите задачу построения экспоненциальной регрессии для модели, где фактором является возраст вина, а откликом - цена вина.
Таблица. Цены на марочные портвейны в расчете на бутылку.
Год | Цена | Год | Цена |
5,99 | |||
8,98 | |||
11,98 | 6,98 | ||
4,99 | |||
5,98 | |||
6,98 | 4,98 |
Задание 3
Найти методом наименьших квадратов коэффициенты аппроксимирующего полинома 3-го порядка для представленных данных {xi , yi }, i = 1 ..5 и вычислить значение этого полинома в точке x0 = 1.
x | 0.4 | 0.7 | 0.1 | 0.5 | 0.3 |
y | 2.078 | 2.750 | 1.617 | 2.275 | 1.904 |
5.3. Сдать отчет по работе.
6. Содержание отчета:
6.1. Наименование работы.
6.2. Цель работы.
6.3. Описание выполнения заданиий.
6.4. Ответы на контрольные вопросы.
7. Контрольные вопросы:
7.1. Какие виды аппроксимации вы знаете?
7.2. В чем сходство и различие между линейной регрессией и кусочно-линейной интерполяцией ?