Регрессионный анализ данных средствами Excel.

Excel располагает достаточно мощными средствами статистической обработки данных. Большое количество статистических функций можно найти в списке встроенных функций Мастера в категории статистические и вручную выполнить статистический анализ, последовательно применяя к исходным данным соответствующие функции. Здесь вы найдете функции:

- для вычисления описательных статистик

- для построения регрессионной зависимости

- для проведения дисперсионного анализа и т.д.

Чтобы воспользоваться набором этих функций, нужно очень хорошо представлять себе цель исследования и этапы статистического анализа, т. е. нужно иметь хороший сценарий этой работы.

Другой путь – воспользоваться автоматизированным способом анализа данных. Все инструменты статистического анализа в Excel реализованы в надстройке Пакет анализа(см. инструкцию по установке).

Для освоения технологии работы с надстройкой Пакет анализа рассмотрим все этапы регрессионного анализа (именно это вам предстоит проделать в лабораторной работе).

Этап 1. Формирование набора исходных данных. Выполнять этот этап будем с помощью инструмента анализа “Генерация случайных чисел”. Он служит для формирования массива случайных чисел, распределенных по одному из теоретических распределений. В работе используются распределения (каждое со своими параметрами):

- Нормальное (H:m;s);

- Равномерное (P:a;b);

- Пуассона (П:l)

1).На рабочем листе Excel создаем шапку таблицы исходных данных для проведения статистического анализа (А, В, n, X, EPS, Y) и заполняем таблицу.

Коэффициенты линейной зависимости (исх.д) Число случайных чисел (исх.д) Значения независимой переменной (генерация) Случайная ошибка (генерация) Y=AX+B+EPS (формула)
A B n X EPS Y
     

Параметры A, B и n – это константы из индивидуального задания;

А, В – параметры линейной функции y=Ax+B (истинная зависимость).

n – объем выборки данных (число случайных чисел)

2). Значения переменной Х генерируем по указанному закону, для этого:

- На вкладке данные выполняем команду Анализ данных;

- в диалоговом окне Анализ данныхсреди инструментов анализа выбираем Генерация случайных чисел;

Регрессионный анализ данных средствами Excel. - student2.ru

- в диалоговом окне Генерация случайных чисел заполняем параметры генерируемой последовательности данных из индивидуального задания. Пример для случайной величины Х (Н: среднее=0, ст. отклонение=1)

Параметры окна:

Число переменных – число переменных (в нашем случае число столбцов данных), с одинаковым распределением и с одинаковыми параметрами этого распределения. Если переменные имеют разное распределение или разные параметры, генерация проводится для каждой переменной отдельно, при этом в поле ввода указывается значение 1.

Число случайных чисел – объем выборки данных (n)

Распределение – в раскрывающемся списке выбирается тип распределения, в зависимости от теоретического распределения меняются и параметры диалогового окна (у разных распределений разные параметры).

Параметры (в зависимости от распределения)

нормальное, параметры – среднее и стандартное отклонение;

равномерное, параметры – начальное и конечное значение, между которыми находятся случайные числа;

Пуассона, параметр l - интенсивность потока заявок.

Случайное рассеивание (необязательный параметр) – вводится стартовое число для генерации определенной последовательности случайных чисел. Впоследствии это число можно снова использовать для получения той же самой последовательности чисел.

Параметры вывода – три положения переключателя:

Выходной интервал активизируется поле, в которое необходимо ввести ссылку на левую верхнюю ячейку выходного диапазона – D5. Размер выходного диапазона будет определен автоматически. И на экране появится сообщение в случае возможного наложения выходного диапазона на исходные данные.

Новый рабочий лист открывается новый лист, на котором начиная с ячейки А1 размещаются результаты. Если необходимо задать имя нового рабочего листа, введите его в соответствующее поле.

Новая рабочая книга открывается новая рабочая книга и на первом листе , начиная с ячейки А1 размещаются результаты. Если необходимо задать имя новой рабочей книги, введите его в соответствующее поле.

3).Значения случайной ошибки EPS генерируем по указанному закону (аналогично);

Число переменных - 1

Число случайных чисел – n(20)

Распределение - равномерное

Параметры

Начальное значение -1

Конечное значение -2

Параметры вывода

Выходной интервал – E5

4) Значения переменной Y вычисляем по формуле Y=A*X+B+ EPS: в ячейку F5: =$A$5*D5+$B$5+E5

Коэффициенты линейной зависимости (исх.д) Число случайных чисел (исх.д) Значения независимой переменной (генерация) Случайная ошибка (генерация) Y=AX+B+EPS (формула)      
A B n X EPS Y      
-0,0158 0,926328318  
Регрессионный анализ данных средствами Excel. - student2.ru 3,894732472
= $A$5*D5+$B$5+E5
      1,346989 0,961485641 6,655463517      
      0,264723 0,91155736 4,441003784      
      1,504745 0,626636555 6,636127238      
      -0,04994 0,08948027 2,989608657      
      -0,13015 0,46375927 3,203466434      
      0,231352 0,790246284 4,25294944      
      1,35768 0,749626148 6,464986245      
      0,034546 0,69512009 3,764212129      
      -1,53188 0,967345195 0,903594058      
      0,582547 0,585833308 4,750927853      
      -0,66318 0,641193884 2,314841381      
      -0,29248 0,593676565 3,008719131      
      0,127369 0,327372051 3,582110148      
      0,25934 0,012512589 3,53119287      
      0,297352 0,819299905 4,414004848      
      -1,19054 0,749382 1,368293039      
      -0,44321 0,597064119 2,710641024      
      -1,91843 0,573351238 -0,263515871      
      -2,10584 0,287026582 -0,924661483      

Этап 2. Предварительный статистический анализ данных

1) для каждого ряда данных (X, EPS, Y), используя Мастер функций,вычисляем статистики – математическое ожидание (среднее), стандартное отклонение, дисперсию, располагаем внизу таблицы как итоговые строки (функции из категории Статистические):

мат. ожидание – функция СРЗНАЧ

ст. отклонение - СТАНДОТКЛОН

дисперсия - ДИСП

2) для каждого ряда данных (X, EPS, Y) на рабочем листе выводим гистограммы распределений, для чего выполняем команду Анализ данных ®Гистограмма;

Этот инструмент строит таблицу распределения частот данных и на ее основе создает диаграмму. Перед использованием инструмента следует определить интервалы разбиения, иначе Excel автоматически определит интервалы разбиения, максимальное значение для каждого интервала называется карманом (аi<x£bi)

Регрессионный анализ данных средствами Excel. - student2.ru

Регрессионный анализ данных средствами Excel. - student2.ru

Входные данные

Входной интервал – D5-D24–ссылки на ячейки сданными, включая метку

Интервал карманов (необязательный параметр) – вводится ссылка на ячейки, содержащие набор граничных значений, определяющих интервалы (карманы), включая метку. Эти значения должны быть введены в возрастающем порядке. Вычисляется число попаданий данных в сформированные интервалы, причем границы интервалов являются строгими нижними границами и нестрогими верхними: a<x£b. Если диапазон карманов не был введен, то набор интервалов, равномерно распределенных между минимальным и максимальным значениями данных, будет создан автоматически.

Метки – ставим флажок, указывая, что метки были включены в ссылки для входного интервала и интервалов карманов

Параметры вывода

Выходной интервал – адрес левого верхнего угла области, где будет расположена таблица с выходными данными.

Новый рабочий лист

Новая рабочая книга

Парето (отсортированная гистограмма) – устанавливается, чтобы представить данные в порядке убывания частоты. Если флажок снят, то данные в выходном диапазоне будут приведены в порядке следования интервалов.

Интегральный процентустанавливается для расчета выраженных в процентах накопленных частот и включения в гистограмму графика куммуляты.

Вывод графикаустанавливается для автоматического создания встроенной диаграммы на листе, содержащем выходной диапазон.

3). На отдельном листе вывести таблицу описательной статистики для переменных Х, Y и случайной ошибки, для чего выполняем Анализ данных ®Описательная статистика; в результате получим полную таблицу всех статистик исходных случайных величин;

Регрессионный анализ данных средствами Excel. - student2.ru

Инструмент Описательная статистика служит для создания статистического отчета по основным статистикам (положения, разброса, асимметрии) выборочной совокупности.

Входные данные

Входной интервал –D5-F24

Группирование – по столбцам (где расположены ряды данных)

Метки

Параметры вывода

Выходной интервал/Новый рабочий лист/Новая рабочая книга

Наши рекомендации