Провести одномерный визуальный и описательный анализы данных
К курсу
«Прикладное программное обеспечение»
на тему:
«Анализ данных в пакете прикладных программ Statistica»
Выполнил:
Волков В.
- Москва – 2012 –
*данные методические указания являются неофициальными указаниями, написанные студентом Волоковым В. в помощь студентам Московского Государственно Института Электроники и Математики (технический университет) при подготовке к сдаче и написании курсовой работы.
Для написания своей собственной уникальной работы вам понадобятся:
1. Пакет Statistica 10 версии на английском языке. Ссылка для скачивания.
2. Готовая курсовая работа (для облегчения понимания сути).
3.Опционально. Программа Jing для более быстрой работы совершения/редактирования скриншотов (а не через paint). Их придётся делать много. Конечно, можно украсть оные из курсовой, добытой в пункте 2, но тогда ваша работа будет не уникальна, а это плохо для тех, кто претендует на 4-5.
Замечу, что скриншотить можно только таблицы. Все графики легко копируются в непосредственно.
4. Ответник к вопроснику (спасибо говорим ей). На него буду ссылаться в некоторых местах.
5. Данные для работы в статистике.
Предисловие
Я писал свою работу исходя из интеллектуальных трудов этого и этой граждан РФ. Все права на использование их работ защищены ©. Вы можете свободно использовать все данные, предоставленные в моей курсовой.
Ответник размещён без согласия его создателя. Тссс.
Итак, перейдём, непосредственно, к основной части работы.
Выполнение работы
План задания:
1. Провести одномерный визуальный и описательный анализы данных
· Вычислить основные описательные статистики для числовых переменных
· Вычислить описательные статистики для этих переменных по группам, построить таблицы частот для категориальных переменных
· Наглядно иллюстрировать полученные результаты (гистограммы, круговые диаграммы, диаграммы размаха, диаграммы рассеивания и т.п.)
2. Сравнить с помощью t-критерия Стьюдента коэффициенты вначале исследования и после, проиллюстрировать на графике.
3. Провести всесторонний двумерный анализ данных.
4. Множественная регрессия
5. Многомерный анализ
a. Кластерный анализ
b. Дискриминантный анализ
Итак, начнём по порядку
Провести одномерный визуальный и описательный анализы данных
Установив статистику, дважды кликнем по файлу, скаченному из пункта 5.
Откроется окно вида:
Примечание. При установке статистики даётся выбор варианта меню – лента или привычный, контекстный. Я выбрал ленточный вид и в дальнейшем буду работать с ним. Если вы выбрали контекстный, то чтобы перейти к ленточному режиму меню выполните
Итак, чтобы подсчитать базовые статистики (ищите в википедии определение, вкратце – всякие средние, медианы, максимумы и т.д.) в ленте выбираем
и откроется лента
Выбираем
Откроется окно
Описательные статистики уже выделены ( . Нажимаем кнопку , чтобы выбрать размер выборки. Откроется окно
Снимаем галочку в пункте . И отныне, перед каждым новым открытым модулем, например , не забываем об этой галочке, иначе данные будут подсчитываться не полностью. Запомните правило галочки!
Нажимаем , потом . Откроется окно
Переходим во вкладку . Акцентируем внимание на разделе
Выбираем то, что я выбрал в своей курсовой. Можете не выбирать что-нибудь. Главное – показать, что вы умеете считать всё это и, при необходимости, поставить нужную галочку. Что означает каждая галочка смотрите в моей курсовой.
Далее нажимаем , откроется окно
нажимаем кнопку , все переменные выделятся. Зажимаем на клавиатуре клавишу и последовательно нажимаем вначале на «Признак 2», затем на «Признак 6», тем самым с них снимется выделение. Только что мы выбрали переменные, для которых будем считать описательные статистики. Считать их для категориальных переменных смысла нет, поэтому мы их исключили. Что такое категориальные переменные смотрите в ответнике под вопросом 21.
Учтите, что при выборе переменной галочка убирает из списка переменные, значения которых – текст. У нас эта переменная – вид газа. Если вы её выберете, статистика спросит что делать с ней
Нажимайте и она уладит этот вопрос.
Я её не рассматриваю тут, но в своей работе я тоже подсчитывал для неё статистики. Снимите галочку, если боитесь/можете не выбрать эту переменную в дальнейшем!
Нажимаем , а затем . Имеем следующий результат
В правом окне результат подсчёта наших статистик, которые мы отмечали для переменных, которые мы также выбрали. Обратите внимание на левую часть. Workbook – это рабочая книга, в которой сохраняются все ваши результаты. Выглядит это всё дело как папка с подпапками, названия которых соответствуют тем модулям, которые вы выберите и тем опциям, которые вы выберите в модуле. К примеру, один из модулей - это , но в нём куча всяких кнопочек, которые дают разные подсчёты, и они-то и будут подпапками. От таки дела, малята.
Скриншотим, заносим в работу (в дальнейшем СЗР).
Теперь построим гистограммы для наших переменных в отдельности и заодно проверим на нормальность (у меня в курсовой это последний пункт первого раздела).
Что бы делать разные подсчёты в одном и том же модуле не нужно постоянно тыркать, к примеру, . Когда вы один раз подсчитали и вам выдали результат, внизу появится «свёрнутый модуль»
нажимаем его и модуль откроется вновь. Переходим во вкладку .
Здесь надо установить галочки
Это – тесты на нормальность. Как они работают – не важно, главное понять: как узнать, что они нам говорят (в моей курсовой в 8 пункте 1ого раздела это описано).
Тест Шапиро-Уилка сильнее, чем Колмогорова. Так что если Колмогоров скажет что распределение нормально, а Шапиро ему возразит – слушаем Шапиро. Статистика Колмогорова описывается следующим образом:
где –эмпирическая функция распределения, которая строится по данным, - теоретическое нормальное распределение. Это у меня спросили на экзамене в качестве необязательно вопроса.
Итак, выбрав галочки, выбираем теперь ВСЕ (!) переменные (ранее мы убрали 2 и 6) и нажимаем .
Получим гистограмму для каждой переменной.
В правой части – список остальных результатов.
Анализ и всё остальное – у меня смотрите. СЗР.
Теперь построим диаграммы по группам. Т.е. выбирается две (или более) переменных и смотрятся диаграммы.
К примеру, посмотреть гистограммы «Признака 2» по типам газов. Займёмся этим. В нашем модуле
выбираем 1 переменную, которую хотим посмотреть в группе с какой-нибудь другой, т.е. «Признак 2» .
Выбираем в первую переменную , жмём . Теперь нажимаем кнопку , откроется окно
в первой колонке которого выбираем вторую переменную, по которой хотим посмотреть наши гистограммы, т.е. «Вид газа». Вторую колонку не трогаем. Жмём , выскочит окно
ничего не трогаем, нажимаем ещё раз и получим следующий результат:
То, что и хотели: как ведёт себя признак 2 (он категориальный, если вы не поленились и посмотрели в ответнике, то понимаете почему, если нет – вопрос 21 вас всё ещё ждёт).
СЗР. Теперь ваша задача, перебрать варианты пар, не обязательно все, главное, чтобы было какое-то исследование. Можете сделать как делал я в своей работе. А можете ввести «инновации» и рассмотреть другие зависимости одного от другого.
Теперь для завершения первого пункта осталось объяснить, как строить диаграммы размаха, круговые диаграммы и таблицы частот.
Начнём с диаграмм размаха.
Чтобы построить диаграмму размаха для одной или нескольких переменных, достаточно в модуле
перейти на вкладку и выбрать пункт
,
который построит на одном графике диаграммы размаха для всех переменных, выбранных в . Так что если шкала одной переменной огромна, а другой мала, то будет «Давид и Голиаф» и вы ничего толком не увидите на графике.
Если вам нужно построить диаграмму размаха одной переменной по другой, например, на какой в среднем высоте находятся разные виды газов? Тут нужен другой модуль.
На главной ленте выбираем пункт , появятся следующие модули
Выбираем , откроется окно
Снимаем галочку в пункте .
Нажимаем , выбираем пару переменных: одна зависимая, другая нет. К примеру, как я указал выше – по оси откладывать средние высоты, а по оси - виды газов.
Почитайте в википедии, как строятся эти диаграммы размаха. Можете выбрать в качестве центра
либо медиану, либо среднее. Чем они отличаются читайте в ответнике под вопросом 9.
Получим такой результат:
Анализ и остальные группировки признаков посмотрите у меня в курсовой и попробуйте сами сконструировать инновации.
Перейдём к круговым диаграмма и таблицам частот. Строятся они в том же модуле, где мы строили гистограммы:
Вкладка .
В выбираем переменные, для которых хотим построить таблицу частот. Затем нажимаем . Если выбрали несколько, статистика построит для каждой переменной свою таблицу, все результаты смотрите а правой колонке рабочей книги.
Построим для переменных «Признак 2» и«Признак 3».
Правая колонка
рабочей книги
Теперь построим круговые диаграммы. На ленте выбираем , затем
В появившемся окне выбираем
Откроется окно
В выбираем переменную(-ые) для которых хотим построить круговую диаграмму. Переходим в вкладку , в ней сконцентрируем внимание на полях
Выберете подходящую форму (круг или эллипс) и размерность графика.
Ничего не забыли?
ГАЛОЧКУ!
Снимаем галочку в пункте , нажимаем - круговая диаграмма построена.
Итак, у вас есть весь арсенал умений, который необходим для выполнения первой части курсовой. Исследуете то, как я проводил исследования в своей курсовой, придумывайте новые зависимости, экспериментируйте.
По поводу трёхмерной диаграммы, которую я использовал в своей курсовой. Она находится в разделе в ленте .