Быстрые основные статистики и блоковые статистики

В дополнение к описательным статистикам и корреляциям (о них было рассказано в двух предыдущих разделах) и таблицам частот (см. далее) в системе Statistica имеются интерактивные средства, позволяющие одним щелчком мыши вычислять основные статистики и строить графики в любой момент в течение сеанса работы. Быстрые основные статистики доступны из всех панелей инструментов и контекстных меню и выдают результат немедленно без каких-либо промежуточных диалоговых окон (см. иллюстрацию), если только пользователь не выберет другой режим. Более того, по умолчанию эти быстрые процедуры даже не требуют, чтобы были выбраны переменные для анализа - они выбираются автоматически по выделенному блоку ячеек или диапазону столбцов (или строк) в открытой в данный момент таблице исходных данных или таблице результатов. Быстрые основные статистики - очень удобный способ быстро получать "общие" сведения об исследуемых переменных. Сюда входит полный набор описательных статистик (включая порядковые статистики), корреляции и таблицы частот вместе с ожидаемыми нормальными частотами и другие числовые характеристики, а также большой набор встроенных статистических графиков. Выходные результаты для всех статистик и графиков могут быть сгруппированы по значениям некоторой переменной.

Блоковые статистики. Кроме того, все входные и выходные таблицы системы Statistica поддерживают функции Блоковые статистики и Блоковые статистические графики (см. иллюстрацию), выдающие статистики и статистические графики для произвольного выделенного блока ячеек в открытой в данный момент таблице исходных данных или таблице результатов. Результаты можно выводить по столбцам или по строкам выделенного блока в зависимости от смысла содержащихся в нем данных (исходные данные, нагрузки факторов, средние значения, частоты и т.д.). Например, применив метод Монте-Карло из модуля Моделирование структурными уравнениями (SEPATH), можно выделить блок чисел (например, оценок параметров для последовательных испытаний) в таблице результатов и построить для них описательные статистики (средние значения, медианы, квартили), гистограммы, вероятностные графики, диаграммы размаха и т.д.

Методы множественной регресси.В модуле Множественная регрессия реализован полный набор методов линейной и фиксированной нелинейной регрессии. Эти методы включают простую, множественную, пошаговую регрессию (с пошаговым/блоковым включением или исключением предикторов), иерархическую, нелинейную (полиномиальную, экспоненциальную, логарифмическую и т.д.) и гребневую (ридж) регрессию, с включением или без включения константы (свободного члена), модели взвешенных наименьших квадратов. Программа вычисляет полный набор статистик и дополнительных анализов, включая полную таблицу регрессии (с значениями стандартной ошибки для B, Beta и свободного члена, коэффициента детерминации R2 и скорректированного R2 для моделей с константой и без нее и таблицей дисперсионного анализа), матрицы частных и получастных корреляций, корреляции и ковариации коэффициентов регрессии, матрицу выметания (обратную матрицу), статистику Дарбина-Уотсона d, расстояния Махаланобиса и Кука, удаленные остатки, доверительные интервалы для предсказанных значений и многие другие статистики.

Предсказанные значения и остатки. Широкие возможности анализа остатков и выбросов предоставляют многочисленные графики: диаграммы рассеяния, гистограммы, нормальные и полунормальные вероятностные графики, графики с удаленным трендом, графики частных корреляций, различные построчные графики и диаграммы остатков и выбросов и др. Значения зависимой переменной для отдельных наблюдений можно просмотреть визуально с помощью разведочных пиктографиков и других многомерных графиков, доступных непосредственно из меню таблицы результатов. Остаточные и предсказанные значения можно автоматически добавлять к текущему файлу данных. Процедура прогнозирования позволяет проводить анализ типа "что-если" и интерактивно вычислять предсказанные значения по задаваемым с клавиатуры значениям предикторов.

Внутригрупповые статистики. В системе Statistica можно проанализировать чрезвычайно большие планы (более 500 переменных). Кроме того, имеются дополнительные средства (специальный аппарат) для сверхбольших задач регрессии (с тысячами переменных), Двуступенчатый метод наименьших квадратов, преобразования Бокса-Кокса и Бокса-Тидвелла. Система Statistica имеет также специальные модули общего нелинейного оценивания (Нелинейное оценивание, Обобщенные линейные модели (GLZ), Обобщенные аддитивные модели (GAM), Частные модели наименьших квадратов (PLS)) с помощью которых можно оценить практически любую определенную пользователем нелинейную модель и где имеется целый ряд предопределенных моделей, включая логит-, пробит- модели и др. В системе Statistica также имеется дополнительный модуль SEPATH - Моделирование структурными уравнениями, который позволяет анализировать чрезвычайно большие матрицы корреляций, ковариаций и моментов (для моделей со свободным членом).

Непараметрические статистики.Модуль Непараметрическая статистика содержит полный набор непараметрических статистик, включая все стандартные тесты и некоторые специальные прикладные статистики, в частности, критерий Вальда-Вольфовица, U тест Манна-Уитни (с точными вероятностями вместо нормальных аппроксимаций для малых выборок), критерии Колмогорова-Смирнова, критерий Вилкоксона парных сравнений, ранговый дисперсионный анализ Краскела-Уоллиса, медианный тест, критерий знаков, ранговый дисперсионный анализ Фридмана, Q- критерий Кохрена, критерий МакНемара, коэффициент конкордации Кендалла, тау (b, c) Кендалла, ранговая корреляция Спирмена R, точный критерий Фишера, критерии хи-квадрат, статистики V-квадрат, Фи, Гамма, d Соммера, коэффициенты сопряженности и другие (специальные непараметрические критерии и статистики входят также в состав некоторых других модулей, см. например, Анализ выживаемости, Анализ процессов и др.) Все (ранговые) критерии могут работать с совпадающими рангами и вносят поправку на малый объем выборки и совпадающие ранги. Как и во всех других модулях системы Statistica, процедуры всех критериев снабжены разнообразными графическими инструментами (здесь доступны различные типы диаграмм рассеяния, специальные диаграммы размаха, линейные графики, гистограммы и много других двух- и трехмерных графиков).

Общая модель дисперсионного и ковариационного анализа.В модуле Дисперсионный анализ реализованы методы общего одномерного и многомерного дисперсионного и ковариационного анализа, которые являются подмножеством Общих Линейных Моделей, в которых можно обрабатывать планы практически неограниченной сложности. Имеется возможность задавать планы непосредственно, определив реальные переменные и уровни факторов, поэтому даже не очень опытные пользователи системы Statistica могут анализировать в этом модуле чрезвычайно сложные планы. По умолчанию в процедурах модуля используется подход, основанный на модели средних, но пользователь может также вычислить суммы квадратов типа I (последовательные, в порядке по умолчанию или заданном пользователем), типа II или типа III; для неполных планов могут также быть исследованы гипотезы типа IV. Для планов любого типа могут использоваться фиксированные или переменные ковариаты. Можно анализировать неполные планы (вложенные, на латинских квадратах, на греко-латинских квадратах, планы с единственным наблюдением на ячейку, случайные блочные планы и т.д.); пользователь может задать объединенные члены ошибки дисперсионного анализа. Могут быть построены апостериорные критерии для маргинальных средних или для эффектов взаимодействия (включая межгрупповые факторы, факторы повторных измерений, или и те и другие): критерий наименьшей значимой разности (НЗР), критерий Ньюмена-Кеулса, критерий множественных сравнений Дункана, критерий Шеффе, критерий Тьюки достоверно значимой разности (ДЗР), обобщенный Спьотволлом и Столайном критерий Тьюки для выборок неравного размера.

Для всех основных эффектов, взаимодействий и спланированных сравнений могут быть выведены полные статистики дисперсионного анализа; программа вычисляет также множественные таблицы классификации и SSCP-матрицы. Для всех эффектов могут быть выведены таблицы результатов, в которых отмечены цветом все значимые эффекты; в такой таблице, можно исследовать маргинальные средние или просмотреть мгновенные графики отдельных главных эффектов и взаимодействий, для чего достаточно просто дважды щелкнуть по эффекту. Для любых одно- и многомерных планов может быть проведен анализ контрастов неограниченной сложности. Пользователь может задавать частные эффекты взаимодействия, простые эффекты, полиномиальные контрасты и экспериментировать с произвольными комбинациями коэффициентов контраста. Имеются средства, упрощающие и ускоряющие задание параметров в сложных анализах: в дополнение к функции Быстрое заполнение, позволяющей автоматизировать ввод коэффициентов контраста, имеется широкий выбор предопределенных контрастов, доступных по одному щелчку мыши (включая полиномиальные, отклонение, разность, Хельмерта, простые и повторные). При анализе неполных планов со случайно распределенными пропущенными ячейками процедура анализа контрастов автоматически отмечает все пустые ячейки и помогает пользователю строить проверяемые гипотезы. Большую помощь при анализе оказывают богатые графические возможности модуля (автоматическое построение графиков взаимодействий, в том числе заданных пользователем каскадов графиков компонент ("срезов") для многофакторных взаимодействий, внутригрупповых распределений переменных и внутригрупповых корреляций, определенные пользователем диаграммы размаха для медиан, квартилей, средних, стандартных отклонений, стандартных ошибок и т.д. для произвольных сочетаний факторов и многие другие, см. далее). Могут быть исследованы гипотезы параллельности (т.е. отсутствия взаимодействий, включающих ковариаты); могут быть подсчитаны полные результаты одномерной и многомерной регрессии и выведены или нарисованы скорректированные средние. Программа вычисляет также поправки Гринхауса-Гейсера и Хюнха-Фельдта для факторов повторных измерений; для таких факторов автоматически вычисляются одно- и многомерные результаты. Пользователь может исследовать SS-матрицы (сумм квадратов) гипотез и ошибок, и там, где это возможно, программа выполняет полный канонический анализ с вычислением канонических корней, собственных значений, долю дисперсии, приходящуюся на каждый корень, а также стандартизованную и нестандартизованную дискриминантную функцию.

Для визуализации результатов при исследовании гипотез и предположений в моделях дисперсионного анализа имеется большое число различных типов графиков: графики распределений, графики "ствол и листья", категоризованные и составные графики корреляций и подгоночных функций, позволяющие сравнивать соотношения между зависимыми измерениями (и/или) ковариатами по ячейкам высших порядков, графики средних против стандартных отклонений или дисперсий, обычные и категоризованные нормальные, полунормальные вероятностные графики и графики с исключенным трендом, графики корреляций внутри ячеек и т.д. Там, где это может потребоваться, можно одним щелчком мыши получать каскады графиков, которые затем можно просматривать в режиме, подобном демонстрации слайдов, просто нажимая кнопку Далее. Кроме того, имеется большой набор статистических процедур для проверки предположений: C Кохрена, критерий Хартли, критерий Бартлета, критерий Левена, M Бокса, непараметрический критерий Сена и Пури, критерий Колмогорова-Смирнова, критерий сферичности Моучли и т.д. При этом подгонку моделей структурированных средних (с константами), построенных по матрицам моментов для одной и нескольких выборок, можно осуществлять также средствами модуля SEPATH (Моделирование структурными уравнениями) системы Statistica, в котором можно оценивать модели MANOVA с явной неоднородностью дисперсий/ковариаций в разных группах и/или с явными структурными моделями для зависимой переменной, различными для каждой группы.

Графические возможности Statistica сочетают максимально широкий набор научных и технических графиков (со встроенными аналитическими процедурами) с возможностями настройки, рисования и управления составными графиками, которые обычно встречаются в приложениях для создания презентаций и рисования. Statistica предоставляет сотни двумерных и трехмерных графиков, включая двумерные и трехмерные тернарные графики, специализированные четырехмерные графики, многомерные графики, категоризированные мультиграфики, матричные графики, пиктограммы, мозаики, спектральные двумерные и трехмерные графики, составные графики и много других специализированных процедур. Также, представлены гибкие и простые в использовании средства пользовательской настройки новых типов графиков и добавления соответствующих команд на панели инструментов.

Существует несколько способов работы с графиками в Statistica. Можно сказать, что эти методы представляют несколько типов "интерфейсов" между числами и графиками.

Например, значения, представленные на круговой диаграмме, отображают значения столбца в таблице исходных данных (например, переменная Продажи) в нескольких наблюдениях (например, наблюдения называются: 2002, 2003, 2004, и т.д.) В то же время, значения на круговой диаграмме могут являться результатом неких вычислений. Например, часть диаграммы представляет относительные частоты наблюдений, принадлежащие к определенным категориям одной из гистограмм или процедурам частотной категоризации (например, количество лет с объемом продаж до 10 млн. долл., между 10 и 20 млн. долл., свыше 20 млн. долл.).

Вне зависимости от метода создания графика (то есть, вне зависимости от источника представления данных и способа вычислений), все графики Statistica поддерживают возможности настройки, а средства управления несколькими графиками позволяют изменять окружение графика и совмещать его с другими графиками или документами.

Электронный учебник по статистике можно найти на сайте Statsoft по адресу: http://www.statsoft.ru/home/textbook/

Для расчета прогнозных (оптимальных) величин факторов, влияющих на результаты сельскохозяйственного производства с использованием пакета Statistica были составлены графики парных корреляционных зависимостей (чистого дохода сельскохозяйственного производства и отдельных экономических факторов). По этим графикам могут быть рассчитаны оптимальные объемы вносимых удобрений, и другие показатели. На рис.5.8 представлен график зависимости чистого дохода сельскохозяйственного производства от нагрузки сельскохозяйственных угодий на одного работника в сельском хозяйстве и удельного веса сельскохозяйственных угодий. Предсказанные значения могут быть описаны линейной зависимостью. При средней величине чистого дохода в муниципальных образованиях, выбранного в качестве приоритетного (см.табл.5.8) 7025 руб./га нагрузка сельскохозяйственных угодий не должна превышать 10 га на одного работника, занятого в сельскохозяйственном производстве, оптимальный удельный вес сельскохозяйственных угодий 22%.

Быстрые основные статистики и блоковые статистики - student2.ru

Рис.5.8. График зависимости чистого дохода сельскохозяйственного производства от нагрузки сельскохозяйственных угодий на одного работника в сельском хозяйстве и удельного веса сельскохозяйственных угодий

Оптимальная средняя площадь крестьянских фермерских хозяйств должна составлять 7 га, личных подсобных хозяйств – 0,14 га, участков под огородничеством – 0,05 га, участков под садоводством – 0,08 га (рис. 5.9).

Быстрые основные статистики и блоковые статистики - student2.ru

Рис.5.9. График зависимости чистого дохода сельскохозяйственного производства от средней площади сельскохозяйственных предприятий, находящихся в частной собственности

По данным графикам были рассчитаны оптимальные величины экономических факторов сельскохозяйственного производства в районах Московской области (табл.5.3).

Таблица 5.3

Прогноз экономических факторов сельскохозяйственного производства в муниципальных образованиях Московской области

Наименование показателя  
нагрузка сельскохозяйственных угодий на одного работника, занятого в сельскохозяйственном производстве 10 га
удельный вес сельскохозяйственных угодий 22%
удельный вес пашни 45%
средняя площадь крестьянских фермерских хозяйств 7 га
средняя площадь личных подсобных хозяйств 0,14 га
средняя площадь участков под огородничеством 0,05 га
средняя площадь участков под садоводством 0,08 га

Для этого по оси Х были отложены средние показатели сельскохозяйственного производства. На пересечении с осью Y были определены величины экономических факторов в районе. В результате были получены следующие показатели: нагрузка сельскохозяйственных угодий на одного работника, занятого в сельскохозяйственном производстве – 10 га, удельный вес сельскохозяйственных угодий – 22%, удельный вес пашни – 45%, средняя площадь крестьянских фермерских хозяйств – 7 га, личных подсобных хозяйств - 0,14 га, участков под огородничеством - 0,05 га, участков под садоводством - 0,08 га.

Библиографический список

1. Федеральный закон от 29.11.2007 г. № 282-ФЗ «Об официальном статистическом учете и системе государственной статистики в Российской Федерации».

2. Сергеева, И.И. Статистика. Учебник [текст] / Сергеева, И.И., Чекулина Т.А., Тимофеева С.А. – М.: ИД «ФОРУМ»: ИНФРА – М. 2006. – 272 с.

3. Статистика: учебно-практическое пособие [текст]/ М.Г. Назаров, В.С. Варагин, Т.Б. Великанова (и др.); под ред. Д-ра экон. Наук, проф., акад. Межд. Акад. Информ. И РАЕН М.Г. Назарова. – 2-е изд., стер. – М.: КНОРУС, 2008. – 480 с.

4. Переяслова, И.Г. Статистика для студентов вузов [текст] / И.Г.Переяслова, Е.Б.Колбачев, О.Г. Переяслова. – Ростов на Дону: Феникс, 2005. – 219 с.

5. Методологические положения по статистике. Выпуск 4, 5, М.: Федеральная служба государственной статистики Российской Федерации.

6. Вопросы статистики. Ежемесячные научно-информационные журналы №№ 4, 7, 8 Федеральной службы государственной статистики Российской Федерации.

Методические указания

Статистическая обработка земельно-кадастровой информации

Варламов Анатолий Александрович

Гальченко Светлана Альбертовна

Пафнутова Елена Геннадьевна

Издано в авторской редакции

Макетирование

Редакционно-издательский отдел ГУЗа ЛР № 020484 от 02.02.98 г.

Сдано в производство

Подписано в печать

Объем 6,8 п.л., ___ уч.-изд. л. Ризогафия.

Тир.200 Зак. № 24

_______________________________________________________

Наши рекомендации