Возможности применения пакета статистического анализа Statistica при анализе данных

Statistica предлагает широкий набор методов для разведочного анализа.

Описательные статистики и графики. Программа вычисляет практически все используемые описательные статистики общего характера: медиану, моду, квартили, заданные пользователем процентили, среднее значение и стандартное отклонение, квартильный размах, доверительные интервалы для среднего, асимметрию и эксцесс (и их стандартные ошибки), гармоническое и геометрическое среднее, а также многие специальные описательные статистики. Как и во всех других модулях системы Statistica, в разведочном анализе данных доступны разнообразные графики и диаграммы, в т.ч. различные виды диаграмм размаха и гистограмм, гистограммы двумерных распределений (трехмерные и категоризованные), двух- и трехмерные диаграммы рассеяния с помеченными подмножествами данных, нормальные и полунормальные вероятностные графики и графики с исключенным трендом, К-К и В-В графики и т.д. Имеется набор критериев для подгонки нормального распределения к данным (критерии Колмогорова-Смирнова, Лилиефорса и Шапиро-Уилкса).

Группировка. Практически все описательные статистики и графики могут быть построены для данных, категоризованных (сгруппированных) по значениям одной или нескольких группирующих переменных. Например, с помощью нескольких щелчков мыши можно сгруппировать имеющиеся данные о людях по полу и возрасту, а затем просмотреть категоризованные гистограммы, диаграммы размаха, нормальные вероятностные графики, диаграммы рассеяния и т.д. В случае, если было выбрано более двух категоризованных переменных, автоматически будет построен каскад соответствующих графиков. Имеется возможность производить категоризацию по числовым (непрерывным) переменным, например, можно потребовать, чтобы значения переменной были разбиты на заданное число интервалов; с помощью инструмента перекодировки можно в реальном времени задать специальный способ перекодировки переменной (возможна категоризация практически любой сложности, заданная через соотношения между любыми переменными файла данных). В дополнение к этому, в системе имеется специализированная процедура иерархической группировки, позволяющая осуществлять категоризацию данных по многим (до шести) переменным и строить различные категоризованные графики, описательные статистики и корреляционные матрицы для подгрупп (пользователь может в интерактивном режиме игнорировать некоторые факторы в полной таблице группировок и исследовать статистики по маргинальным таблицам). Многочисленные возможности форматирования и расстановки меток позволяют получать таблицы и отчеты презентационного качества, содержащие длинные метки и описания переменных. При этом важно отметить, что процедура группировки выполняется для чрезвычайно больших объемов данных (например, по одной категоризующей переменной можно построить до 300 групп), а ее результаты содержат все соответствующие статистики дисперсионного анализа (включая полные таблицы ANOVA, критерии проверки гипотез типа критерия Левена однородности дисперсии, семь различных апостериорных (post-hoc) критериев и т.д.). Как и во всех других модулях системы Statistica, для достижения высокой - не имеющей аналогов в сравнении с другими пакетами - точности результатов здесь можно производить вычисления с повышенной точностью (если нужно - с четырехкратной). Благодаря интерактивному характеру системы изучение данных становится очень простым делом. Например, графики для разведочных статистик можно построить непосредственно по любой таблице результатов, просто указав мышью на отдельные ячейки или группы ячеек. Одним щелчком мыши можно получать каскады графиков (в том числе сложных, например, со множественными категориями), которые затем можно просматривать в режиме демонстрации слайдов, просто нажимая кнопку «Продолжить». В дополнение к большому числу готовых статистических графиков пользователь может самостоятельно задавать различные типы визуализации исходных данных, описательных статистик, взаимосвязей между статистиками, группировок и категоризаций с помощью средств прямого доступа (point-and-click), что позволяет существенно упростить задачу. Средства графического разведочного анализа (описанные в разделе Графики) объединены с собственно статистическими процедурами, что существенно облегчает визуальный анализ данных (например, в интерактивном режиме можно удалять выбросы, выделять подмножества данных, осуществлять сглаживание и подгонку функций, а богатые средства работы с кистью позволяют легко выявлять и/или выделять нужные данные). См. также раздел Блоковые статистики, ниже.

Корреляции

В системе имеется большой набор методов для исследования корреляций между переменными. Прежде всего, могут быть вычислены все основные характеристики связи между переменными, в том числе: коэффициент корреляции Пирсона r, коэффициент ранговой корреляции Спирмена R, тау (b, c) Кендалла, Гамма, тетрахорический r, Фи, V Крамера, коэффициент сопряженности C, D Соммера, коэффициенты неопределенности, частные и получастные корреляции, автокорреляции, различные меры расхождения и т.д. Нелинейные корреляции, регрессия для цензурированных данных и другие более специализированные меры корреляции реализованы в модулях Нелинейное оценивание, Анализ выживаемости и Statistica Линейные и Нелинейные модели. Корреляционные матрицы могут быть вычислены с построчным, попарным удалением пропусков или с подстановкой среднего вместо пропущенных значений. Как и во всех других модулях системы Statistica, для достижения высокой - не имеющей аналогов среди других пакетов - точности результатов здесь можно производить вычисления с повышенной точностью (где требуется - с "учетверенной"). Как и все численные результаты, корреляционные матрицы в системе Statistica выводятся в виде таблиц, имеющих богатые возможности форматирования данных (см. ниже) и визуализации численных результатов; так, можно "указать" на конкретный корреляционный коэффициент и вызвать для него контекстное меню всевозможных "описательных диаграмм" (диаграммы рассеяния с доверительными интервалами, различные объемные гистограммы двумерных распределений, вероятностные графики и т.д.). Богатые средства закрашивания позволяют выделять (или, наоборот, затенять) отдельные точки на диаграмме рассеяния и таким образом оценивать их влияние на положение линии регрессии (и других подогнанных кривых). Таким образом исследуются, например, выбросы или резко выделяющиеся наблюдения. Поддерживаются разнообразные форматы глобального вывода корреляций; значимые коэффициенты корреляции могут автоматически выделяться цветом, каждую ячейку таблицы результатов можно расширить и посмотреть число n наблюдений, по которым вычислен коэффициент и уровень значимости p, можно запросить подробные результаты, включающие все описательные статистики (попарные средние и стандартные отклонения, B-веса, пересечения, и т.д.). Как и все численные результаты, корреляционные матрицы выводятся в виде таблиц, поддерживающих операцию масштабирования и интерактивно управляемый формат вывода значащих цифр (например, от +0.4 до +0.41358927645193); таким образом, матрицы больших размеров можно сжимать (с помощью операции уменьшения, либо изменением формата вывода, что делается перетягиванием границ столбцов с помощью мыши). Это облегчает зрительное восприятие и, в частности, помогает быстро находить коэффициенты, превосходящие заданную величину или имеющие определенный уровень значимости (соответствующие ячейки в таблице результатов будут помечены красным цветом).

Диаграмма рассеивания, матричная диаграмма рассеивания, анализ по группам. Как и во всех других диалоговых окнах вывода, здесь доступны различные общие параметры графического вывода, позволяющие проводить дальнейшее изучение закономерностей и взаимосвязей между переменными; например, двух- и трехмерные диаграммы рассеяния (с метками наблюдений или без них) служат для выявления зависимостей по подмножествам наблюдений или последовательностям переменных. Корреляционные матрицы могут быть категоризованы группирующими переменными и представляться графически в виде категоризованных диаграмм рассеяния. Могут быть также выведены последовательности таблиц результатов "группировки корреляционных матриц" (по одной матрице на каждое подмножество наблюдений), которые возможно использовать в дальнейшем при Моделировании структурных уравнений [SEPATH] в модуле Линейные и Нелинейные модели Statistica). Вся корреляционная матрица может быть представлена на одном графике (со сколь угодно большим разрешением) в виде матрицы диаграмм рассеяния; такие матрицы можно интерактивно просматривать, "увеличивая" нужные участки графика (или прокручивая график в режиме увеличения). Имеется также возможность строить категоризованные матричные диаграммы рассеяния (одна матричная диаграмма на каждое подмножество данных). Можно поступить иначе и построить матричные диаграммы рассеяния для нескольких подмножеств (например, задаваемых уровнями группирующей переменной или сколь угодно сложными условиями выбора наблюдений), где отдельные подмножества данных изображаются различными маркерами. Для визуализации корреляционных матриц и поиска в них глобальных закономерностей имеется еще много других графических методов (контурные графики, несглаженные поверхности, пиктограммы и т.д.). Все эти операции требуют лишь нескольких щелчков мыши, а для выбора параметров предоставляются различные средства быстрого доступа. Одновременно на экране можно открыть любое число таблиц результатов и графиков, что принципиально облегчает интерактивный разведочный и сравнительный анализ.

Наши рекомендации