Что такое прикладная статистика
Целесообразность введения термина прикладная статистика наряду с привычным понятием математическая статистика объясняется тем, что для внедрения метода статистической обработки необходимо дополнительно провести сложную и наукоемкую работу. Условно разобьем её на ряд этапов: 1) адекватно «приложить» исходные модельные допущения к реальной задаче; 2) представить имеющуюся исходную информации (физические сигналы, геологические срезы и др.) в стандартной форме; 3) разработать вычислительный алгоритм и его программное обеспечение; 4) организовать удобный режим общения с ЭВМ в процессе решения задачи. Весь этот комплекс действий и составляет содержание прикладной статистики.
Исходя из выше сказанного, дадим определение, введенное в 1983г. С.А. Айвазяном [2]. Прикладная статистика - это самостоятельная научная дисциплина, разрабатывающая и систематизирующая понятия, приемы, математические методы и модели предназначенные для организации сбора, стандартной записи, обработки статистических данных с целью их удобного представления (в том числе и на ЭВМ), интерпретации и получения научных и практических выводов.
Заметим, что некоторые специалисты, в частности, французские, вместо введенного термина «прикладная статистика» используют понятие анализ данных», трактуя его в расширительном смысле.
1.2. Возможные подходы к статистическому
анализу данных
Развитие теории и практики статистической обработки данных шло в двух параллельных направлениях. Первое включает методы математической статистики, предусматривающие возможность классической вероятностной интерпретации анализируемых данных и полученных статистических выводов (вероятностный подход). Второе направление содержит статистические методы, которые априори не опираются на вероятностную природу обрабатываемых данных, т. е. остаются за рамками научной дисциплины "математическая статистика" (логико-алгебраический подход). Ко второму подходу исследователь вынужден обращаться лишь тогда, когда условия сбора исходных данных не укладываются в рамки статистического ансамбля, т.е. в ситуации, когда не имеется практической или хотя бы принципиально мысленно представимой возможности многократного тождественного воспроизведения основного комплекса условий, при которых производились измерения анализируемых данных. С позиции соблюдения условий статистического ансамбля можно выделить три типа реальных ситуаций:
- с высокой работоспособностью вероятностно-статистических методов;
- с допустимостью вероятностно-статистических приложений (при этом нарушатся требования сохранения неизменными условия эксперимента);
- с недопустимостью вероятностно-статистических приложений (в этом случае идея многократного повторения одного и того же эксперимента в неизменных условиях является бессодержательной).
Первое направление развития анализа данных, ориентированное на технические области знания, отстаивает идею простоты используемых моделей. В рамках этого направления неудовлетворительные результаты объясняют отсутствием информативных признаков.
Второе направление развития анализа данных ориентировано на социально-экономическую и социологическую информацию. При ее обработке появилось много новых идей, в частности, идея поэтапной группировки и коллектива решающих правил. Разработаны методы многомерного шкалирования, экспертных оценок.
Основные отличительные особенности подходов на примере задачи классификации представим схематично в таблице 1.1.
Таблица 1.1. Отличительные особенности подходов
Составляющие | Первое направление | Второе направление |
Цели исследования | Выделение классов, как инвариантов в потоке выборочных объектов | Выяснение распределения данных в системе |
Объекты и признаки. | Независимы | Зависимость предполагается, ее нужно обнаружить |
Выделяемые классы | Характеризуются эталоном и не пересекаются | Четко не выделяются, т.е. пересекаются |
Аппарат исследования | Вероятностный - преобразование пространства признаков (даже в одномерную ось) | Логико-комбинаторный |
Для пояснения сути подходов рассмотрим два примера.
Пример 1. Исследуется массовое производство. Контролируется брак на изделиях. Результаты фиксируются в выборке:
(1.1)
где , если изделие дефектно, а иначе - . Если производство отлажено и действует в стационарном режиме, то ряд наблюдений (1.1) естественно интерпретировать как ограниченную выборку из соответствующей бесконечной (генеральной) совокупности, которую бы мы имели, если бы осуществляли сплошной контроль изделий. В подобных ситуациях имеется принципиальная возможность многократного повторения наблюдения в рамках одинаковых условий. Такие ситуации могут быть описаны вероятностными моделями. Ряд (1.1) интерпретируется как случайная выборка из генеральной совокупности, т.е. как экспериментальные значения анализируемой случайной величины. Заметим, что в теории вероятностей под случайным явлением понимают явление, относящееся к классу повторяемых, обладающих свойством статистической устойчивости при повторении однородных опытов. Здесь для статистической обработки применяются классические математико-статистические методы. Если основные свойства и характеристики генеральной совокупности не известны исследователю, то они оцениваются по соответствующим свойствам и характеристикам выборок с помощью этих методов.
Пример 2. Исследуется совокупность средних городов России (с численностью [100; 500] тысяч человек) для выяснения типов городов, сходных или однородных по структуре уровня образования жителей, половозрастному составу и характеру занятости [2]. Подробный анализ большого числа городов практически не реален, поэтому в фиксированном пространстве небольшого числа интегральных параметров города разделяются на типы, выделяются эталоны, а для них проводят подробный анализ с целью выявления наиболее характерных черт и закономерностей в социально-экономическом облике средних по величине типичных городов.
Так для N средних городов (например, для России их оказалось 74):
(1.2)
были зарегистрированы 32 параметра
, (1.3)
где - параметры, характеризующие среднее число жителей, приходящихся на 1000 человек населения города. Причем ... - параметры, характеризующие уровень образования (высшее, незаконченное высшее, среднее специальное, среднее); ... - 12 параметров, характеризующих половозрастной состав; ... - 5 параметров для описания социального характера занятости населения; ... - параметры, характеризующие занятость в материальном или нематериальном производстве и источники доходов.
Если допустить, что геометрическая близость двух точек - городов и в соответствующем 32-мерном пространстве означает их однородность (сходство) по анализируемым признакам и является основанием для их отнесения к одному типу, то для решения задачи надо привлечь методы кластер-анализа и снижения размерности. Математический аппарат этих методов предполагает вычисление средних, дисперсий, ковариаций, но эти характеристики описывают уже природу и структуру только реально анализируемых данных, т.е. статистически обследованную совокупность из n анализируемых городов.
В отличие от первого примера во втором примере невозможно:
- интерпретировать исходные данные в качестве случайной выборки генеральной совокупности (в связи с неприятием главной идеи понятия статистического ансамбля: идея многократного повторения одного и того же эксперимента в неизменных условиях теряет смысл);
- использование вероятностной модели для построения и выбора наилучших методов статистической обработки;
- дать вероятностную интерпретацию выводам, основанным на статистическом анализе исходных данных.
Но в обоих случаях выбор наилучшего из всех возможных методов обработки данных производится в соответствии с некоторыми функционалами качества метода. Способ обоснования выбора этого функционала, а также его интерпретация различны. В первом случае выбор основан на допущении о вероятностной природе исходных данных и интерпретация тоже. Во втором случае исследователь не пользуется априорными сведениями о вероятностной природе исходных данных и при обосновании выбора оптимального критерия качества опирается на соображения содержательного (физического) плана - как именно и для чего получены данные. Когда критерий выбран, в обоих случаях используются методы решения экстремальных задач. На этапе осмысления и интерпретации каждый из подходов имеет свою специфику.
При выборе типа модели следует понимать, что всякая модель является упрощенным (математическим) представлением изучаемой действительности. Мера адекватности модели и действительности является решающим фактором работоспособности используемых затем методов обработки. А так как ни одна модель не может идеально соответствовать реальной ситуации, то желательна многократная обработка исходных данных для разных вариантов модели.
1.3. Основные этапы статистической обработки
исходных данных
Опишем общую логическую схему статистического анализа данных в виде семи этапов, перечислив их в хронологическом порядке (хотя они могут реализовываться в режиме итерационного взаимодействия):
этап 1) исходный (предварительный) анализ исследуемой системы;
этап 2) составление плана сбора исходной информации;
этап 3) сбор исходных данных, их подготовка и введение в ЭВМ;
этап 4) первичная статистическая обработка данных;
этап 5) выбор основных методов и алгоритмов статистической обработки данных, составление детального плана вычислительного анализа материала;
этап 6) реализация плана вычислительного анализа исходных данных (непосредственная эксплуатация ЭВМ);
этап 7) подведение итогов.
Этап 1
На этом этапе определяются: основные цели исследования на неформализованном, содержательном уровне; совокупность единиц (объектов), представляющая предмет статистического исследования; набор параметров-признаков для описания обследуемых объектов; степень формализации соответствующих записей при сборе данных; время и трудозатраты, объем работ; выделение ситуаций, требующих предварительной проверки перед составлением детального плана исследований; формализованная постановка задачи; в каком виде осуществляется сбор первичной информации и введение в ЭВМ.
Если обработка проводится с помощью существующего пакета статистической обработки, то трудоемкость этого этапа бывает сравнима с суммарной трудоемкостью остальных этапов.
Этап 2
При составлении детального плана сбора первичной информации необходимо учитывать как и для чего данные анализируются, т.е. учитывать полную схему анализа. Этот этап называют "организационно-методической подготовкой", так как на нем планируется: какой должна быть выборка - случайной, пропорциональной, расслоенной (если используется аппарат общей теории выборочных обследований); объем и продолжительность исследования; схема проведения активного эксперимента (в случае, если он возможен) с привлечением методов планирования эксперимента и регрессионного анализа для определения некоторых входных переменных.
Этап 3
Сбор исходных данных и введение их в ЭВМ, а также внесение в ЭВМ полного и краткого определения используемых терминов. Существует два вида представления исходных данных: матрица “объект-признак” (1.4):
, , (1.4)
где , , - значение k-го признака, характеризующего i-й объект в момент t (числа, текст);
и матрица “объект-объект”(1.5):
(1.5)
где - характеристика попарной близости i-го и j-го объектов (при этом m=N) или признаков (при этом m=p) в момент t. Второй вид представления (1.5) часто используется в социологии, где данные собираются с помощью специальных опросников, анкет. Примером характеристики попарной близости признаков может служить ковариационная матрица.
Этап 4
При первичной статистической обработке данных обычно решаются следующие задачи: отображение вербальных переменных в номинальную (с предписанным числом градаций) или ординальную (порядковую) шкалу; статистическое описание исходных совокупностей с определением пределов варьирования переменных; анализ резко выделяющихся переменных; восстановление пропущенных значений наблюдений; проверка статистической независимости последовательности наблюдений, составляющих массив исходных данных; унификация типов переменных, когда с помощью различных приёмов добиваются унифицированной записи всех переменных; экспериментальный анализ закона распределения исследуемой генеральной совокупности и параметризация сведений о природе изучаемых распределений (эту разновидность первичной статистической обработки называют иногда процессом составления сводки и группировки); вычислительная реализация учета сложности задачи и возможностей ЭВМ; формулировка задачи на входном языке пакета статистической обработки.
Этап 5
Составление детального плана вычислительного анализа. Определяются основные группы, для которых будет проводиться дальнейший анализ.
Пополняется и уточняется тезаурус содержательных понятий. Описывается блок-схема анализа с указанием привлекаемых методов. Формируется оптимизационный критерий, по которому выбирается один из альтернативных методов.
Этап 6
Исследователь на этом этапе осуществляет управление вычислительным процессом, формирует задачу обработки и описания данных на входном языке пакета. Учитываются размерность задачи, алгоритмическая сложность вычислительного процесса, возможности ЭВМ, и особенности данных (обусловленность операций, надежность используемых оценок параметров).
Этап 7
Строится формальный отчет о проведенном исследовании. Интерпретируются результаты применения статистических процедур (оценки параметров, проверки гипотез, отображения в пространство меньшей размерности, классификации). При интерпретации могут использоваться методы имитационного моделирования.
Если исследование проводится в рамках первого подхода (см. п.1.2), то выводы формируются в терминах оценок неизвестных параметров, или в виде отчета о справедливости гипотез с указанием количественной степени достоверности. В случае второго подхода вероятностная интерпретация не делается.
Работа завершается содержательной формулировкой новых задач, вытекающих из проведенного исследования.
1.4. Причины малоэффективного использования
машинных методов анализа данных
В последние десятилетия для решения многочисленных практических задач стали интенсивно использоваться машинные методы анализа данных. Не будучи математиком специалист выбирает модель обработки либо по традиции, либо из доступного и легко интерпретируемого математического обеспечения. При этом он, как правило, не задумывается: соответствует ли его модель природе исходных данных? Подобная некомпетентность исследователя обусловлена рядом причин. Приведем наиболее важные из них.
1. Отсутствие подробных описаний алгоритмов программ, а также информации об ограниченности возможностей модельных алгоритмов и ориентиров по их применению (как в литературе, так и в сопроводительной документации к программному обеспечению).
2. Разделение труда специалиста и математика, появление ничейной зоны деятельности.
Математик ограничен рамками: "Есть множество объектов, описанных признаками..." - "В результате получены закономерности, которые неплохо согласуются с представлениями специалиста...". Он не задумывается о содержании предложенных признаков, имеет ли смысл их совместный анализ, учтены ли все существенные факторы. С другой стороны, специалист не вникает в механизм обработки данных, не интересуется, на каком этапе происходит искажение информации. Интуитивные соображения привлекает только на этапе интерпретации результата, в котором ничего изменить не может.
3. Организационная разобщенность разработчиков алгоритмов и программ; отсутствие гибкой системы распространения программного обеспечения анализа данных.