Компьютерные методы статистической обработки результатов инженерного эксперимента

Общие замечания

В данной главе мы рассмотрим возможности использования отдельных ком­пьютерных программ (пакетов прикладных программ, программных сред, компью­терных систем) для статистической обработки данных, полученных в ходе инженер­ного эксперимента. Преимущества использования в этой области компьютерных программных продуктов очевидны, однако сделаем некоторые замечания.

В настоящее время темпы развития компьютерных технологий настолько ве­лики, что создаваемые аппаратные и программные средства обработки информа­ции, в том числе и статистической, совершенствуются практически с каждым меся­цем, приобретая все новые и новые возможности. С распространением мощных персональных компьютеров стало возможно реализовывать методы расчета, кото­рые раньше считались очень трудоемкими в вычислениях. На рынке программного обеспечения существуют достаточно сложные пакеты прикладных программ, про­фессионально ориентированные на обработку статистической информации и позво­ляющие выявлять закономерности на фоне случайностей, делать обоснованные вы­воды и прогнозы, оценивать вероятности их выполнения. Эти программные среды обладают высокой степенью универсальности, а их применимость и технология ис­пользования практически не зависят от предметной области (металлургия, экономи­ка, медицина и др.).

Тенденцией развития современных компьютерных технологий является объе­динение (интеграция) функций отдельных пакетов программ (математических, ста­тистических, текстовых, графических, коммуникационных и др.) в так называемые интегрированные компьютерные среды. Эта особенность наиболее четко прослежи­вается с выходом новых версий популярных программных продуктов, когда возмож­ности существующих программ расширяются за счет включения в них новых функ­ций. В качестве примера можно привести пакет Microsoft Office, включающий в себя наряду со средствами создания и обработки текста (Word), баз данных (Access), презентаций (Power Point) также табличный процессор Excel, предназначенный, во­обще говоря, для создания электронных таблиц и манипулирования их данными. В состав Microsoft Excel входит набор средств анализа данных (пакет анализа), пред­назначенный для решения сложных статистических задач. Для проведения анализа

7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …

данных с помощью этих средств достаточно указать (отметить) диапазон входных данных из таблицы и выбрать необходимые параметры; расчет будет проведен с помощью подходящей статистической функции, а результат будет помещен в вы­ходной диапазон таблицы. Кроме того, специальные средства позволяют предста­вить результаты в графическом виде. Для успешного применения процедур анализа в Microsoft Excel также необходимы соответствующие знания в области статистиче­ских расчетов, для которой эти инструменты были разработаны. Несмотря на то, что электронные таблицы уступают по своим возможностям специализированным паке­там статистической обработки данных, изучение возможностей и владение навыка­ми работы с Microsoft Excel делает их мощным инструментом в руках инженера-исследователя.

Компьютерные системы для анализа данных - статистические пакеты (СП) -являются, по сравнению с другими наукоемкими программами, пожалуй, наиболее широко применяемыми в инженерной практике и исследовательской работе в разно­образных областях человеческой деятельности. Статистический пакет должен удов­летворять определенным требованиям, на которые в первую очередь надо обра­щать внимание при его выборе:

• использование простого пользовательского интерфейса, основанного на про­блемно-ориентированном языке высокого уровня для формулировки задания пользователя;

• модульность программного обеспечения, автоматическая организация про­цесса обработки данных и связей между модулями пакета;

• развитая система поддержки при выборе способов обработки данных, визу­альном отображении результатов и их интерпретации;

• наличие средств сохранения результатов проделанного анализа в виде гра­фиков и таблиц;

• совместимость с другим программным обеспечением.

Современная программа анализа данных, в большинстве случаев, представ­ляет собой электронные таблицы с ограниченными по сравнению с обычными элек­тронным таблицами средствами манипулирования данными, но с достаточно мощ­ными методами расчетов по этим данным. Общая технология статистического ана­лиза данных с использованием статистического пакета включает в себя следующие основные этапы:




7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …

1) ввод данных в электронную таблицу с исходными данными и их предвари­тельное преобразование перед анализом (структурирование, построение необходимых выборок, ранжирование и т. д.);

2) визуализация данных при помощи того или иного типа графиков;

3) определение подходящих методов статистической обработки;

4) применение конкретной процедуры статистической обработки;

5) вывод результатов анализа в виде графиков и электронных таблиц с чис­ленной и текстовой информацией;

6) подготовка, печать и сохранение отчета.

Для расчетного анализа данных в СП используются отдельные библиотеки модулей. Модуль СП - это внешняя процедура или программа на языке программи­рования высокого уровня, удовлетворяющая некоторым дополнительным ограниче­ниям, наиболее важными из которых являются: ограничения на способ аварийного завершения работы модуля; на способы связи по информации, например на допус­тимость переменных внешнего типа и использование общей области памяти; на возможность передачи управления между модулями с помощью операторов вызова, расположенных в теле модуля; на использование операторов ввода-вывода. Отме­тим наиболее типовые расчетные модули современных статических пакетов, кото­рые условно разделим на следующие три группы:

• описательная статистика и разведочный анализ исходных данных;

• статистическое исследование зависимостей;

• вспомогательные программы.

Модуль описательной статистики и разведочного анализа исходных данных по­зволяет проводить:

• анализ резко выделяющихся наблюдений;

• проверку статистической независимости рядов наблюдений;

• определение основных числовых характеристик и частотную обработку ис­ходных данных (построение гистограмм, полигонов частот, вычисление выборочных средних, дисперсий и т.д.);

• расчет критериев однородности (средних, дисперсий, законов распределе­ния и т.д.);

• определение критериев согласия (хи-квадрат, Колмогорова-Смирнова и др.);

• статистическое оценивание параметров;

7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …

• вычисление наиболее распространенных законов распределения вероятно­
стей (нормального, Пуассона, хи-квадрат и некоторых других);

• визуализацию анализируемых многомерных статистических данных.
Модуль статистического исследования зависимостей является достаточно объ­
емной частью любого СП. Он включает в себя решение следующих задач:

• корреляционно-регрессионный анализ;

• дисперсионный анализ;

• планирование регрессионных экспериментов и выборочных обследований и др.

Вспомогательные программы расширяют возможности статистических пакетов и реализуют, в частности, оптимизационные алгоритмы, вычислительные процеду­ры, основанные на нейросетях и генетических алгоритмах, задачи статистического моделирования на ЭВМ, которые являются полезными составными элементами компьютерных имитационных экспериментов, используемых при анализе сложных реальных систем.

В настоящее время существует множество источников информации по исполь­зованию статистических пакетов как в виде книгопечатных изданий, так и в элек­тронном виде, которые размещены на сайтах в сети Internet. Для более детального знакомства с процедурами компьютерной обработки результатов статистических ис­следований заинтересованным читателям можно рекомендовать специальный спра­вочник [20]. Ниже в табл. 7.1 представлены адреса ресурсов Internet, на которых расположена информация по некоторым распространенным статистическим паке­там.

Таблица 7.1 Статистические пакеты

Адрес Название программы Разработчик
www.statsoft.ru STATISTICA StatSoft Inc., США
www.spss.ru SPSS SPSS Inc., США
www.stat-graphics.com STATGRAPHICS Plus Manugistics Inc.,
www.sas.com StatView SAS Institute Inc.,
www.ncss.com NCSS NCSS Statistical Software,
www.minitab.com Minitab Minitab Inc.

7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …

окончание табл. 7.1

www.insightful.com S-PLUS Insightful Corp.
statsoft.msu.ru STADIA НПО «Информатика и компьютеры», Россия
www.softsite.ru Stat-Media Центр интеллектуальных систем «Метод», Россия
www.megaputer.ru PolyAnalyst «Мегапьютер Интеллидженс», Россия

Отметим, что многие поставщики предлагают пользователям пробные и демон­страционные версии статистических программ, как правило, отличающиеся тем, что пробная версия представляет собой полнофункциональный продукт с ограниченным сроком использования, а демонстрационная версия в большинстве случаев напоми­нает электронную презентацию.

Следующий параграф посвящен краткому описанию основных статистических функций электронных таблиц Microsoft Excel с комментариями по их использованию в теории инженерного эксперимента для статистической обработки эксперименталь­ных данных и анализа результатов наблюдений. Некоторые из этих функций исполь­зовались нами в предыдущих главах данного пособия при изложении соответствую­щих разделов теории инженерного эксперимента и иллюстрации примеров. Предпо­лагается, что читатель уже имеет некоторые навыки работы на компьютере в среде электронных таблиц Microsoft Excel, поэтому может использовать данный материал в качестве справочного пособия для статистического анализа данных.

Затем мы рассмотрим материал, посвященный знакомству с возможностями интегрированной системы статистического анализа и обработки данных STATISTICA. Наш выбор обусловлен тем фактом, что данная система является на сегодня одной из лидирующих на рынке программного обеспечения для статистиче­ской обработки данных. Кроме этого, важным моментом является наличие русскоя­зычной версии программы и множества публикаций, посвященных этому пакету, на­пример [21].

Наши рекомендации