Компьютерные методы статистической обработки результатов инженерного эксперимента
Общие замечания
В данной главе мы рассмотрим возможности использования отдельных компьютерных программ (пакетов прикладных программ, программных сред, компьютерных систем) для статистической обработки данных, полученных в ходе инженерного эксперимента. Преимущества использования в этой области компьютерных программных продуктов очевидны, однако сделаем некоторые замечания.
В настоящее время темпы развития компьютерных технологий настолько велики, что создаваемые аппаратные и программные средства обработки информации, в том числе и статистической, совершенствуются практически с каждым месяцем, приобретая все новые и новые возможности. С распространением мощных персональных компьютеров стало возможно реализовывать методы расчета, которые раньше считались очень трудоемкими в вычислениях. На рынке программного обеспечения существуют достаточно сложные пакеты прикладных программ, профессионально ориентированные на обработку статистической информации и позволяющие выявлять закономерности на фоне случайностей, делать обоснованные выводы и прогнозы, оценивать вероятности их выполнения. Эти программные среды обладают высокой степенью универсальности, а их применимость и технология использования практически не зависят от предметной области (металлургия, экономика, медицина и др.).
Тенденцией развития современных компьютерных технологий является объединение (интеграция) функций отдельных пакетов программ (математических, статистических, текстовых, графических, коммуникационных и др.) в так называемые интегрированные компьютерные среды. Эта особенность наиболее четко прослеживается с выходом новых версий популярных программных продуктов, когда возможности существующих программ расширяются за счет включения в них новых функций. В качестве примера можно привести пакет Microsoft Office, включающий в себя наряду со средствами создания и обработки текста (Word), баз данных (Access), презентаций (Power Point) также табличный процессор Excel, предназначенный, вообще говоря, для создания электронных таблиц и манипулирования их данными. В состав Microsoft Excel входит набор средств анализа данных (пакет анализа), предназначенный для решения сложных статистических задач. Для проведения анализа
7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …
данных с помощью этих средств достаточно указать (отметить) диапазон входных данных из таблицы и выбрать необходимые параметры; расчет будет проведен с помощью подходящей статистической функции, а результат будет помещен в выходной диапазон таблицы. Кроме того, специальные средства позволяют представить результаты в графическом виде. Для успешного применения процедур анализа в Microsoft Excel также необходимы соответствующие знания в области статистических расчетов, для которой эти инструменты были разработаны. Несмотря на то, что электронные таблицы уступают по своим возможностям специализированным пакетам статистической обработки данных, изучение возможностей и владение навыками работы с Microsoft Excel делает их мощным инструментом в руках инженера-исследователя.
Компьютерные системы для анализа данных - статистические пакеты (СП) -являются, по сравнению с другими наукоемкими программами, пожалуй, наиболее широко применяемыми в инженерной практике и исследовательской работе в разнообразных областях человеческой деятельности. Статистический пакет должен удовлетворять определенным требованиям, на которые в первую очередь надо обращать внимание при его выборе:
• использование простого пользовательского интерфейса, основанного на проблемно-ориентированном языке высокого уровня для формулировки задания пользователя;
• модульность программного обеспечения, автоматическая организация процесса обработки данных и связей между модулями пакета;
• развитая система поддержки при выборе способов обработки данных, визуальном отображении результатов и их интерпретации;
• наличие средств сохранения результатов проделанного анализа в виде графиков и таблиц;
• совместимость с другим программным обеспечением.
Современная программа анализа данных, в большинстве случаев, представляет собой электронные таблицы с ограниченными по сравнению с обычными электронным таблицами средствами манипулирования данными, но с достаточно мощными методами расчетов по этим данным. Общая технология статистического анализа данных с использованием статистического пакета включает в себя следующие основные этапы:
7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …
1) ввод данных в электронную таблицу с исходными данными и их предварительное преобразование перед анализом (структурирование, построение необходимых выборок, ранжирование и т. д.);
2) визуализация данных при помощи того или иного типа графиков;
3) определение подходящих методов статистической обработки;
4) применение конкретной процедуры статистической обработки;
5) вывод результатов анализа в виде графиков и электронных таблиц с численной и текстовой информацией;
6) подготовка, печать и сохранение отчета.
Для расчетного анализа данных в СП используются отдельные библиотеки модулей. Модуль СП - это внешняя процедура или программа на языке программирования высокого уровня, удовлетворяющая некоторым дополнительным ограничениям, наиболее важными из которых являются: ограничения на способ аварийного завершения работы модуля; на способы связи по информации, например на допустимость переменных внешнего типа и использование общей области памяти; на возможность передачи управления между модулями с помощью операторов вызова, расположенных в теле модуля; на использование операторов ввода-вывода. Отметим наиболее типовые расчетные модули современных статических пакетов, которые условно разделим на следующие три группы:
• описательная статистика и разведочный анализ исходных данных;
• статистическое исследование зависимостей;
• вспомогательные программы.
Модуль описательной статистики и разведочного анализа исходных данных позволяет проводить:
• анализ резко выделяющихся наблюдений;
• проверку статистической независимости рядов наблюдений;
• определение основных числовых характеристик и частотную обработку исходных данных (построение гистограмм, полигонов частот, вычисление выборочных средних, дисперсий и т.д.);
• расчет критериев однородности (средних, дисперсий, законов распределения и т.д.);
• определение критериев согласия (хи-квадрат, Колмогорова-Смирнова и др.);
• статистическое оценивание параметров;
7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …
• вычисление наиболее распространенных законов распределения вероятно
стей (нормального, Пуассона, хи-квадрат и некоторых других);
• визуализацию анализируемых многомерных статистических данных.
Модуль статистического исследования зависимостей является достаточно объ
емной частью любого СП. Он включает в себя решение следующих задач:
• корреляционно-регрессионный анализ;
• дисперсионный анализ;
• планирование регрессионных экспериментов и выборочных обследований и др.
Вспомогательные программы расширяют возможности статистических пакетов и реализуют, в частности, оптимизационные алгоритмы, вычислительные процедуры, основанные на нейросетях и генетических алгоритмах, задачи статистического моделирования на ЭВМ, которые являются полезными составными элементами компьютерных имитационных экспериментов, используемых при анализе сложных реальных систем.
В настоящее время существует множество источников информации по использованию статистических пакетов как в виде книгопечатных изданий, так и в электронном виде, которые размещены на сайтах в сети Internet. Для более детального знакомства с процедурами компьютерной обработки результатов статистических исследований заинтересованным читателям можно рекомендовать специальный справочник [20]. Ниже в табл. 7.1 представлены адреса ресурсов Internet, на которых расположена информация по некоторым распространенным статистическим пакетам.
Таблица 7.1 Статистические пакеты
Адрес | Название программы | Разработчик |
www.statsoft.ru | STATISTICA | StatSoft Inc., США |
www.spss.ru | SPSS | SPSS Inc., США |
www.stat-graphics.com | STATGRAPHICS Plus | Manugistics Inc., |
www.sas.com | StatView | SAS Institute Inc., |
www.ncss.com | NCSS | NCSS Statistical Software, |
www.minitab.com | Minitab | Minitab Inc. |
7. КОМПЬЮТЕРНЫЕ МЕТОДЫ СТАТИСТИЧЕСКОЙ ОБРАБОТКИ …
окончание табл. 7.1
www.insightful.com | S-PLUS | Insightful Corp. |
statsoft.msu.ru | STADIA | НПО «Информатика и компьютеры», Россия |
www.softsite.ru | Stat-Media | Центр интеллектуальных систем «Метод», Россия |
www.megaputer.ru | PolyAnalyst | «Мегапьютер Интеллидженс», Россия |
Отметим, что многие поставщики предлагают пользователям пробные и демонстрационные версии статистических программ, как правило, отличающиеся тем, что пробная версия представляет собой полнофункциональный продукт с ограниченным сроком использования, а демонстрационная версия в большинстве случаев напоминает электронную презентацию.
Следующий параграф посвящен краткому описанию основных статистических функций электронных таблиц Microsoft Excel с комментариями по их использованию в теории инженерного эксперимента для статистической обработки экспериментальных данных и анализа результатов наблюдений. Некоторые из этих функций использовались нами в предыдущих главах данного пособия при изложении соответствующих разделов теории инженерного эксперимента и иллюстрации примеров. Предполагается, что читатель уже имеет некоторые навыки работы на компьютере в среде электронных таблиц Microsoft Excel, поэтому может использовать данный материал в качестве справочного пособия для статистического анализа данных.
Затем мы рассмотрим материал, посвященный знакомству с возможностями интегрированной системы статистического анализа и обработки данных STATISTICA. Наш выбор обусловлен тем фактом, что данная система является на сегодня одной из лидирующих на рынке программного обеспечения для статистической обработки данных. Кроме этого, важным моментом является наличие русскоязычной версии программы и множества публикаций, посвященных этому пакету, например [21].