Подбор подходящего теоретического распределения
Критерии согласия
Для подбора подходящего теоретического распределения прежде всего следует построить экспериментальную кривую плотности распределения, после чего визуально выбрать похожую кривую из известных типов теоретических распределений. При построении экспериментальной кривой данные ранжируют в порядке возрастания, разбивают на группы, строят гистограмму, а по ней - экспериментальную кривую. Разумеется, что при наличии оснований отдать предпочтение тому или иному теоретическому закону распределения необходимость в построении экспериментальной кривой отпадает.
Выбрав тип предполагаемого теоретического распределения, выдвигают нулевую гипотезу о взаимном соответствии теоретического и экспериментального распределений, проверяют ее на заданном уровне значимости, используя критерии согласия.
При больших выборках (n >100) предпочтение следует отдавать критерию согласия Пирсона. Иногда этот критерий используют при существенно меньших выборках. Критерий Колмогорова— Смирнова дает хорошие результаты при n>30 и удовлетворительные при 100 > n >10. При n<10 лучшие результаты дает критерий Крамера - фон Мизеса. Эти рекомендации весьма приблизительны, так как каждый из критериев имеет свои сильные и слабые стороны, и относительно выбора между ними можно дать лишь самые общие указания.
Критерий Пирсона(хи-квадрат) применим только к сгруппированным данным. Рекомендуется, чтобы численность каждой группы (интервала) была не меньше 5. Если это не так, то смежные малочисленные группы следует объединять с соседними.
Разбив исходные данные на т интервалов (групп), для каждого интервала вычисляют:
экспериментальные частоты рi* = ni /n, где ni - количество данных, попавших в i-й интервал, п - общее количество данных (объем выборки);
теоретические частоты , найденные по таблицам или формулам для выбранного типа теоретического распределения; экспериментальную величину
(1.54)
По таблицам квантилей распределения χ2 при заданном уровне значимости β (обычно 5%) и известном числе степеней свободы f находят теоретическое значение χ2. Число степеней свободы f равно количеству интервалов минус число независимых условий (связей), наложенных на экспериментальные частоты рi*. Примерами таких условий могут быть: равенство 1 суммы всех частот (такое условие накладывается всегда), совпадение статистического среднего с гипотетическим, совпадение дисперсий и т. п. Следовательно f=т–1-r, где т - число интервалов, 1 - отмеченное выше условие, r -число параметров, определяемых из опытных данных. Так, если предполагаемое распределение нормальное, то оценивают два параметра (математическое ожидание и среднее квадратическое отклонение), поэтому f=т-1-r=т-1-2=т-3; при распределении по закону Пуассона, содержащему лишь один параметр λ, будем иметь r=1, поэтому f=т-1-2 =т—2. Если дополнительные условия (кроме первого) не наложены, то f = m -1.
При выполнении условия
(1.55)
считается, что при заданном уровне значимости (β=5%) функция распределения согласуется с экспериментальными данными.
Более жесткие требования по уровню значимости следует выдвигать с осторожностью. Увеличение доверительной вероятности уменьшает вероятность того, что незначимое различие будет принято за значимое и правильная функция будет отвергнута. Однако это увеличивает вероятность того, что значимое различие будет принято за незначимое.
Во избежание возможных ошибок первого и второго рода, в особенности, если согласование теоретических и эмпирических частот «слишком хорошее», следует проявлять осторожность. Например, можно повторить опыт, увеличив число наблюдений, воспользоваться другим критерием согласия, вычислить асимметрию и эксцесс и сопоставить их с известными для данного распределения.
Критерий Колмогорова - Смирноваопределяется разностью максимальных абсолютных значений статистической функции распределения F* (х) и соответствующей теоретической функции распределения F(x), т. е.
(1.56)
Смирновым Н. В., а затем Колмогоровым А. Н. было доказано, что какой бы вид ни имела функция F(х), при неограниченном возрастании числа независимых наблюдений п вероятность неравенства
(1.57)
стремится к пределу
(1.58)
Для практического использования критерия составлена таблица квантилей, определенных из соотношения k (λа)=α, где функция распределения записана в несколько ином виде:
Схема применения критерия Колмогорова — Смирнова следующая.
По результатам п наблюдений строится (рис.1.18) статистическая функция распределения F* (х).
Рис. 1.18. К использованию критерия Колмогорова
На том же графике наносится предполагаемая теоретическая функция распределения F(x).
Определяется максимальная величина модуля разности ординат D и вычисляется величина λ=D .
С помощью таблицы по заданному уровню значимости β (доверительной вероятности α) находится значение λа. Если λ<λа, то теоретическое и экспериментальное распределения согласуются на заданном уровне значимости.
Планирование эксперимента
Планирование эксперимента позволяет оптимизировать трудовые, временные и материальные затраты на проведение исследований, обеспечить их наиболее эффективное выполнение, а отсутствие соответствующего плана может существенно повысить трудоемкость исследований или сделать экспериментальную программу полностью безрезультатной.
Исторически теория планирования эксперимента начала развиваться с факторного планирования, основы которого зародились еще в 30-х годах XXстолетия. Основы этой теории состоят в построении экономичных планов, по результатам экспериментальных измерений в точках которых можно делать статистические выводы о неизвестных параметрах функций регрессии, причем делать это на основе четко формализованных процедур. Факторное планирование включает построение полных и дробных факторных планов, ортогональных латинских квадратов и сбалансированных блок-схем. В отличие от классического эксперимента, в котором влияние различных значений входных переменных на результаты исследования рассматривается по одному, при факторном планировании эти значения одновременно комбинируются в разных вариантах. Это позволяет дать более точные оценки неизвестных параметров регрессии при равном числе измерений [19].
К настоящему времени сложилась стройная теория планирования эксперимента, оперирующая с достаточно сложным математическим аппаратом, имеющая свою терминологию. Рассмотрим основные положения этой теории, позволяющие организовать процесс моделирования не очень сложных систем. При этом ограничимся рассмотрением двухуровневых планов, в которых влияние на результат эксперимента каждой из входных переменных изучается на двух уровнях, т. е. при наименьшем и наибольшем значениях этой переменной в пределах исследуемой области. Двухуровневые планы в силу ряда преимуществ получили наибольшее распространение при факторном планировании эксперимента.
Поскольку математические методы планирования эксперимента основаны на кибернетическом подходе, наиболее подходящей моделью эксперимента является «черный ящик», для которого известно лишь то, что подается на его вход, и то, что получается на выходе, а устройство этого ящика значения не имеет. Соответственно мы будем иметь два типа переменных (входных и выходных), которые называют факторами и откликами. Для выяснения различий между ними рассмотрим простой эксперимент, в котором рассматриваются лишь две переменные х и у и целью которого является ответ на вопрос: как при изменении х будет изменяться y?В этом случае х - фактор, а у - отклик. В литературе встречаются другие термины: для фактора - режим, независимая переменная, входная переменная, экзогенная переменная; для отклика - реакция, выход, зависимая переменная, переменная состояния, эндогенная переменная. Подобная терминология возникла в связи с тем, что первые исследования с применением статистических экспериментов проводились в сельском хозяйстве, биологии, а затем стремительно вторгались в другие ниши, пополняясь там терминами, наиболее близкими и понятными читателям.
Каждый фактор хi может принимать в эксперименте одно из нескольких значений, называемых уровнями. Каждому уровню соответствует определенная точка в многомерном пространстве, а множество таких точек образует поверхность отклика. На рис.1.19 показана поверхность отклика для двухфакторного эксперимента. Факторами являются переменные х1 и х2. В точках 1, 2, 3, 4 эти факторы принимают определенные значения, которым отвечают соответствующие точки на поверхности отклика.
Рис. 1.19. Поверхность отклика.
(1.59)
Конфигурация поверхности отклика, следовательно, функция (1.59) не известна. Целью эксперимента является либо описание этой поверхности (хотя бы приближенное) в интересной для исследователя области варьирования факторов, либо определение экстремального значения отклика. Вторая задача может быть сведена к пошаговому выполнению первой, поэтому на начальном этапе нас будет интересовать только поиск аналитического выражения, близкого к искомой функции (1.59) в заданной области. Этот поиск осуществляют на основе обработки экспериментальных данных в точках 1, 2, 3, 4 (см. рис. 1.19) факторного пространства.