Для чего выдвигалась гипотеза?
Для оценки предельного (граничного) размера случайной погрешности Xk .
Вопрос №2
1) Что такое гистограмма?
2) Для чего строится гистограмма?
3) Какие статистические рекомендации существуют для построения гистограммы?
1) Гистограмма, это способ представления статистических данных в графическом виде – в виде столбчатой диаграммы. Она отображает распределение отдельных измерений параметров изделия или процесса. Иногда ее называют частотным распределением, так как гистограмма показывает частоту появления измеренных значений параметров объекта. Высота каждого столбца указывает на частоту появления значений параметров в выбранном диапазоне, а количество столбцов – на число выбранных диапазонов.
2) Гистограмма позволяет наглядно представить тенденции изменения измеряемых параметров качества объекта и зрительно оценить закон их распределения. Кроме того, гистограмма дает возможность быстро определить центр, разброс и форму распределения случайной величины. Строится гистограмма, как правило, для интервального изменения значений измеряемого параметра.
3) Статистические рекомендации для построения гистограммы:
1. Собираются статистические данные – результаты измерений параметра объекта. Для того, чтобы гистограмма позволяла оценить вид распределения случайной величины предпочтительно иметь не менее тридцати результатов измерений.
2. Выявляется наибольшее и наименьшее значение показателя среди полученных результатов измерений.
3. Определяется ширина диапазона значений показателя – из наибольшего значения показателя вычитается наименьшее значение.
4. Выбирается надлежащее число интервалов в пределах которых необходимо сгруппировать результаты измерений.
5. Устанавливаются границы интервалов. Границы интервалов необходимо установить так, чтобы значения данных не попадали ни на одну из границ интервала. Например, если были выбраны интервалы с границами от 0,5 до 5,5 от 5,5 до 10,5 и т.д. то значение данных 5,5 будет попадать как в первый, так и во второй интервал. Чтобы избежать этой проблемы можно изменить интервалы от 0,51 до 5,50 от 5,51 до 10,50 и так далее, таким образом ни одно значение данных не попадет на границу интервала.
6. Подсчитывается число попаданий значений результатов измерений в каждый из интервалов.
7. Строится гистограмма – на оси абсцисс (горизонтальной оси) отмечаются интервалы, а на оси ординат (вертикальной оси) отмечается частота попаданий результатов измерений в каждый интервал. Интервалы можно устанавливать в натуральных единицах (если позволяет масштаб), т.е. в тех единицах, в которых проводились измерения, либо каждому интервалу можно присвоить порядковый номер и отмечать на оси абсцисс номера интервалов.
Если на контролируемый параметр существует поле допуска, то гистограмма может содержать верхнюю и нижнюю границы поля допуска. Это позволяет увидеть в какую сторону и как смещается значение контролируемого показателя относительно поля допуска. Границы наносятся по оси абсцисс.
Вопрос 3
Какими параметрами характеризуется нормальный закон распределения случайной величины? В чем его смысл? По каким формулам определяются математическое ожидание и среднеквадратическое отклонение и какие им соответствуют встроенные функции Mathcad? Как вычисляется несмещенная оценка дисперсии в Mathcad?
Нормальный закон распределения случайной величины имеет такие параметры как мат. ожидание, дисперсия, смещения и среднеквадратичное отклонение. Его используют для получения более точной оценки. Ошибки с хорошим приближением подчинены нормальному закону распределения.
Смысл закона: сумма многих независимых источников погрешностей с произвольными функциями распределения асимптотически имеет нормальное распределение, если только ни одна из этих погрешностей не является превалирующей:
Мат. ожидание погрешности производят путем определения среднего арифметического погрешностей всех измерений:
Оценку среднего квадратического отклонения случайных погрешностей Sx определяют по формуле:
где - несмещенная (уточненная) оценка дисперсии, которая вычисляется по формуле:
В системе MathCAD имеются встроенные функции для вычисления оценок математического ожидания, дисперсии и среднеквадратического отклонения:
1) mean(v) - среднее арифметическое элементов вектора V
где N - число элементов вектора V, т.е. число членов выборки
2) var(v) - дисперсия
var(V)=
3) stdev(v) - среднеквадратическое отклонение
stdev(V)=
Для вычисления распределения вероятности нормального распределения со средним m и среднеквадратическим отклонением в точке x используются следующие функции:
dnorm(x, m, ) – плотность вероятности распределения;
pnorm(x, m, ) – функция распределения вероятности (вероятность того, что случайная величина X меньше или равна x);
Для вычисления плотностей вероятности распределения Стьюдента с d степенями свободы в точке x используются функции:
dt(x, d) – плотность вероятности распределения Стьюдента;
Функции вероятности для распределения Стьюдента:
pt(x, d) – функции распределения вероятности распределения Стьюдента;
А вот для несмещенной оценки как я поняла это все т же самые функции, только с большой буквы начинаются: Var(V), Sdev(V), V- вектор или матрица случайных чисел.
Вопрос 4
В чем суть критерия хи-квадрат? Что такое доверительная вероятность и вероятность ошибки первого рода?
1.Суть хи-квадрата.Благодаря тесной связи с нормальным распределением, χ2-распределение играет важную роль в теории вероятностей и математической статистике. χ2-распределение, и многие другие распределения, которые определяются посредством χ2-распределения (например - распределение Стьюдента), описывают выборочные распределения различных функций от нормально распределенных результатов наблюдений и используются для построения доверительных интервалов и статистических критериев.
Распределение Пирсона (хи - квадрат) – распределение случайной величины где X1, X2,…, Xn - нормальные независимые случайные величины, причем математическое ожидание каждой из них равно нулю, а среднее квадратическое отклонение - единице.
Сумма квадратов
2. Доверительный интервал — термин, используемый в математической статистике при интервальной (в отличие от точечной) оценке статистических параметров, что предпочтительнее при небольшом объёме выборки. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.
Доверительным интервалом параметра θ распределения случайной величины X с уровнем доверия 100p%, порождённым выборкой (x1,…,xn), называется интервал с границами (x1,…,xn) и (x1,…,xn), которые являются реализациями случайных величин L(X1,…,Xn) и U(X1,…,Xn), таких, что
.
Граничные точки доверительного интервала и называются доверительными пределами.
3.Ошибки первого рода и ошибки второго рода в математической статистике — это ключевые понятия задач проверки статистических гипотез. Тем не менее, данные понятия часто используются и в других областях, когда речь идёт о принятии «бинарного» решения (да/нет) на основе некоего критерия (теста, проверки, измерения), который с некоторой вероятностью может давать ложный результат.
Пусть дана выборка из неизвестного совместного распределения , и поставлена бинарная задача проверки статистических гипотез:
где — нулевая гипотеза, а — альтернативная гипотеза. Предположим, что задан статистический критерий
,
сопоставляющий каждой реализации выборки одну из имеющихся гипотез. Тогда возможны следующие четыре ситуации:
1. Распределение выборки соответствует гипотезе , и она точно определена статистическим критерием, то есть
2. Распределение выборки соответствует гипотезе , но она неверно отвергнута статистическим критерием, то есть .
3. Распределение выборки соответствует гипотезе , и она точно определена статистическим критерием, то есть .
4. Распределение выборки соответствует гипотезе , но она неверно отвергнута статистическим критерием, то есть .
Во втором и четвертом случае говорят, что произошла статистическая ошибка, и её называют ошибкой первого и второго рода соответственно.
Лабораторная работа №3
Вопрос 1
1. В чем задача лабораторной работы?
2. Какие операции над экспериментальными данными производились?
1. Задачей эксперимента является установление математической
модели исследуемого прибора, которая в общем виде записывается y=f(x1,x2,...,xn).
где y – выходная характеристика устройства или системы; x1, x2,..., xr – входные сигналы и внешние факторы, определяющие поведение устройства или системы. Полученная аналитическая зависимость позволяет предсказывать значения выходной характеристики по значениям входных переменных. Эта возможность важна в случаях, когда прямые измерения выходной характеристики затруднены или дорого стоят.
Установление математической модели включает в себя выбор вида математической модели и определение ее параметров (коэффициентов, показателей степени и т.п.). В современной теории эксперимента независимые переменные (x1, x2, ... , xr ) принято называть факторами, а зависимую переменную y – функцией отклика или откликом.
2. При обработке экспериментальных данныхприходится выполнять большой объем вычислений. Для автоматизации вычислений целесообразно использовать один из математических пакетов, функционирующих на ПК. Для решения задач обработки экспериментальных данных популярен интегрированный пакет автоматизации математических вычислений MATLAB фирмы Mathworks (США) [10,11]. Функции, обеспечивающие выполнение простейших процедур анализа данных, включены разработчиками MATLAB в состав ядра системы. Основные инструменты анализа данных сосредоточены в библиотеке Statistics Toolbox (набор инструментов статистического анализа). Всего в библиотеке сосредоточено более 200 функций, обеспечивающих проведение статистических экспериментов, анализ и обработку данных.
Вопрос 2
Как осуществляется отсеивание грубых промахов эксперимента? Какие при этом гипотезы выдвигаются и проверяются?
Как осуществляется отсеивание грубых промахов эксперимента?
Для исключения из повторных опытов грубых ошибок используют критерий Стьюдента, эмпирическое значение которого находят по формуле
где t берут из таблицы t-распределения Стьюдента (Приложение ) для υ степеней свободы. Опыт считается бракованным, если экспериментальное значение критерия tэ по модулю больше или равно табличному значению t.
Yik – результат отдельного опыта;
Определяем дисперсию и стандарт по формулам
где (m-1) – число степеней свободы, равное количеству повторных опытов, минус единица; yik – результат отдельного опыта; – среднее арифметическое, определяемое по формуле (3.3):
Вопрос 3.
В чем суть метода наименьших квадратов? Как записывается решение системы уравнений МНК для аппроксимации степенным многочленом в матричном виде?
Метод наименьших квадратов— один из базовых методов регрессионного анализа для оценки неизвестных параметров регрессионных моделей по выборочным данным. Метод основан на минимизации суммы квадратов остатков регрессии.
Необходимо отметить, что собственно методом наименьших квадратов можно назвать метод решения задачи в любой области, если решение заключается или удовлетворяет некоторому критерию минимизации суммы квадратов некоторых функций от искомых переменных. Поэтому метод наименьших квадратов может применяться также для приближённого представления (аппроксимации) заданной функции другими (более простыми) функциями, при нахождении совокупности величин, удовлетворяющих уравнениям или ограничениям, количество которых превышает количество этих величин и т. д.
Система нормальных уравнений МНК для определения коэффициентов для модели вида yi = b0 + b1x i1 + ... + br xir + εi, имеет вид:
, (9.2)
где или в матричной форме
U = (Y – XB)T(Y – XB).
Вопрос 4.
Как зависит точность аппроксимации от степени аппроксимирующего многочлена? Какая степень многочлена должна быть выбрана и почему?
Чем больше пар данных и чем выше степень аппроксимирующего многочлена, тем выше погрешность аппроксимации. Обычно аппроксимация при степени многочлена выше 8-10 не применяется из-за резкого возрастания погрешности.
Степень многочлена должна быть выбрана наименьшей возможной , иначе будет высокая погрешность.
Аппроксима́ция, или приближе́ние— научный метод, состоящий в замене одних объектов другими, в том или ином смысле близкими к исходным, но более простыми. Аппроксимация позволяет исследовать числовые характеристики и качественные свойства объекта, сводя задачу к изучению более простых или более удобных объектов (например, таких, характеристики которых легко вычисляются, или свойства которых уже известны).
Вопрос 5.
В чем заключается проверка адекватности модели по опытным данным?
Чтобы проверить адекватность модели по опытным данным, достаточно оценить отклонение предсказанных по уравнению регрессии значений отклика y от результатов наблюдения в одних и тех же i-х точках факторного пространства. Рассеяние результатов наблюдения вблизи линии уравнения регрессии, оценивающего истинную функцию отклика, можно охарактеризовать с помощью дисперсии адекватности y (10.1)
где d – число коэффициентов регрессии. Остаточная дисперсия определяется числом степеней свободы nR = N – d. (10.2)
Суть проверки в выяснении соотношения между дисперсией адекватности и дисперсией воспроизводимости отклика.
Проверка адекватности осуществляют с помощью критерия Фишера. Если > , то вычисляют дисперсионное отношение . (10.3)
Если вычисленное значение меньше табличного значения Fкркритерия Фишера, найденного для соответствующих степеней свободы n1 = N – d, n2 = N (m–1) (10.4)
при заданном уровне значимости (обычно задают равным 5%), то гипотезу об адекватности не отвергают. В противном случае гипотезу отвергают, и математическое описание признается неадекватным.
Вопрос 5.
В чем заключается проверка значимости коэффициентов?