Величин (X, Y) на плоскости

Рис. 1.10. Пример возможного распределения случайных точек на плоскости.

Линейной среднеквадратической регрессией YнаXназывается уравнение y = ax + b со значением параметров, при которых

j(a, b) = M[(aX + b) –Y)²](1.41)

минимальна. Другими словами, среди всех прямых вида y = ax + b выбирается такая, для которой ((ax + b) – y)²в среднем имеет наименьшее значение.

Приравнивая к нулю частные производные функции

j(a, b) = M[y²] + a²M[x²] + b² – 2×a×M[x y] – 2×b×m_y + 2×a×b×m_x

и решая полученную систему уравнений, находим точку минимума:

Величин (X, Y) на плоскости - student2.ru ; ,(1.42)

где m_xи m_y– математические ожидания X и Y; Величин (X, Y) на плоскости - student2.ru и – дисперсии X и Y,

r = Величин (X, Y) на плоскости - student2.ru ; K_xy = M[xy] – m_xm_y = M[(x – m_x)(y – m_x)].(1.43)

Таким образом, уравнением линейной среднеквадратической регрессии Yи Xбудет:

y = r Величин (X, Y) на плоскости - student2.ru (x – m_x) + m_y .(1.44)

Аналогично, из условия минимума:

M[(a×Y + b – X)²](1.45)

можно получить уравнение линейной среднеквадратической регрессии Xна Y:

x = r Величин (X, Y) на плоскости - student2.ru (y – m_y) + m_x. (1.46)

Отметим, что (1.46) не получается разрешением уравнение (1.44) относительно x. Поэтому выражения (1.44) и (1.46) определяют, вообще говоря, разные прямые. Объясняется это тем, что в выражении (1.41) расстояние между Yи aX + bизмеряются вдоль оси Y, то есть по вертикали, а в выражении (1.45) расстояние между Х и aY + b измеряется вдоль оси х, то есть по горизонтали.

Число К_xyв выражении (1.43) называется ковариацией случайных величин X и Y, а число r = Величин (X, Y) на плоскости - student2.ru – их коэффициентом корреляции. Отметим, что для любой системы случайных величин коэффициент корреляции удовлетворяет соотношению –1 £ r £ 1и служит мерой линейной связи между Х и Y.

Если r = 0, то Хи Yназываются некоррелированными. В частности, некоррелированными являются независимые случайные величины. При r = 0из выражений (1.44) и (1.46) получаем y = m_yи x = m_x, то есть эти уравнения показывают, что линейной зависимости (даже приближенной) между X и Y нет. Напротив, если r= Величин (X, Y) на плоскости - student2.ru 1, то уравнения (1.44) и (1.46) выражают точную (не приближенную) зависимость. В этом случае мы имеем жёсткую линейную связь между Хи Y и все точки будут лежать на одной прямой. Остальные случаи являются промежуточными. Чем ближе |r| к единице, тем более выражена линейная связь между XиY. Если r > 0, то угловой коэффициент в уравнении прямых регрессии положителен. Это означает, что с ростом одной из величин и другая в среднем увеличивается. Говорят, что между XиY корреляция положительна. Соответственно, при отрицательной корреляции (r < 0) увеличение одной из величин ведёт в среднем к уменьшению другой. Положительная корреляция имеет место, например, между ростом и весом людей, а отрицательная между успеваемостью и продолжительностью досуга учащихся.

На рис. 1.11 приведены различные возможные графики линейной регрессии при различных значениях коэффициента корреляции.

Рис. 1.11. Графики линейной регрессии при r > 0, r < 0, r= Величин (X, Y) на плоскости - student2.ru 1, r = 0.

В уравнении регрессии (1.44) и (1.46) входят m_x, m_y, s_x, s_yиr, которые можно найти, если известна совместная функция распределения F_xy(x , y)или плотность f_xy(x, y).Если же имеется только выборка, то точные значения указанных величин приходится заменять их оценками. Оценки Величин (X, Y) на плоскости - student2.ru , , , уже рассмотрены нами в параграфе 1.4. Для оценки ковариации по выборке применяется формула [3]

Величин (X, Y) на плоскости - student2.ru = ,(1.47)

откуда получаем оценку:

Величин (X, Y) на плоскости - student2.ru .(1.48)

Отметим, что при больших n коэффициентом Величин (X, Y) на плоскости - student2.ru в (1.47) можно пренебречь.

Таким образом, окончательно получаем выборочные уравнения линейной среднеквадратической регрессии Y на X:

y = r* Величин (X, Y) на плоскости - student2.ru (x – ) + (1.49)

и X на Y:

x = r* Величин (X, Y) на плоскости - student2.ru (y – ) + . (1.50)

Отметим также, что прямые (1.49) и (1.50) получены по выборке, поэтому они, вообще говоря, отличаются от прямых (1.44) и (1.45). Однако сходимость оценок Величин (X, Y) на плоскости - student2.ru , , , , r^*к их точным значениям при n ® ¥ обеспечивает сходимость выборочных уравнений регрессии (1.49) и (1.50) к (1.44) и (1.46).

Уравнения (1.49) и (1.50) можно получить другим способом, применяя метод наименьших квадратов, то есть из условия минимума средних квадратов отклонений точек выборки от линии регрессии:

Величин (X, Y) на плоскости - student2.ru ,

(1.51)

Величин (X, Y) на плоскости - student2.ru .

Уравнения же (1.44) и (1.46) получены из условия минимума математических ожиданий (1.41) и (1.45).

Отметим один важный момент. Применяя формулу (1.48), мы всегда получим какую-то оценку r*коэффициента корреляции r. Причём эта оценка обычно отлична от нуля, даже если r=0. Поэтому возникает вопрос о значимости выборочного коэффициента корреляции, полученного по формуле (1.48). То есть достаточно ли у нас оснований считать, что коэффициент корреляции не равен нулю, другими словами, имеется ли вообще корреляция между исследуемыми случайными величинами?

Для ответа на этот вопрос применяется следующий критерий. Пусть по выборке объёма n получено выборочное значение коэффициента корреляции r* и выдвинута гипотеза H₀ = (r = 0).Для проверки этой гипотезы с уровнем значимости bвычисляется наблюдаемое значение

Величин (X, Y) на плоскости - student2.ru (1.52)

и применяется решающее правило

Величин (X, Y) на плоскости - student2.ru ® H₀ принимается,

(1.53)

Величин (X, Y) на плоскости - student2.ru ® H₀ отвергается,

где Величин (X, Y) на плоскости - student2.ru – находится из таблицы критических точек распределения Стьюдента (Приложение 2). Входом в эту таблицу является уровень значимости b и число степеней свободы r = n – 2.

Мы ограничились рассмотрением только линейной регрессии, то есть линейных приближённых зависимостей между XиY. При необходимости можно рассмотреть более сложные зависимости. В общем случае выбирается некоторая функция y = g(x , a₁ , a₂ , … , a_k), параметры а₁, а₂, … , а_ккоторой могут бытьнайдены и методом наименьших квадратов из условия минимума среднего квадрата ошибок приближения:

Величин (X, Y) на плоскости - student2.ru .

2. ЗАДАНИЕ ТИПОВОГО РАСЧЁТА.

1.Выбрать объект с двумя случайными параметрами Хи Y, собрать выборку объёма n = 100. Результат оформить в виде таблицы.

2.Составить две раздельные выборки для Хи Y.

3.Составить вариационные ряды для Хи Y.

4.Составить группированные выборки для XиYс числом интервалов k = 8 – 10.

5.По полученным группированным выборкам построить гистограммы и полигон. Выбрать типы распределения X и Y. Использовать при этом только типы распределений из приложения 1.

6.Вычислить точечные оценки Величин (X, Y) на плоскости - student2.ru , , , , , , , ,.

7.Найти 95% и 99%доверительные интервалы для m_x и m_y.

8.Определить параметры теоретического закона распределения для Х и Y, используя метод моментов (кроме случая равномерного распределения).

9.Построить отдельно для Хи Y на одном графике гистограмму, полигон и теоретическую плотность распределения вероятностей. Графики построить очень аккуратно!

10.С уровнем значимости b = 0,01проверить гипотезы о выбранных теоретических распределениях, используя критерий c². Если все типы распределений из приложения 1 не будут приняты, то какие-либо другие распределения проверять не надо.

11.Построить выборочное уравнение линейной среднеквадратической регрессии Yна Х. Прямую регрессии y = ax + b изобразить совместно с графическим представлением выборки (каждая элемент выборки (x_i , y_i ) изображается точкой на плоскости).

12.Проверить гипотезу о значимости выборочного значения коэффициента корреляции с уровнем значимости b = 0,01.

КОНТРОЛЬНЫЕ ВОПРОСЫ.

1.Функция распределения и плотность распределения вероятностей случайной величины.

2.Математическое ожидание, дисперсия и среднеквадратическое отклонение случайной величины.

3.Система двух случайных величин. Совместная функция распределения и совместная плотность распределения системы двух случайных величин.

4.Ковариация и коэффициент корреляции случайных величин.

5.Уравнение линейной среднеквадратической регрессии.

6.Выборка, вариационный ряд и группированная выборка.

7.Статистическая функция распределения, гистограмма и полигон.

8.Точечные оценки математического ожидания и дисперсии.

9.Интервальная оценка математического ожидания. Доверительный интервал.

10.Выбор типа теоретического закона распределения.

11.Параметры теоретического закона распределения. Метод моментов.

12.Критерии согласия. Ошибки первого и второго рода.

13.Критерий c²для проверки гипотезы о законе распределения вероятностей.

14.Оценка ковариации и коэффициента корреляции по выборке.

15.Уравнение выборочной линейной среднеквадратической регрессии.

16.Проверка гипотезы о значимости выборочного значения коэффициента корреляции.

4. ПРИМЕР ВЫПОЛНЕНИЯ ТИПОВОГО РАСЧЁТА.

Исходными данными для примера являются измерения кровяного давления (случайная величина Y) у людей различного возраста (случайная величина Х). Всего было обследовано 100 человек. Результаты обследования приведены в таблице 4.1.

Данные, приведённые в таблице 4.1, представляют собой исходную выборку для дальнейших расчётов. На её основе составляем отдельную выборку для случайной величины Х (таблица 4.2) и для случайной величины Y (таблица 4.3).

По полученной выборке для случайной величины Х строим вариационный ряд (таблица 4.4).

После этого построим группированную выборку (первые три колонки таблицы 4.5) и для каждого из десяти интервалов вычислим представитель интервала, относительную частоту и плотность частоты (таблица 4.5).

Таблица 4.1. Результаты измерения кровяного давления у 100 человек различного возраста.

N	X	y	N	x	y	N	x	y
1.	44.0	118.0	35.	69.2	150.0	69.	22.7	100.0
2.	33.1	67.0	36.	45.1	120.0	70.	48.9	128.0
3.	53.6	147.0	37.	40.2	113.0	71.	55.0	164.0
4.	56.4	129.0	38.	34.3	107.0	72.	69.2	162.0
5.	73.1	191.0	39.	21.3	104.0	73.	48.4	130.0
6.	57.8	137.0	40.	26.8	105.0	74.	37.6	114.0
7.	37.2	119.0	41.	72.1	169.0	75.	19.6	96.0
8.	18.2	100.0	42.	20.7	102.0	76.	32.0	107.0
9.	45.7	115.0	43.	26.0	103.0	77.	22.0	100.0
10.	40.2	114.0	44.	33.8	112.0	78.	53.2	126.0
11.	32.2	109.0	45.	45.6	114.0	79.	47.5	126.0
12.	76.4	169.0	46.	37.8	102.0	80.	43.2	111.0
13.	61.3	130.0	47.	18.2	97.0	81.	75.0	148.0
14.	46.7	119.0	48.	57.9	142.0	82.	63.2	152.0
15.	35.7	109.0	49.	74.0	149.0	83.	51.8	129.0
16.	68.1	156.0	50.	60.4	133.0	84.	43.0	106.0
17.	79.6	156.0	51.	55.8	125.0	85.	76.4	165.0
18.	49.6	125.0	52.	33.4	112.0	86.	49.5	118.0
19.	50.1	130.0	53.	58.0	127.0	87.	42.1	116.0
20.	45.5	125.0	54.	67.5	143.0	88.	30.7	105.0
21.	43.9	125.0	55.	53.4	121.0	89.	46.1	119.0
22.	43.2	116.0	56.	38.1	115.0	90.	63.5	144.0
23.	17.0	75.0	57.	46.8	128.0	91.	72.8	161.0
24.	58.6	128.0	58.	59.9	130.0	92.	56.6	141.0
25.	60.4	131.0	59.	19.5	91.0	93.	65.7	140.0
26.	76.1	155.0	60.	71.7	141.0	94.	49.8	123.0
27.	57.2	134.0	61.	50.6	134.0	95.	31.8	89.0
28.	39.4	113.0	62.	35.9	109.0	96.	24.0	111.0
29.	22.3	100.0	63.	18.8	108.0	97.	72.4	156.0
30.	74.4	141.0	64.	64.1	135.0	98.	35.7	105.0
31.	52.0	127.0	65.	51.1	137.0	99.	21.8	96.0
32.	31.5	90.0	66.	31.8	94.0	100.	22.0	79.0
33.	18.2	99.0	67.	25.3	75.0	*	*	*
34.	19.5	63.0	68.	25.0	51.0	*	*	*

Таблица 4.2. Выборка для случайной величины Х.

N	x	N	x	N	x	N	x	N	x
1.	44.0	21.	69.2	41.	25.0	61.	33.1	81.	45.1
2.	33.1	22.	53.6	42.	40.2	62.	48.9	82.	56.4
3.	53.6	23.	55.0	43.	73.1	63.	21.3	83.	69.2
4.	57.8	24.	26.8	44.	48.4	64.	37.2	84.	72.1
5.	37.6	25.	18.2	45.	20.7	65.	19.6	85.	45.7
6.	26.0	26.	32.0	46.	40.2	66.	33.8	86.	22.0
7.	32.2	27.	45.6	47.	53.2	67.	76.4	87.	37.8
8.	47.5	28.	61.3	48.	18.2	68.	43.2	88.	46.7
9.	57.9	29.	75.0	49.	35.7	69.	74.0	89.	63.2
10.	68.1	30.	60.4	50.	51.8	70.	79.6	90.	55.8
11.	43.0	31.	49.6	51.	33.4	71.	76.4	91.	50.1
12.	58.0	32.	49.5	52.	45.5	72.	67.5	92.	42.1
13.	43.9	33.	53.4	53.	30.7	73.	43.2	93.	38.1
14.	46.1	34.	17.0	54.	46.8	74.	63.5	94.	58.6
15.	59.9	35.	72.8	55.	60.4	75.	19.5	95.	56.6
16.	76.1	36.	71.7	56.	65.7	76.	57.2	96.	50.6
17.	49.8	37.	39.4	57.	35.9	77.	31.8	97.	22.3
18.	18.8	38.	24.0	58.	74.4	78.	64.1	98.	72.4
19.	52.0	39.	51.1	59.	35.7	79.	31.5	99.	31.8
20.	21.8	40.	18.2	60.	25.3	80.	22.0	100.	19.5

Таблица 4.3. Выборка для случайной величины Y.

N	Y	N	y	N	y	N	y	N	y
1.	118.0	21.	123.0	41.	121.0	61.	109.0	81.	96.0
2.	67.0	22.	100.0	42.	119.0	62.	133.0	82.	114.0
3.	147.0	23.	135.0	43.	128.0	63.	106.0	83.	114.0
4.	191.0	24.	105.0	44.	91.0	64.	130.0	84.	126.0
5.	105.0	25.	99.0	45.	140.0	65.	143.0	85.	119.0
6.	114.0	26.	150.0	46.	113.0	66.	105.0	86.	149.0
7.	115.0	27.	100.0	47.	108.0	67.	75.0	87.	129.0
8.	112.0	28.	129.0	48.	156.0	68.	130.0	88.	125.0
9.	126.0	29.	104.0	49.	90.0	69.	141.0	89.	127.0
10.	130.0	30.	130.0	50.	75.0	70.	134.0	90.	116.0
11.	142.0	31.	100.0	51.	51.0	71.	109.0	91.	116.0
12.	152.0	32.	103.0	52.	147.0	72.	111.0	92.	128.0
13.	156.0	33.	100.0	53.	107.0	73.	127.0	93.	161.0
14.	112.0	34.	169.0	54.	162.0	74.	94.0	94.	155.0
15.	118.0	35.	97.0	55.	119.0	75.	79.0	95.	134.0
16.	125.0	36.	148.0	56.	102.0	76.	67.0	96.	89.0
17.	115.0	37.	156.0	57.	107.0	77.	113.0	97.	141.0
18.	144.0	38.	125.0	58.	109.0	78.	164.0	98.	137.0
19.	131.0	39.	165.0	59.	102.0	79.	137.0	99.	96.0
20.	141.0	40.	125.0	60.	111.0	80.	169.0	100.	63.0

Таблица 4.4. Вариационный ряд для Х

17.0	18.2	18.2	18.2	18.8	19.5	19.5	19.6	20.7	21.3
21.8	22.0	22.2	22.3	22.7	24.0	25.0	25.3	26.0	26.8
30.7	31.5	31.8	31.8	32.0	32.2	33.1	33.4	33.8	34.3
35.7	35.7	35.9	37.2	37.6	37.8	38.1	39.4	40.2	40.2
42.1	43.0	43.2	43.2	43.9	44.0	45.1	45.5	45.6	45.7
46.1	46.7	46.8	47.5	48.4	48.9	49.5	49.5	49.8	50.1
50.6	51.1	51.8	52.0	53.2	53.4	53.6	55.0	55.8	56.4
56.6	57.2	57.8	57.9	58.0	58.6	59.9	60.4	60.4	61.3
63.2	63.5	64.1	65.7	67.5	68.1	69.2	69.2	71.7	72.1
72.4	72.8	73.1	74.4	74.8	75.0	76.1	76.4	76.4	79.6

Таблица 4.5. Группированная выборка для Х.

Номер интервала	Границы интервала (a _i; a _i+1)	Частоты m _i	Представитель интервала z _i	Относительная частота P_i*	Плотность относительной частоты f _i*
1.	17 – 20		18.5	0.08	0.0267
2.	20 – 30		25.0	0.12	0.0120
3.	30 – 35		32.5	0.10	0.0200
4.	35 – 40		37.5	0.08	0.0160
5.	40 – 45		42.5	0.08	0.0160
6.	45 – 50		47.5	0.13	0.0260
7.	50 – 55		52.5	0.08	0.0160
8.	55 – 60		57.5	0.10	0.0200
9.	60 – 70		65.0	0.11	0.0110
10.	70 – 80		75.5	0.12	0.0120

Найдём точечные оценки математического ожидания и дисперсии случайной величины Х по исходной и группированной выборкам (формулы (1.12), (1.14), и (1.15), (1.16) соответственно):

Величин (X, Y) на плоскости - student2.ru = =0.01 × 4650 = 46.50,

Величин (X, Y) на плоскости - student2.ru = =0.01 × 4640.5 = 46.41,

Величин (X, Y) на плоскости - student2.ru = » 260.18,

Величин (X, Y) на плоскости - student2.ru = 16.13,

Величин (X, Y) на плоскости - student2.ru = = 298.29,

Величин (X, Y) на плоскости - student2.ru = 17.27.

Найдём интервальные оценки математического ожидания случайной величины Х, то есть построим доверительные интервалы с доверительными вероятностями b = 0.95и b = 0.99(формула (1.23)):

I_0.95 =(46.41 – 1.96 × Величин (X, Y) на плоскости - student2.ru ; 46.41 + 1.96 × » (43.03 ; 49.80),

I_0.99 =(46.41 – 2.58 × Величин (X, Y) на плоскости - student2.ru ; 46,41 + 2.58 × » (41.95 ; 50.87).

Используя данные, полученные для группированной выборки (таблица 4.5), построим на одном графике гистограмму и полигон (рис. 4.1, кривые 1и 2, соответственно).

Рис.4.1. Гистограмма, полигон и теоретическая плотность для случайной величины Х.

Прямоугольники гистограммы имеют примерно равные высоты, поэтому предположим, что случайная величина Х распределена по равномерному закону с плотностью

Величин (X, Y) на плоскости - student2.ru

1/(b – a)при а £ х £ b,

f_x(x) =

0при х < aиb < x.

Для равномерного распределения параметры aиb определяются по формулам (1.25):

a = min x_i = 17;b = max x_i = 79.6.

i i

Таким образом, теоретическое распределение имеет плотность

Величин (X, Y) на плоскости - student2.ru

0.016при 17 £ х £ 79.6,

f(x) =

0при х <17и х >79.6,

и функцию распределения

0при х <17,

F_x(x) = (х – 17)/62.6при 17 £ х £ 79.6,

1 при х >79,6.

График плотности f(x) изобразим на рис.4.1. (линия 3).

Для проверки выдвинутой гипотезы о равномерном распределении величины Х применим критерий c². Число степеней свободы r = k–s–1=10–2–1=7, так как по выборке определено s=2 параметра: a и b. Уровню значимости b = 0.01при r = 7 соответствует критическое значение Величин (X, Y) на плоскости - student2.ru = 18.5. Для вычисления c²составляем таблицу 4.6.

Таблица 4.6. Расчёт значения c² для X.

N	Границы интервала	m_i	F(a_i)	F(a_i+1)	P_i	nP_i	m_i – nP_i	(m_i -nP_i)²
1.	17-20		0.000	0.048	0.048	4.8	3.2	10.24	2.133
2.	20-30		0.048	0.208	0.160	16.0	- 4.0	16.00	1.000
3.	30-35		0.208	0.288	0.080	8.0	2.0	4.00	0.500
4.	35-40		0.288	0.367	0.079	7.9	0.1	0.01	0.013
5.	40-45		0.367	0.447	0.080	8.0	0.0	0.00	0.000
6.	45-50		0.447	0.527	0.080	8.0	5.0	25.00	3.125
7.	50-55		0.527	0.607	0.080	8.0	0.0	0.00	0.000
8.	55-60		0.607	0.687	0.080	8.0	2.0	4.00	0.500
9.	60-70		0.687	0.847	0.160	16.0	- 5.0	25.00	1.563
	70-80		0.847	1.000	0.153	15.3	- 3.3	10.89	0.712
Σ					1.000				9.546

Итак, получили c² = 9.546. Поскольку 9.546 < 18.5, гипотеза о выбранном равномерном теоретическом распределении принимается.

Проделаем аналогичные вычисления для случайной величины Y.

Таблица 4.7. Вариационный ряд для Y.

После этого построим группированную выборку (первые три колонки таблицы 4.8) и для каждого из 9-ти интервалов вычислим представитель интервала, относительную частоту и плотность частоты (таблица 4.8).

Таблица 4.8. Группированная выборка для Y.

N	Границы интервала	Частоты m_i	Представитель интервала z_i	Относительная частотаP_i*	Плотность относительной частоты f_i*
1.	50-100		75.0	0.14	0.0028
2.	100-105		102.0	0.08	0.0160
3.	105-110		107.0	0.10	0.0200
4.	110-115		112.0	0.09	0.0180
5.	115-120		117.0	0.09	0.0180
6.	120-130		125.0	0.16	0.0160
7.	130-140		135.0	0.11	0.0110
8.	140-150		145.0	0.10	0.0100
9.	150-200		175.0	0.13	0.0026

Найдём точечные оценки математического ожидания и дисперсии случайной величины Y по исходной и группированной выборкам (формулы (1.12), (1.14) и (1.15), (1.16) соответственно):

Величин (X, Y) на плоскости - student2.ru = =0.01×12127 = 121.27,

Величин (X, Y) на плоскости - student2.ru = =0.01 × 12225 = 122.25,

Величин (X, Y) на плоскости - student2.ru = = 592.44,

Величин (X, Y) на плоскости - student2.ru = 24.34,

Величин (X, Y) на плоскости - student2.ru = = 816.86,

Величин (X, Y) на плоскости - student2.ru = 28.58.

Найдём интервальные оценки математического ожидания случайной величины Y, то есть построим доверительные интервалы с доверительными вероятностями b = 0.95и b = 0.99 (формула (1.23)):

I_0.95 =(122.25 – 1.96 × 2.858 ; 122.25 + 1.96 × 2.858) » (116.65 ; 127.85),

I_0.95 =(122.25 – 2.58 × 2.858 ; 122.25 + 2.58 × 2.058) » (114.08 ; 129.62).

Используя данные, полученные для группированной выборки (таблица 4.8), построим на одном графике гистограмму и полигон (рис. 4.2).

Величин (X, Y) на плоскости - student2.ru

Рис.4.2. Гистограмма, полигон и плотность для случайной величины Y.

Гистограмма имеет относительно высокие прямоугольники в середине, влево и вправо от неё высоты прямоугольников уменьшаются, имеются два «хвоста». Можно предположить, что случайная величина Y имеет нормальное распределение с плотностью (Приложение 1)

f(y) = Величин (X, Y) на плоскости - student2.ru ,

и функцией распределения

F_y(y) = 0.5 + F₀((y – m)/s)

где F₀(у) –функция Лапласа [5].

Оценка математического ожидания по группированной выборке равна m^# = 122.25, а оценка дисперсии - Величин (X, Y) на плоскости - student2.ru = 816.86( = 28.58). По методу моментов выбираем параметры m = m^# и s = s^#. Таким образом, выбираем теоретическое распределение

f(y) = Величин (X, Y) на плоскости - student2.ru ,

F_y(y) =F₀((y – 122.25)/28.58) + 0.5

График плотности f(y) изобразим на рис.4.2 (линия 3).

Чтобы использовать критерий c², найдём число степеней свободы: r = 9 – 2 – 1 = 6. Если уровень значимости b = 0.01, то Величин (X, Y) на плоскости - student2.ru =16.8. Для вычисления c²составляем таблицу 4.9.

Таблица 4.9. Расчёт значения c² для Y.

N	Границы интервала	m_i	F(a_i)	F(a_i₊₁)	P_i	nP_i	m_i –nP_i	(m_i – nP_i)²
1.	-¥-100		0.000	0.218	0.218	21.8	-7.8	60.84	2.790
2.	100-105		0.218	0.274	0.056	5.6	2.4	5.76	1.030
3.	105-110		0.274	0.334	0.060	6.0	4.1	16.81	2.850
4.	110-115		0.334	0.401	0.067	6.7	2.3	4.84	0.710
5.	115-120		0.401	0.468	0.067	6.7	2.3	5.29	0.790
6.	120-130		0.468	0.607	0.149	14.9	1.1	1.21	0.081
7.	130-140		0.607	0.732	0.125	12.5	-1.5	2.25	0.180
8.	140-150		0.732	0.834	0.101	10.1	-0.1	0.01	0.001
9.	150-¥		0.834	1.000	0.167	16.7	-3.7	13.69	0.820
Σ					1.000				9.252

Итак, получили c² = 9.252. Поскольку 9.252< 16.8, гипотеза о нормальном теоретическом распределении принимается.

Рассмотрим теперь случайные величины XиYсовместно. Отметим точками на плоскости Oxyвсе 100пар значений системы этих величин (рис.4.3). Найдём оценку ковариации по формуле (1.47):

Величин (X, Y) на плоскости - student2.ru = ,

так как Величин (X, Y) на плоскости - student2.ru = 46.50, = 121.27, = 16.13и = 24.34. Соответственно оценка коэффициента корреляции (формула (1.48)):

r* = Величин (X, Y) на плоскости - student2.ru .

Выборочное уравнение линейной среднеквадратической регрессии Y на X находим по формуле (1.49):

y = Величин (X, Y) на плоскости - student2.ru .

Построим график линейной среднеквадратической регрессии YнаX (рис.4.3):

Рис.4.3. График линейной среднеквадратической регрессии Y на X.

Наконец, проверим с уровнем значимости b = 0,01 гипотезу о значимости полученного значения коэффициента корреляции r* = 0,82.Вычислим по формуле (1.51 ) наблюдаемое значение

Величин (X, Y) на плоскости - student2.ru

Из таблицы критических точек распределения Стьюдента (Приложение 2) по уровню значимости b = 0.01 и числу степеней свободы r = 100 – 2 = 98 находим Величин (X, Y) на плоскости - student2.ru . Оказалось, что , поэтому гипотеза H₀ = (r = 0) отвергается, то есть найденное r* = 0,82 считается значимым. Другими словами, есть основания считать, что имеется корреляция между изучаемыми случайными величинами Хи Y.