Показатели, характеризующие центральную тенденцию ряда

Обычно в педагогике понятие среднего не связывают с определенным числом, хотя используют его довольно часто. Например, средняя успеваемость, средний ученик и т.д. Вместе с тем, вычисление средних математических величин – математического ожидания, моды и медианы - может дать определенную числовую характеристику наблюдаемого свойства, явления и позволяет сравнить числовые характеристики исследуемых различий.

П. 1 Вычисление математического ожидания выборки.

Математическое ожидание или среднее арифметическое значение выборки - одна из основных числовых характеристик, показывающая центральную тенденцию ряда. При составлении прогноза развития интересующего нас процесса эта характеристика является базовой. Вместе с тем, при сопоставлении различных исследований, она позволяет объективно оценить различия между ними. Показатель «математическое ожидание» может быть использован при определении среднего количества решенных задач, допущенных ошибок, усвоенных единиц знаний и т.д., т.е. тех характеристик педагогических явлений, которые носят количественный характер.

Пусть интересующий нас признак имеет точечное распределение.

О п р е д е л е н и е. Математическим ожиданием выборки называется сумма произведений всех ее возможных значений на соответствующие относительные частоты:

М(Х)=х1р1+х2 р2+…+хк рк, где рк =ni/n, I=1,…,k.

Т.е. математическое ожидание - это "среднее взвешенное" возможных значений.

П р и м е р 4. Найти математическое ожидание для следующих данных:

Варианта
Частота
Относительная частота 1/20 5/20 7/20 3/20 4/20

В этом случае: М(Х)=2· 1/20+ 6· 5/20+10· 7/20+12· 3/20+ 14 ·4/20=9.7

По сути, как было подчеркнуто выше, математическое ожидание - это ни что иное, как среднее арифметическое наблюдаемых значений интересующего нас признака (в этом нетрудно убедиться).

Смысл (интерпретация) математического ожидания состоит в том, что оно заменяет все значения совокупности чисел. Иными словами, если взамен каждого значения ряда взять математическое ожидание, то мы при этом обеспечим минимальную ошибку отклонений от среднего.

А теперь обратимся к случаю, когда изучаемый признак имеет интервальное распределение. Пусть интервалы имеют длину h. Введем номера этих интервалов в порядке возрастания их величины, поместив начало отсчета вблизи от середины опытных данных и одновременно стремясь поместить его в интервал, соответствующий максимальной численности. Будем считать, что все наблюдения, попавшие в данный отрезок длины h, имеют значение, равное средней абсциссе этого отрезка.

Предположим, что для нулевого интервала это значение равно zо .Тогда для отрезка с номером k среднее значение равно zк = zо +kh.

Если в отрезок с условной вариантой zк попало nк наблюдений, а всего наблюдений было n, то среднее их значение равно

М(Х)=1/n Σ nk zk =1/n Σ (zo +kh)nk =zo +h/n Σ knk =zo +kh ,

где k=1/n Σ knk . Здесь и далее суммирование по k.

П р и м е р 5. Вычислим математическое ожидание для признака, имеющего интервальное распределение. Данные возьмем те, которые были приведены в § 7 (таблица 3). Расширим таблицу, введя дополнительные строчки, так, как было указано выше:

Интервалы (классы) 20-25 25-30 30-35 35-40 40-45 45-50  
ni S = 40
ki -4 -3 -2 -1  
niki -8 -9 -12 -10 S = -37

Тогда математическое ожидание равно: М(Х)= 42,5+ 5·(-37)/40≈37,9.

П.2 Мода и медиана.

Следующая средняя величина - мода. Ею пользуются в тех случаях, когда хотят охарактеризовать явление на основе значения признака, встречающегося чаще всего.

О п р е д е л е н и е. Мода – это наиболее часто встречающееся значение признака.

Необходимо подчеркнуть, что мода представляет собой наиболее частое значение признака, а не частоту этого значения.

Рассмотрим случай точечного распределения. В совокупности оценок успеваемости 2,3,4,4,4,5,5 модой является оценка 4, потому, что эта оценка встречается чаще других. Принято считать, что в случае, когда все значения оценок встречаются одинаково часто, совокупность данных моды не имеет. Например, в совокупности 3,3,3,4,4,4,5,5,5 моды нет.

Если две несмежные оценки в совокупности имеют равные частоты и они больше частот других оценок, то существуют две моды. В примере совокупности 2, 3, 3, 4, 5, 5 модами являются оценки 3 и 5. В этом случае говорят, что совокупность оценок является бимодальной. Большие совокупности данных являются бимодальными, если они образуют полигон относительных частот с двумя вершинами, даже тогда, когда частоты не строго равны. В последнем случае различают большие и малые моды. Наибольшей модой в группе данных называют то значение варианты, которое чаще встречается, т.е. удовлетворяет определению моды. В практике встречаются большие совокупности, имеющие несколько малых мод. Это характерно для полигона с тремя и более вершинами.

Мода, как мера центральной тенденции, имеет следующую интерпретацию. Мода является такой характеристикой, т.е. имеет такое значение, которое наилучшим образом «заменяет все значения». Когда заменяют модой любое значение ряда чисел, мы имеем наибольшую частоту совпадений с числами ряда. Таким образом, мода тоже является характеристикой, на основе которой можно составлять прогноз развития интересующего нас процесса.

Следует заметить, что для малых групп часто о такой замене не может быть и речи. Например, группа из пяти учащихся имеет следующие оценки: 2,2,2,5,5. Модальное значение данной группы равно 2. Эта цифра точно характеризует успеваемость первых трех учеников, но является слишком некорректной для двух других.

Теперь рассмотрим другой случай. Пусть распределение интервальное. Как в этом случае вычисляется мода? Для начала следует найти модальный интервал, т.е. интервал, которому соответствует максимальная частота ns. Если Х's - X''s -модальный интервал, а интервалы вариационного ряда имеют постоянную ширину h, то мода изучаемого признака вычисляется:

Мо Х=Х's +h· (ns-ns-1)/(( ns-ns-1)+( ns-ns+1)),

где ns-1 , ns+1 - частоты, находящиеся в соответствии с интервалами, предшествующим модальному и следующим за ним.

П р и м е р 6. Данные статистического исследования представлены в таблице:

Количественное Значение признака 120-140 140-160 160-180 180-200 200-220 220-240 240-260 260-280
Число Случаев

Найти Мо Х-?

Р е ш е н и е.

Т.к. максимальная частота (n =58) соответствует интервалу 180-200, то Х's=180, ns-1 =19, ns+1 =53. Значит,

Мo Х=180 + 20·(58-19)/(39+5)=197,73.

Еще одним показателем, характеризующим центральную тенденцию ряда, является медиана.

О п р е д е л е н и е. Медианой Ме Х называется значение признака, относительно которого генеральная совокупность делится на две равные по объему части, причем в одной из них содержатся члены, у которых значение признака не превосходит Ме Х, а в другой - не меньше Ме Х.

Очень часто результаты педагогических исследований выражаются в виде оценок успеваемости учащихся, которые являются результатом рангового измерения. Однако в этом случае нельзя пользоваться математическим ожиданием для вычисления центральной тенденции. Средняя успеваемость класса, вычисляемая как среднее арифметическое - бессмысленная величина, так как расстояние между 2 и 3 не равно расстоянию между 5 и 4. Оценки эти - показатели качества, а не количества измеряемого явления. Полученные оценки не обозначают величину, а показывают отношение одного значения признака к другому.

Для характеристики полученного ряда в статистике как раз и пользуются медианой.

П р и м е р 7. Пусть в результате выполнения работы в контрольном и экспериментальном классах получены следующие оценки:

Классы Оценки
Контрольный
Экспериментальный

Расположим полученные ряды оценок по порядку от минимальных значений до максимальных:

Классы Оценки
Контрольный 2222233333333333 33444444444445555
Экспериментальный 2233333333344444 44444444445555555

Теперь можно назвать медиану для каждого класса (значение ее выделено). Но это очень приблизительное значение медианы. Для уточнения его следует использовать другой подход, аналогичный тому, который используется в случае интервального распределения.

Если распределение интервальное, то сначала надо найти медианный интервал X'p- X''p, интервал, в котором расположено значение признака, являющегося медианой. Тогда можно вычислить значение самой медианы по следующей формуле:

MеX = X'p +h· (n/2- w(X'p))/ np,

где h- ширина интервала, n- объем генеральной совокупности, w (Х'p)- накопленная частота до p-го интервала, np - частота p-го интервала, p- номер медианного интервала.

П р и м е р 8. Рассмотрим пример 6 и вычислим для данного вариационного ряда медиану. Для ее нахождения строим кумулятивный ряд:

xi 120-140 140-160 160-180 180-200 200-220 220-240 240-260 260-280
wi

Найдем номер медианного интервала s из условия:

w(X'p) < n/2, w(X''p) > n/2. Имеем n/2=180/2=90. Тогда w(X'4)=84 < 90, w(X'5)=137 > 90, следовательно,

Ме Х = 200 + 20·(90-84)/53 =202,26.

Вернемся к примеру 7. Ранее было отмечено, что полученные нами значения медиан весьма приблизительны. Вычислим их точнее. Как и в случае интервального распределения,

M еX = X'p +h· (n/2- w(X'p))/ np,

здесь X'p- начало класса, в котором находится медиана,

h- величина классового промежутка,

np- частота медианного класса, остальные обозначения имеют стандартное значение.

Найдем для каждого класса точное значение медианы.

Для контрольного: X'p = 3, h=1, n=33, w(X'p)=5, np=13. Значит,

Ме Х =3+1·(33/2-5)/13≈3,9.

Для экспериментального класса: X'p = 4, h=1, n=33, w(X'p)=11, np=15. Значит,

Ме Х =4+1·(33/2-11)/15≈4,37.

Таким образом, мы можем сказать, что средний уровень знаний учащихся в контрольном классе -3,9, а обучаемых в экспериментальном классе - 4,37.

Интерпретацию медианы, т.е. ее смысл, раскроем на следующем примере. Пусть имеем следующий ряд оценок 2 2 3 4 5 5 5. Для этого случая медиана равна 4. Разность между 4 и 2 составляет два, между 4 и 3 – один, между 4 и 5- один. Рассмотрим сумму этих разностей, взятых по модулю: 2+2+1+1+1+1=8. Эта сумма всегда будет меньше суммы разностей относительно любого другого числа данного ряда. Таким образом, медиана представляет собой такую точку на числовой оси, для которой сумма абсолютных разностей всех значений относительно медианы всегда меньше суммы разностей относительно любой другой точки. Иными словами, если вместо каждой оценки ряда выбрать медиану, то будет допущена минимальная суммарная ошибка.

Следует отметить, что каждая мера центральной тенденции числовых рядов обладает характеристиками, которые являются ценными в определенных условиях. Мода проще всего вычисляется, и для больших совокупностей она является достаточно стабильной мерой центра распределения. В малых совокупностях чисел мода, как правило, нестабильна. Например, для ряда чисел 333455 мода равна 3, но если одну из троек заменить 5, то мода станет уже равной пяти.

Медиана более стабильная числовая характеристика. На нее не влияют «большие» и «малые» варианты. Например, для больших совокупностей вариант медиана не изменится, если число максимальных или минимальных вариант резко изменится. Например, совокупности 22233334445555 и 33333334444445 имеют одинаковые медианы. А вот на величину математического ожидания влияет изменение каждого значения варианты. Для многих числовых совокупностей педагогических измерений мода близка к двум другим мерам - медиане и математическому ожиданию. Медиана занимает промежуточное положение между модой и математическим ожиданием.

Центральная тенденция совокупности данных с большими крайними выбросами наилучшим образом характеризуется медианой, когда гистограмма унимодальна. Например, достаточно одного большого крайнего значения, чтобы сместить математическое ожидание совокупности намного дальше, чем это характерно для данной выборки.

В симметричных унимодальных совокупностях математическое ожидание, мода и медиана совпадают, что соответствует нормальному распределению выборочных данных. Отсутствие симметрии в полигоне или гистограмме оказывает определенное влияние на соотношения между модой, медианой и математическим ожиданием. Если большинство оценок расположено слева от вершины полигона относительных частот, то математическое ожидание примет минимальное значение, мода - максимальное, а медиана - между ними. Если группа данных измерения выбрана из большой симметричной группы, то математическое ожидание выборки будет ближе к центру большой группы, чем медиана и мода.

Далее рассмотрим числовые характеристики выборочной совокупности, которые характеризуют вариации вокруг центральной тенденции. Их нахождение основывается на вычислении математического ожидания, которое, как отмечалось выше, имеет ограниченное применение и не подходит для вычисления по характеристикам успеваемости в баллах, а также для различных ранговых измерений.

Наши рекомендации