Статистические характеристики

Математическая статистика - теория, в которой рассматриваются способы агрегирования информации посредством вычисления совокупных и средних значений показателей.

Виды средних значений:

1) среднее арифметическое:

M = (V1 + V2 + ... + Vn) / n

2) среднее геометрическое:

G = SQRT(V1*V2*...*Vn)

(здесь и далее SQRT - функция извлечения квадратного корня)

3) среднее квадратическое (выражается в тех же единицах, что и характеризуемый показатель):

S = SQRT((V1*V1 + V2*V2 + ... + Vn*Vn) / n)

4) дисперсия (сумма квадратов отклонений случайной величины от ее среднего значения, взвешенных на вероятности этих отклонений):

V = Р1(V1 - M)**2 + Р2(V2 - M)**2 + .. + Рn(Vn - M)**2

где M - среднее арифметическое значение;

Рi - вероятность отклонения Vi - M;

5) среднее гармоническое:

H = n / (1/V1 + 1/V2 + ... + 1/Vn)

6) мода: наиболее часто встречаемое значение;

7) медиана (значение, равное среднему между наибольшим и наименьшим):

M = (Vmax + Vmin) / 2

8) среднее взвешенное:

W = (V1*W1 + V2*W2 + ... + Vn*Wn) / (W1 + W2 + ... + Wn)

где Wi - количество значений Vi;

Характеристики разнообразия (разброса значений):

1) среднее квадратичное отклонение (характеризует абсолютный разброс значений; выражается в тех же единицах, что и характеризуемый показатель):

S = SQRT(((V1-M)*(V1-M)+(V2-M)*(V2-M)+...+(V1-M)*(V1-M))/n-1)

здесь:

M - средняя арифметическая величина;

n - количество значений показателя;

2) коэффициент вариации (характеризует относительный разброс значений - относительно среднего арифметического):

C = (100 * S) / M

здесь:

S - среднее квадратичное отклонение;

M - средняя арифметическая величина;

3) размах (разница между наибольшим и наименьшим значением):

L = Vmax - Vmin

Статистические методы построения моделей

Основные статистические методы построения формул, выражающих взаимозависимость измеренных показателей некоторых объектов:

1. Метод корреляционного анализа - аппроксимация эмпирической зависимости между величинами X и Y формулой вида

Y = K*X + A где K - коэффициент корреляции.

2. Метод множественной регрессии - аппроксимация зависимости показателя от некоторого набора показателей, не зависящих один от другого, формулой вида

Y = A + B1*X1 + B2*X2 + ... + BN*XN

где Xi - показатели;

Bi - коэффициенты регрессии.

3. Метод факторного анализа - выявление новых показателей Y1 ..YN (факторов) вместо имеющихся показателей X1..XM, где N < M. Метод реализуется в предположении, что корреляционные связи между большим числом наблюдаемых показателей X1..XM определяются влиянием на них меньшего числа ненаблюдаемых показателей Y1..YN.

При использовании какого-либо метода математической статистики для получения математической модели некоторой зависимости исследователь должен иметь априорную гипотезу о типе этой зависимости. Статистические методы позволяют лишь подтвердить гипотезу или выяснить значения коэффициентов в формуле, выражающей предполагаемую зависимость между параметрами.

Опасности использования статистики

Есть три разновидности лжи: ложь,

гнусная ложь и статистика.

Б. Дизраэли.

Некорректное применение статистики бывает причиной самообмана, а также используется иногда как средство ввода в заблуждение.

К примеру, можно рассмотреть три типичных варианта разброса значений свойства Q некоторых объектов (это может быть уровень жизни граждан некоторой страны, количество побед в воздушных боях, приходящееся на одного летчика-истребителя и т. д.):

A: B: C: +

Q| Q| * * * Q| * * * |I

| | * * | * * +

| | * * * |

|** * ** * ** * |* * | +

| * ** * *** * | * * * * | * * ** *|II

| | * * * |* ** * * ** +

-+----------------->N -+----------------->N -+----------------->N

Показатель "среднее значение" может быть корректно применен в качестве единственной характеристики возможных значений Q только в отношении варианта A, но не вариантов B и C. Для варианта B следует совместно использовать две статистические характеристики: среднее арифметическое значение и показатель разброса значений - среднее квадратичное отклонение. В варианте C следует использовать по одному показателю "среднее арифметическое значение" для каждой из групп I и II.

Сворачивание показателей

Мангейм Дж. Б., Рич Р. К.: "Построение индекса заключается в сведении сложных данных в единый показатель, который отражает значение понятия полнее, чем любой из его компонентов. Широко используются три типа индексов: аддитивные, мультипликативные и взвешенные." ("Политология: методы исследования", стр. 304)).

У указанных авторов:

1. Аддитивные индексы - складывающиеся: I = A+B. "Для выяснения размеров 'религиозного сообщества' в некоторой стране можно было бы просуммировать все числовые данные, отражающие количество приверженцев различных религий, исповедуемых в этой стране."

2. Мультипликативные индексы - перемножающиеся: I = A * B. "Для получения показателя степени серьезности беспорядков мы могли бы число участников умножить на число часов, вычислив, таким образом, число 'человеко-часов', пришедшихся на беспорядки."

3. Взвешенные индексы - относительные: I = A/B. "Использование числа участников антиправительственной манифестации в качестве показателя величины кредита доверия к правительству правомерно только тогда, когда это число выражено в форме процентного отношения к численности всего населения."

Кластерный анализ

Кластерный анализ - деление объектов на классы соответственно значениям параметров этих объектов. Объекты, попадающие в один класс, имеют больше сходства по своим параметрам, чем объекты попадающие в разные классы.

Можно задавать количество классов, на которые должны быть разделены объекты. Можно приписывать различные веса рассматриваемым показателям объектов.

Существуют компьютерные программы, позволяющие осуществлять кластерный анализ (= кластеризацию), к примеру, записей базы данных. Основное отличие кластеризации от традиционных компьютерных методов классификации заключается в отсутствии обучающей выборки и вообще каких-либо априорных сведений о структуре и статистических свойствах классифицируемых данных. Для кластерного анализа могут применяться нейронные сети.

Неформальный анализ

Исследование редко направляется логикой; оно

большей частью руководствуется намеками, догадками,

интуицией (...) Основная ткань исследования - это

фантазия, в которую вплетены нити рассуждений,

измерений и вычислений."

А. Сент-Дьердьи. "Введение в субмолекулярную биологию".

Принципы неформального анализа:

1. Доверять подсознанию, стимулировать и обеспечивать его работу.

2. Не перегружать себя информацией. Дж. Б. Шоу: "Чтение засоряет голову."

3. Двигаться не только от фактов к гипотезам, но и от гипотез к фактам: строить необычные существенные предположения и искать подтверждения и опровержения их.

4. Сомневаться в том, что считается несомненным. Если проблема не решается при наличных исходных положениях, надо подвергать сомнению эти положения.

5. Прежде чем знакомиться с чужими обобщенными представлениями о каком-то не совсем незнакомом предмете, пробовать сформировать собственные на основе уже имеющихся знаний. Это требуется для того, чтобы не попасть под влияние чужого мнения. В дальнейшем, после ознакомления с представлениями других людей, можно скорректировать свой вариант объяснения предмета или целиком заимствовать чужой вариант.

6. Начинать формировать оценки и предложения в отношении исследуемого предмета до того, как особенности этого предмета станут настолько привычными, что уже не будут привлекать внимание и будить мысль. Удерживаться от высказывания выработанных оценок и предложений до того, как дальнейшее исследование позволит подтвердить или исправить их.

Приемы неформального анализа затруднительно или невозможно описать с исчерпывающей подробностью. Кроме того, их детальное описание обычно оказывается малополезным для практики. Способность к неформальному анализу обеспечивается в основном навыками, а не глубоким знанием технологий: должно быть некоторое "know-how" и немалое "I manage it but I don't know how".

Наши рекомендации