Статистические характеристики
Математическая статистика - теория, в которой рассматриваются способы агрегирования информации посредством вычисления совокупных и средних значений показателей.
Виды средних значений:
1) среднее арифметическое:
M = (V1 + V2 + ... + Vn) / n
2) среднее геометрическое:
G = SQRT(V1*V2*...*Vn)
(здесь и далее SQRT - функция извлечения квадратного корня)
3) среднее квадратическое (выражается в тех же единицах, что и характеризуемый показатель):
S = SQRT((V1*V1 + V2*V2 + ... + Vn*Vn) / n)
4) дисперсия (сумма квадратов отклонений случайной величины от ее среднего значения, взвешенных на вероятности этих отклонений):
V = Р1(V1 - M)**2 + Р2(V2 - M)**2 + .. + Рn(Vn - M)**2
где M - среднее арифметическое значение;
Рi - вероятность отклонения Vi - M;
5) среднее гармоническое:
H = n / (1/V1 + 1/V2 + ... + 1/Vn)
6) мода: наиболее часто встречаемое значение;
7) медиана (значение, равное среднему между наибольшим и наименьшим):
M = (Vmax + Vmin) / 2
8) среднее взвешенное:
W = (V1*W1 + V2*W2 + ... + Vn*Wn) / (W1 + W2 + ... + Wn)
где Wi - количество значений Vi;
Характеристики разнообразия (разброса значений):
1) среднее квадратичное отклонение (характеризует абсолютный разброс значений; выражается в тех же единицах, что и характеризуемый показатель):
S = SQRT(((V1-M)*(V1-M)+(V2-M)*(V2-M)+...+(V1-M)*(V1-M))/n-1)
здесь:
M - средняя арифметическая величина;
n - количество значений показателя;
2) коэффициент вариации (характеризует относительный разброс значений - относительно среднего арифметического):
C = (100 * S) / M
здесь:
S - среднее квадратичное отклонение;
M - средняя арифметическая величина;
3) размах (разница между наибольшим и наименьшим значением):
L = Vmax - Vmin
Статистические методы построения моделей
Основные статистические методы построения формул, выражающих взаимозависимость измеренных показателей некоторых объектов:
1. Метод корреляционного анализа - аппроксимация эмпирической зависимости между величинами X и Y формулой вида
Y = K*X + A где K - коэффициент корреляции.
2. Метод множественной регрессии - аппроксимация зависимости показателя от некоторого набора показателей, не зависящих один от другого, формулой вида
Y = A + B1*X1 + B2*X2 + ... + BN*XN
где Xi - показатели;
Bi - коэффициенты регрессии.
3. Метод факторного анализа - выявление новых показателей Y1 ..YN (факторов) вместо имеющихся показателей X1..XM, где N < M. Метод реализуется в предположении, что корреляционные связи между большим числом наблюдаемых показателей X1..XM определяются влиянием на них меньшего числа ненаблюдаемых показателей Y1..YN.
При использовании какого-либо метода математической статистики для получения математической модели некоторой зависимости исследователь должен иметь априорную гипотезу о типе этой зависимости. Статистические методы позволяют лишь подтвердить гипотезу или выяснить значения коэффициентов в формуле, выражающей предполагаемую зависимость между параметрами.
Опасности использования статистики
Есть три разновидности лжи: ложь,
гнусная ложь и статистика.
Б. Дизраэли.
Некорректное применение статистики бывает причиной самообмана, а также используется иногда как средство ввода в заблуждение.
К примеру, можно рассмотреть три типичных варианта разброса значений свойства Q некоторых объектов (это может быть уровень жизни граждан некоторой страны, количество побед в воздушных боях, приходящееся на одного летчика-истребителя и т. д.):
A: B: C: +
Q| Q| * * * Q| * * * |I
| | * * | * * +
| | * * * |
|** * ** * ** * |* * | +
| * ** * *** * | * * * * | * * ** *|II
| | * * * |* ** * * ** +
-+----------------->N -+----------------->N -+----------------->N
Показатель "среднее значение" может быть корректно применен в качестве единственной характеристики возможных значений Q только в отношении варианта A, но не вариантов B и C. Для варианта B следует совместно использовать две статистические характеристики: среднее арифметическое значение и показатель разброса значений - среднее квадратичное отклонение. В варианте C следует использовать по одному показателю "среднее арифметическое значение" для каждой из групп I и II.
Сворачивание показателей
Мангейм Дж. Б., Рич Р. К.: "Построение индекса заключается в сведении сложных данных в единый показатель, который отражает значение понятия полнее, чем любой из его компонентов. Широко используются три типа индексов: аддитивные, мультипликативные и взвешенные." ("Политология: методы исследования", стр. 304)).
У указанных авторов:
1. Аддитивные индексы - складывающиеся: I = A+B. "Для выяснения размеров 'религиозного сообщества' в некоторой стране можно было бы просуммировать все числовые данные, отражающие количество приверженцев различных религий, исповедуемых в этой стране."
2. Мультипликативные индексы - перемножающиеся: I = A * B. "Для получения показателя степени серьезности беспорядков мы могли бы число участников умножить на число часов, вычислив, таким образом, число 'человеко-часов', пришедшихся на беспорядки."
3. Взвешенные индексы - относительные: I = A/B. "Использование числа участников антиправительственной манифестации в качестве показателя величины кредита доверия к правительству правомерно только тогда, когда это число выражено в форме процентного отношения к численности всего населения."
Кластерный анализ
Кластерный анализ - деление объектов на классы соответственно значениям параметров этих объектов. Объекты, попадающие в один класс, имеют больше сходства по своим параметрам, чем объекты попадающие в разные классы.
Можно задавать количество классов, на которые должны быть разделены объекты. Можно приписывать различные веса рассматриваемым показателям объектов.
Существуют компьютерные программы, позволяющие осуществлять кластерный анализ (= кластеризацию), к примеру, записей базы данных. Основное отличие кластеризации от традиционных компьютерных методов классификации заключается в отсутствии обучающей выборки и вообще каких-либо априорных сведений о структуре и статистических свойствах классифицируемых данных. Для кластерного анализа могут применяться нейронные сети.
Неформальный анализ
Исследование редко направляется логикой; оно
большей частью руководствуется намеками, догадками,
интуицией (...) Основная ткань исследования - это
фантазия, в которую вплетены нити рассуждений,
измерений и вычислений."
А. Сент-Дьердьи. "Введение в субмолекулярную биологию".
Принципы неформального анализа:
1. Доверять подсознанию, стимулировать и обеспечивать его работу.
2. Не перегружать себя информацией. Дж. Б. Шоу: "Чтение засоряет голову."
3. Двигаться не только от фактов к гипотезам, но и от гипотез к фактам: строить необычные существенные предположения и искать подтверждения и опровержения их.
4. Сомневаться в том, что считается несомненным. Если проблема не решается при наличных исходных положениях, надо подвергать сомнению эти положения.
5. Прежде чем знакомиться с чужими обобщенными представлениями о каком-то не совсем незнакомом предмете, пробовать сформировать собственные на основе уже имеющихся знаний. Это требуется для того, чтобы не попасть под влияние чужого мнения. В дальнейшем, после ознакомления с представлениями других людей, можно скорректировать свой вариант объяснения предмета или целиком заимствовать чужой вариант.
6. Начинать формировать оценки и предложения в отношении исследуемого предмета до того, как особенности этого предмета станут настолько привычными, что уже не будут привлекать внимание и будить мысль. Удерживаться от высказывания выработанных оценок и предложений до того, как дальнейшее исследование позволит подтвердить или исправить их.
Приемы неформального анализа затруднительно или невозможно описать с исчерпывающей подробностью. Кроме того, их детальное описание обычно оказывается малополезным для практики. Способность к неформальному анализу обеспечивается в основном навыками, а не глубоким знанием технологий: должно быть некоторое "know-how" и немалое "I manage it but I don't know how".