Статистические характеристики.

Математическая статистика - теория, в которой рассматриваются способы агрегирования информации посредством вычисления совокупных и средних значений показателей.Виды средних значений: 1) среднее арифметическое: M = (V1 + V2 + ... + Vn) / n 2) среднее геометрическое: G = SQRT(V1*V2*...*Vn) (здесь и далее SQRT - функция извлечения квадратного корня) 3) среднее квадратическое (выражается в тех же единицах, что и характеризуемый показатель): S = SQRT((V1*V1 + V2*V2 + ... + Vn*Vn) / n) 4) дисперсия (сумма квадратов отклонений случайной величины от ее среднего значения, взвешенных на вероятности этих отклонений): V = Р1(V1 - M)**2 + Р2(V2 - M)**2 + .. + Рn(Vn - M)**2 где M - среднее арифметическое значение; Рi - вероятность отклонения Vi - M; 5) среднее гармоническое: H = n / (1/V1 + 1/V2 + ... + 1/Vn) 6) мода: наиболее часто встречаемое значение; 7) медиана (значение, равное среднему между наибольшим и наименьшим): M = (Vmax + Vmin) / 2 8) среднее взвешенное: W = (V1*W1 + V2*W2 + ... + Vn*Wn) / (W1 + W2 + ... + Wn) где Wi - количество значений Vi; Характеристики разнообразия (разброса значений): 1) среднее квадратичное отклонение (характеризует абсолютный разброс значений; выражается в тех же единицах, что и характеризуемый показатель): S = SQRT(((V1-M)*(V1-M)+(V2-M)*(V2-M)+...+(V1-M)*(V1-M))/n-1) здесь: M - средняя арифметическая величина; n - количество значений показателя; 2) коэффициент вариации (характеризует относительный разброс значений - относительно среднего арифметического): C = (100 * S) / M здесь: S - среднее квадратичное отклонение; M - средняя арифметическая величина; 3) размах (разница между наибольшим и наименьшим значением): L = Vmax - Vmin

Статистические методы построения моделей.

Основные статистические методы построения формул, выражающих взаимозависимость измеренных показателей некоторых объектов: 1. Метод корреляционного анализа - аппроксимация эмпирической зависимости между величинами X и Y формулой вида Y = K*X + A где K - коэффициент корреляции. 2. Метод множественной регрессии - аппроксимация зависимости показателя от некоторого набора показателей, не зависящих один от другого, формулой вида Y = A + B1*X1 + B2*X2 + ... + BN*XN где Xi - показатели; Bi - коэффициенты регрессии. 3. Метод факторного анализа - выявление новых показателей Y1 ..YN (факторов) вместо имеющихся показателей X1..XM, где N < M. Метод реализуется в предположении, что корреляционные связи между большим числом наблюдаемых показателей X1..XM определяются влиянием на них меньшего числа ненаблюдаемых показателей Y1..YN. При использовании какого-либо метода математической статистики для получения математической модели некоторой зависимости исследователь должен иметь априорную гипотезу о типе этой зависимости. Статистические методы позволяют лишь подтвердить гипотезу или выяснить значения коэффициентов в формуле, выражающей предполагаемую зависимость между параметрами.

Опасности использования статистики.



Есть три разновидности лжи: ложь, гнусная ложь и статистика.Б. Дизраэли. Некорректное применение статистики бывает причиной самообмана, а также используется иногда как средство ввода в заблуждение.К примеру, можно рассмотреть три типичных варианта разброса значений свойства Q некоторых объектов (это может быть уровень жизни граждан некоторой страны, количество побед в воздушных боях, приходящееся на одного летчика-истребителя и т. д.):
Статистические характеристики. - student2.ru
Показатель "среднее значение" может быть корректно применен в качестве единственной характеристики возможных значений Q только в отношении варианта A, но не вариантов B и C. Для варианта B следует совместно использовать две статистические характеристики: среднее арифметическое значение и показатель разброса значений - среднее квадратичное отклонение. В варианте C следует использовать по одному показателю "среднее арифметическое значение" для каждой из групп I и II.

Сворачивание показателей.

Мангейм Дж. Б., Рич Р. К.: "Построение индекса заключается в сведении сложных данных в единый показатель, который отражает значение понятия полнее, чем любой из его компонентов. Широко используются три типа индексов: аддитивные, мультипликативные и взвешенные." ("Политология: методы исследования", стр. 304)).У указанных авторов:1. Аддитивные индексы - складывающиеся: I = A+B."Для выяснения размеров 'религиозного сообщества' в некоторой стране можно было бы просуммировать все числовые данные, отражающие количество приверженцев различных религий, исповедуемых в этой стране."2. Мультипликативные индексы - перемножающиеся: I = A * B."Для получения показателя степени серьезности беспорядков мы могли бы число участников умножить на число часов, вычислив таким образом число 'человеко-часов', пришедшихся на беспорядки."3. Взвешенные индексы - относительные: I = A/B."Использование числа участников антиправительственной манифестации в качестве показателя величины кредита доверия к правительству правомерно только тогда, когда это число выражено в форме процентного отношения к численности всего населения."

Кластерный анализ.



Кластерный анализ - деление объектов на классы соответственно значениям параметров этих объектов. Объекты, попадающие в один класс, имеют больше сходства по своим параметрам, чем объекты попадающие в разные классы.Можно задавать количество классов, на которые должны быть разделены объекты. Можно приписывать различные веса рассматриваемым показателям объектов.Существуют компьютерные программы, позволяющие осуществлять кластерный анализ (= кластеризацию), к примеру, записей базы данных. Основное отличие кластеризации от традиционных компьютерных методов классификации заключается в отсутствии обучающей выборки и вообще каких-либо априорных сведений о структуре и статистических свойствах классифицируемых данных. Для кластерного анализа могут применяться нейронные сети.

Неформальный анализ.

Исследование редко направляется логикой; оно большей частью руководствуется намеками, догадками, интуицией (...) Основная ткань исследования - это фантазия, в которую вплетены нити рассуждений, измерений и вычислений."А. Сент-Дьердьи. "Введение в субмолекулярную биологию". Принципы неформального анализа:1. Доверять подсознанию, стимулировать и обеспечивать его работу.2. Не перегружать себя информацией. Дж. Б. Шоу: "Чтение засоряет голову."3. Двигаться не только от фактов к гипотезам, но и от гипотез к фактам: строить необычные существенные предположения и искать подтверждения и опровержения их.4. Сомневаться в том, что считается несомненным. Если проблема не решается при наличных исходных положениях, надо подвергать сомнению эти положения.5. Прежде чем знакомиться с чужими обобщенными представлениями о каком-то не совсем незнакомом предмете, пробовать сформировать собственные на основе уже имеющихся знаний. Это требуется для того, чтобы не попасть под влияние чужого мнения. В дальнейшем, после ознакомления с представлениями других людей, можно скорректировать свой вариант объяснения предмета или целиком заимствовать чужой вариант.6. Начинать формировать оценки и предложения в отношении исследуемого предмета до того, как особенности этого предмета станут настолько привычными, что уже не будут привлекать внимание и будить мысль. Удерживаться от высказывания выработанных оценок и предложений до того, как дальнейшее исследование позволит подтвердить или исправить их. Приемы неформального анализа затруднительно или невозможно описать с исчерпывающей подробностью. Кроме того, их детальное описание обычно оказывается малополезным для практики. Способность к неформальному анализу обеспечивается в основном навыками, а не глубоким знанием технологий: должно быть некоторое "know-how" и немалое "I manage it but I don't know how".

Наши рекомендации