Развитие статистической методологии

К концу XIX в. статистика пополнилась новыми методологичес­кими идеями, зародились теории устойчивости, корреляции и ре­грессии. Теория устойчивости возникла как попытка объяснить повторяемость данных в динамике, выявленную Кетле. Ее автор – Вильгельм Лексис (1837–1914) –немецкий статистик и экономист, сторонник применения математических методов в экономике, преподавал в ряде университетов Германии. В опублико­ванной в 1879 г. работе «0 теории стабильности статистических рядов» Лексис изложил выдвинутую им теорию устойчивости, которая породила много противников и последователей и оказала большое влияние на развитие статистики в XX в.

В широком плане исследование Лексиса отражало централь­ную концептуальную проблему статистики, которая явно обозна­чилась в XIX в., – проблему однородности данных. Лексис понимал устойчивость ряда динамики как случайность отклонений уровней динамического ряда от общей средней. Он построил свою теорию на примере анализа колеблемости альтернативных признаков (рождения женщин – рождения мужчин, первые браки – не пер­вые браки). Если различия между уровнями ряда случайны, то в основе ряда лежит некое постоянное число – вероятность (напри­мер, вероятность рождения мальчиков), основанная на многолет­них данных. Ее оценкой является средняя доля р. Тогда диспер­сия доли равна:

r2=pq/n, где q=1-p, n – среднее число наблюдений в году (например, среднегодовая численность населения). Если ряд стабилен, то дисперсия долей по годам должна быть близка к r2. Дисперсия долей равна:

развитие статистической методологии - student2.ru ,

где рi — доля в i-м году, т — число лет в ряде динамики.

Соотношение этих двух дисперсий представляет собой меру устойчивости – коэффициент дивергенции (число Лексиса), ко­торое Лексис в честь Кетле обозначил буквой Q:Q2=R2/r2.

Для больших случайных выборок (т. е. при протяженном ста­бильном ряде динамики) Q=l. Если коэффициент Q близок к 1, ряд является нормально устойчивым, т. е. колеблемость каждого уровня не выходит за границы общей колеблемости. При этом го­ды (или серии) выбраны из однородной совокупности (например, соотношение мальчиков и девочек среди родившихся в разные го­ды в разных местностях). Если же годы (или серии) представля­ют разнородную совокупность, то R>r и Q>1 (например, доля умерших резко возрастает, если начинается война или эпидемия). Этот случай Лексис назвал сверхнормальным рассеянием, или поднормальной устойчивостью. Наконец, может быть R<r и Q<1 – случай поднормального рассеяния, или сверхнормальной устойчивости. Такая устойчивость практически не встречается; сравнительно редко можно ожидать нормальную устойчивость, основным является случай поднормальной устойчивости. Это за­ключение Лексиса было использовано оппонентами Кетле для обоснования значимости воли человека. Делался вывод, что раз данные по годам могут быть неоднородны, то Кетле был не прав, утверждая объективность закономерностей, отсутствие свободы воли. В действительности, теория устойчивости Лексиса не отри­цает объективности статистических закономерностей, а лишь сви­детельствует об изменчивости их проявлений во времени и в про­странстве.

Если отклонения в динамическом ряду превышают случайную величину, т. е. ряд не является нормально устойчивым, то Лексис считал необходимым выделение однородных подсерий. Если Кетле нормальное распределение казалось повсеместным, то в теории Лексиса оно трактуется как результат классификации данных. И если в антропометрических исследованиях Кетле нормальное распределение было обычным, то при переходе к социальным пе­ременным нормальное распределение стало редким. Чтобы исклю­чить вариацию данных, вызванную внешними причинами, и достичь нормальной устойчивости, Лексис предложил использовать метод наименьших квадратов. Он ввел разграничение типов динамики: эволюторный – главное проявление основных тенденций, ундуля-торный – волнообразное развитие во времени, периодический – правильное повторение волн, осцилляторный – беспорядочные колебания уровней.

Создав теорию устойчивости, Лексис предвосхитил открытие соответствия между анализом дисперсии и статистической связи, что позже стали ставить в заслугу Р. А. Фишеру (см. гл. 6). Не­даром теорию устойчивости назвали теорией дисперсии. Лексис вывел формулы, которые позволяли измерить дисперсию трех ви­дов: общую, внутригрупповую и межгрупповую, и определил ранг каждой из них (число степеней свободы). Он вывел широко из­вестное правило сложения дисперсий. Число Лексиса есть не что иное, как отношение межгрупповой дисперсии (R2) к общей (r2). Позже, в XX в. были выведены соотношения между числом Лекси­са Q и критерием χ2 Пирсона, а также между Q и F-критерием Фишера. Последователь Лексиса – В. И. Борткевич (см. гл. 5, 6) развил его концепцию и распространил теорию устойчивости с относительных чисел (долей) на средние величины. Математичес­кие обобщения теории устойчивости сделаны великими русскими учеными А. А. Чупровым и А. А. Марковым.

Лексис внес значительный вклад в разработку методов демо­графии. Им создан графический метод демографического анали­за, получивший название демографической сетки Лексиса, усовер­шенствовано составление таблиц смертности, метод условного по­коления.

Вторая половина XIX в. – это начало формирования корреля­ционного и регрессионного анализа, заложившее основы знамени­той английской биометрической школы. В отличие от теории ус­тойчивости эти методы родились не в социальных исследованиях. Ч. Дарвин в книге «Происхождение видов» (1859) среди различ­ных форм изменчивости назвал корреляцию и реверсию («закон соответствия» и «закон возвращения»), на основе которых заро­дились идеи статистической теории корреляции.

Впервые методы статистики при решении проблем новой эво­люционной теории применил Фрэнсис Гальтон (1822—1911) двоюродный брат Ч. Дарвина. Под влиянием идей Кетле Гальтон доказал, что распределение ошибок измерения подчинено нор­мальному закону. Он изучил связь антропологических переменных с интеллектуальными способностями человека. Около 1875 г. Гальтон ввел термин «огива» для графика кумулятивной кривой ряда распределения. На основе огивы Гальтон находил медиану и квартили, положив тем самым начало применению графическо­го метода для определения обобщающих статистических характе­ристик распределений.

Пытаясь развить и обосновать идеи об изменчивости наслед­ственных признаков и естественном отборе, Гальтон обратился к математическим методам, позволяющим описать наследственные признаки. Он рассмотрел это явление на примере наследования роста. Получив данные о росте более 200 родительских пар и свыше 900 их детей, Гальтон вывел так называемый закон регрес­сии – среднее снижение роста сыновей по сравнению с ростом отцов (1899). Его суть может быть передана так: «Степень укло­нения роста родителей от средней величины, выведенной из общих данных о росте всех родительских пар, лишь частично наследуется их детьми» (Гайсинович, А. Е. Зарождение и развитие генетики. М., 1988. С. 204). Сравнивая две группы – родителей и детей, Гальтон получал некоторое снижение роста у детей и объяснял это тем, что средний рост отца выше среднего роста матери и по­этому средний рост детей ниже среднего роста отца, но выше сред­него роста матери.

Гальтон связал корреляцию с сутью эволюционного учения. Впервые он ввел числовую меру r, которая первоначально соответ­ствовала термину Дарвина «реверсия» и которую Гальтон назвал «регрессия» в 1877 г. в лекции «Типичные законы наследствен­ности человека».

Но с полным правом началом разработки «корреляционной проблематики» можно назвать лишь его статью «Регрессия, на­следственность и панмиксия» (1896), в которой Гальтон дал оп­ределение корреляции, построил теоретическую модель совместно­го изменения двух переменных, ввел понятие линии регрессии и корреляционного индекса r. Причем в качестве оценок средних он использовал медианы (Мех, Меу), а в качестве оценки стандарт­ного отклонения каждой переменной – величину полуразности третьей и первой квартилей:

развитие статистической методологии - student2.ru

На основе графического нахождения величин Me и Q он гра­фически определил меру связи признаков х и у.

Таким образом, Гальтон вывел меру связи, измеряющую сте­пень соответствия распределений двух переменных. Подобные меры предлагались и до него. Так, известный французский кри­сталлограф Огюст Браве (1811–1863) рассматривал закон корреляции, или закон ошибок, в нахождении точек совместного распределения. Немецкий психолог Густав Теодор Фехнер (1801–1887) предложил в качестве меры связи двух переменных показатель, основанный на сопоставлении, разности чисел совпа­дений и несовпадений знаков отклонений переменных х и у от их средних значений с общим числом отклонений, т. е. с общим числом членов в сопоставляемых рядах. Показатель Фехнера изменяется по абсолютной величине в интервале [0,l].

Работы Гальтона получили широкую известность среди совре­менников. Однако методологическая ценность идеи регрессии бы­ла не сразу ими воспринята, а рассматривалась лишь как специфический способ исследования наследственности.

Теоретическое обоснование выводов Гальтона и их практичес­кая проверка на разнообразном статистическом материале принадлежат прежде всего одному из замечательных статистиков прошлого К. Пирсону, деятельность которого оказала огромное влияние на судьбы статистики в XX в. В XIX в. в статистике про­изошел коренной поворот. Этому способствовало развитие позитивизма Огюстом Контом (1798–1857) и его последователем Джоном Стюартом Миллем (1806–1873). Идеи Конта о «социальной физике» как о целой иерархии теорий дали мощный толчок развитию общественных наук, в первую очередь социоло­гии (1837). Кетле свел «социальную физику» к статистическому исследованию общественной жизни. Он обнажил связь статистики с теорией вероятности и тем самым поставил на прочную методо­логическую основу ее развитие.

В XIX в. окончательно определились основные черты статистического метода: массовое наблюдение, обобщение данных и ана­лиз. Впервые был дан ответ на вопрос, как объяснить, что дейст­вия отдельных единиц, как будто вполне свободные, обнаружива­ют правильности в массах, причем правильности повторяющиеся. Мощное направление в теории статистики XIX в. берет начало в трудах Лексиса об устойчивости статистических рядов.

От изучения общественных явлений статистика перешла к изу­чению наследственности и изменчивости. Это было сделано Гальтоном. Вслед за ним приступил к разработке статистических мето­дов, к созданию математической школы статистики К. Пирсон. Впоследствии идеи Гальтона –Пирсона и Лексиса получили теоре­тическое обобщение в концепции стохастической теории статисти­ки. Таким образом, труды ученых XIX в. подготовили быстрое раз­витие математико-статистических методов, их теоретическое обос­нование и применение.

Наши рекомендации