Развитие статистической методологии
К концу XIX в. статистика пополнилась новыми методологическими идеями, зародились теории устойчивости, корреляции и регрессии. Теория устойчивости возникла как попытка объяснить повторяемость данных в динамике, выявленную Кетле. Ее автор – Вильгельм Лексис (1837–1914) –немецкий статистик и экономист, сторонник применения математических методов в экономике, преподавал в ряде университетов Германии. В опубликованной в 1879 г. работе «0 теории стабильности статистических рядов» Лексис изложил выдвинутую им теорию устойчивости, которая породила много противников и последователей и оказала большое влияние на развитие статистики в XX в.
В широком плане исследование Лексиса отражало центральную концептуальную проблему статистики, которая явно обозначилась в XIX в., – проблему однородности данных. Лексис понимал устойчивость ряда динамики как случайность отклонений уровней динамического ряда от общей средней. Он построил свою теорию на примере анализа колеблемости альтернативных признаков (рождения женщин – рождения мужчин, первые браки – не первые браки). Если различия между уровнями ряда случайны, то в основе ряда лежит некое постоянное число – вероятность (например, вероятность рождения мальчиков), основанная на многолетних данных. Ее оценкой является средняя доля р. Тогда дисперсия доли равна:
r2=pq/n, где q=1-p, n – среднее число наблюдений в году (например, среднегодовая численность населения). Если ряд стабилен, то дисперсия долей по годам должна быть близка к r2. Дисперсия долей равна:
,
где рi — доля в i-м году, т — число лет в ряде динамики.
Соотношение этих двух дисперсий представляет собой меру устойчивости – коэффициент дивергенции (число Лексиса), которое Лексис в честь Кетле обозначил буквой Q:Q2=R2/r2.
Для больших случайных выборок (т. е. при протяженном стабильном ряде динамики) Q=l. Если коэффициент Q близок к 1, ряд является нормально устойчивым, т. е. колеблемость каждого уровня не выходит за границы общей колеблемости. При этом годы (или серии) выбраны из однородной совокупности (например, соотношение мальчиков и девочек среди родившихся в разные годы в разных местностях). Если же годы (или серии) представляют разнородную совокупность, то R>r и Q>1 (например, доля умерших резко возрастает, если начинается война или эпидемия). Этот случай Лексис назвал сверхнормальным рассеянием, или поднормальной устойчивостью. Наконец, может быть R<r и Q<1 – случай поднормального рассеяния, или сверхнормальной устойчивости. Такая устойчивость практически не встречается; сравнительно редко можно ожидать нормальную устойчивость, основным является случай поднормальной устойчивости. Это заключение Лексиса было использовано оппонентами Кетле для обоснования значимости воли человека. Делался вывод, что раз данные по годам могут быть неоднородны, то Кетле был не прав, утверждая объективность закономерностей, отсутствие свободы воли. В действительности, теория устойчивости Лексиса не отрицает объективности статистических закономерностей, а лишь свидетельствует об изменчивости их проявлений во времени и в пространстве.
Если отклонения в динамическом ряду превышают случайную величину, т. е. ряд не является нормально устойчивым, то Лексис считал необходимым выделение однородных подсерий. Если Кетле нормальное распределение казалось повсеместным, то в теории Лексиса оно трактуется как результат классификации данных. И если в антропометрических исследованиях Кетле нормальное распределение было обычным, то при переходе к социальным переменным нормальное распределение стало редким. Чтобы исключить вариацию данных, вызванную внешними причинами, и достичь нормальной устойчивости, Лексис предложил использовать метод наименьших квадратов. Он ввел разграничение типов динамики: эволюторный – главное проявление основных тенденций, ундуля-торный – волнообразное развитие во времени, периодический – правильное повторение волн, осцилляторный – беспорядочные колебания уровней.
Создав теорию устойчивости, Лексис предвосхитил открытие соответствия между анализом дисперсии и статистической связи, что позже стали ставить в заслугу Р. А. Фишеру (см. гл. 6). Недаром теорию устойчивости назвали теорией дисперсии. Лексис вывел формулы, которые позволяли измерить дисперсию трех видов: общую, внутригрупповую и межгрупповую, и определил ранг каждой из них (число степеней свободы). Он вывел широко известное правило сложения дисперсий. Число Лексиса есть не что иное, как отношение межгрупповой дисперсии (R2) к общей (r2). Позже, в XX в. были выведены соотношения между числом Лексиса Q и критерием χ2 Пирсона, а также между Q и F-критерием Фишера. Последователь Лексиса – В. И. Борткевич (см. гл. 5, 6) развил его концепцию и распространил теорию устойчивости с относительных чисел (долей) на средние величины. Математические обобщения теории устойчивости сделаны великими русскими учеными А. А. Чупровым и А. А. Марковым.
Лексис внес значительный вклад в разработку методов демографии. Им создан графический метод демографического анализа, получивший название демографической сетки Лексиса, усовершенствовано составление таблиц смертности, метод условного поколения.
Вторая половина XIX в. – это начало формирования корреляционного и регрессионного анализа, заложившее основы знаменитой английской биометрической школы. В отличие от теории устойчивости эти методы родились не в социальных исследованиях. Ч. Дарвин в книге «Происхождение видов» (1859) среди различных форм изменчивости назвал корреляцию и реверсию («закон соответствия» и «закон возвращения»), на основе которых зародились идеи статистической теории корреляции.
Впервые методы статистики при решении проблем новой эволюционной теории применил Фрэнсис Гальтон (1822—1911) двоюродный брат Ч. Дарвина. Под влиянием идей Кетле Гальтон доказал, что распределение ошибок измерения подчинено нормальному закону. Он изучил связь антропологических переменных с интеллектуальными способностями человека. Около 1875 г. Гальтон ввел термин «огива» для графика кумулятивной кривой ряда распределения. На основе огивы Гальтон находил медиану и квартили, положив тем самым начало применению графического метода для определения обобщающих статистических характеристик распределений.
Пытаясь развить и обосновать идеи об изменчивости наследственных признаков и естественном отборе, Гальтон обратился к математическим методам, позволяющим описать наследственные признаки. Он рассмотрел это явление на примере наследования роста. Получив данные о росте более 200 родительских пар и свыше 900 их детей, Гальтон вывел так называемый закон регрессии – среднее снижение роста сыновей по сравнению с ростом отцов (1899). Его суть может быть передана так: «Степень уклонения роста родителей от средней величины, выведенной из общих данных о росте всех родительских пар, лишь частично наследуется их детьми» (Гайсинович, А. Е. Зарождение и развитие генетики. М., 1988. С. 204). Сравнивая две группы – родителей и детей, Гальтон получал некоторое снижение роста у детей и объяснял это тем, что средний рост отца выше среднего роста матери и поэтому средний рост детей ниже среднего роста отца, но выше среднего роста матери.
Гальтон связал корреляцию с сутью эволюционного учения. Впервые он ввел числовую меру r, которая первоначально соответствовала термину Дарвина «реверсия» и которую Гальтон назвал «регрессия» в 1877 г. в лекции «Типичные законы наследственности человека».
Но с полным правом началом разработки «корреляционной проблематики» можно назвать лишь его статью «Регрессия, наследственность и панмиксия» (1896), в которой Гальтон дал определение корреляции, построил теоретическую модель совместного изменения двух переменных, ввел понятие линии регрессии и корреляционного индекса r. Причем в качестве оценок средних он использовал медианы (Мех, Меу), а в качестве оценки стандартного отклонения каждой переменной – величину полуразности третьей и первой квартилей:
На основе графического нахождения величин Me и Q он графически определил меру связи признаков х и у.
Таким образом, Гальтон вывел меру связи, измеряющую степень соответствия распределений двух переменных. Подобные меры предлагались и до него. Так, известный французский кристаллограф Огюст Браве (1811–1863) рассматривал закон корреляции, или закон ошибок, в нахождении точек совместного распределения. Немецкий психолог Густав Теодор Фехнер (1801–1887) предложил в качестве меры связи двух переменных показатель, основанный на сопоставлении, разности чисел совпадений и несовпадений знаков отклонений переменных х и у от их средних значений с общим числом отклонений, т. е. с общим числом членов в сопоставляемых рядах. Показатель Фехнера изменяется по абсолютной величине в интервале [0,l].
Работы Гальтона получили широкую известность среди современников. Однако методологическая ценность идеи регрессии была не сразу ими воспринята, а рассматривалась лишь как специфический способ исследования наследственности.
Теоретическое обоснование выводов Гальтона и их практическая проверка на разнообразном статистическом материале принадлежат прежде всего одному из замечательных статистиков прошлого К. Пирсону, деятельность которого оказала огромное влияние на судьбы статистики в XX в. В XIX в. в статистике произошел коренной поворот. Этому способствовало развитие позитивизма Огюстом Контом (1798–1857) и его последователем Джоном Стюартом Миллем (1806–1873). Идеи Конта о «социальной физике» как о целой иерархии теорий дали мощный толчок развитию общественных наук, в первую очередь социологии (1837). Кетле свел «социальную физику» к статистическому исследованию общественной жизни. Он обнажил связь статистики с теорией вероятности и тем самым поставил на прочную методологическую основу ее развитие.
В XIX в. окончательно определились основные черты статистического метода: массовое наблюдение, обобщение данных и анализ. Впервые был дан ответ на вопрос, как объяснить, что действия отдельных единиц, как будто вполне свободные, обнаруживают правильности в массах, причем правильности повторяющиеся. Мощное направление в теории статистики XIX в. берет начало в трудах Лексиса об устойчивости статистических рядов.
От изучения общественных явлений статистика перешла к изучению наследственности и изменчивости. Это было сделано Гальтоном. Вслед за ним приступил к разработке статистических методов, к созданию математической школы статистики К. Пирсон. Впоследствии идеи Гальтона –Пирсона и Лексиса получили теоретическое обобщение в концепции стохастической теории статистики. Таким образом, труды ученых XIX в. подготовили быстрое развитие математико-статистических методов, их теоретическое обоснование и применение.