Закон Ципфа как проявление числовой упорядоченности текста
Наблюдается ли числовая упорядоченность в обыденном языке – том главном, что создал сам человек?
Перед нами закон Ципфа[65], отражающий числовую регулярность не только письменных текстов, но и текстов биотаксономии:
здесь n — ранг слов, упорядоченных по частоте их появления, P n – частота появления слова n- го ранга, d – константа. (Закон Ципфа может быть записан в разных модификациях и часто называется законом Эсту – Кондона – Ципфа – Мандельброта.) Вначале считалось, что закон Ципфа отражает числовую упорядоченность самого языка. Но вскоре стали выясняться различные неприятности, заставившие интерпретировать его иначе. Прежде всего, оказалось, что этот закон хорошо выполняется только для выборок, содержащих около 22000 различных слов. Такие выборки, по оценкам Ципфа, должны были содержать около двухсот тысяч словоупотреблений, что, конечно, никак не охватывает все богатство языка.
Далее выяснилось, что с формулами, описывающими числовую упорядоченность, все обстояло хорошо, когда их сравнивали с частотами отдельных художественных произведений. Они никогда не описывали произвольные лексические выборки – отрывки из отдельных произведений или их объединения, представляемые в виде одной выборки. Возникли сомнения в правомерности самого существования числовой упорядоченности языка. Математик Ю.К. Орлов, один из лучших в нашей стране знатоков проблемы, посвятивший ее изучению более 20-ти лет, дает разъяснение, снимающее все нарекания [Орлов, 1980]:
…закон Эсту – Кондона – Ципфа – Мандельброта оказался законом не языка, а текста. Законом отдельного чрезвычайного высокоорганизованного сообщения, рассчитанного на привлечение внимания максимально широкой аудитории. Нехудожественные тексты (научные, технические, философские) выполняли этот закон, если можно так выразиться, с большой натяжкой. Огромные выборки, претендующие представлять «язык в целом», не выполняли его вовсе (с. 82).
Таким образом, для текстов мы получаем [там же]:
…ту самую гармоническую последовательность чисел, которую с незапамятных времен получил Пифагор для колебания струны и которая лежит в основе так называемого натурального звукоряда (а так как все прочие музыкальные звукоряды можно рассматривать в качестве приближения к натуральному, то и всех музыкальных шкал вообще). По-видимому, эта аналогия имеет глубокий смысл… (с. 74).
И в то же время Ю.К. Орлов обращает внимание на то, что выполнимость закона Ципфа для текста (выборки в 22000 слов) следует, как это легко показать, из числового значения константы d , которая, по оценкам лингвистов, оказывалась приблизительно равной одной десятой. Иными словами, порядок в высокоорганизованных текстах нашего языка оказался заданным числом .
Теперь остановимся на мгновение и проведем мысленный эксперимент. Вообразим, что люди покинули Землю, истерзанную и загубленную их усилиями. Вскоре на Земле появились исследователи-метанаблюдатели, чуждые нашей словесной культуре. Обнаружив множество оставшихся после нас письменных знаковых систем, они, естественно, стали бы изучать их прежде всего чисто статистически. Немедленно был бы обнаружен закон Ципфа и все с ним связанное. Метанаблюдатели должны были бы признать, что среди изучаемых ими систем есть удивительные – обладающие высокой числовой организованностью. Отсюда, наверное, был бы сделан вывод о том, что эти знаковые системы имеют смысл – они являются текстами, несущими семантику. Правда, нам трудно представить себе, как эта семантика могла быть понята вне культурной преемственности и традиции. Интерес к текстам быстро, наверное, был бы потерян, хотя вокруг этого феномена несомненно возникли бы мифы (всегда хочется разгадать непонятное), которые скептически настроенные иноземляне отнесли бы к проявлениям мистицизма.
Отметим здесь, что известный в биотаксономии закон Виллиса также описывается распределением Ципфа [Кафанов, Суханов, 1981], которое теперь запишем в обобщенной форме:
где P n – относительное число таксонов, каждый из которых содержит N таксонов следующего, более низкого ряда.
Здесь мы имеем дело с распределением таксонов высшего ранга по числу содержащихся в них таксонов следующего, более низкого ранга. Скажем, речь может идти о распределении родов по числу содержащихся в них видов. Обнаруживается глубокая аналогия с тем, что наблюдается для письменных текстов. Отсюда, как это видно из сказанного выше, следует, что метанаблюда-тель должен был бы воспринять видовое многообразие жизни как многообразие текстов . Правда, смысл этих текстов остается еще не ясным и для самих биологов. Если С.В. Мейен [1978] придает закону Виллиса глубокое общебиологическое содержание, хотя и считает его загадочным, то в статье [Кафанов, Суханов, 1981] мы находим следующее высказывание:
Однако нам кажется, что систематики ничего не потеряют, если в своей практической деятельности они не будут руководствоваться этим законом. Классификационные схемы в любом случае существенно не изменятся, а любые биологические интерпретации закона Виллиса– Ципфа, по нашему мнению, останутся несостоятельными (с. 349).
Как странно читать эти строки – в них со всей отчетливостью выступает глубокое недоверие к результатам биологических наблюдений, выражаемых в числе. Чем вызвано такое неприязненное отношение к числу?