Проблематика квантитативной лингвистики с теоретической и прикладной точек зрения
Название «квантитативная лингвистика» достаточно условно, хотя и довольно широко используется в современной научной литературе. Оно характеризует междисциплинарное направление в прикладных исследованиях, в котором в качестве основного инструмента изучения языка и речи используются количественные или статистические методы анализа. Иногда квантитативная (или количественная) лингвистика противопоставляется комбинаторной лингвистике (см., например, [Пиотровский, Бектаев, Пиотровская 1977, с. 8, 9]). В последней доминирующую роль занимает «неколичественный» математический аппарат — теория множеств, математическая логика, теория алгоритмов и т.д.
Применение количественных методов при описании функционирования языка мало чем отличается от использования аналогичного инструментария в естественных и гуманитарных науках. Привлечение методов измерения и подсчета языковых реализаций позволяет, однако, существенно модифицировать представление о языковой системе и возможностях ее функционирования. В этом отношении квантитативная лингвистика оказывается важнейшим фактором, влияющим на лингвистическую теорию. Например, в сфере грамматики теоретическая лингвистика, как правило, ограничивается констатацией существования в русском языке системы падежей. Со структурной точки зрения этого, быть может, и достаточно. Между тем за рамками обсуждения остается весьма существенная информация о том, как часто используются различные падежи, какова динамка использования различных падежей с течением времени. Исследование такого рода позволило бы выявить тенденции развития падежной системы и на основе этого даже сформулировать гипотезы о будущем состоянии грамматической системы русского языка.
Другой пример. С системной точки зрения в русском, английском и латинском языках имеется форма именительного падежа единственного числа личных местоимений. Однако в английском языке при глаголе эта форма местоимения практически всегда необходима, в русском — местоимение в этих случаях обычно представлено, а в латыни — как правило, отсутствует. Отсутствие достоверных количественных данных об этих языковых явлениях делает структурное описание явно недостаточным [Шайкевич 1990]9). Разумеется, имеются и смешанные случаи.
Близкие проблемы возникают и в сфере лексики. Обычные толковые словари не помещают в составе словарной статьи информации о частоте использования той или иной лексемы. Это связано с очень большим объемом работы, который надо проделать, чтобы для каждого слова указать хоть какие-то рамки частотности (ср. пометы типа малоупотребительно, частотно, высокочастотно). Для пользователя словаря такая информация может оказаться очень важной, часто решающей для принятия решения об использовании слова. Ср., например, высокочастотные в публицистике идиомы с головы до ног/с ног до головы (48 вхождений на 21 млн словоупотреблений), целиком и полностью (49 вхождений на 21 млн), на все сто (42 вхождения на 21 млн), ровным счетом, ни больше ни меньше (71 вхождение на 21 млн), ни много, ни мало (133 вхождения на 21 млн) и весьма редкие для газетно-журнального стиля выражения
9)Впрочем, в рамках порождающего синтаксиса и синтаксической типологии было показано, что обсуждаемое свойство является только одним из проявлений оппозиции «языки pro-drop vs. языки non-pro-drop». Языки pro-drop при определенных условиях (отсутствие эмфазы) допускают опущение местоимений, а языки non-pro-drop — не допускают. См. по этому поводу [Chomsky 1981, р. 240-248, 253-275].
море разливанное (9 вхождений на 21 млн), (и) стар и млад (8 вхождений на 21 млн), разные разности (1 вхождение на 21 млн)10).
С теоретической точки зрения использование статистических методов в языкознании позволяет дополнить структурную модель языка вероятностным компонентом, то есть создать структурно-вероятностную модель, обладающую значительным объяснительным потенциалом. Эту сторону использования количественных методов следует считать приложением статистики в языкознании. К моделям такого рода относится, например, «модель жизненного цикла слова», предложенная А. А. Поликарповым [Поликарпов 1998]. Проведенный им квантитативный анализ показал, что в достаточно значительной временной перспективе имеется явная тенденция к увеличению степени абстрактности значений у многозначного слова — чем позже возникает значение, тем оно более абстрактно. Разработанная количественная модель позволяет делать интересные предположение об относительном «возрасте» различных частей речи, тенденций развития лексической системы языка и т.д.
Из приведенного примера видно, что задача построения структурно-вероятностной модели функционирования языка относится к теоретическим проблемам лингвистики и входит в компетенцию теории языка. В прикладной же области квантитативная лингвистика представлена прежде всего использованием фрагментов этой модели.