Информационное построение текста 2 страница
5.5. Измерение смысловой информации, содержащейся
В означаемом знака
Смысловая информация, заложенная в денотате, десигнате и коннотате морфемы, с/ф или с/с оценивается через коллективное уга-дывание с помощью следующего приема. Пусть имеется текст, пред-ставляющий собой цепочку слов W, W2, W3, . . ., Wk,. и необходимо оценить количество информации, содержащееся в слове W (на рис. 17 таким словом является японец). Для решения этой задачи проводится коллективное угадывание сегмента текста W2 ¸ Wk. (им является в нашем случае сегмент кричит. Первый раз коллективу сообщается слово W, например, японец, стоящее перед контрольным сегментом кричит. Второй раз угадывание начинается пря-
H=I bits
4
2
1
n
я п о н е ц# к р и ч и т #
Рис.17. Синтактическая и смысловая информация в русском
предложении.
- суммарная синтактическая информация
- информация, снятая значением слова японец
мо со слова W2. Между обоими угадываниями должно, разумеется, прой-ти достаточно времени, чтобы испытуемые забыли содержание текста. Угадывания можно также проводить в двух разных, но идентичных по тезаурусу и по ЛК коллективах. Естественно, что оба угадывания дадут разные результаты.
Получаемая в первом случае от контрольного сегмента информа-ция I(W2¸ Wk) = H(W2¸ Wk) bits будет больше информации 1(W2¸ Wk /W)= = Н (W2¸ Wk / W) bits, полученной при условии, что испытуемым было известно слово W. Разность И (W) = I (W2¸ Wk) - I(W2 ¸ Wk / W) представляет собой количественную оценку той смысловойинформа-ции, которая содержится в слове W. Именно эта информация уменьши-ла неопределенность контрольного сегмента и облегчило второе уга-дывание. Чтобы проводить строгое сопоставление оценок смысловых информаций по разным словам внутри одного языка и по одному сло-ву для разных языков, а также количественно сравнивать ту информа-цию, которую извлекают из лексики представители разных образова-тельных групп, носители языка и иностранцы, необходимо иметь усре-дненные оценки смысловой информации. Чтобы решить эту задачу В.И.Богодист [11.С. 8-13] провел обширный эксперимент с более чем 500 носителями французского языка и русскими студентами, обуча-ющимися на факультете французского языка педагогического уни-верситета. Он показал, что такие данные можно получить для каждой лексической единицы, усредняя оценки смысловой информации, по-лученные для нее из разных контекстов. Аналогичные данные от более чем 3500 русских носителей получили В.Н.Пестунова и Р.Г.Пиотров-ский. С.В.Райтар провела такой же эксперимент с 800 студентами-эстонцами, Х.Ц.Георгиев опросил 300 болгарских студентов [12], а Д.А.Байтанаева и К.Б.Бектаев провели смысловое угадывание с 900 студентами-казахами [7]. Часть экспериментальных данных показана в табл. 18. Результаты измерения смысловой информации (И), содер-жащейся в лексических единицах четырех языков, дают возможность сделать следующие выводы.
1. В величинах И суммируется семантическая информация с ее лексической и грамматической разновидностями, коннотативная, сигматическая и прагматическая информации, а также количественные оценки валентных связей исследуемого слова или словосочетания.
2. Как и следовало ожидать, в аналитических языках (француз-ском и болгарском) словоформа обычно несет меньше смысловой ин-форма-ции, чем это имеет место в синтетических (флективном рус-ском и агглютинирующем эстонском) языках.
Таблица 18.
Семантическая информация внетекстовых с/ф (в битах) в четырех языках
Русский | Французкий | Болгарский | Эстонский | ||||
Слово(Wi) | И | Wi | И | Wi | И | Wi | И |
Класс | 18,33 | La classe | 9,26 | klass | 18,29 | ||
Эксплуатация- | 19,84 | L’exploita- tion | 12,1 | ekspluatee-rimine | 17,14 | ||
Правительство | 13,56 | Le gou-vernement | 5,44 | Прави-телст-вото | 17,74 | Valitsus | 17,10 |
Народ | 8,55 | Le peuple | 6,83 | Rahvas | 17,63 | ||
Президент | 8,44 | Le président | 7,50 | Предсе-дателят | 6,72 | President | 12,69 |
Государство | 17,66 | L’état | 7,02 | Riik | 20,63 | ||
Печать | 15,74 | Печатът | 4,85 | ||||
Усреднённые оценки | 14,12 | 7,63 | 9,77 | 17,21 |
3. Количество смысловой информации, извлекаемой испыту-емым из слова, зависит от богатства его тезауруса и лингвистической компетенции. Так, французкие преподаватели лицеев извлекают из слов в полтора раза больше информации, чем их ученики. Анна-логичные результаты пока-зывают и русские информанты. Студенты педагогических университетов извлекают из словоформы в среднем 11,36 дв.ед., в то время как учащиеся техникумов только 9,75 дв.ед. Сходные данные от угадывания русских финансово-экономических текстов получили П.Б.Невельский и М.Д.Розенбаум [53, c. 140 ].
4. Результаты описанного эксперимента могут быть использова-ны для описания динамики роста лингвистической компетенции и те-зауруса у учащихся относительно изучаемого иностранного языка (табл. 14) и учтены при построении лингвистических автоматов (см. главы 6 – 8).
5.6. Смысловая информация контекста.
Если средняя длина слова в данном языке равна lбукв, то макси-мальное количество синтактической информации, передаваемой таким словом, будет равно I(W0) = lI0 = lH0. В действительности слово несет гораздо меньше информации, что обусловлено разного вида дистрибути-вно-статистическими и семантико-статистическими ограничениями. С помощью описанных в разделах 5.1.1 и 5.5 приемов можно определить количество синтак-тической информации, приходящееся на слово средней длины, взятое вне контекста, т. е. I(W), и в контексте, т. е. I (Wh) = lI¥ = lH¥. Тогдаобщая сум-ма контекстных ограничений, накладывающихся на слово в тексте, составит K(Wh) = I(W0) – I(Wh) битов. Эти ограничения включают информацию, кото-рая характеризует вероятностную дистри-буцию букв и слогов, а также ту син-тактическую информацию, которая оценивает среднюю величину смысловой информации, содержащейся в лексико-грамматических связях предшествующего фрагмента W ÷ Wh- со
Таблица 19
Контекстные ограничения (в битах) и показатели аналитизма (%%)
для пяти языков
Информационные величины | Англий-ский | Русский | Франц-узский | Румын-ский | Казах-ский |
I(W0) | 25,97 | 31,85 | 25,23 | 27,07 | 37,95 |
I(W) | 12,59 | 13,50 | 10,88 | 13,02 | 18,04 |
I(Wh) | 5,41 | 8,15 | 6,46 | 7,77 | 13,69 |
K(Whт) | 7,18 | 5,35 | 4,42 | 5,25 | 4,35 |
K(Wh) | 20,56 | 23,70 | 18,77 | 19,30 | 24,26 |
A1 | 35,00 | 22,57 | 23,55 | 27,01 | 17,93 |
A2* | 67,66 | 31,53 | 56,39 | 39,93 | 32,48 |
.* Для испанского языка A2 = 56,03.
словоформой Wh. Последняя информация, опреде-ляющая прагматическую лексико-грамматическую, коннотативную и прагматическую предсказуе-мость слова Wh , может быть получена из равенства K(Whт)=I(W)-I(Wh) битов, поскольку, уже начиная со второго слова, угадываниетекста осуществляется с опорой на полученную ранее смысловую инфор-мацию. Доля смысловых связей (т.е. ограничений) в контексте относитель-но всей суммы ограничений в текстовом слове определяется из выражения
A1 = [K(Whт) / K(Wh)] 100%,
которое может служить оценкой аналитичности языка. Проверить досто-верность полученных данных можно путем сравнения оценок A1 с вели-чинами коэффициента аналитичности A2 для указанных языков, получен-ных независимо от описываемого эксперимента из выражения A2 = L/V, где L – число с/ф, а V – количество породивших их слов в достаточно пред-ставительной выборке текста. Все перечисленные оценки даны в табл. 19. Cопоставление величин A1 и A2показывает, что в целом они отражают традиционные представления о степени аналитичности рассматриваемых языков. Это позволяет говорить о достоверности наших количественных оценок аналитизма, полученных с помощью информационных измерений.
5.7. Информационные оценки морфологии
Используя приемы перегруппировки результатов угадывания, можно измерить ту грамматическую информацию, которая содержится, во-первых, в суффиксах, внутренних и внешних флексиях знаменательных слов, которую будем называть морфологической информацией (МорфИ), во-вторых в слу-жебных словах. МорфИ оценивается через суммы синтактических информа-ций, падающих на каждую буквенную позицию названных грамматических аффиксов. С этой целью все буквенные позиции и находящиеся на них буквы
Таблица 20. Морфологическая информация (МорфИ),в битах
и % на слово в трех языках
Язык | Инфор-мация на внетексто-вое слово (ВТС) | Инфор-мация на текс-товое слово (ТС) | МорфИ на внетексто-вое слово _ (Igrd)в битах и в % к _ I(ВТС) | МорфИ на текстовое слово _ (Igrt)в битах и % к_ I(ВТС) | МорфИ, снятая кон- текстом _ _ (Igrd- Igrt) в битах и в % к _ I(ВТС) |
Англий- ский | 12,60 | 5,40 | 0,79 (6,3%) | 0,18 (3,5%) | 0,60 (79,4%) |
Рус-ский | 13,50 | 8,15 | 2,30 (17,0%) | 0,70 (8,6%) | 1,60 (69,6%) |
Францу-зский | 11,77 | 6,45 | 2,59 (22,0%) | 0,88 (16,0%) | 1,71 (66,0%) |
Румын- ский | 13,00 | 7,77 | 2,99 (23,0%) | 1,01 (13,0%) | 1,91 63,9%) |
группируются в два разряда. В первый попадают те позиции и графемы, которые входят в грамматической аффикс. Сюда же относятся буквы, ко-торые, хотя и не составляют грамматической части слова, но имеют аль-тернативой другую графему, входящую в грамматический аффикс данного или другого конкретного слова. Второй разряд составляют буквы и пози-ции, не входящие в грамматический аффикс. Буквы, находящиеся на бук-венных позициях первого разряда, группируются по количеству попыток, понадобившихся для их отгадывания. Все буквы второго разряда рассма-триваются как достоверные грамматические продолжения (ср. угадывание с “нулевой” попытки) независимо от того, сколько попыток понадобилось, чтобы определить каждую из этих букв. Это делается из тех соображений, что “неграмматические” буквы, равно как и буквы первого разряда, уга-данные с “нулевой” попытки, не несут МорфИ. Полученные спектры рас-считываются с помощью формул (5.2), (5.5) и (5.6). Cведения о МорфИ, содержащейся в английских, русских и французских усредненных словах, а также о воздействии на нее контекста показаны в табл. 20.
Для количественной оценки грамматической информации, содержа-щейся в служебных словах (ее называют информацией аналитической морфологии (ИАМ)), используются величины синтактической информации, падающие на две первые буквы служебного слова. Обратная величина этой суммы Ba = 1/ (I + I2)рассматривается в качестве меры связи служебного слова с предшествующим контекстом. Аналогичным образом определяется степень связи с предыдущим контекстом у флексий (Bf) и у текстовых знаменательных слов (Bw), см. табл. 21.
Сопоставление информационно-статистических оценок из табл. 19 - 21 обнаруживает следующие типологические особенности рассмотренных языков.
1. По соотношению числа лексем и порождаемых ими словоформ анг-лийский язык вместе с романскими языками показывают более высокий процент аналитизма (A2) по сравнению с русским языком. Это согласуется с традиционными представлениями о соотношении в них аналитизма и синтетизма.
2. При сравнении доли лексико-грамматических связей контекста отно-сительно общей суммы ограничений, падающих на текстовое слово (ко-эффициент аналитизма A1), выясняется, что, как и следовало ожидать, величина этой доли в английском языке значительно превосходит русское значение A1; вместе с тем аналитические романские языки неожиданно дают низкие значения этого коэффициента, близкие к его величине в русском языке.
Taблица 21. Количественные оценки величин Ba, Bw, Bf
Языки | Служебное слово | Знаменательное слово | Флексия знаменатель- ного слова |
Английский Русский Французский | 0,22 0,21 0,24 | 0,17 0,19 0,19 | 0,50 0,46 0,66 |
3. Как флективно-синтетический русский язык, так и аналитические анг-лийский и французский языки показывают одинаковую степень связи служеб-ных и знаменательных слов с предшествующим контекстом, причем служеб-ное слово в значительно меньшей степени зависит от контекста, чем флексия.
4. Информационная доля флективной морфологии во французском и румын-ском текстовом и внетекстовом словах в несколько раз превосходит информа-ционный вес английских флексий, более того, в аналитических романских языках доля флективной морфологии заметно превышает информационный вес морфологических аффиксов текстового слова в синтетическом русском языке.
Эти результаты, вступающие на первый взгляд в противоречие с традиционными представлениями о соотношении синтетизма русского языка с аналитизмом западных индоевропейских языков, можно объяснить следующим образом. Письменный и устный тексты имеют линейный хара-ктер, а индоевропейские служебные слова (в первую очередь предлоги и вспомогательные глаголы) стоят в препозиции к управляемым ими знаме-нательным словоформам. Поэтому окончания часто дублируют значения служебных слов, кото-рые несут основную информационно-грамматиче-скую нагрузку в именных и глагольных группах. На избыточность флексий указывают, в частности, вы-сокие значения коэффициента Bf в рассмот-ренных языках, причем эта избы-точность определяется не только грамма-тической информацией предшеству-ющего служебного слова, но также смысловой и синтактической информаци-ей, содержащейся в той лексиче-ской основе, к которой примыкает оконча-ние. Что касается русского язы-ка, то количественные показатели избыточ-ности флексий согласуются с данными слухового и спектрального анализа, свидетельствующего о ре-дукции и смешении не только именных, но и глагольных окончаний [113]. Таким образом служебные слова благодаря своему положению на синтаг-матической оси обладают меньшей контекстной обусловленностью и одно-временно несут больше синтактической и грамматической информации, чем флексии. Преимущества аналитической морфологии перед морфоло-гией флективной обусловлены и тем, что короткие слова, значительную долю которых составляют служебные слова, с точки зрения количества передаваемой ими информации оказываются менее подверженными воздействию контекста, чем средние и длинные слова. Так, в русском языке короткие слова, попадая в контекст, теряют от 30 до 33% несомой ими информации, в то время как у длинных слов и слов средней длины контекст снимает от 47 до 58% информации, для французского языка эти величины соответственно равны 25–30 и 62–87%.
Механизм этого явления становится понятным, если сравнить рост контекстной связанности в схеме текстового и внетекстового слова с её ходом в связном тексте. Как уже говорилось, ход кривой контекстной связанности Kx описывается зависимостями (5.9) и (5.10), в которой I¥ ха-рактеризует тот предел, к которому стремится информация в данном типе сообщения. Следует подчеркнуть, что предельная информация связ-ного текста, при n ® ¥, будет всегда больше нуля. Иное дело слово. Оно сос-тоит из фигур (букв, фонем, слогов) и простых знаков (морфем), обладаю-щих ограниченной комбинаторикой, и – что самое главное – слово высту-пает в тексте в виде кванта информации. Поэтому при n ® ¥, т. е. при бес-конечном удлинении слова, информация отдельных составляющих ее фигур и знаков будет стремиться к нулю. Поэтому выражение, описы-вающее рост внутрисловной контекстной связанности, принимает вид:
Kx(с) = I0 – I0 e–sx.
Сравнение распределений контекстной связанности в схемах тексто-вого и внетекстового слов (табл. 16) показывает, что лексико-грамматиче-ский контекст значительно ускоряет рост контекстной связанности букв внутри слова. Коэффициент s текстового слова в два раза превышает по величине аналогичный коэффициент для внетекстового слова. Особенно круто возрастает кон-текстная связанность в текстовом слове на участке от первой до четвертой букв. После четвертой буквы кривая связанности зна-чительно приближается к своему пределу K¥. Что же касается внетексто-вого слова, то здесь нарастание контекстных связей происходит более плавно. Кривая связанности достигает своего предела лишь после двенад-цатой буквы. Быстрое нарастание общей контекстной связанности букв на участке между первой и четвертой буквами – нарастание, постоянно на-блюдаемое в процессе самого эксперимента, имеет важные последствия для информационной структуры текстового слова. Как уже говорилось, ос-новная часть грамматической информации длинных и средних слов кон-центрируется на пятой, шестой и т. д. буквах. Когда слова этого типа попа-дают в текст, общая контекстная связанность их начальных букв растет на-столько быстро, что несущие грамматическую информацию конечные бук-вы, равно как и буквы, находящиеся в центральной части слова, оказыва-ются почти полностью предопределенными предшествующим контекс-том. Именно поэтому они теряют значительную часть своей грамматиче-ской информации.
Иное дело короткие слова. Контекстная связанность при их употре-блении в тексте также растет довольно быстро. Однако она не успевает к концу слова достичь своего предела (обычно длина коротких слов не превышает четырех букв). Поэтому все буквы сохраняют здесь информа-ционный вес. От-сюда следует, что короткие с/ф, основную массу которых составляют слу-жебные слова, оказываются менее подверженными воздействию контекста по сравнению с длинными и средними знамена-тельными с/ф.
Объяснение низким показателям аналитизма и высокой доли морфо-логи в романских языках следует искать, очевидно, в следующих типологи-ческих особенностях романских языков.
1. В романских языках частотные служебные слова, играющие здесь основ-ную роль при передаче грамматической информации, сами имеют флексии. Cр. формы разных видов артикля во французском (1е, l', la, les) или румын- ском (al, a, ai, ale) языках, а также спряжения испанского вспомогательного глагола haber (he, has, ha, hemos, habeis, han)или итальянского avere – ho, hai, ha и т.д. Что же касается русских и английских служебных слов, то они чаще всего оказываются неизменяемыми.
2. Романские глагольные парадигмы характеризуются значительным коли-чеством флективных графических форм (ср. французские Conditionnel, Présent, Passé simple, Imparfait, Imparfait du Subjonctif и соответствующие им временные формы в других романских языках). Они превосходят в этом от-ношении не только английский, но и русский язык. Романские глагольные окончания не всегда предопределены формой стоящего перед ним сущест-вительного или местоимения, ср. фр. Il chante(chantait, chantai, chanterai; chanterais, chantasse), или рум. eu cânt (cântam, cântai, сântasem). Аналогич-ную картину дают и другие романские языки. Это своеобразие флективно-аналитического строя нашло отражение в неожиданных на первый взгляд информационно-статистических свойствах романского текста.
5.8. Информационные модели, синергетика языка и РМД человека
Энтропийные и информационные характеристики языка и текста могут рассматриваться в качестве количественной меры упорядоченности язы-ковой системы РМД и служить косвенным свидетельством воздействия на них синергетических механизмов. Однако, свидетельствуя об общей синерге-тической упорядоченности языковых систем и порождаемых ими текстов, приведенные выше экспериментальные данные пока не раскрывают деталей их структурной организации. Они также мало что говорят о частных деталях синергетики конкретного языка и детерминанте его функционирования и раз-вития. Для решения этих задач необходимы не только новые информационные эксперименты, но также сопоставление полученных количественных результатов с прямо наблю-даемыми данными о диахронии и синхронии различных семей и типоло-гических групп языков. Однако здесь возникает вопрос: возможно ли вообще определить численные параметры этого развития?
Чтобы ответить на этот вопрос, обратимся сначала к анализу уже рассматривавшихся энтропийных оценок. К сожалению получить с помо-щью психолингвистического теста аналогичные оценки для древних сос-тояний интересующих нас языков, например, латыни, готского, старосла-вянского или санскрита, практически невозможно. Поэтому приходится искать обходные пути, на которых можно было бы сравнить энтропию современного и древнего состояний языка той или иной группы. Таким приёмом, в частности, может быть сопоставление энтропийных оценок двух близкородственных языков, один из которых отражает архаичную, добифуркационную ста-дию, а второй, испытав сильное влияние соседних языков, претерпел в большей или меньшей степени перестройку исходной системы. Идя по этому пути, сравним избыточность следующих пар языков (табл. 10):