Информационное построение текста 1 страница
Величины I¥ =H¥ и R являются суммарными оценками различных лингвистических и экстралингвистических явлений. Между тем для инфор-матики, теоретической и прикладной лингвистики интересны не столько суммарные данные, сколько раздельные показатели доли лексической, мор-фологической информации и семантико-синтаксических контекстных связей в языках различного типа, а также информационные веса отдельной морфе-мы, слова и, наконец, измерение смысловой информации, содержащейся в словах и с/с. Решение этих задач было начато с исследования динамики зна-чений In=Hn , оценивающих величины информации, которую извлекает угадчик, двигаясь по тексту. Эти значения убывают в зависимости от роста значений n. Если представить такую цепочку, как непрерывную функцию аргумента x, заменяющего дискретные величины n, то она может быть аппроксимирована экспонентой
Ix = (I0 – I¥) e–sx + I¥, (5.9)
где I¥ – предельная информация языка или его разновидности, служащая
асимптотой кривой Ix , а s – специально рассчитываемый для каждой из них
коэффициент. Заменив величину Ix = In в выражении 5.7а, правой частью вы-ражения (5.9) и произведя некоторые упрощающие преобразования, получим общее выражение контекстной связанности на участке x нашего текста:
Kx = (I0 – I¥) (1 – e–sx). (5.10)
Кривая Ix описывает ход извлечения из текста как статистической, так и смы-словой информации, Kx отражает динамику взаимодействия тезауруса и пре-
суппозиции угадчика с извлекаемой из текста информацией. Коэффициент s выступает в качестве показателя скорости изменения величин Ix и Kx. Чем больше величина s, тем скорее идет увеличение значений Kx. Иначе говоря, коэффициент s является показателем темпа роста контекстных связей. Харак-терно, что наибольшую величину s дает деловой стиль, который представля-ют у нас научно-технические и газетные тексты (см. табл. 15) и в котором благодаря наличию большого числа устойчивых словосочетаний и ограни-ченного круга лексики контекстные связи языковых единиц устанавливаются быстрее, чем в других подъязыках. Природа s достаточно сложна. Началь-ный ход экспоненты от n = 0 до n = 3, отражающей стратегию угадывания испытуемых, обусловлен заложенными в их лингвистической компетенции статистическими ограничениями на употребление начальных букв слова. –Затем, при n > 3 ход кривой определен комбинаторикой морфем. Позднее вступают в действие статистические ограничения в сочетаемости слов с их
Таблица 15. Численные оценки коэффициента s
Русский | Французский | ||||
Подъязык или стиль | нижняя граница | верхняя граница | нижняя граница | верхняя граница | |
Разговорная речь; Беллетристика; Научно-технические и газетные тексты | 0,20 0,21 0,24 | 0,31 0,29 0,32 | 0,22 0,26 0,34 | 0,31 0,29 0,42 | |
Язык в целом | 0,19 | 0,31 | 0,30 | 0,36 |
грамматическими формами, а затем появляются ограничения, связанные с комбинато-рикой более крупных единиц и содержанием текста. На рассто-янии 30 и более букв от начала текста коэффициент s дает ничтожные изменения в ходе экспоненты, которая здесь по величине совпадает с I¥. Соответственно величины Kx приближаются к некоторой постоянной K¥, представляющей собой предельную контекстную связанность.
Величины K¥ и s снова суть суммарные оценки различных лингвисти-
ческих и экстралингвистических явлений. Между тем для информатики и ли-нгвистики интересно расслоить эти суммарные оценки и определить инфор-мационные веса отдельной морфемы, слова, лексических и семантико-син-таксических связей, измерить смысловую информацию в языках различных типов. Чтобы получить эти данные, применяют разного вида перегруппиров-ки результатов индивидуального угадывания, формируя спектры начальных и конечных участков слов и словосочетаний, пробелов, а также корневых морфем. Такая перегруппировка дает возможность получить модель текста, в котором отмечены не только начала и концы составляющих его усреднён-ных словоупотреблении, но также разделяющие их пробелы (рис. 14). Эти пословные схемы неизменно показывают, что распределение в них статисти-ческой информации имеет квантовый характер. Начала словоупотреблений несут максимумы информации, в то время как их середины и особенно про-белы оказываются или мало информативными, или вообще избыточными. Что касается конечных букв, то они несут небольшое количество информа- ции. Квантовое построение текста обнаруживается и при коллективном уга-дывании. Оно подтверждается также экспериментом по восстановлению пропущенных букв в связном тексте.
H = I дв. ед.
4
3
2
0 n
Никита Сергеевич был живой его можно было не бояться и дразнить кукурузником...
Рис.14. Информационная схема 12-словного русского текста (Токарева В. Первая попытка//
Новый мир, 1989, № 1С. 140)
5.3. Лексическая и грамматическая обусловленность единиц текста
В ходе эксперимента было замечено, что по мере продвижения от на-чала текста испытуемый все чаще угадывает вторую, а иногда и первую букву слова, опираясь не на буквенную комбинаторику, а на предшест-вующий лексический контекст. В связи с этим стало ясным, что, исследуя убывание сумм информаций, падающих на 1-ю и 2-ю буквы слов, можно оценить рост лексических связей в тексте. Этот рост, который отражает нарастание лексической связанности Lx оценивается с помощью показа-тельной кривой вида
Lx = (IIл – I¥л) (1 – e–lx), (5.11)
где IIл – среднее арифметическое информаций, вычисленных для верх-
ней или нижней границ, которые падают на 1-ю и 2-ю буквы первого слова текста, I¥л – предел лексической обусловленности текста, l – лексический коэффициент, характеризующий темп роста лексических связей в тексте,
Таблица 16.
Контекстная и лексическая связанность в трех языках вместе
с грамматической связанностью в русском языке (в битах)
Языки | ___ K¥ | _ L¥ | Л % | _ G¥ | Г % | |
Английский; Французский: – разговорная речь; – беллетристика; – научно-техн. тексты и публицистика; – язык в целом | 3,41 3,29 3,38 3,56 3.36 | 0,69 1,07 1,22 1,49 1.17 | 20,2 32,5 36,1 41,9 34,8 | |||
Русский | 3,63 | 0,80 | 22,0 | 1,35 | 37,2 | |
(ср. коэффициент s в формулах (5.9) и (5.10)), остальные обозначения имеют тот же смысл, что и в предшествующих выра-жениях. Для характеристики того предела, к которому стремится лексическая обусловленность в тексте, вводится понятие п р е д е л ь н а я л е к с и ч е с к а я с в я з а н н о с т ь L¥=I(л
5.2. Информационное построение текста
Величины I¥ =H¥ и R являются суммарными оценками различных лингвистических и экстралингвистических явлений. Между тем для инфор-матики, теоретической и прикладной лингвистики интересны не столько суммарные данные, сколько раздельные показатели доли лекси-ческой, морфологической информации и семантико-синтаксических кон-текстных связей в языках различного типа, а также информационные веса отдельной морфе-мы, слова и, наконец, измерение смысловой информа-ции, содержащейся в словах и с/с. Решение этих задач было начато с ис-следования динамики зна-чений In=Hn , оценивающих величины информа-ции, которую извлекает угадчик, двигаясь по тексту. Эти значения убыва-ют в зависимости от роста значений n. Если представить такую цепочку, как непрерывную функцию аргумента x, заменяющего дискретные величины n, то она может быть аппроксимирована экспонентой
Ix = (I0 – I¥) e–sx + I¥, (5.9)
где I¥ – предельная информация языка или его разновидности, служащая
асимптотой кривой Ix , а s – специально рассчитываемый для каждой из них коэффициент. Заменив величину Ix = In в выражении 5.7а, правой частью вы-ражения (5.9) и произведя некоторые упрощающие преобразования, получим общее выражение контекстной связанности на участке x нашего текста:
Kx = (I0 – I¥) (1 – e–sx). (5.10)
Кривая Ix описывает ход извлечения из текста как статистической, так и смысловой информации, а Kx отражает динамику взаимодейст-
I¥(л), аналогичное предельной контекстной связанности K¥. Доля L¥ в сумме всех контекстных связей составляет:
Л = (L¥ / K¥) 100%.
Хотя величины Iл, L¥, Л (табл. 16) являются по своей природе синтактико-информационными величинами, они количественно характе-ризуют взаимодействие текста с лексическими механизмами лингвисти-ческой компе-тенции и тезаурусом угадчика. Чем больше угадчик знает о содержании тек-ста и чем лучше чувствует правые лексические валент-ности отдельных с/ф, тем лучше он угадывает первые буквы текстового слова. По правилам экспе-римента все угадчики, независимо от языка, находятся в равных условиях как с точки зрения знакомства с тематикой угадываемого текста, так и относите-льно справочного аппарата.Поэтому заметные различия по языкам в значени-ях L¥ и Л можно относить не за счет экстралингвистических факторов, но за счет лексической структуры текста, включая его валентности. Так, высокие значения L¥ и Л во французском языке и его разновидностях можно отнести за счет более регламентированного по сравнению с английским и русским употреблением лексических единиц. Что касается самого французского язы-ка, то наиболее высокий процент лексической предсказуемости букв дают на-учно-технический и деловой тексты. Причина этого, во-первых, в использо-вании большого количества устойчивых словосочетаний, связанных с той или иной тематикой, во-вторых, в сравнительно ограниченном круге лексики, значительную часть которой образует терминология данной специальности, в-третьих, в нормализованном построении предложений. Низкая избыточность беллетристического стиля является результатом бóльшей по сравнению с деловой речью неопределенностью в выборе языковых элементов. Лексиче-ские связи здесь заметно слабее: языковые штампы применяются реже, ис-пользуется много неожиданных сочетаний слов (метафоры и другие “фигуры стиля”), а круг лексики гораздо шире, чем это имеет место в деловой речи.
Если при опознании начальных букв слова в тексте информант исполь-зует лексические механизмы ЛК и тезауруса, то при угадывании последних букв изменяемых слов во флективных и агглютинативных языках применя-ются знания морфологии. Поэтому синтактическая информация, падающая на последние буквы словоупотреблений, взятых из разных участков текста, количественно оценивает здесь взаимодействие грамматических “механиз-мов” ЛК и тезауруса угадчика. Исходя из этих соображений, с помощью процедуры, аналогичной только-что описанному методу вычисления вели-чин L¥ и Л, было исследовано убывание полусумм информаций, падающих на последнюю и предпоследнюю буквы слова в пословной схеме русского текста. В результате получены оценки предельной грамматической связан-ности (G¥) и той доли Г, которую занимает G¥ в общей сумме контекст-ных связей (табл. 16).
5.4. Информационное построение слова
При оценке общего количества и размещения информации в слове мето-дика эксперимента и расчетов остается той же, что и при исследова-нии текста. Здесь снова применяется индивидуальное или коллективное побуквенное уга-дывание, осуществляющееся либо для с/ф, взятых вне контекста (в н е-к о н- т е к с т н ы е с л о в а),либо при условии, что угадчику известен предыду-щий контекст (к о н т е к с т н ы е с л о в а). В выборку внеконтекстных слов включаются обычно словоупотребления, стоящие в начале угадываемых тек-стов. Наборы контекстных слов состоят из словоупо-треблений, стоящих на пятом, шестом и т. д. местах тех же текстов. Если после индивидуального угадывания необходимо получить информациионную схему слова на буквен-ном уровне, для выборки слов заданной длины строят-ся обобщающие таб-лицы по типу текстовых матриц. Каждый их столбец обрабатывается по формулам (5.2), (5.5) или (5.6).
Используя результаты угадывания относительно языков разного типа, можно определить среднее количество информации, содержащееcя с точки зрения приемника сообщения во внетекстовых, т.е. словарных (табл. 17), и текстовых словоформах (по данным табл. 14), а для опреде-ления достоверности сравнить эти данные с результатами коллективного угадывания. Затем все они сопоставляются с информаци-онными оценками слова, извлеченными из лексических спектров (частотных словарей). По-следние оценки указывают на то количество синтактической информации, которое в среднем закладывает отправитель информации в словоформы своего сообщения.
Кроме того, на этой основе строятся усредненные схемы распреде-ления информации в словах различной длины. Ее распределение в ко-ротких (до 3-х букв) и средних (3 – 7 букв) словах, с одной стороны, и длинных словах (от восьми букв и выше) – с другой, имеет разный хара-ктер. Короткие и средние слова дают монотонное убывание информа-ции от начала слова к его концу. Убывание это происходит гладко, и полигоны таких слов имеют компактный L-образный вид. Это объясняется тем, что рассматриваемые схемы включают в основном неизменяемые формы типа англ. a, of, and; нем. аb, und; рус. да, еще; фр. a, on, oui; казах. да, бyл, имеющие ограниченное ко-личество продолжений на оконечных буквен-ных позициях. В синтетических языках длинные слова (обычно внетек-стовые) принимают постепенно U-образную форму. Максимумы инфор-мации сосредоточены здесь в начале сло-воформы и на конечных аффик-сах. Буквы же, находящиеся в середине с/ф, несут мало информации (рис. 15). Буквенные распределения, в которых обобщаются формы слов разных структур (изменяемые и неизмеяемые, односложные и многосложные), дают весьма приближенную и грубую схему распределения информации.
Для того чтобы глубже проникнуть в информационное стро-ение слова, были проанализированы распределения информации в слово-формах на слоговом и морфемном уровнях. Построение слоговых и мор-фемных схем таково, что позволяет наблюдать межслоговые “швы” и гра-ницы между морфемами, образующими слово. Во всех языках слоговое деление обнаруживается лишь на границе первого и второго слова. По мере продвижения кривой вправо слоговые границы все более затуше-вываются, а начиная с 4-го слога полностью исчезают. Иную картину дает морфемное построение слова
Taблица 17. Среднее количество информации, приходящееся на
внетекстовое слово
Языки | Индивидуальное угадывание __ | Коллек-тивное угадывание (I) | Частотные словари (Î) | |
I | ||||
Английский | 12,59 | 8,63 ÷9,68 | ||
Французский | 11,59 | 10,88 | 9,43 | 11,04÷12,03 |
Русский | 13,50 | |||
Румынский | 13,02 | |||
Узбекский | 12,00 | |||
Казахский | 19,91 | 12,43 | 12,11÷12,73 |
H = I bits
4_
3_
2_
1_
1 2 3 4 5 6 7 8 9 буквы
Рис. 15. Побуквенное распределение информации в немецком
словарном слове
Здесь на всём протяжении как текстового, так и особенно внетекстового слова четко прорисовываются границы между морфемами. Эти границы совпадают с водоразделом между последней буквой предшест-вующей морфемы (минимум информации) и первой буквой следующей мор-фемы (максимум информации, см. рис. 16). Таким образом, слову как и тек-сту, присуща выраженная зернистая знаковая (точнее - морфемная) структу-ра, которая подавляет его буквенное и слоговое членение. Соотношение син-тагматики букв и слогов, с одной стороны, и морфем, с другой, проливает свет на взаимодействие различных механизмов тезауруса и ЛК угадчика.
Речь есть, как известно, сложный марковский процесс следования фигур и знаков. Вероятностные закономерности сочетаемости фигур взаимо-
H = I bits.
4_
3_
2_
1_
1 - я 2 - я 3 - я 4 - я 5- я
морфемы
Рис. 16. Поморфемное распределение информации
в румынском текстовом слове
действуют с вероятностью сочетаемости знаков. Текстовой материал показыает, что вероятностно-статистические связи, характеризующие соче-таемость фигур (букв, слогов) на коротких начальных участках текста, не превышают длины знака-морфемы. Как только следующие друг за другом фигуры сформируют знак, на сцену выступают зако-номерности его сочетаемости с последующими знаками. Руководст-вуясь заложенной в своей ЛК и тезаурусе информацией о сочетаемо-сти знаков, угадчик накладывает ее на вероятностные спектры буквен-но-слоговой сочетаемости, отбирая из них лишь те комбинации букв, которые соответствуют правилам сочетаемости знаков. В итоге в обобщающей схеме слова и текста комбинаторика фигур подавляется вероятностой комбинаторикой знаков. Исходя из этих соображений, была предложена методика измере-ния смысловой информации, содержащейся в с/у, с/с и фрагментах большей протяженности, находящихся в разных участках текста.