Индивидуальное угадывание
Если организовать коллективного угадывания не удается, то прихо-дится довольствоваться вторым – индивидуальным угадыванием. В насто-ящее время для лингвистических нужд применяется два вида индивиду-ального угадывания:
– угадыванием по полной программе по схеме Шеннона-Пиотровского;
– угадыванием по сокращенной программе той же схемы.
Кроме того, для проверки достоверности, получаемых по этим програ-ммам обобщённых энтропийно-информационных характеристик текста ис-пользуются результаты угадывания букв текста, получаемые с помощью ме-тода Колмогорова (см. [107a]. Каждая из этих программ реализуется на одном испытуемым, являющимся носителем исследуемого языка, который, обладая хорошим языковым чутьем, пользуется кроме того лексико-статистическим справочным материалом.
Согласно полной программе первой схемы испытуемый должен после-довательно угадывать достаточно большое количество текстов (обычно око-ло ста) каждый длиной в 100-200 букв. Угадывание по каждой буквенной по-зиции осуществляется вплоть до получения правильного результата. В про-токоле полной программы фиксируется число попыток, понадобившихся ис-пытуемому для того, чтобы определить букву, которая стоит на n-ом шаге те-кста. Особо выделяются достоверные продолжения. Ими считаются буквы и пробелы (#), появление которых на n-ом шаге текста предопределено пред-шествующей n–1 буквенной цепочкой (ср. буквы о, # в с/ф которого#). Ре-зультаты угадывания после их корекции с помощью толковых и орфогра-фических словарей обобщаются в виде матрицы. На пересечении ее столбцов и строк стоят числа, указывающие на то количество попыток, которое пона-добилось испытуемому, чтобы получить правильную информацию о букве. При проведении полной программы, учитывающей вероятности достоверных продолжений qn0 и вероятности qnk угадать букву с k-той попытки, истинное значение информации, которое несет лингвистическая единица, стоящая на n-м шаге текста, оценивается двойным неравенством:
. (5.5)
Здесь левая часть неравенства представляет собой нижнюю (Hn = In), а правая часть указывает на верхнюю ( n = n) границы интервала, в котором заклю-чено истинное значение информации In.
При использовании сокращенной программы угадчик называет наибо-лее вероятную для данной позиции букву. Экспериментатор в ответ либо со-общает, что буква отгадана правильно, либо, если она указана неверно, назы-вает правильную букву. В протоколе сокращенного эксперимента для каждой n-ой позиции i-того текста отмечается один из трех результатов: достоверное продолжение (0), угадывание с первой попытки (1), неверное угадывание (2). Реализация сокращенной программы даёт верхнюю, завышенную оценку эн-тропии/информации. Она имеет вид:
n’ = n’ = H3 (1 – qn0 – qn1) + (1 – qn0) log2 (1 – qn0) – qn1 log2 qn1 – (1 – qn0 – qn1) log2 (1 – qn0 – qn1), (5.6)
Здесь H3 – та неопределенность, которую несет третья буква текста при условии, что известны две предшествующие букв (cм. выражение 5.4).
Применение традиционных оценок достоверности выше описанных ин-формационных измерений наталкивается на два препятствия: нестационар-ность энтропийного строения текста и применение логарифмической меры. Поэтому приходится прибегать к таким приемам, как сравнение информаци-онных оценок, получаемых с помощью разных приемов угдывания (табл.14). Кроме того, эти результаты сопоставляют с информациионными оценками, полученными из расчета вероятностных спектров с/ф, букв, слогов, или пу-тем исследования дальних корреляциионных связей в тексте. Пытаются так-же применить нормированный критерий c2 и критерий знаков.
5.1.3.Контекстная связанность текста
Наблюдение за ходом как коллективного, так и индивидуального угадывания показывает, что наибольшая неопределенность в предсказании буквы или другой ЛЕ наблюдается в самом начале текста. Затем, по мере движения по тексту вправо она последовательно убывает так, что
(H1= I1)>( H2= I2)> … ( Hn = In ) > … >( H¥.= I¥.). (5.7)
Последний член неравенства (5.7) оценивает ту информацию, которую извл-екает угадчик при отгадывании участка буквы, сколь угодно далеко отстоя-щей от начала текста. Величину I¥ мы будем называть п р е д е л ь н о й
с и н-т а к т и ч е с к о й и н ф о р м а ц и е й связного текста. Предельная
Таблица 14. Энтропия (в дв. единицах) и избыточность (в %)
текстов в языках разной типологии и происхождения [109]
Язык и его раз-новидности | Индивидуальное угадывание | Коллективное угадывние | |||||
_ Н | H | R | _ R | H | R | ||
Английский: - разгов. речь; - беллетристика; - публицистика и научно-техничес-кая речь; - переговоры земля-воздух; - язык в целом: 1) носители; 2)русские студенты: I курс; II курс; III курс; IV курс | 1,47 1,10 0,82 1,35 | 0,90 0,65 0,37 0,74 | 69,4 77,1 82,9 71,9 | 81,2 86,5 92,1 84,5 | 0,24 *1,75 1,59 1,31 1,22 1,30 | 95,0 66,6 72,5 74,4 72,7 | |
Немецкий: - разгов.речь; - беллетристика; - научные и газет- ные тексты; - язык в целом | 1,24 1,36 0,97 1,36 | 0,74 0,83 0,56 ..0,71 | 73,9 71,4 79,6 71,4 | 84,4 82,5 88,2 85,1 | |||
Испанский: - язык в целом: 1) носители: 2) русские студенты: I курс II курс III курс IV курс | 1,05 1,81 1,32 1,15 0,97 | 77,8 61,7 72,1 75,7 79,5 | |||||
Румынский: - разгов. речь - беллетристика - публицистика и научно-техн. речь - язык в целом | 1,24 1,26 1,23 1,34 | 0,71 0,78 0,68 0,72 | 74,2 73,8 74,4 72,1 | 85,4 83,8 85,7 85,0 | |||
Французский: - разгов.речь; - беллетристика; - научные и газет-ные тексты; - язык в целом 1) носители: 2)русские студенты: I курс; II курс; III курс; IV курс; V курс | 1,32 1,36 0,77 1,38 | 0,81 0,78 0,45 0,79 | 72,0 71,0 83,9 70,6 | 82,8 83,6 90,4 83,4 | **1,11 **0,61 1,05 **1,00 1,74 1,39 1,35 1,32 1,28 | **76,3 **87,0 77,7 **78,7 63,0 70,5 71,3 72,0 72,8 | |
Русский: - разгов. речь; - беллетристика; - публицистика и научно-технич. речь; - переговоры земля-воздух; - язык в целом; - патологическая речь (шизофрени- ки) | 1,40 1,19 0,83 1,37 1,52 | 0,83 0,70 0,49 0,82 | 72,0 76,3 83,4 72,1 69,6 | 83,4 86,0 90,1 83,6 | 0,25 *1,10 | 95,0 *78,0 | |
Польский: - разгов. речь; - беллетристика; - публицистика и научно-техниче-ская речь; - язык в целом | 1,18 1,29 0,83 1,28 | 0,69 0,83 0,53 0,76 | 76,3 74,5 83,6 74,7 | 86,3 83,6 89,5 85,0 | |||
Чешский: - беллетристика | 1,38 | 0,78 | 73,9 | 85,3 | |||
Болгарский: - язык в целом | 0,91 | 81,6 | |||||
Армянский: - беллетристика | 1,38 | 0,78 | 73,9 | 85,3 | |||
Азербайджан-ский: - язык в целом | 1,17 | 1,07 | 65,2 | 79,0 | |||
Казахский: - разгов. речь; - беллетристика; - публицистика и научно-техн. речь; - язык в целом | 1,56 1,35 1,18 1,51 | 0,79 0,61 0,65 0,82 | 70,0 74,3 77,3 70,9 | 84,8 88,3 87,5 84,2 | |||
Узбекский: - язык в целом | 1,48 | 0,79 | 72,0 | 85,0 | |||
Эстонский: - разгов. речь; - беллетристика; - публицистика и научно-технич. речь; - язык в целом | 1,52 1,15 1,18 1,27 | 67,3 75,9 * 74,6 72,6 | |||||
Адыгейский: - беллетристика | 2,26 | 1,52 | 56,0 | 68,2 | |||
Примечание к табл. 14: Основная часть энтропийно-информационных оценок, приведенных в таблице получено путём угадывания информантами текста и его обработки по программам Шеннона-Пиотровского. Для провер-ки достоверности этих данных привлечены энтропийно-информационные оценки, полученные разными авторами с помощью иных методик. Одной звёздочкой (*) помечена оценка, полученная американскими авторами отно-сительно английского текста [86. C. 11]. Двумя звездочками (**) отмечены оценки энтропии, полученные Н.В.Петровой [107a] по методу Колмогорова для русского и французского языков.
информация в идеальной схеме текста всегда будет больше нуля. Это и понятно. Всякий текст, будучи образован из сложных знаков (слов, c/c, предложений), обладающих практически неограниченной комбинаторной способностью, имеет несколько продолжений или, иначе говоря, всегда обладает неопределенностью выбора. Даже в тех случаях, когда данный шаг конкретного текста предусматривает единственно возможное продолжение, всегда найдутся последующие шаги, которые дадут несколько возможных продолжений. Величину I¥ можно рассматривать как суммарную оценку информации, получае-мой идеальным адресатом-угадчиком для данного языка или его разновидности от одной буквы на n-й позиции текста, на которую действуют комбинаторно-статистические, семантико-синтакси-ческие и прагматические ограничения предшествующего фрагмента (n – 1 букв). Их оценивают с помощью к о н т е к с т н о й с в я з а н н о с т и текста
Kn = I0 – Inbits, (5.7а)
которая при неограниченном движении по тексту стремится к п р е д е л ь н-о й контектной связанностью текста K¥ = I0 – I¥ bits. Абсолютные величины In ,Kn ,I¥ и K¥ нельзя сравнивать по разным языкам, поскольку они зависят от числа букв в каждом национальном ал-фавите. Поэтому при сравнении информационных свойств разных языков удобнее пользоваться величиной избыточности (R), в которой названные величины соотнесены с энтропией алфавита и, таким образом, не зависят от его длины. При этом имеем:
R = (H0 – H¥) / H0) 100% или R = (K¥ / H0) 100%. (5.8)
Оценки величин H¥.= I¥ и R по языкам см. в табл. 14.
Анализ полученных данных показывает, что языки разной типологии и происхождения имеют примерно одинаковый уровень избыточности. Расхождения в значениях R, обнаруживаются:
– при сопоставлении разновидностей и стилей языка,
– при сопоставлении результатов угадывания текстов родного и иностранного языков,
– при сравнении текста, порожденного нормальным человеком, и речи душевно больных людей.
Отсюда следует, что, во-первых, основные глубинные информацион-ные характеристики текста не зависят от строя и происхождения языка, но определяются физиологическими и коммуникативно-семиотическими свой-ствами нашего сознания, во-вторых, колебания этих характеристик зависят от ситуации общения, состояния РМД и от степени владения коммуникан-тами данным языком.
Поскольку значения R не зависят от длины и от характера алфавита, то избыточность может выступать как мера синергетической организации тек-ста. Это позволяет использовать величины R, а отчасти K и H=I в качестве диагностических показателей состояния психики, а также оценки уровня лингвистической компетенции и богатства тезауруса коммуникантов.