Индивидуальное угадывание

Если организовать коллективного угадывания не удается, то прихо-дится довольствоваться вторым – индивидуальным угадыванием. В насто-ящее время для лингвистических нужд применяется два вида индивиду-ального угадывания:

– угадыванием по полной программе по схеме Шеннона-Пиотровского;

– угадыванием по сокращенной программе той же схемы.

Кроме того, для проверки достоверности, получаемых по этим програ-ммам обобщённых энтропийно-информационных характеристик текста ис-пользуются результаты угадывания букв текста, получаемые с помощью ме-тода Колмогорова (см. [107a]. Каждая из этих программ реализуется на одном испытуемым, являющимся носителем исследуемого языка, который, обладая хорошим языковым чутьем, пользуется кроме того лексико-статистическим справочным материалом.

Согласно полной программе первой схемы испытуемый должен после-довательно угадывать достаточно большое количество текстов (обычно око-ло ста) каждый длиной в 100-200 букв. Угадывание по каждой буквенной по-зиции осуществляется вплоть до получения правильного результата. В про-токоле полной программы фиксируется число попыток, понадобившихся ис-пытуемому для того, чтобы определить букву, которая стоит на n-ом шаге те-кста. Особо выделяются достоверные продолжения. Ими считаются буквы и пробелы (#), появление которых на n-ом шаге текста предопределено пред-шествующей n–1 буквенной цепочкой (ср. буквы о, # в с/ф которого#). Ре-зультаты угадывания после их корекции с помощью толковых и орфогра-фических словарей обобщаются в виде матрицы. На пересечении ее столбцов и строк стоят числа, указывающие на то количество попыток, которое пона-добилось испытуемому, чтобы получить правильную информацию о букве. При проведении полной программы, учитывающей вероятности достоверных продолжений qn0 и вероятности qnk угадать букву с k-той попытки, истинное значение информации, которое несет лингвистическая единица, стоящая на n-м шаге текста, оценивается двойным неравенством:

Индивидуальное угадывание - student2.ru . (5.5)

Здесь левая часть неравенства представляет собой нижнюю (Hn = In), а правая часть указывает на верхнюю ( Индивидуальное угадывание - student2.ru n = Индивидуальное угадывание - student2.ru n) границы интервала, в котором заклю-чено истинное значение информации In.

При использовании сокращенной программы угадчик называет наибо-лее вероятную для данной позиции букву. Экспериментатор в ответ либо со-общает, что буква отгадана правильно, либо, если она указана неверно, назы-вает правильную букву. В протоколе сокращенного эксперимента для каждой n-ой позиции i-того текста отмечается один из трех результатов: достоверное продолжение (0), угадывание с первой попытки (1), неверное угадывание (2). Реализация сокращенной программы даёт верхнюю, завышенную оценку эн-тропии/информации. Она имеет вид:

Индивидуальное угадывание - student2.ru n’ = Индивидуальное угадывание - student2.ru n’ = H3 (1 – qn0 – qn1) + (1 – qn0) log2 (1 – qn0) – qn1 log2 qn1 – (1 – qn0 – qn1) log2 (1 – qn0 – qn1), (5.6)

Здесь H3 – та неопределенность, которую несет третья буква текста при условии, что известны две предшествующие букв (cм. выражение 5.4).

Применение традиционных оценок достоверности выше описанных ин-формационных измерений наталкивается на два препятствия: нестационар-ность энтропийного строения текста и применение логарифмической меры. Поэтому приходится прибегать к таким приемам, как сравнение информаци-онных оценок, получаемых с помощью разных приемов угдывания (табл.14). Кроме того, эти результаты сопоставляют с информациионными оценками, полученными из расчета вероятностных спектров с/ф, букв, слогов, или пу-тем исследования дальних корреляциионных связей в тексте. Пытаются так-же применить нормированный критерий c2 и критерий знаков.

5.1.3.Контекстная связанность текста

Наблюдение за ходом как коллективного, так и индивидуального угадывания показывает, что наибольшая неопределенность в предсказании буквы или другой ЛЕ наблюдается в самом начале текста. Затем, по мере движения по тексту вправо она последовательно убывает так, что

(H1= I1)>( H2= I2)> … ( Hn = In ) > … >( H¥.= I¥.). (5.7)

Последний член неравенства (5.7) оценивает ту информацию, которую извл-екает угадчик при отгадывании участка буквы, сколь угодно далеко отстоя-щей от начала текста. Величину I¥ мы будем называть п р е д е л ь н о й

с и н-т а к т и ч е с к о й и н ф о р м а ц и е й связного текста. Предельная

Таблица 14. Энтропия (в дв. единицах) и избыточность (в %)

текстов в языках разной типологии и происхождения [109]

Язык и его раз-новидности Индивидуальное угадывание Коллективное угадывние
_ Н H R _ R   H   R
Английский: - разгов. речь; - беллетристика; - публицистика и научно-техничес-кая речь; - переговоры земля-воздух; - язык в целом: 1) носители; 2)русские студенты: I курс; II курс; III курс; IV курс   1,47 1,10     0,82   1,35   0,90 0,65     0,37   0,74   69,4 77,1     82,9   71,9   81,2 86,5     92,1   84,5   0,24   *1,75     1,59 1,31 1,22 1,30   95,0     66,6 72,5 74,4 72,7
Немецкий: - разгов.речь; - беллетристика; - научные и газет- ные тексты; - язык в целом   1,24 1,36   0,97 1,36   0,74 0,83   0,56 ..0,71   73,9 71,4   79,6 71,4   84,4 82,5   88,2 85,1        
Испанский: - язык в целом: 1) носители: 2) русские студенты: I курс II курс III курс IV курс             1,05     1,81 1,32 1,15 0,97     77,8     61,7 72,1 75,7 79,5
Румынский: - разгов. речь - беллетристика - публицистика и научно-техн. речь - язык в целом   1,24 1,26   1,23 1,34   0,71 0,78   0,68 0,72   74,2 73,8   74,4 72,1   85,4 83,8   85,7 85,0    
Французский: - разгов.речь; - беллетристика; - научные и газет-ные тексты; - язык в целом 1) носители:   2)русские студенты: I курс; II курс; III курс; IV курс; V курс   1,32 1,36   0,77   1,38     0,81 0,78   0,45   0,79   72,0 71,0   83,9   70,6     82,8 83,6   90,4   83,4       **1,11   **0,61   1,05 **1,00     1,74 1,39 1,35 1,32 1,28     **76,3   **87,0   77,7 **78,7     63,0 70,5 71,3 72,0 72,8
Русский: - разгов. речь; - беллетристика; - публицистика и научно-технич. речь; - переговоры земля-воздух; - язык в целом; - патологическая речь (шизофрени- ки)   1,40 1,19     0,83     1,37     1,52   0,83 0,70     0,49     0,82   72,0 76,3     83,4     72,1     69,6   83,4 86,0     90,1     83,6       0,25 *1,10   95,0 *78,0  
Польский: - разгов. речь; - беллетристика; - публицистика и научно-техниче-ская речь; - язык в целом   1,18 1,29     0,83 1,28   0,69 0,83     0,53 0,76   76,3 74,5     83,6 74,7   86,3 83,6     89,5 85,0    
Чешский: - беллетристика   1,38   0,78   73,9   85,3    
Болгарский: - язык в целом           0,91   81,6
Армянский: - беллетристика   1,38   0,78   73,9   85,3        
Азербайджан-ский: - язык в целом     1,17     1,07     65,2     79,0    
Казахский: - разгов. речь; - беллетристика; - публицистика и научно-техн. речь; - язык в целом   1,56 1,35   1,18 1,51   0,79 0,61   0,65 0,82   70,0 74,3   77,3 70,9   84,8 88,3   87,5 84,2    
Узбекский: - язык в целом   1,48   0,79   72,0   85,0    
Эстонский: - разгов. речь; - беллетристика; - публицистика и научно-технич. речь; - язык в целом           1,52 1,15     1,18 1,27   67,3 75,9     * 74,6 72,6
Адыгейский: - беллетристика   2,26   1,52   56,0   68,2    
               

Примечание к табл. 14: Основная часть энтропийно-информационных оценок, приведенных в таблице получено путём угадывания информантами текста и его обработки по программам Шеннона-Пиотровского. Для провер-ки достоверности этих данных привлечены энтропийно-информационные оценки, полученные разными авторами с помощью иных методик. Одной звёздочкой (*) помечена оценка, полученная американскими авторами отно-сительно английского текста [86. C. 11]. Двумя звездочками (**) отмечены оценки энтропии, полученные Н.В.Петровой [107a] по методу Колмогорова для русского и французского языков.

информация в идеальной схеме текста всегда будет больше нуля. Это и понятно. Всякий текст, будучи образован из сложных знаков (слов, c/c, предложений), обладающих практически неограниченной комбинаторной способностью, имеет несколько продолжений или, иначе говоря, всегда обладает неопределенностью выбора. Даже в тех случаях, когда данный шаг конкретного текста предусматривает единственно возможное продолжение, всегда найдутся последующие шаги, которые дадут несколько возможных продолжений. Величину I¥ можно рассматривать как суммарную оценку информации, получае-мой идеальным адресатом-угадчиком для данного языка или его разновидности от одной буквы на n-й позиции текста, на которую действуют комбинаторно-статистические, семантико-синтакси-ческие и прагматические ограничения предшествующего фрагмента (n – 1 букв). Их оценивают с помощью к о н т е к с т н о й с в я з а н н о с т и текста

Kn = I0 – Inbits, (5.7а)

которая при неограниченном движении по тексту стремится к п р е д е л ь н-о й контектной связанностью текста K¥ = I0 – I¥ bits. Абсолютные величины In ,Kn ,I¥ и K¥ нельзя сравнивать по разным языкам, поскольку они зависят от числа букв в каждом национальном ал-фавите. Поэтому при сравнении информационных свойств разных языков удобнее пользоваться величиной избыточности (R), в которой названные величины соотнесены с энтропией алфавита и, таким образом, не зависят от его длины. При этом имеем:

R = (H0 – H¥) / H0) 100% или R = (K¥ / H0) 100%. (5.8)

Оценки величин H¥.= I¥ и R по языкам см. в табл. 14.

Анализ полученных данных показывает, что языки разной типологии и происхождения имеют примерно одинаковый уровень избыточности. Расхождения в значениях R, обнаруживаются:

– при сопоставлении разновидностей и стилей языка,

– при сопоставлении результатов угадывания текстов родного и иностранного языков,

– при сравнении текста, порожденного нормальным человеком, и речи душевно больных людей.

Отсюда следует, что, во-первых, основные глубинные информацион-ные характеристики текста не зависят от строя и происхождения языка, но определяются физиологическими и коммуникативно-семиотическими свой-ствами нашего сознания, во-вторых, колебания этих характеристик зависят от ситуации общения, состояния РМД и от степени владения коммуникан-тами данным языком.

Поскольку значения R не зависят от длины и от характера алфавита, то избыточность может выступать как мера синергетической организации тек-ста. Это позволяет использовать величины R, а отчасти K и H=I в качестве диагностических показателей состояния психики, а также оценки уровня лингвистической компетенции и богатства тезауруса коммуникантов.

Наши рекомендации