Метод компонентного анализа значения.

Несмотря на изначальное предназначение структурных методов служить изучению формальных свойств языка, они со временем стали использоваться и для исследования языковой семантики. В результате этого возникла структурная семасиология. Ее основ­ным методом является компонентный анализ значения, цель которого — определение семантической структуры двусторонних языковых единиц, хотя

Метод компонентного анализа значения. - student2.ru Ирина Владимировна Арно́льд (1908-2010), профессор РГПУ

семантика и не поддается полной формализации. Определить семантическую структуру языковой единицы — зна­чит: а) выделить мельчайшие единицы ее содержания и б) уста­новить между ними закономерные связи и отношения. Однако выполнение этой задачи сопряжено с известными трудностями. Одной из них оказывается обеспечение объективности выделения минимальных единиц содержания, второй — способы выявления структурообразующих связей и отношений между ними.

Некоторую путаницу в компонентный анализ значения вносит терми­нологический разнобой в именовании семантических единиц. Осо­бенно это актуально для названия мельчайшей единицы плана содержания языкового знака. Ее терминообозначениями

выступа­ют: «дифференциальный элемент» (Ф. де Соссюр), «фигура со­держания» (Луи Ельмслев), «семантический множитель» (Юрий Дереникович Ап­ресян), «дифференциальный признак» (Ирина Владимировна Арнольд), «ноэма» (польский лингвист Э. Кошмидер, немецкий языковед Густав Мейер), «семантический маркер» (американские Дуайт Болинджер, Дж. Кац и Джерри Фодор) и «сема» (Владимир Скаличка). В настоящее время наиболее употребляемым является термин «сема».

Сема — это наименьший смысловой элемент значения, состав­ная часть семемы, ее конструктивный компонент. Отсюда опреде­ление семемы как пучка структурно упорядоченных сем. Следова­тельно, семема представляет собой семантическую структуру, выражающую определенные содержательные отношения между семами, которые, в свою очередь, являются репрезентантами свойств и признаков именуемых объектов.

Метод компонентного анализа значения. - student2.ru Дуайт Болинджер (1907–1992)

В этом плане особую актуальность приобретает следующее суждение Владимира Григорьевича Гака: «Под семантической структурой отдельного значения слова понима­ется совокупность элементарных смыслов, «сем», составляющих это значение. Каждая сема представляет собой отражение в со­знании носителей языка различительных черт, объективно при­сущих денотату, либо приписываемых ему данной языковой сре­дой и, следовательно, являющихся объективными по отношению к каждому говорящему». В данном определении содержится ука­зание на связь между семами и признаками денотата. Кроме В.Г. Гака, эту точку зрения разделяют Юджин Найда, Дж. Кац и Джерри Фодор, Г. Вотяк, Альгильдарс Греймас и другие сторонники макролингвистического подхода к анализу семантической структуры. При­верженцы микролингвистического подхода сущность сем рас­крывают через их соотношение в рамках взаимодействующих язы­ковых единиц на синтагматической и парадигматической оси.

Учитывая существующие подходы к компонентному анализу значения, следует назвать несколько способов выявления сем в структуре значения:

а) логический, основанный на установлении гносеологических связей между семами и признаками денотата;

б) лингвистический, использующий совместную встречаемость (сочетаемость, синтагматику) семантически близких слов в речи;

в) логико-лингвистический, сочетающий в себе логические и лингвистические приемы выделения сем.

Начинающие лингвисты чаще других применяют логический способ выделения сем, нередко подменяя анализ языкового зна­чения анализом всех существенных реальных

Метод компонентного анализа значения. - student2.ru Джерри Фодор (р.1935), американский философ и психолингвист

и возможных призна­ков денотата. При таком осуществлении компонентного анализа происходит ошибочное отождествление значения языковой едини­цы со всей совокупностью свойств и признаков обозначаемого объек­та. Например, в работах Густава Мейера в семный состав слова Ford «горшок» неоправданно включаются все его характеристи­ки, даже такие, как цвет, цена, способ чистки. В таком случае не различаются постоянные и переменные величины, лингвисти­ческие и экстралингвистические признаки, языковые значения и гносеологические формы отражения предмета в нашем сознании (научные и бытовые понятия, представления, образцы).

Стремясь избежать подобных недостатков, нередко языковые значения отграничивают от логических при помощи словарных дефиниций. Однако и здесь не всегда удается обнаружить семный состав слова, поскольку вместо компонентного анализа приво­дятся словарные толкования значений без должной их семасио­логической обработки.

Метод компонентного анализа значения. - student2.ru Скаличка Владимир (1909—1991)

Корректность компонентного анализа значения требует последователь­ного разграничения таких двух смежных понятий, как «сема» и «семантический признак» (ср. «фонема» и «фонологический при­знак»). В практике лингвистического анализа иx зачастую отожде­ствляют. Если сема — это элементарная смысловая единица, или смысловой элемент значения (семемы), то семантический при­знак— это определенный параметр или аспект значения слова (фразео­логического оборота) типа «цвет», «размер», «внешний вид», «внутрен­нее свойство» и т.п. Семы следует отличать от категориальных и фун­кционально-стилистических значимостей типа «субстантивность», «адъективность», «переходность», «просторечность».

Определение сущности семы зависит также от внутреннего устройства семемы. Данное выше определение семемы как пучка сем прежде всего исключает их линейное расположение. Семан­тическая структура слова представляет собой иерархическую opганизацию сем. В рамках иерархического построения значения семы обнаруживают различные свойства и отношения. Они могут быть разного ранга и разной значимости. Именно на этом основании строится типология сем. Различают следующие типы сем: 1) лексические и грамматичес­кие; 2) эксплицитные, если в плане выражения знака их пред­ставляет какая-либо морфема, и имплицитные, не имеющие спе­циального материального средства своего выражения; 3) парадигматические и синтагматические; 4) главные (доминирующие) и зависимые; 5) ядерные и периферийные; 6) интегрирующие (идентифицирующие) и дифференцирующие; 7) облигаторные (обязательные) и факультативные и т.д.

Метод компонентного анализа значения. - student2.ru Владимир Григорьевич Гак (1924-2004)

Выделенные типы сем обнаруживаются на разных уровнях, хотя компонентный анализ на том или ином уровне имеет специ­фику. К общим признакам компонентного анализа на разных язы­ковых уровнях следует отнести выявление иерархии сем:

а) архисема — общая сема родового характера (у слова «медведь», например, это — «животное», а у глагола «бежать» — «движение»);

б) дифференциальные семы видового характера: 1) описательные (отражающие индивидуальные свойства и признаки предмета: форму, размер, устройство, способ совершения действия и т.п.) и 2) относительные (отражающие связи и отношения данного предмета с другими предметами: функции, пространственные и временные отношения);

в) потенциальные семы — скрытые элементарные смыслы, возможность проявления которых обеспечивается особыми речевыми средствами (средствами их актуализации): у слова «медведь» это могут быть такие семы, как «неповоротливость», «неуклюжесть», у глагола «бежать» — «течь», «вскипать» и т.п.
Иерархический статус в процессе исторических или функциональных изменений значения может трансформироваться: ядерные семы могут перемещаться на периферию, а дифференциальные семы могут занимать ядерные позиции; потенциальные семы могут приобретать статус дифференциальных и даже ядерных. Особенно значимым оказывается изучение таких трансформаций при разъяснении механизмов образования переносных метафори­ческих и метонимических значений.

Метод компонентного анализа значения. - student2.ru Альгирдас Греймас (1917-1992), литовский и французский лингвист

Компонентный анализ значения на морфемном уровне состоит в выяв­лении сем в пределах семантики морфем. Хотя количество сем и количество морфем не совпадают, между ними все же существует известная корреляция. Многие морфемы вполне соотносимы с конкретными семами. Например, сема «отрицание» в русском языке выражается приставкой не-, в немецком un-, в английском un-, в немецком суффиксом -los. Некоторые морфемы обладают двумя семами, как, например, суффиксы уменьшительности — семой «малость» и семой «оценка» (ср. котенок, соколик, рыбка). И все же между морфемной и смысловой структурой слова отно­шения скорее асимметричные, чем прямо пропорциональные.

На морфологическом уровне компонентный анализ значения использу­ется для выявления семантической структуры грамматических категорий. Например, глагольные формы 1-го лица ед. ч. включают семы: «субъект речи», «лицо», «единичность»; форма 2-го лица — «адресат речи», «лицо», «единичность». Количество сем у разных граммем различно. Ср: в немецком языке глагольная форма претерит содержит одну сему «прошедшее», а глагольная форма плюсквамперфект четыре семы: «прошедшее», «предшествование по отношению к другому действию», «контакт­ность с последующим действием», «законченность действия».

На синтаксическом уровне компонентный анализ значения направля­ется на выявление семантической структуры синтаксических ка­тегорий и, прежде всего, категории предикативности и модаль­ности.

Метод компонентного анализа значения. - student2.ru Эра Васильевна Кузнецова (1927—1988), профессор Уральского гос.ун-та

Результативность компонентного анализа, достоверность его результатов во многом зависит от объективности вычленения сем. Каковы же способы определения семного состава значения? Что­бы выделить семы, требу­ется языковой опыт и логический анализ, подкрепленный раз­личными пробами или экспериментами, основы которых были разработаны еще Aлександром Mатвеевичем Пешковским и Львом Владимировичем Щербой. Основными приемами при этом служат проверка на замену (подстановку) с сопоставлением замещаемых форм, проверка на сочетаемость и на трансформацию.

Комбинации полученных дифференциальных семантических элементов образуют смысловые структуры анализируемых слов. Поскольку сущность значения определяется двумя типами отно­шений знаковых единиц языка, то выделение сем следует прово­дить двумя путями — парадигматическим и синтагматическим.

Парадигматический способ предполагает использование ло­гического анализа (напр., ЛСГ родства) и словарных толкований. Наиболее часто в компонентном анализе используются словар­ные дефиниции. Данный прием нашел обоснование в работах Ирины Владимировны Арнольд, Эры Васильевны Кузнецовой, Aнны Aнфилофьевны Уфимцевой. Так, И.В. Арнольд был разработан прием извлечения сем путем сопо­ставления объяснительных трансформаций словарных дефиниций. Дело в том, что словарная дефиниция представляет собой разло­жение смыслового содержания слова на его составляющие. На­пример, в словаре С.И. Ожегова «солдат» определяется как «рядо­вой военнослужащий», а «боец» как «солдат, рядовой». Словарные толкования анализируемых слов приводятся к единообразному виду. Общая часть трансформов соответствует общим компонентам («сол­дат» — включение первого слова в определение второго; «рядовой»). Та же часть трансформов, которая не совпадает, представляет собой дифференциальные семы. Этот прием применяется при по­строении синонимических рядов, различных микрополей (ЛСГ, ТГ).

Метод компонентного анализа значения. - student2.ru Анна Анфилофьевна Уфимцева (1921--1994)

Синтагматический путь проведения компонентного анализа значения исходит из учета совместной встречаемости в тексте семантически близких слов. Сочетаясь, слова обнаруживают свои семантические признаки. Методика извлечения сем сво­дится к следующим шагам:

- Фиксируются все случаи совместного появления в тексте двух слов, одно из которых является анализируемым.

- Составляется список слов, уточняющих значение другого сло­ва (слов-синонимов).

- Аллонимы (греч. от allos – «иной» и onoma – «имя», то есть чужое имя, то же, что псевдоним) группируются в семантически близкие классы.

- Каждому классу присваивается обобщенное значение. Эти обоб­щенные значения и являются семемами (семантическими структурами) исследуемых слов.

Такие приемы выделения сем позволяют максимально избе­жать субъективности в анализе языковых значений, поскольку извлекаются они из текста при помощи формальных процедур.

Лингвостатистический метод.

Для лингвистического исследования актуальным является философское положение о том, что предмет, не отра­женный в аспекте количества, не может считаться конкретно познанным и что наука вообще достигает совершенства лишь там и в той мере, в какой ей удается взять на вооружение математику.

Категория количества в языке связана с установлением количе­ственных изменений, вызывающих качественные преобразования языковых явлений. Именно действие в языке закона перехода ко­личественных изменений в качественные служит важнейшим ус­ловием выявления в нем его закономерностей. В связи с этим ос­новной задачей количественного метода в языкознании является раскрытие закономерностей функционирования единиц языка и речи, а также установление закономерностей построения текста. Теоретическое обоснование этого метода и создание алгоритмов его практического применения в языкознании — предмет особой отрасли науки о языке, получившей название лингвостатистики.

Возможность применения лингвостатистического метода в языкознании обусловлена природой и сущностью языка. Язык как система представляет собой совокупность взаимо­связанных дискретных (членимых) единиц, обладающих ко­личественными характеристиками.

Количественные характеристики языковых единиц (и их эле­ментов) одного уровня формируют качественное своеобразие единиц другого уровня. Так, язык с десятью фонемами обра­зует иное количество звуковых «оболочек» морфем и слов, чем язык с пятьюдесятью фонемами.

Язык имеет вероятностный характер. Так, для образования слов используется незначительная часть возможных комбинаций фонем и морфем. В этом выражается действие вероятностных ограничений в сочетании фонем и морфем.

Лингвостатистический метод применим для изучения как языка, так и речи. Однако, количествен­ные характеристики в системе языка не тождественны их количе­ственным отношениям в речи. Дело в том, что на речь влияют не только законы языка (и, прежде всего, закономерности строения языковых единиц, закономерности их речевой реализации), но и законы сочетаемости языковых единиц в речи, законы жанра, тема высказывания, идиостилистические особенности речи и т.п. Характер воздействия этих факторов предсказать сложно. Однако если они регулярно повторяются при одних и тех же условиях, то их все же можно объяснить, раскрыть закономерности появления в речи того или иного элемента с помощью лингвостатистики.

Основные понятия лингвостатистики.

Согласно философской категории всеобщей связи, между явле­ниями языка и речи существуют определенные связи и зависимо­сти. Обычно различают два вида зависимости — функциональную (динамическую) и статистическую. Функциональная зависимость состоит в том, что одному языковому явлению соответствует дру­гoe определенное явление. Такого же рода зависимость присуща многим физическим явлениям. Повышение температуры — жидкое состояние воды; понижение температуры — ее кристаллизация. Функциональные зависимости дают точные определения установ­ленным закономерностям, то есть могут быть сформулированы как закон. Например: «Вода при температуре ниже О º С превращается в лед».

При статистической (вероятностной) зависимости одному явлению или свойству языка могут соответствовать несколько явлений или свойств. Например: между числом значений слова в словаре и частотой его употребления в речи (тексте) существует определенная статистическая зависи­мость. Это значит, что выявленному числу значений того или иного слова не обязательно соответствует строго определенная частота употребления этого слова.

Такие нестрогие соответствия между качественной и количе­ственной характеристикой языкового явления получили назва­ние корреляций. Термин корреляция имеет два значения: 1) обще­научное — «соотношение, соответствие, взаимосвязь, взаимоза­висимость явлений» и 2) в лингвистической статистике — такая связь между языковыми явлениями, при которой одно из явле­ний входит в число причин, определяющих другие, или когда имеются общие причины, воздействующие на эти явления.

В ма­тематической статистике существует несколько видов корреля­ции. В лингвистике обычно используют линейную корреляцию, согласно которой возрастание значений одного признака сопро­вождается возрастанием или убыванием значений другого при­знака. В такой линейной корреляции могут находиться, напри­мер, лексико-семантические варианты слова и частота встречае­мости слова в речи (в тексте). Если при возрастании значений одного признака возрастают значения другого, то устанавливает­ся так называемая положительная корреляция. Если же при возра­стании значений одного признака значения другого признака убы­вают, то налицо отрицательная корреляция.

Число, показывающее степень тесноты корреляции, называ­ется коэффициентом корреляции (это число находится между -1 и 1). Иными словами, коэффициент корреляции за­ключается от нуля до единицы со знаком «плюс» или «минус»: -1 ← 0→ +1. Если между исследуемыми признаками нет никакой статистической зависимости, величина коэффициента будет равна нулю или близка к нему. И наоборот, сильную зависимость между наблюдаемыми явлениями следует констатировать тогда, когда величина коэффициента приближается к 1 или -1. Величи­на коэффициента здесь указывает на степень связи между наблю­даемыми языковыми явлениями, а его знак (плюс или минус) — на характер самой корреляции. Как же исчисляется коэффициент корреляции?

Статистика располагает несколькими способами. В лингвисти­ке обычно используют для этого формулу:

r = Σ (x i - x)(у i - у)

√ Σ (x i - x) 2 i - у)2

где r - коэффициент линейной корреляции; Σ - суммирование получаемых в результате той или иной операции величин; х i - значение первого знака; у i - значение второго знака; х - средняя (теоретическая) величина первого признака; у - средняя вели­чина второго признака. Величины х i - х и у i - у обозначают от­клонения полученных нами величин от средних.

Покажем технику вычисления r на конкретном примере. Пред­положим, что мы произвели выборку десяти репрезентаций одного и того же явления в текстах двух авторов (А 1 и А 2) и получили сле­дующие частоты их встречаемости:

Наблюдаемое явление Выборка-1 Выборка-2 Всего
Всего

По формуле исчисления r находим х и у:

х = 275:10 = 27,5, а у = 325:10 = 32,5.

Теперь произведем действия в числителе: (5 - 27,5) (10 - 32,5) +-(10 - 27,5) (15 - 32,5) + (15 - 27,5) (20 - 32,5) + (20 - 27,5) (25 - 32,5) + (25 - 27,5) (30 - 32,5) + (30 - 27,5) (35 - 32,5) + (35 - 27,5) (40 - 32,5) + (40 - 27,5) (45 - 32,5) + (45 - 27,5) (50 - 32,5) + (50 - 27,5) (55 - 32,5) = 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5.

Соответствующие действия в знаменателе представим подоб­ным же образом: 1) в первой выборке: 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5;

2) такой же результат получим и по второй выборке — 2062,5; 3) √ 2062,5 х 2062,5 = 4253906,2.

Коэффициент r = + 062,5 : 4253906,2 = + 0,0004848.

Коэффициент показывает, что корреляция между наблюдае­мыми выборками крайне слабая, хотя и положительная.

Однако окончательные выводы делать рано. Как полагает математическая лингвистика, коэффициент корреляции — величина в известной степени случайная. Для определения необходимой степени надеж­ности получаемых величин пользуются понятиями «доверительная вероятность» (коэффициент доверия) и «уровень значимости» (коэффициент надежности). Под коэффициентом надежности принято считать 95%, когда вероятность допущенной ошибки равна 5%. Кроме того, существует еще уровень значимости — величина, дополняющая коэффициент надежности до 1. Так, при доверительной вероят­ности р = 0,95 уровень значимости 1 - р = 0,05. Именно при таком уровне значимости результаты лингвистического анализа считаются достаточно надежными.

Уровень значимости и обусловливаемая ею доверительная ве­роятность определяется исследователем для установления пара­метров случайных величин. Соответствие между ними определя­ется по специальным статистическим таблицам (они прилагают­ся в учебниках и справочниках по статистике).

Итак, в лингвистике установлено: частота появления тех или иных языковых элементов в речи подчиняется определенным стати­стическим законам (закономерностям).

Статистические законы вероятностны потому, что они лишь предсказывают свойства языковых элементов. Однако они про­гнозируют вероятность появления наблюдаемых свойств только в известном диапазоне (от — до), поскольку используются каждый раз в новом количественном измерении (хотя и в пределах извест­ной средней величины). Статистические законы распространяются на те языковые явления, которые испытывают влияние множества факторов (причин). Такие факторы не только многочисленны, но и многовекторны (разнонаправлены). Они взаимодействуют между собой неоднозначно, и поэтому результаты их взаимного воздей­ствия колеблются вокруг некой средней величины.

Располагая известной гипотезой о действии некоторого ста­тистического закона, можно говорить о вероятности соответствую­щего языкового явления. В нестрогом терминологическом упот­реблении вероятность представляет собой долю исследуемого эле­мента (явления) в ряду однородных, долю, ожидаемую по имеющейся у исследователя гипотезе. Исчисляется вероятность (Р) отношением числа появлений изучаемого явления в речевом по­токе (а) к числу всех других явлений (b) по формуле Р= а: b.

Сама вероятность закономерна. Действие статистического за­кона выражается именно в сохранении установленной ранее ве­роятности. Измерение вероятности языкового явления ведет к изменению статистического закона.

Наблюдения за действием статистических законов, то есть за ве­роятностью языкового явления, осуществляются при помощи по­нятий «частота», «средняя частота», «отклонение от средней часто­ты».

Простейшим из них является «частота» языкового элемента (или явления), под которым понимается число его появлений в на­блюдаемом речевом отрезке. Это так называемая выборочная часто­та, то есть абсолютное (не обработанное) количество употреблений изучаемого элемента в тексте. Выборочные частоты в абсолютном выражении недостаточно информативны, поскольку не способ­ны дать достоверное представление о вероятности изучаемого яв­ления (элемента) и тем более не позволяют сформулировать ста­тистический закон. Так, зная, что в текстах одинакового объема В. Ерофеева жаргонизмы встречаются 800 раз, а в тек­стах Б. Акунина — 400, нельзя вывести вероятность жаргонизмов в современной художественной прозе и сформировать соответ­ствующий статистический закон.

Л-ингвостатистический метод задал новые стимулы для развития лингвистической типологии. Впервые идею количественного исследования типологически раз­ных языков высказал Джозеф Гринберг. Сравнивая отрывки текста одной и той же длины, составленные на разных языках, можно установить степень сходства или различий в строении этих языков. Об этом свиде­тельствуют количественные отношения между словами обследуе­мых текстов и компонентами их морфологического строения.

Количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи в настоящее время широко используются в лексикологии и стилистике. Количествен­ное описание подъязыков науки и техники используется для ав­томатической обработки языковой информации (создания инфор­мационно-поисковых систем и программ для машинного рефе­рирования текстов), а также в методике преподавания языков.

Наиболее распространенными приемами лингвостатистического методаявляются:

А) Лексикографическая статистика (закон Ципфа — Мандельброта).

Метод компонентного анализа значения. - student2.ru Джордж Ципф (1902-1950), профессор Гарвардского ун-та

Лексикографическая статистика -— это теория и практика состав-ления частотных словарей. Составление частотных словарей поставило ряд практических и теоретических задач. Было замечено, что при достаточно боль-шом количестве текстов около 80% его занимают две тысячи самых употребительных (частотных, активных) лексем.

Изучая отношение частоты и ранга (порядкового номера в частотном словаре), американский лингвист Джордж Ципф в 1949 г. установил прямую их зависимость: r х f = с (то есть ранг х частоту = слово).

В 1954 г. американский математик Бенуа Мандельброт предложил уточненную формулу: Рr = Р (r + р) -b, где r — номер слова в списке по убывающим частотам, Рr — относительная частота (вероятность), а Р, р, b — константы данного текста.

Более детальная проверка закона Ципфа — Мандельброта об-наружила его относительность: константы оказались зависимыми от стиля, жанра, эпохи и т. п. Так, Джордж Юл определил, что для атрибуции текста необходима совокупность разных характеристик, а Ревекка Марковна Фрум-кина доказала, что закон Ципфа действует вообще лишь в интервале 15≤ r ≤ 1500.

Метод компонентного анализа значения. - student2.ru Бенуа́ Мандельбро́т (1924-2010), математик

Б) Статистические параметры стилей и установление авторства.

Статистические методы используются также для изучения употребительности языковых фактов с точки зрения их нормативности, принадлежности стилю языка и отдельного автора. Как и при обычном количественном исследовании, выборки должны быть однородными и одинакового объема (или длины); однородность выборки определяется интуитивно или по социолингвистическим соображениям.

Если при количественной методике исследователь оперирует абсолютными частотами (представляя их иногда как процентное соотношение), то при лингвостатистической методике он оперирует средними частотами и частотностью (долями), понимаемой как отношение наблюдаемой частоты к длине.

Статистическая методика заменяет полное обследование текста серией выборок-наблюдений (выборочная частота обозначается зна-ком «х» с показателем выборки: х 1, х 2 ; наблюдение - знаком «n i ».

Средняя частота есть отношение суммы (знак суммирования – «Σ ») всех выборочных частот кчислу выборок:

Σ (х 1+ х 2 + х n)

х = n i

Средняя частота отличается от выборочных частот, поэтому стати-стическая интерпретация предполагает обобщение отклонения средней частоты от выборочных частот. Наиболее употребительная (усредненная) мера отклонения от средней частоты в математической статистике и теории вероятностей называется дисперсией (лат. dispersio «отклонение») и обозна-чается буквой «δ». Дисперсия есть среднее арифметическое из квадрата отклонений величин хi от их среднего арифметического, -то есть от средней частоты:

− −

δ = √ ∑ (хi –х)2 или δ2 = ∑ (хi –х)2

k k

Среднее квадратичное отклонение есть квадратный корень из дисперсии.

Статистически изучаются не только выборочные частоты, но и частотные доли. Доля как отношение наблюдаемой частоты к длине выборки определяется при помощи формулы вероятности: р = m:n, где р — доля. Статистическое сравнение долей изучается при по-мощи вычисления квадратичного отклонения доли, критерия хи-квадрат и критерия Стьюдента.

Распределение частот и частотных долей в тексте того или иного автора дает возможность выявить постоянные (константные) особенности текста, а также отклонения от типичного для данного стиля и жанра — индивидуальные особенности, касающиеся употребительности отдельных единиц и их длины.

В) Теория информации и измерение текста.

Теория информации интересуется не содержательной стороной передачи и хранения информации, а ее статистической структурой. -Текст можно изучать при помощи теории информации как статистическую структуру текста, его измерение. Статистическая структура понимается как частота появления в со-общении сигнала (символа). Это будет вероятность, обозначаемая знаком «р». Сочетания сигналов - условная вероятность - обозначается знаком «рi ». При многократном повторении сигнала очень важно опре-делить количество информации, передаваемой сигналом. Количество информации приравнивается к мере недостающей информации, то есть к величине неопределенности. Такое количество информации полу-чило название энтропии; она характеризует ситуацию перед полу-чением сигнала в большей степени, чем сам сигнал.

Неопределенность ситуации (а следовательно, и количество информации) увеличивается с увеличением числа сигналов; при одинаковом числе сигналов не-определенность наибольшая в том случае, если вероятность появле-ния всех сигналов равновероятна. Величина неопределенности (она обозначается знаком Н) связана с вероятностями по формуле:

n

Н= — р(i) log2 р(i)

i = 1

где вероятность сигнала i обозначена через р (i); i принимает значение 1,2...n; — знак суммы.

Итак, количество информации рассчитывается по формуле:

[p (1) log2 p (1)+p (2) log2 p(2)…+p (n) log2 p (n). ]

В русском языке количество информации, например в фонеме, равно 4,76 ед.

Для сравнения различных сообщений есть понятие относи-тельной энтропии и избыточности. Относительная энтропия пред-ставляет собой отношение действительного количества информации (Н Метод компонентного анализа значения. - student2.ru ) в сигнале к максимальному количеству информации сигналов из возможных при данном числе сигналов: максимальная энтропия (Hмакс.) равна количеству информации при равновероятности всех сигналов (Н0 = logn). Избыточность (R) равна разности между едини-цей и относительной энтропией:

R = 1 – Н отн. ; Н отн. = Н Метод компонентного анализа значения. - student2.ru : Н0.

Например, русский «телеграфный» алфавит содержит 32 знака. Если все буквы считаются равновероятными (Н0), то информация, содержащаяся в одной букве, будет: Н0 = log 32 = ~ 1,505 десят. ед.

Подсчитано, что средняя информация, содержащаяся во фразе второго порядка вероятности, то есть при наличии двух предшествующих букв (по-, ду-, на-, эн-, об- и т. п.), равна 0,905 (Н3). Относительная энтропия может быть определена:

Н Метод компонентного анализа значения. - student2.ru : Н0 = Н 3 : Н0 =1 – 0,905 : 1,505 = ~ 0,6.

Следовательно, избыточность букв для русского языка равна не менее 0,4:

R = 1 – Н 3 : Н0 = 1 – 0,905 : 1,505 = ~ 0,4.

Наши рекомендации