Методы лингвистических исследований
Сопоставительный метод.
Сопоставительный метод впервые описал В. фон Гумбольдт вместе с зарождением в компаративистике новой дисциплины — лингвистической типологии. Сопоставительный метод называется также сравнительно-сопоставительным, или типологическим. Изначально он предназначался для исследования грамматического строя неродственных языков. Его разрабатывали Фридрих и Август Шлегель, Вильгельм фон Гумбольдт, Август Шлейхер, Шарль Балли, Евгений Дмитриевич Поливанов. Сопоставительный метод — это система приемов исследования как родственных, так и разноструктурных языков с целью выявления в них общих и отличительных свойств и признаков.
Трубецкой Николай Сергеевич (1890-1938) |
В результате обнаружения общего в сопоставляемых языках были открыты так называемые языковые союзы. По определению Н.С. Трубецкого, впервые предложившего науке это понятие, языковой союз — это группа языков, обнаруживающих существенное сходство в синтаксисе, морфологии, иногда — внешнее сходство в фонетике и обладающих общим фондом культурных слов, но не связанных (как в языковой семье) системой звуковых соответствий и исконной элементарной лексикой, например, балканский, поволжский (волго-камский), центрально-азиатский (гималайский).
Так, для языков, входящих в балканский языковой союз, общим является наличие постпозитивного артикля, совпадение дательного и родительного падежей, образование будущего времени при помощи вспомогательного глагола «хотеть», утрата синтаксической формы инфинитив. Это при всем том, что каждый язык в отдельности обладает особыми, только ему присущими свойствами и признаками.
Главными исследовательскими приемами сравнительно-сопоставительного метода являются:
а) Установление основания сопоставления — это определение предмета сопоставления. Различают два способа решения этой задачи: 1) путем языкового сопоставления и 2) путем признакового сопоставления. Избирается один из исследуемых языков (обычно мотивом выбора оказываются либо исследовательская задача, либо уровень изученности языков, как, например, латынь для многих европейских языков или английский для многих индейских языков Латинской Америки). Если установление основания сопоставления идет по второму пути, то, как правило, поиск сосредоточивается на одном из аспектов двусторонней сущности языковой единицы — на ее плане выражения и плане содержания. В плане выражения таким основанием может служить любое формальное явление: морфема, формообразование, синтаксическая или словообразовательная модель. В плане содержания — факты и явления идеальной стороны языковых единиц. В ходе языкового сопоставления создается общая панорама общих и отличительных свойств исследуемых языков. Признаковое сопоставление позволяет более глубоко представить своеобразие сопоставляемых явлений. Однако наиболее эффективен комплексный подход, когда признаковое сопоставление дополняет языковое, являясь его логическим продолжением.
б) Сопоставительная интерпретация опирается на методику параллельного изучения, когда факты и явления (предмет сопоставления) сначала изучаются в каждом отдельно взятом языке, а затем результаты такого описательного изучения сопоставляются. Параллельное исследование главным образом обнаруживает общие и отличительные свойства и признаки исследуемых языков, содержательное же их отличие конкретизируется при помощи содержательной (структурной и стилистической) интерпретации. Особенно важна такого рода интерпретация при типологическом исследовании близкородственных языков, где сопоставление по языковому критерию концентрирует внимание в основном на их сходстве. Между тем при всей генетической близости родственных языков типологические различия между ними могут быть весьма существенными. Так, при всем внешнем сходстве систем гласных в славянских языках между ними имеются и невидимые на первый взгляд различия, требующие содержательной интерпретации. Примером тому может служить качественное своеобразие беглых гласных.
Основная линия различий между славянскими языками (качественная характеристика беглых гласных) проходит по вариантам одного из этих гласных, отраженного в восточнославянских языках как [о] (рус, укр., блр. сон — сна, сну, каток — катка), в западнославянских как [е] (п., ч., cлц. sen— snu) и как [о] (вл. sуn— snu, нл. son— sni, слц. bocka), в словацком также [a] (dаzd', mach), болгарском — как [ъ] (сън — сънища, гласный не выпадает; зъл - зли), в македонском — как [о] (сон — сновидение), в сербском — как [ä] (с ä н — сн ä) и в словенском — как долгое [ā] или краткое [ĕ ] (māh «мох», sĕn — sna).
Разнообразие вариантов этого беглого гласного по отдельным славянским языкам [е, о, а, ъ] объясняется двумя причинами. Во-первых, его происхождением из праславянского редуцированного гласного [ъ], отличавшегося весьма неопределенным качественным характером, при котором он мог быть в одинаковой степени сближен с любым открытым кратким гласным. И, во-вторых, длительностью процесса вокализации сильных редуцированных, начавшегося еще в конце праславянского периода, а завершившегося уже в условиях самостоятельного существования отдельных славянских языков. Другой беглый гласный почти во всех славянских языках, за исключением сербского и частично словенского, имеет одинаковый качественный характер [е] (рус. день — дня, конец — конца, укр. день — дня, конец — конца, блр. дзень — дня, канец — канца, п. dzien — dnia, Koniec — косса, ч. den — dne, konec — konce, слц. den — dnia, koniec — konca, вл. dzieс — dnja, нл. zen — dna, болг., м. ден — дни, конец — концы). Это объясняется происхождением данного беглого гласного из праславянского редуцированного [ь], который был, по-видимому, наиболее близок к краткому закрытому [е]. В сербском языке этот беглый гласный, как и первый, имеет звуковой характер [а] (дан, конац), в словенском — частично [а], частично [e] (dan, коnес). Отличия объясняются тем, что в сербском и словенском языках редуцированный [ь], к которому восходит второй беглый гласный, в процессе вокализации совпал с редуцированным [ъ], вместе с которым дал одни и те же общие рефлексы.
Борис Андреевич Успе́нский (р.1937) |
в) Типологическое исследование языков обычно осуществляется по одной из двух моделей — анкетной или эталонной. В основе анкетной модели лежит список признаков, присущих тому или иному языку. По указанным в списке признакам и проводится сопоставление языков. Анкетная модель рассчитана на индуктивный анализ. Эталонная модель разработана Борисом Андреевичем Успенским. При этом эталоном служит язык, в котором имеется исследуемое языковое явление.
Так, для описания системы иностранного языка эталоном служит родной язык. Классическим примером этого могут считаться латинские грамматики, созданные по греческому образцу. Кроме родного, эталоном может служить специально созданный метаязык, под которым понимается система правил для построения типологического описания языков. Язык-эталон обычно создают для типологического исследования определенного уровня языковой системы: фонологического, словообразовательного, лексического, синтаксического. Язык-эталон может быть ориентирован уже: на конкретную область (подсистему) соответствующего уровня (для исследования частей речи, членов предложения, терминологии, интонации).
Чарльз Хоккет (1916-2000), американский лингвист и антрополог |
Рассматриваемые приемы сравнительно-сопоставительного метода и модели типологических исследований целенаправленно используются для определения общих структурных признаков, свойственных всем или большинству языков. Такие межъязыковые общности называются лингвистическими универсалиями. Это признаки, свойства, законы, тенденции, которые присущи всем языкам или языку в целом. Учение о лингвистических универсалиях разработал Чарльз Френсис Хоккет.
Различают разные типы лингвистических универсалий с точки зрения их логической природы и с точки зрения их логической структуры.
Абсолютные (полные) лингвистические универсалии — утверждения, характеризующие язык вообще (признак, свойство, все то, что присуще всем языкам), типа «во всех языках имеются онимы и аппеллятивы», «всем языкам свойственна номинативная функция» и т.п. Такие универсалии несут незначительную информацию, поскольку они общеизвестны.
Статистические (неполные) лингвистические универсалии свойственны большим группам, типам, союзам языков. Они допускают отдельные «исключения из общих правил», которые, однако, не разрушают универсальных законов, то есть всецело структурируются на высокой статистической вероятности.
Статистические (неполные) лингвистические универсалии подразделяют на простые и сложные. Первые лишь указывают на наличие/отсутствие в языке исследуемого явления, а вторые еще и раскрывают существующую между языками в этом плане зависимость. К простой статистической универсалии можно отнести, например, утверждение: наличие в языке системы словоизменения непременно предполагает в нем и систему словообразования. Сложной статистической универсалией обычно называют обратно пропорциональную зависимость между небольшим количеством фонем в том или ином языке и частотностью появления каждой из них в составе морфем.
Абсолютные универсалии выводятся дедуктивным путем (в виде гипотез), а статистические — индуктивным (эмпирически, в результате практического опыта, наблюдений). Гипотетические утверждения должны проверяться (подтверждаться или опровергаться) эмпирической информацией. Статистические универсалии в результате накопления знаний о языке могут стать абсолютными, то есть накопленный эмпирическим путем материал может стать основой для новых обобщений.
По отношению к объекту сопоставительного анализа различают лингвистические универсалии языка и лингвистические универсалии речи (текста). Так, утверждение, что фонема представляет собой пучок смыслоразличительных признаков, может рассматриваться универсалией языка, а установление ограничений, накладываемых на количество комбинаций фонем в тексте — универсалией речи. Но при всем различии универсалии языка и универсалии речи являются лингвистическими. Наряду с ними иногда выделяют еще и экстралингвистические (внеязыковые) универсалии — предмет изучения семиотической типологии. Экстралингвистические универсалии показывают место и специфику языка как лингвосемиотической системы в сопоставлении с другими знаковыми системами (искусственными языками, «языками» животных, азбукой Морзе, флажковой сигнализацией у моряков и др.).
И, наконец, в зависимости от уровневой принадлежности единицы сопоставления выделяют фонологические, грамматические, лексические, семантические универсалии. Вне уровневой отнесенности находится особый тип — символические универсалии.
Чарльз Фергюсон (1921-1998), американский лингвист, основоположник социолингвистики |
Наиболее заметный вклад в исследование фонологических универсалий сделан Николаем Сергеевичем Трубецким («Основы фонологии». М., 1960), Борисом Андреевичем Успенским («Структурная типология языков». М., 1965) и американским исследователем Чарльзом Фергюсоном.
Полный список абсолютных фонологических универсалий (более 100) составил Борис Андреевич Успенский. Примером такого типа универсалий может служить следующий постулат: если в сопоставляемых языках имеется простой носовой согласный, то непременно в них имеется и шумный согласный.
Исследователи грамматических универсалий (Чарльз Хоккет, Эдвард Сепир, Джозеф Гринберг) отмечают, что в каждом языке грамматические универсалии подразделяются на морфологические и синтаксические. В сфере морфологии имена существительные во всех языках обозначают предметы и абстрактные понятия, имена числительные — числа, имена прилагательные — признаки предметов, а глаголы — действие или состояние. Исключение составляет китайский язык, в котором идея качества выражается не именем прилагательным, а глаголом (Э. Сепир). Большинство
морфологических универсалий (45) было определено Джозефом Гринбергом. И все же список фонологических и грамматических универсалий не является исчерпывающим.
Достаточно подробная классификация семантических универсалий принадлежит английскому языковеду Стефану Ульману. Большинство такого рода универсалий относится к разряду статистических. Они могут быть как синхроническими, так и диахроническими.
В результате типологических исследований, начиная с работ братьев Августа и Фридриха Шлегелей, Вильгельма фон Гумбольдта и Августа Шлейхера, были разработаны типологические классификации языков мира.
Джозеф Гринберг (р.1915), американский антрополог, этнограф и лингвист |
Из известных типологических классификаций наибольшее признание получила классификация Гумбольдта—Шлейхера, основой которой служит характер соотношения лексического и грамматического значений слова. С этой точки зрения все языки мира образуют четыре типа: флективный, агглютинирующий, изолирующий и инкорпорирующий. Во флективных языках лексическое грамматическое значения выражаются одной и той же словоформой (совместным изменением корня и аффиксов: «пишу — писал», «друг — дружба»). Раздельное выражение лексического и грамматического значений, когда изменение аффиксов, выражающих грамматическое значение, не вызывает изменения основы слова, способной выступать отдельным словом: татар. урман 'лес' — урманлар 'леса'. Слова изолирующего языка не имеют в своем состав элементов, выражающих грамматические значения. Такие языки не имеют механизмов словоизменения (не случайно А. Шлегель называл их аморфными); позже В. Гумбольдт отказался от этого термина, справедливо полагая, что бесформенных языков не бывает, и предложил называть их корневыми, или изолирующим (большинство языков Юго-Восточной Азии, китайский язык). Аморфными словами в русском языке можно назвать наречия (вчера, вперед, быстро), неизменяемые лексические заимствования (кенгуру, бюро). Грамматические значения в языках изолирующего типа выражаются порядком слов и интонацией. В инкорпорирующих языках грамматические значения выражаются включением (инкорпорированием) в состав глагола-сказуемого других членов предложения (чукотско-камчатские языки, языки индейцев Северной Америки). Глагол-сказуемое при этом может согласовываться одновременно с несколькими членами предложения. Не случайно изолирующие языки еще называют полисинтетическими.
Группируя языки по типам грамматической структуры, следует, однако, помнить, что абсолютно типологически стерильных языков нет. В одних языках типологические черты проявляются в большей степени, в других — в меньшей. Так, в русском языке преобладает синтетизм и флективность, в английском и французском — аналитизм и изоляция, в семитских — интрорефлективность, в тюркских — агглютинация, в языках Юго-Восточной Азии — полисинтез и т.д.
4. Описательный метод.
Описательный метод — самый старый и в то же время современный метод лингвистики. Древнейшие китайские, индийские и греческие грамматики были по преимуществу описательными; современные линг-вистические школы обращаются прежде всего к принципам и методике научного изучения и описания современных языков.
Описательным методом называется система иссле-довательских приемов, применяемых для характеристики явлений языка на данном этапе его развития; это метод синхронного анализа. Описательный метод имеет исключительноё значение для практики обучения языку. Он заключается в выделении и описании языковых единиц с их последующей классификацией.
На первом этапе описательного анализа из текста выделяются слова и предложения, то есть номинативные и коммуникативные единицы языка. Практически выделение слов и предложений из современного письменного текста не представляет трудности, так как они графически выделены автором или издательством. Применяется методика графической сегментации. Словами признаются отрезки текста (сегменты) от просвета до просвета; а предложениями — отрезки текста от точки до точки (могут быть и другие разделительные знаки препинания — вопросительный и восклица-тельный знаки, многоточие, красная строка).
Однако возможности методики графической сегментации ограни-чены. Автор может пунктуационно изолировать части предложения (особенно сложного) и, напротив, употреблять разделительные по основной функции знаки препинания для актуализации частей про-стого и сложного предложений; известно также, что слитное и раздель-ное написание слов может быть колеблющимся и вариантным. Кроме того, номинативные и коммуникативные единицы не тождественны однословным и двусловным (многословным) отрезкам текста, так как существуют двусловные «номинативные» единицы (фразеологизмы и аналитические формы слова) и однословные предложения. Поэтому графическая сегментация должна быть дополнена методикой идентифи-кации языковых единиц, которая основывается на сравнении" разных текстов и использовании предшествующего опыта. Следовательно, выделение единиц языка из текста требует не только наблюдательности, но и обширных знаний.
Второй этап описательного анализа состоит в членении выделенных из текста единиц, то есть нахождении структурных единиц, при помощи методики структурной сегментации. Поскольку первичная сегментация дала два типа единиц, постольку вторичная (или структурная) сегментация идет двумя путями: вычленяются мор-фема и словоформа, словосочетание и член предложения. Методика вторичной сегментации весьма разнообразна и зависит в значительной степени от понимания структурной единицы.
Следует при этом обратить внимание на два момента. Во-первых, структурные единицы обладают формально-структурной и функцио-нально-структурной сторонами, причем они отличаются у разных струк-турных единиц. Поэтому методика структурной сегментации должна быть принципиально разнообразной, учитывающей структурные осо-бенности анализируемых единиц. Во-вторых, структурная сегментация не тождественна текстовой сегментации, так как в тексте часто выяв-ляются варианты, в том числе индивидуальные, единиц языка, тогда как структурная сегментация выделяет не сами единицы, а их компоненты.
–Третий этап описательного анализа связан со структурной интерпретацией выде-ленных номинативно-коммуникативных и структурных единиц. Структурная интерпретация осуществляется чаще всего при помощи методик категориального и дискретного анализа.
Категориальный анализ состоит в том, что выделенные единицы объединяются в группы, анализируется структура этих групп и каждая единица рассматривается как часть той или иной категории. Методика категориального анализа располагает разными приемами, среди которых наиболее известны приемы классификации, парадигм и трансформаций.
Методика дискретного анализа (лат. discretus — «раздельный, прерывистый») состоит в том, что в структурной единице выделяются мельчайшие, далее неделимые, предельные признаки, которые и анализируются как таковые, изу-чаются их структура, распределение и значимость, так что единица языка рассматривается как пересечение этих признаков-фигур.
На основе сравнения единиц языка и единиц анализа выделяются две различные методики описания языка.
-Единицы языка и единицы лингвисти-ческого анализа могут совпадать, если единицами анализа являются реальные единицы языка. Например, морфема может быть единицей анализа слова, словоформа – предложения. Единицы языка и единицы лингвисти-ческого анализа могут не совпадать, если единицами анализа являются функции и отношения языковых единиц.
В случаях, когда единицами анализа выступают реальные еди-ницы, их отношение к единицам языка, в свою очередь, бывает двояким: а) единица анализа оказывается меньшей, чем единица языка и речи; б) единица анализа оказывается большей, чем единица языка и речи.
В зависимости от этого различаются методики -компонентного и контекст-ного анализа.
Компонентный анализ исходит из того, что едини-цами анализа являются части (элементы) языковой единицы — номинативно-коммуникативной и структурной. Методика такого анализа разработана Казанской и Московской лингвистическими школами. Примерами компонентного анализа являются разбор слова по его морфемному составу, разбор предложения по составу.
Примером компонентного анализа являются также толкования слов, например в нормативном словаре. Так, лексическое значение слова «солдат» - «рядовой военнослужащий армии». В определении указывается три признака лексического значения: рядовой, военнослужащий, армейский. Эти ком-поненты лексического значения обобщают все употребления данной лексемы, поэтому такое обобщение достаточно, чтобы объяснить все случаи применения указанного лексического значения, его реализацию, актуализацию и выражение контекстных смыслов. Но в разных сферах общения и у отдельных лиц лексическое значение конкретизируется, указывая на рядового-пехотинца, рядового-матроса, солдата царской армии, советского солдата, воина вообще и человека долга (ср. солдат революции). Во всех случаях смысл выражается не только лексемой, но и уточняется контекстом.
Контекстный анализ исходит из того, что единицами ана-лиза выступают речевые или, реже, языковые единицы, более широкие, чем сама изучаемая единица; это анализ части через целое. В языкознании, однако, чаще применяется такая методика контекстного ана-лиза, при которой единица языка анализируется в составе речевого образования — контекста. Контекстом в этом случае считают часть текста, вычлененную из него и объединенную языковой единицей, которая в нем реализует и актуализирует свое значение. Контекстный анализ поэтому чаще всего используется при семантическом анализе слов.
Наиболее известные приемы контекстной методики: прием семан-тико-синтаксического контекста Александра Афанасьевича Потебни, стратификационный прием школы Фёрса — Холидея и прием операционного контекста, предло-женный Геннадием Владимировичем Колшанским.
Основными типами приемов описательного метода являются:
Лингвостатистический метод.
Для лингвистического исследования актуальным является философское положение о том, что предмет, не отраженный в аспекте количества, не может считаться конкретно познанным и что наука вообще достигает совершенства лишь там и в той мере, в какой ей удается взять на вооружение математику.
Категория количества в языке связана с установлением количественных изменений, вызывающих качественные преобразования языковых явлений. Именно действие в языке закона перехода количественных изменений в качественные служит важнейшим условием выявления в нем его закономерностей. В связи с этим основной задачей количественного метода в языкознании является раскрытие закономерностей функционирования единиц языка и речи, а также установление закономерностей построения текста. Теоретическое обоснование этого метода и создание алгоритмов его практического применения в языкознании — предмет особой отрасли науки о языке, получившей название лингвостатистики.
Возможность применения лингвостатистического метода в языкознании обусловлена природой и сущностью языка. Язык как система представляет собой совокупность взаимосвязанных дискретных (членимых) единиц, обладающих количественными характеристиками.
Количественные характеристики языковых единиц (и их элементов) одного уровня формируют качественное своеобразие единиц другого уровня. Так, язык с десятью фонемами образует иное количество звуковых «оболочек» морфем и слов, чем язык с пятьюдесятью фонемами.
Язык имеет вероятностный характер. Так, для образования слов используется незначительная часть возможных комбинаций фонем и морфем. В этом выражается действие вероятностных ограничений в сочетании фонем и морфем.
Лингвостатистический метод применим для изучения как языка, так и речи. Однако, количественные характеристики в системе языка не тождественны их количественным отношениям в речи. Дело в том, что на речь влияют не только законы языка (и, прежде всего, закономерности строения языковых единиц, закономерности их речевой реализации), но и законы сочетаемости языковых единиц в речи, законы жанра, тема высказывания, идиостилистические особенности речи и т.п. Характер воздействия этих факторов предсказать сложно. Однако если они регулярно повторяются при одних и тех же условиях, то их все же можно объяснить, раскрыть закономерности появления в речи того или иного элемента с помощью лингвостатистики.
Основные понятия лингвостатистики.
Согласно философской категории всеобщей связи, между явлениями языка и речи существуют определенные связи и зависимости. Обычно различают два вида зависимости — функциональную (динамическую) и статистическую. Функциональная зависимость состоит в том, что одному языковому явлению соответствует другoe определенное явление. Такого же рода зависимость присуща многим физическим явлениям. Повышение температуры — жидкое состояние воды; понижение температуры — ее кристаллизация. Функциональные зависимости дают точные определения установленным закономерностям, то есть могут быть сформулированы как закон. Например: «Вода при температуре ниже О º С превращается в лед».
При статистической (вероятностной) зависимости одному явлению или свойству языка могут соответствовать несколько явлений или свойств. Например: между числом значений слова в словаре и частотой его употребления в речи (тексте) существует определенная статистическая зависимость. Это значит, что выявленному числу значений того или иного слова не обязательно соответствует строго определенная частота употребления этого слова.
Такие нестрогие соответствия между качественной и количественной характеристикой языкового явления получили название корреляций. Термин корреляция имеет два значения: 1) общенаучное — «соотношение, соответствие, взаимосвязь, взаимозависимость явлений» и 2) в лингвистической статистике — такая связь между языковыми явлениями, при которой одно из явлений входит в число причин, определяющих другие, или когда имеются общие причины, воздействующие на эти явления.
В математической статистике существует несколько видов корреляции. В лингвистике обычно используют линейную корреляцию, согласно которой возрастание значений одного признака сопровождается возрастанием или убыванием значений другого признака. В такой линейной корреляции могут находиться, например, лексико-семантические варианты слова и частота встречаемости слова в речи (в тексте). Если при возрастании значений одного признака возрастают значения другого, то устанавливается так называемая положительная корреляция. Если же при возрастании значений одного признака значения другого признака убывают, то налицо отрицательная корреляция.
Число, показывающее степень тесноты корреляции, называется коэффициентом корреляции (это число находится между -1 и 1). Иными словами, коэффициент корреляции заключается от нуля до единицы со знаком «плюс» или «минус»: -1 ← 0→ +1. Если между исследуемыми признаками нет никакой статистической зависимости, величина коэффициента будет равна нулю или близка к нему. И наоборот, сильную зависимость между наблюдаемыми явлениями следует констатировать тогда, когда величина коэффициента приближается к 1 или -1. Величина коэффициента здесь указывает на степень связи между наблюдаемыми языковыми явлениями, а его знак (плюс или минус) — на характер самой корреляции. Как же исчисляется коэффициент корреляции?
Статистика располагает несколькими способами. В лингвистике обычно используют для этого формулу:
r = Σ (x i - x)(у i - у)
√ Σ (x i - x) 2 (у i - у)2
где r - коэффициент линейной корреляции; Σ - суммирование получаемых в результате той или иной операции величин; х i - значение первого знака; у i - значение второго знака; х - средняя (теоретическая) величина первого признака; у - средняя величина второго признака. Величины х i - х и у i - у обозначают отклонения полученных нами величин от средних.
Покажем технику вычисления r на конкретном примере. Предположим, что мы произвели выборку десяти репрезентаций одного и того же явления в текстах двух авторов (А 1 и А 2) и получили следующие частоты их встречаемости:
Наблюдаемое явление | Выборка-1 | Выборка-2 | Всего |
Всего |
По формуле исчисления r находим х и у:
х = 275:10 = 27,5, а у = 325:10 = 32,5.
Теперь произведем действия в числителе: (5 - 27,5) (10 - 32,5) +-(10 - 27,5) (15 - 32,5) + (15 - 27,5) (20 - 32,5) + (20 - 27,5) (25 - 32,5) + (25 - 27,5) (30 - 32,5) + (30 - 27,5) (35 - 32,5) + (35 - 27,5) (40 - 32,5) + (40 - 27,5) (45 - 32,5) + (45 - 27,5) (50 - 32,5) + (50 - 27,5) (55 - 32,5) = 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5.
Соответствующие действия в знаменателе представим подобным же образом: 1) в первой выборке: 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5;
2) такой же результат получим и по второй выборке — 2062,5; 3) √ 2062,5 х 2062,5 = 4253906,2.
Коэффициент r = + 062,5 : 4253906,2 = + 0,0004848.
Коэффициент показывает, что корреляция между наблюдаемыми выборками крайне слабая, хотя и положительная.
Однако окончательные выводы делать рано. Как полагает математическая лингвистика, коэффициент корреляции — величина в известной степени случайная. Для определения необходимой степени надежности получаемых величин пользуются понятиями «доверительная вероятность» (коэффициент доверия) и «уровень значимости» (коэффициент надежности). Под коэффициентом надежности принято считать 95%, когда вероятность допущенной ошибки равна 5%. Кроме того, существует еще уровень значимости — величина, дополняющая коэффициент надежности до 1. Так, при доверительной вероятности р = 0,95 уровень значимости 1 - р = 0,05. Именно при таком уровне значимости результаты лингвистического анализа считаются достаточно надежными.
Уровень значимости и обусловливаемая ею доверительная вероятность определяется исследователем для установления параметров случайных величин. Соответствие между ними определяется по специальным статистическим таблицам (они прилагаются в учебниках и справочниках по статистике).
Итак, в лингвистике установлено: частота появления тех или иных языковых элементов в речи подчиняется определенным статистическим законам (закономерностям).
Статистические законы вероятностны потому, что они лишь предсказывают свойства языковых элементов. Однако они прогнозируют вероятность появления наблюдаемых свойств только в известном диапазоне (от — до), поскольку используются каждый раз в новом количественном измерении (хотя и в пределах известной средней величины). Статистические законы распространяются на те языковые явления, которые испытывают влияние множества факторов (причин). Такие факторы не только многочисленны, но и многовекторны (разнонаправлены). Они взаимодействуют между собой неоднозначно, и поэтому результаты их взаимного воздействия колеблются вокруг некой средней величины.
Располагая известной гипотезой о действии некоторого статистического закона, можно говорить о вероятности соответствующего языкового явления. В нестрогом терминологическом употреблении вероятность представляет собой долю исследуемого элемента (явления) в ряду однородных, долю, ожидаемую по имеющейся у исследователя гипотезе. Исчисляется вероятность (Р) отношением числа появлений изучаемого явления в речевом потоке (а) к числу всех других явлений (b) по формуле Р= а: b.
Сама вероятность закономерна. Действие статистического закона выражается именно в сохранении установленной ранее вероятности. Измерение вероятности языкового явления ведет к изменению статистического закона.
Наблюдения за действием статистических законов, то есть за вероятностью языкового явления, осуществляются при помощи понятий «частота», «средняя частота», «отклонение от средней частоты».
Простейшим из них является «частота» языкового элемента (или явления), под которым понимается число его появлений в наблюдаемом речевом отрезке. Это так называемая выборочная частота, то есть абсолютное (не обработанное) количество употреблений изучаемого элемента в тексте. Выборочные частоты в абсолютном выражении недостаточно информативны, поскольку не способны дать достоверное представление о вероятности изучаемого явления (элемента) и тем более не позволяют сформулировать статистический закон. Так, зная, что в текстах одинакового объема В. Ерофеева жаргонизмы встречаются 800 раз, а в текстах Б. Акунина — 400, нельзя вывести вероятность жаргонизмов в современной художественной прозе и сформировать соответствующий статистический закон.
Л-ингвостатистический метод задал новые стимулы для развития лингвистической типологии. Впервые идею количественного исследования типологически разных языков высказал Джозеф Гринберг. Сравнивая отрывки текста одной и той же длины, составленные на разных языках, можно установить степень сходства или различий в строении этих языков. Об этом свидетельствуют количественные отношения между словами обследуемых текстов и компонентами их морфологического строения.
Количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи в настоящее время широко используются в лексикологии и стилистике. Количественное описание подъязыков науки и техники используется для автоматической обработки языковой информации (создания информационно-поисковых систем и программ для машинного реферирования текстов), а также в методике преподавания языков.
Наиболее распространенными приемами лингвостатистического методаявляются:
А) Лексикографическая статистика (закон Ципфа — Мандельброта).
Джордж Ципф (1902-1950), профессор Гарвардского ун-та |
Лексикографическая статистика -— это теория и практика состав-ления частотных словарей. Составление частотных словарей поставило ряд практических и теоретических задач. Было замечено, что при достаточно боль-шом количестве текстов около 80% его занимают две тысячи самых употребительных (частотных, активных) лексем.
Изучая отношение частоты и ранга (порядкового номера в частотном словаре), американский лингвист Джордж Ципф в 1949 г. установил прямую их зависимость: r х f = с (то есть ранг х частоту = слово).
В 1954 г. американский математик Бенуа Мандельброт предложил уточненную формулу: Рr = Р (r + р) -b, где r — номер слова в списке по убывающим частотам, Рr — относительная частота (вероятность), а Р, р, b — константы данного текста.
Более детальная проверка закона Ципфа — Мандельброта об-наружила его относительность: константы оказались зависимыми от стиля, жанра, эпохи и т. п. Так