Методы лингвистических исследований

Сопоставительный метод.

Сопоставительный метод впервые описал В. фон Гумбольдт вместе с за­рождением в компаративистике новой дисциплины — лингвис­тической типологии. Сопоставительный метод называется также сравнительно-сопоставительным, или типологическим. Из­начально он предназначался для исследования грамматического строя неродственных языков. Его разрабатывали Фридрих и Август Шлегель, Вильгельм фон Гумбольдт, Август Шлейхер, Шарль Балли, Евгений Дмитриевич Поливанов. Сопоставительный метод — это система прие­мов исследования как родственных, так и разноструктурных язы­ков с целью выявления в них общих и отличительных свойств и признаков.

методы лингвистических исследований - student2.ru Трубецкой Николай Сергеевич (1890-1938)

В результате обнаружения общего в сопоставляемых язы­ках были открыты так называемые языковые союзы. По определению Н.С. Тру­бецкого, впервые предложившего науке это понятие, языковой союз — это группа языков, обнаруживающих существенное сходство в синтаксисе, морфологии, иногда — внешнее сходство в фонетике и обладающих общим фондом культурных слов, но не свя­занных (как в языковой семье) системой звуковых соответствий и исконной элементарной лексикой, например, балканский, по­волжский (волго-камский), центрально-азиатский (гималайский).

Так, для языков, входящих в балканский языковой союз, об­щим является наличие постпозитивного артикля, совпадение да­тельного и родительного падежей, образование будущего време­ни при помощи вспомогательного глагола «хотеть», утрата син­таксической формы инфинитив. Это при всем том, что каждый язык в отдельности обладает особыми, только ему присущими свойствами и признаками.

Главными исследовательскими приемами сравнительно-сопо­ставительного метода являются:

а) Установление основания сопоставления — это определение предмета сопоставления. Различают два способа решения этой за­дачи: 1) путем языкового сопоставления и 2) путем признаково­го сопоставления. Избирается один из исследуемых языков (обычно мотивом выбора оказываются либо исследовательская задача, либо уровень изученности языков, как, например, латынь для многих европейских языков или английский для многих индейских язы­ков Латинской Америки). Если установление основания сопоставления идет по второму пути, то, как правило, поиск сосредоточивается на одном из ас­пектов двусторонней сущности языковой единицы — на ее плане выражения и плане содержания. В плане выражения таким осно­ванием может служить любое формальное явление: морфема, формообразование, синтаксическая или словообразовательная модель. В плане содержания — факты и явления идеальной сторо­ны языковых единиц. В ходе языкового сопоставления создается общая панорама общих и отличительных свойств исследуемых язы­ков. Признаковое сопоставление позволяет более глубоко предста­вить своеобразие сопоставляемых явлений. Однако наиболее эф­фективен комплексный подход, когда признаковое сопостав­ление дополняет языковое, являясь его логическим продолжением.

б) Сопоставительная интерпретация опирается на методику па­раллельного изучения, когда факты и явления (предмет сопос­тавления) сначала изучаются в каждом отдельно взятом языке, а затем результаты такого описательного изучения сопоставляются. Параллельное исследование главным образом обнаруживает об­щие и отличительные свойства и признаки исследуемых языков, содержательное же их отличие конкретизируется при помощи содержательной (структурной и стилистической) интерпретации. Особенно важна такого рода интерпретация при типологическом исследовании близкородственных языков, где сопоставление по языковому критерию концентрирует внимание в основном на их сходстве. Между тем при всей генетической близости родствен­ных языков типологические различия между ними могут быть весь­ма существенными. Так, при всем внешнем сходстве систем глас­ных в славянских языках между ними имеются и невидимые на первый взгляд различия, требующие содержательной интерпре­тации. Примером тому может служить качественное своеобразие беглых гласных.

Основная линия различий между славянскими языками (ка­чественная характеристика беглых гласных) проходит по вариан­там одного из этих гласных, отраженного в восточнославянских языках как [о] (рус, укр., блр. сон — сна, сну, каток — катка), в западнославянских как [е] (п., ч., cлц. sen— snu) и как [о] (вл. sуn— snu, нл. son— sni, слц. bocka), в словацком также [a] (dаzd', mach), болгарском — как [ъ] (сън — сънища, гласный не выпадает; зъл - зли), в македонском — как [о] (сон — сновидение), в сербском — как [ä] (с ä н — сн ä) и в словенском — как долгое [ā] или краткое [ĕ ] (māh «мох», sĕn — sna).

Разнообразие вариантов этого беглого гласного по отдельным славянским языкам [е, о, а, ъ] объясняется двумя причинами. Во-первых, его происхождением из праславянского редуцированно­го гласного [ъ], отличавшегося весьма неопределенным качествен­ным характером, при котором он мог быть в одинаковой степени сближен с любым открытым кратким гласным. И, во-вторых, длительностью процесса вокализации сильных редуцированных, начавшегося еще в конце праславянского периода, а завершив­шегося уже в условиях самостоятельного существования отдельных славянских языков. Другой беглый гласный почти во всех сла­вянских языках, за исключением сербского и частично словенс­кого, имеет одинаковый качественный характер [е] (рус. день — дня, конец — конца, укр. день — дня, конец — конца, блр. дзень — дня, канец — канца, п. dzien — dnia, Koniec — косса, ч. den — dne, konec — konce, слц. den — dnia, koniec — konca, вл. dzieс — dnja, нл. zen — dna, болг., м. ден — дни, конец — концы). Это объясняется происхождением данного беглого гласного из праславянского ре­дуцированного [ь], который был, по-видимому, наиболее близок к краткому закрытому [е]. В сербском языке этот беглый гласный, как и первый, имеет звуковой характер [а] (дан, конац), в словен­ском — частично [а], частично [e] (dan, коnес). Отличия объясня­ются тем, что в сербском и словенском языках редуцированный [ь], к которому восходит второй беглый гласный, в процессе во­кализации совпал с редуцированным [ъ], вместе с которым дал одни и те же общие рефлексы.

методы лингвистических исследований - student2.ru Борис Андреевич Успе́нский (р.1937)

в) Типологическое исследование языков обычно осуществляется по одной из двух моделей — анкетной или эталонной. В основе анкетной модели лежит список признаков, присущих тому или иному языку. По указанным в списке признакам и проводится сопоставление языков. Анкетная модель рассчитана на индуктив­ный анализ. Эталонная модель разработана Борисом Андреевичем Успенским. При этом эталоном служит язык, в котором имеется исследуемое язы­ковое явление.

Так, для описания системы иностранного языка эталоном служит родной язык. Классическим примером этого могут считаться латинские грамматики, созданные по греческому об­разцу. Кроме родного, эталоном может служить специально со­зданный метаязык, под которым понимается система правил для построения типологического описания языков. Язык-эталон обычно создают для типологического исследования определенного уровня языковой системы: фонологического, словообразовательного, лексического, синтаксического. Язык-эталон может быть ориентирован уже: на конкретную область (подсистему) соответ­ствующего уровня (для исследования частей речи, членов предложения, терминологии, интонации).

методы лингвистических исследований - student2.ru Чарльз Хоккет (1916-2000), американский лингвист и антрополог

Рассматриваемые приемы сравнительно-сопоставительного метода и модели типологических исследований целенаправленно используются для определения общих структурных признаков, свойственных всем или большинству языков. Такие межъязыковые общности называются лингвистическими универсалиями. Это признаки, свойства, законы, тенденции, которые присущи всем языкам или языку в целом. Учение о лингвистических универсалиях разработал Чарльз Френсис Хоккет.

Различают разные типы лингвистических универсалий с точ­ки зрения их логической природы и с точки зрения их логичес­кой структуры.

Абсолютные (полные) лингвистические универсалии — ут­верждения, характеризующие язык вообще (признак, свой­ство, все то, что присуще всем языкам), типа «во всех языках имеются онимы и аппеллятивы», «всем языкам свойственна номинативная функция» и т.п. Такие универсалии несут не­значительную информацию, поскольку они общеизвестны.

Статистические (неполные) лингвистические универсалии свойственны большим группам, типам, союзам языков. Они допускают отдельные «исключения из общих правил», которые, однако, не разрушают универсальных законов, то есть всецело структурируются на высокой статистической вероятности.

Статистические (неполные) лингвистические универсалии подразделяют на простые и сложные. Первые лишь указывают на наличие/отсутствие в языке исследуемого явления, а вторые еще и раскрывают существующую между языками в этом плане зави­симость. К простой статистической универсалии можно отнести, например, утверждение: наличие в языке системы словоизменения непременно предполагает в нем и систему словообразования. Сложной статистической универсалией обычно называют обратно пропорциональную зависимость между небольшим количеством фонем в том или ином языке и частотностью появления каждой из них в составе морфем.

Абсолютные универсалии выводятся дедуктивным путем (в виде гипотез), а статистические — индуктивным (эмпирически, в результате практического опыта, наблюдений). Гипотетические утверждения должны проверяться (подтверждаться или опровер­гаться) эмпирической информацией. Статистические универса­лии в результате накопления знаний о языке могут стать абсолют­ными, то есть накопленный эмпирическим путем материал может стать основой для новых обобщений.

По отношению к объекту сопоставительного анализа различа­ют лингвистические универсалии языка и лингвистические уни­версалии речи (текста). Так, утверждение, что фонема представляет собой пучок смыслоразличительных признаков, может рассматри­ваться универсалией языка, а установление ограничений, наклады­ваемых на количество комбинаций фонем в тексте — универсалией речи. Но при всем различии универсалии языка и универсалии речи являются лингвистическими. Наряду с ними иногда выделяют еще и экстралингвистические (внеязыковые) универсалии — предмет изу­чения семиотической типологии. Экстралингвистические универ­салии показывают место и специфику языка как лингвосемиотической системы в сопоставлении с другими знаковыми система­ми (искусственными языками, «языками» животных, азбукой Морзе, флажковой сигнализацией у моряков и др.).

И, наконец, в зависимости от уровневой принадлежности единицы сопоставления выделяют фонологические, грамматичес­кие, лексические, семантические универсалии. Вне уровневой от­несенности находится особый тип — символические универсалии.

методы лингвистических исследований - student2.ru Чарльз Фергюсон (1921-1998), американский лингвист, основоположник социолингвистики

Наиболее заметный вклад в исследование фонологических универсалий сделан Николаем Сергеевичем Трубецким («Основы фонологии». М., 1960), Борисом Андреевичем Успенским («Структурная типология языков». М., 1965) и американским исследователем Чарльзом Фергюсоном.

Полный список абсолютных фонологических универсалий (бо­лее 100) составил Борис Андреевич Успенский. Примером такого типа универ­салий может служить следующий постулат: если в сопоставляе­мых языках имеется простой носовой согласный, то непременно в них имеется и шумный согласный.

Исследователи грамматических универсалий (Чарльз Хоккет, Эдвард Сепир, Джозеф Гринберг) отмечают, что в каждом языке грамма­тические универсалии подразделяются на морфологические и син­таксические. В сфере морфологии имена существительные во всех языках обозначают предметы и абстрактные понятия, имена чис­лительные — числа, имена прилагательные — признаки предме­тов, а глаголы — действие или состояние. Исключение составляет китайский язык, в котором идея качества выражается не именем прилагательным, а глаголом (Э. Сепир). Большинство

морфологи­ческих универсалий (45) было определено Джозефом Гринбергом. И все же список фонологических и грамматических универсалий не яв­ляется исчерпывающим.

Достаточно подробная классификация семантических универ­салий принадлежит английскому языковеду Стефану Ульману. Большин­ство такого рода универсалий относится к разряду статистических. Они могут быть как синхроническими, так и диахроническими.

В результате типологических исследований, начиная с работ братьев Августа и Фридриха Шлегелей, Вильгельма фон Гумбольдта и Августа Шлейхера, были разработаны типологические классификации языков мира.

методы лингвистических исследований - student2.ru Джозеф Гринберг (р.1915), американский антрополог, этнограф и лингвист

Из известных типологических классификаций наибольшее призна­ние получила классификация Гумбольдта—Шлейхера, основой которой служит характер соотношения лексического и граммати­ческого значений слова. С этой точки зрения все языки мира образуют четыре типа: флективный, агглютинирующий, изолирующий и инкорпорирующий. Во флективных языках лексическое грамматическое значения выражаются одной и той же словофор­мой (совместным изменением корня и аффиксов: «пишу — писал», «друг — дружба»). Раздельное выражение лексического и грамматического значений, когда изменение аффиксов, выражающих грамматическое значение, не вызывает изменения основы слова, способной выступать отдельным словом: татар. урман 'лес' — урманлар 'леса'. Слова изолирующего языка не имеют в своем состав элементов, выражающих грамматические значения. Такие языки не имеют механизмов словоизменения (не случайно А. Шлегель называл их аморфными); позже В. Гумбольдт отказался от этого термина, справедливо полагая, что бесформенных языков не бы­вает, и предложил называть их корневыми, или изолирующим (большинство языков Юго-Восточной Азии, китайский язык). Аморфными словами в русском языке можно назвать наречия (вчера, вперед, быстро), неизменяемые лексические заимствования (кенгуру, бюро). Грамматические значения в языках изолирующего типа выражаются порядком слов и интонацией. В инкорпорирующих языках грамматические значения выражаются включением (инкорпорированием) в состав глагола-сказуемого других членов предложения (чукотско-камчатские языки, языки индейцев Се­верной Америки). Глагол-сказуемое при этом может согласовы­ваться одновременно с несколькими членами предложения. Не слу­чайно изолирующие языки еще называют полисинтетическими.

Группируя языки по типам грамматической структуры, сле­дует, однако, помнить, что абсолютно типологически стериль­ных языков нет. В одних языках типологические черты проявляют­ся в большей степени, в других — в меньшей. Так, в русском языке преобладает синтетизм и флективность, в английском и французском — аналитизм и изоляция, в семитских — интрорефлективность, в тюркских — агглютинация, в языках Юго-Восточ­ной Азии — полисинтез и т.д.

4. Описательный метод.

Описательный метод — самый старый и в то же время современный метод лингвистики. Древнейшие китайские, индийские и греческие грамматики были по преимуществу описательными; современные линг-вистические школы обращаются прежде всего к принципам и методике научного изучения и описания современных языков.

Описательным методом называется система иссле-довательских приемов, применяемых для характеристики явлений языка на данном этапе его развития; это метод синхронного анализа. Описательный метод имеет исключительноё значение для практики обучения языку. Он заключается в выделении и описании языковых единиц с их последующей классификацией.

На первом этапе описательного анализа из текста выделяются слова и предложения, то есть номинативные и коммуникативные единицы языка. Практически выделение слов и предложений из современного письменного текста не представляет трудности, так как они графически выделены автором или издательством. Применяется методика графической сегментации. Словами признаются отрезки текста (сегменты) от просвета до просвета; а предложениями — отрезки текста от точки до точки (могут быть и другие разделительные знаки препинания — вопросительный и восклица-тельный знаки, многоточие, красная строка).

Однако возможности методики графической сегментации ограни-чены. Автор может пунктуационно изолировать части предложения (особенно сложного) и, напротив, употреблять разделительные по основной функции знаки препинания для актуализации частей про-стого и сложного предложений; известно также, что слитное и раздель-ное написание слов может быть колеблющимся и вариантным. Кроме того, номинативные и коммуникативные единицы не тождественны однословным и двусловным (многословным) отрезкам текста, так как существуют двусловные «номинативные» единицы (фразеологизмы и аналитические формы слова) и однословные предложения. Поэтому графическая сегментация должна быть дополнена методикой идентифи-кации языковых единиц, которая основывается на сравнении" разных текстов и использовании предшествующего опыта. Следовательно, выделение единиц языка из текста требует не только наблюдательности, но и обширных знаний.

Второй этап описательного анализа состоит в членении выделенных из текста единиц, то есть нахождении структурных единиц, при помощи методики структурной сегментации. Поскольку первичная сегментация дала два типа единиц, постольку вторичная (или структурная) сегментация идет двумя путями: вычленяются мор-фема и словоформа, словосочетание и член предложения. Методика вторичной сегментации весьма разнообразна и зависит в значительной степени от понимания структурной единицы.

Следует при этом обратить внимание на два момента. Во-первых, структурные единицы обладают формально-структурной и функцио-нально-структурной сторонами, причем они отличаются у разных струк-турных единиц. Поэтому методика структурной сегментации должна быть принципиально разнообразной, учитывающей структурные осо-бенности анализируемых единиц. Во-вторых, структурная сегментация не тождественна текстовой сегментации, так как в тексте часто выяв-ляются варианты, в том числе индивидуальные, единиц языка, тогда как структурная сегментация выделяет не сами единицы, а их компоненты.

–Третий этап описательного анализа связан со структурной интерпретацией выде-ленных номинативно-коммуникативных и структурных единиц. Структурная интерпретация осуществляется чаще всего при помощи методик категориального и дискретного анализа.

Категориальный анализ состоит в том, что выделенные единицы объединяются в группы, анализируется структура этих групп и каждая единица рассматривается как часть той или иной категории. Методика категориального анализа располагает разными приемами, среди которых наиболее известны приемы классификации, парадигм и трансформаций.

Методика дискретного анализа (лат. discretus — «раздельный, прерывистый») состоит в том, что в структурной единице выделяются мельчайшие, далее неделимые, предельные признаки, которые и анализируются как таковые, изу-чаются их структура, распределение и значимость, так что единица языка рассматривается как пересечение этих признаков-фигур.

На основе сравнения единиц языка и единиц анализа выделяются две различные методики описания языка.

-Единицы языка и единицы лингвисти-ческого анализа могут совпадать, если единицами анализа являются реальные единицы языка. Например, морфема может быть единицей анализа слова, словоформа – предложения. Единицы языка и единицы лингвисти-ческого анализа могут не совпадать, если единицами анализа являются функции и отношения языковых единиц.

В случаях, когда единицами анализа выступают реальные еди-ницы, их отношение к единицам языка, в свою очередь, бывает двояким: а) единица анализа оказывается меньшей, чем единица языка и речи; б) единица анализа оказывается большей, чем единица языка и речи.

В зависимости от этого различаются методики -компонентного и контекст-ного анализа.

Компонентный анализ исходит из того, что едини-цами анализа являются части (элементы) языковой единицы — номинативно-коммуникативной и структурной. Методика такого анализа разработана Казанской и Московской лингвистическими школами. Примерами компонентного анализа являются разбор слова по его морфемному составу, разбор предложения по составу.

Примером компонентного анализа являются также толкования слов, например в нормативном словаре. Так, лексическое значение слова «солдат» - «рядовой военнослужащий армии». В определении указывается три признака лексического значения: рядовой, военнослужащий, армейский. Эти ком-поненты лексического значения обобщают все употребления данной лексемы, поэтому такое обобщение достаточно, чтобы объяснить все случаи применения указанного лексического значения, его реализацию, актуализацию и выражение контекстных смыслов. Но в разных сферах общения и у отдельных лиц лексическое значение конкретизируется, указывая на рядового-пехотинца, рядового-матроса, солдата царской армии, советского солдата, воина вообще и человека долга (ср. солдат революции). Во всех случаях смысл выражается не только лексемой, но и уточняется контекстом.

Контекстный анализ исходит из того, что единицами ана-лиза выступают речевые или, реже, языковые единицы, более широкие, чем сама изучаемая единица; это анализ части через целое. В языкознании, однако, чаще применяется такая методика контекстного ана-лиза, при которой единица языка анализируется в составе речевого образования — контекста. Контекстом в этом случае считают часть текста, вычлененную из него и объединенную языковой единицей, которая в нем реализует и актуализирует свое значение. Контекстный анализ поэтому чаще всего используется при семантическом анализе слов.

Наиболее известные приемы контекстной методики: прием семан-тико-синтаксического контекста Александра Афанасьевича Потебни, стратификационный прием школы Фёрса — Холидея и прием операционного контекста, предло-женный Геннадием Владимировичем Колшанским.

Основными типами приемов описательного метода являются:

Лингвостатистический метод.

Для лингвистического исследования актуальным является философское положение о том, что предмет, не отра­женный в аспекте количества, не может считаться конкретно познанным и что наука вообще достигает совершенства лишь там и в той мере, в какой ей удается взять на вооружение математику.

Категория количества в языке связана с установлением количе­ственных изменений, вызывающих качественные преобразования языковых явлений. Именно действие в языке закона перехода ко­личественных изменений в качественные служит важнейшим ус­ловием выявления в нем его закономерностей. В связи с этим ос­новной задачей количественного метода в языкознании является раскрытие закономерностей функционирования единиц языка и речи, а также установление закономерностей построения текста. Теоретическое обоснование этого метода и создание алгоритмов его практического применения в языкознании — предмет особой отрасли науки о языке, получившей название лингвостатистики.

Возможность применения лингвостатистического метода в языкознании обусловлена природой и сущностью языка. Язык как система представляет собой совокупность взаимо­связанных дискретных (членимых) единиц, обладающих ко­личественными характеристиками.

Количественные характеристики языковых единиц (и их эле­ментов) одного уровня формируют качественное своеобразие единиц другого уровня. Так, язык с десятью фонемами обра­зует иное количество звуковых «оболочек» морфем и слов, чем язык с пятьюдесятью фонемами.

Язык имеет вероятностный характер. Так, для образования слов используется незначительная часть возможных комбинаций фонем и морфем. В этом выражается действие вероятностных ограничений в сочетании фонем и морфем.

Лингвостатистический метод применим для изучения как языка, так и речи. Однако, количествен­ные характеристики в системе языка не тождественны их количе­ственным отношениям в речи. Дело в том, что на речь влияют не только законы языка (и, прежде всего, закономерности строения языковых единиц, закономерности их речевой реализации), но и законы сочетаемости языковых единиц в речи, законы жанра, тема высказывания, идиостилистические особенности речи и т.п. Характер воздействия этих факторов предсказать сложно. Однако если они регулярно повторяются при одних и тех же условиях, то их все же можно объяснить, раскрыть закономерности появления в речи того или иного элемента с помощью лингвостатистики.

Основные понятия лингвостатистики.

Согласно философской категории всеобщей связи, между явле­ниями языка и речи существуют определенные связи и зависимо­сти. Обычно различают два вида зависимости — функциональную (динамическую) и статистическую. Функциональная зависимость состоит в том, что одному языковому явлению соответствует дру­гoe определенное явление. Такого же рода зависимость присуща многим физическим явлениям. Повышение температуры — жидкое состояние воды; понижение температуры — ее кристаллизация. Функциональные зависимости дают точные определения установ­ленным закономерностям, то есть могут быть сформулированы как закон. Например: «Вода при температуре ниже О º С превращается в лед».

При статистической (вероятностной) зависимости одному явлению или свойству языка могут соответствовать несколько явлений или свойств. Например: между числом значений слова в словаре и частотой его употребления в речи (тексте) существует определенная статистическая зависи­мость. Это значит, что выявленному числу значений того или иного слова не обязательно соответствует строго определенная частота употребления этого слова.

Такие нестрогие соответствия между качественной и количе­ственной характеристикой языкового явления получили назва­ние корреляций. Термин корреляция имеет два значения: 1) обще­научное — «соотношение, соответствие, взаимосвязь, взаимоза­висимость явлений» и 2) в лингвистической статистике — такая связь между языковыми явлениями, при которой одно из явле­ний входит в число причин, определяющих другие, или когда имеются общие причины, воздействующие на эти явления.

В ма­тематической статистике существует несколько видов корреля­ции. В лингвистике обычно используют линейную корреляцию, согласно которой возрастание значений одного признака сопро­вождается возрастанием или убыванием значений другого при­знака. В такой линейной корреляции могут находиться, напри­мер, лексико-семантические варианты слова и частота встречае­мости слова в речи (в тексте). Если при возрастании значений одного признака возрастают значения другого, то устанавливает­ся так называемая положительная корреляция. Если же при возра­стании значений одного признака значения другого признака убы­вают, то налицо отрицательная корреляция.

Число, показывающее степень тесноты корреляции, называ­ется коэффициентом корреляции (это число находится между -1 и 1). Иными словами, коэффициент корреляции за­ключается от нуля до единицы со знаком «плюс» или «минус»: -1 ← 0→ +1. Если между исследуемыми признаками нет никакой статистической зависимости, величина коэффициента будет равна нулю или близка к нему. И наоборот, сильную зависимость между наблюдаемыми явлениями следует констатировать тогда, когда величина коэффициента приближается к 1 или -1. Величи­на коэффициента здесь указывает на степень связи между наблю­даемыми языковыми явлениями, а его знак (плюс или минус) — на характер самой корреляции. Как же исчисляется коэффициент корреляции?

Статистика располагает несколькими способами. В лингвисти­ке обычно используют для этого формулу:

r = Σ (x i - x)(у i - у)

√ Σ (x i - x) 2 i - у)2

где r - коэффициент линейной корреляции; Σ - суммирование получаемых в результате той или иной операции величин; х i - значение первого знака; у i - значение второго знака; х - средняя (теоретическая) величина первого признака; у - средняя вели­чина второго признака. Величины х i - х и у i - у обозначают от­клонения полученных нами величин от средних.

Покажем технику вычисления r на конкретном примере. Пред­положим, что мы произвели выборку десяти репрезентаций одного и того же явления в текстах двух авторов (А 1 и А 2) и получили сле­дующие частоты их встречаемости:

Наблюдаемое явление Выборка-1 Выборка-2 Всего
Всего

По формуле исчисления r находим х и у:

х = 275:10 = 27,5, а у = 325:10 = 32,5.

Теперь произведем действия в числителе: (5 - 27,5) (10 - 32,5) +-(10 - 27,5) (15 - 32,5) + (15 - 27,5) (20 - 32,5) + (20 - 27,5) (25 - 32,5) + (25 - 27,5) (30 - 32,5) + (30 - 27,5) (35 - 32,5) + (35 - 27,5) (40 - 32,5) + (40 - 27,5) (45 - 32,5) + (45 - 27,5) (50 - 32,5) + (50 - 27,5) (55 - 32,5) = 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5.

Соответствующие действия в знаменателе представим подоб­ным же образом: 1) в первой выборке: 506,25 + 306,25 + 156,25 + 56,25 + 6,25 + 6,25 + 56,25 + 156,25 + 306,25 + 506,25 = 2062,5;

2) такой же результат получим и по второй выборке — 2062,5; 3) √ 2062,5 х 2062,5 = 4253906,2.

Коэффициент r = + 062,5 : 4253906,2 = + 0,0004848.

Коэффициент показывает, что корреляция между наблюдае­мыми выборками крайне слабая, хотя и положительная.

Однако окончательные выводы делать рано. Как полагает математическая лингвистика, коэффициент корреляции — величина в известной степени случайная. Для определения необходимой степени надеж­ности получаемых величин пользуются понятиями «доверительная вероятность» (коэффициент доверия) и «уровень значимости» (коэффициент надежности). Под коэффициентом надежности принято считать 95%, когда вероятность допущенной ошибки равна 5%. Кроме того, существует еще уровень значимости — величина, дополняющая коэффициент надежности до 1. Так, при доверительной вероят­ности р = 0,95 уровень значимости 1 - р = 0,05. Именно при таком уровне значимости результаты лингвистического анализа считаются достаточно надежными.

Уровень значимости и обусловливаемая ею доверительная ве­роятность определяется исследователем для установления пара­метров случайных величин. Соответствие между ними определя­ется по специальным статистическим таблицам (они прилагают­ся в учебниках и справочниках по статистике).

Итак, в лингвистике установлено: частота появления тех или иных языковых элементов в речи подчиняется определенным стати­стическим законам (закономерностям).

Статистические законы вероятностны потому, что они лишь предсказывают свойства языковых элементов. Однако они про­гнозируют вероятность появления наблюдаемых свойств только в известном диапазоне (от — до), поскольку используются каждый раз в новом количественном измерении (хотя и в пределах извест­ной средней величины). Статистические законы распространяются на те языковые явления, которые испытывают влияние множества факторов (причин). Такие факторы не только многочисленны, но и многовекторны (разнонаправлены). Они взаимодействуют между собой неоднозначно, и поэтому результаты их взаимного воздей­ствия колеблются вокруг некой средней величины.

Располагая известной гипотезой о действии некоторого ста­тистического закона, можно говорить о вероятности соответствую­щего языкового явления. В нестрогом терминологическом упот­реблении вероятность представляет собой долю исследуемого эле­мента (явления) в ряду однородных, долю, ожидаемую по имеющейся у исследователя гипотезе. Исчисляется вероятность (Р) отношением числа появлений изучаемого явления в речевом по­токе (а) к числу всех других явлений (b) по формуле Р= а: b.

Сама вероятность закономерна. Действие статистического за­кона выражается именно в сохранении установленной ранее ве­роятности. Измерение вероятности языкового явления ведет к изменению статистического закона.

Наблюдения за действием статистических законов, то есть за ве­роятностью языкового явления, осуществляются при помощи по­нятий «частота», «средняя частота», «отклонение от средней часто­ты».

Простейшим из них является «частота» языкового элемента (или явления), под которым понимается число его появлений в на­блюдаемом речевом отрезке. Это так называемая выборочная часто­та, то есть абсолютное (не обработанное) количество употреблений изучаемого элемента в тексте. Выборочные частоты в абсолютном выражении недостаточно информативны, поскольку не способ­ны дать достоверное представление о вероятности изучаемого яв­ления (элемента) и тем более не позволяют сформулировать ста­тистический закон. Так, зная, что в текстах одинакового объема В. Ерофеева жаргонизмы встречаются 800 раз, а в тек­стах Б. Акунина — 400, нельзя вывести вероятность жаргонизмов в современной художественной прозе и сформировать соответ­ствующий статистический закон.

Л-ингвостатистический метод задал новые стимулы для развития лингвистической типологии. Впервые идею количественного исследования типологически раз­ных языков высказал Джозеф Гринберг. Сравнивая отрывки текста одной и той же длины, составленные на разных языках, можно установить степень сходства или различий в строении этих языков. Об этом свиде­тельствуют количественные отношения между словами обследуе­мых текстов и компонентами их морфологического строения.

Количественные характеристики словарного состава в разных стилевых и авторских разновидностях речи в настоящее время широко используются в лексикологии и стилистике. Количествен­ное описание подъязыков науки и техники используется для ав­томатической обработки языковой информации (создания инфор­мационно-поисковых систем и программ для машинного рефе­рирования текстов), а также в методике преподавания языков.

Наиболее распространенными приемами лингвостатистического методаявляются:

А) Лексикографическая статистика (закон Ципфа — Мандельброта).

методы лингвистических исследований - student2.ru Джордж Ципф (1902-1950), профессор Гарвардского ун-та

Лексикографическая статистика -— это теория и практика состав-ления частотных словарей. Составление частотных словарей поставило ряд практических и теоретических задач. Было замечено, что при достаточно боль-шом количестве текстов около 80% его занимают две тысячи самых употребительных (частотных, активных) лексем.

Изучая отношение частоты и ранга (порядкового номера в частотном словаре), американский лингвист Джордж Ципф в 1949 г. установил прямую их зависимость: r х f = с (то есть ранг х частоту = слово).

В 1954 г. американский математик Бенуа Мандельброт предложил уточненную формулу: Рr = Р (r + р) -b, где r — номер слова в списке по убывающим частотам, Рr — относительная частота (вероятность), а Р, р, b — константы данного текста.

Более детальная проверка закона Ципфа — Мандельброта об-наружила его относительность: константы оказались зависимыми от стиля, жанра, эпохи и т. п. Так

Наши рекомендации