Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика 125


Корпусная лингвистика 125



употреблений каждый, представляющих тексты различных типов, опу­бликованные в 1968 г. Объем корпуса — 1 млн словоупотреблений. Хотя внешне LIMAS-корпус идентичен Брауновскому, жанровая классифика­ция текстов LIMAS-Kopnyca существенно отличается от него. В основу жанровой классификации положена тематическая классификация пред­метных областей, принятая в Немецкой библиографии за 1971 г. Всего было выделено 33 области; наиболее значимые из них — религия, куль­тура, право, политика/управление, общество, экономика, литература, искусство, история, география, медицина, техника, беллетристика. Отту­да же заимствованы и пропорции представления текстов. LI MAS-корпус считается представительным для современного немецкого языка.

Корпусы текстов немецкой разговорной речи.Создание разговорных корпусов текстов в Германии началось довольно давно. Разумеется, исход­ная форма хранения корпусов разговорной речи — запись на магнитной ленте. Однако в последующем акустическая форма переводилась в фоне­тическую транскрипцию. Полный вариант фонетической транскрипции из-за сложности транскрибирования и восприятия пользователем оказал­ся неудачным. В результате нескольких опытов графической фиксации разговорной речи выработался неполный вариант фонетической транс­крипции, сохраняющий некоторые особенности произношения и отража­ющий последовательность и/или одновременность произнесения речевых актов. В сокращенном варианте фонетической транскрипции использо­вались средства фиксации интонации, диалектных черт произношения, степени разборчивости речи и т. п. Неполный вариант фонетической транскрипции существует в двух нотациях — драматургической и парти­турной. Драматургическая нотацияпредусматривает оформление реплик участников диалога как персонажей пьесы, причем «режиссерские» ре­марки указывают на характер наложения реплик говорящих друг на друга, темп речи, громкость и пр. Партитурная нотация,считающаяся более удачной, строится как музыкальная партитура, но вместо инструментов выступают участники коммуникации. Это позволяет более точно отразить процесс общения в абсолютном измерении (на временной оси) и в отно­сительном измерении, характеризующем речь участников коммуникации в сравнении друг с другом [Menge 1993]. Чисто технически партитурная нотация требует большей точности и более сложна в написании. Однако использование специальных средств компьютерной поддержки позволя­ет упростить создание партитурных транскриптов речи. Таким образом, графическое представление разговорной речи в настоящее время уже не является такой сложной технологической проблемой, как раньше.

Хотя в области графической фиксации устной речи даже при отсут­ствии единого и обязательного для всех стандарта достигнут некоторый прогресс (связанный прежде всего с наличием прецедентов), то в описа­нии невербальной составляющей естественноязыковой коммуникации — чрезвычайно важной для обыденной речи — царит полнейший произ­вол, что затрудняет дальнейшее продвижение в этой области. Проблема

невербального в общении осложняется еще и тем, что относительно лин­гвистической релевантности тех или иных невербальных компонентов естественного диалога нет единого мнения, как нет и общепризнанной теории невербальной коммуникации.

К числу наиболее известных корпусов текстов немецкой разговорной речи можно отнести «Корпус базового немецкого» (Grunddeutsch-Korpus), который начал создаваться с 1961 г. в Стэнфорде (Institute for Basic Ger­man). Метод сбора материала предполагал охват всех основных областей функционирования немецкого языка. Всего в корпусе содержится 401 ин­тервью, средней продолжительностью 12 мин. (общая продолжительность звучания — около 80 часов). Записи производились в 36 городах ФРГ и 10 городах ГДР, шести городах Австрии и четырех городах Швейцарии. Методика сбора материала не давала возможности получать по-настоя­щему естественный диалог, поскольку ситуация общения искусственно конструировалась: эксплицитно задавалась тема коммуникации, участ­ники диалога были информированы о целях опроса и т. д. Письменный вариант корпуса, созданный на основе полной транскрипции, а затем (для упрощения восприятия) приближенный к орфографической норме, был опубликован в 1984 г. [Pfeffer, Lohnes 1984]. Книга, кроме собственно текстов, включает приложения, в которых указаны результаты предвари­тельной обработки (список «фонетических маркеров хезитации», частот­ный список словоформ, список незавершенных высказываний и т.д.). Корпус существует также и в компьютерной форме. Существенно, что «Корпус базового немецкого» доступен для исследователя и в фонетиче­ской, и в письменной, и в компьютерной форме.

«Саарбрюккенский корпус», опубликованный в 1987 г. [Rath, Immeis-berger, Schu 1987], содержит транскрипции речи (диалоги с интервьюером) итальянских, турецких и немецких детей. Цель создателей корпуса состо­яла в демонстрации особенностей спонтанного овладения вторым языком в детском возрасте. Записи речи немецких детей привлекались как эталон для возможного сравнения. Всего записан 231 час, а опубликовано около 36 часов звучания. О компьютерном аналоге этого корпуса информация

отсутствует.

Та же проблемная область — детская речь — представлена в «Дорт-мундском корпусе спонтанной детской речи» (DOКО). Корпус включает тринадцать подкорпусов; каждый подкорпус представляет собой запись речевого поведения одного и того же ребенка в нормальных жизненных ситуациях. Запись, как правило, производилась родителями, которые вели подробный протокол условий протекания коммуникации. По результа­там обработки Дортмундского корпуса был создан словарь словоформ, характеризующий речевую активность каждого ребенка. Материалы кор­пуса доступны как в акустической записи, так и в компьютерной форме. Дортмундский корпус является частью международного банка данных «Система обмена данными по детской речи», хранящегося на психо­логическом факультете университета «Карнеги-Меллон» в Питтсбурге

Наши рекомендации