Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика
Корпусная лингвистика
(США) и в Институте психолингвистики им. Макса Планка в Неймегене (Нидерланды) [Mac Whinney 1991; Mac Whinney, Snow 1985].
Проблемная область Фрейбургского корпуса — обыденная и официальная речевая коммуникация. Фрейбургский корпус, создававшийся с 1968 по 1974 гг., состоит из двух частей. Первая часть — «Корпус основных структур» (224 текста, из которых 80 текстов опубликовано [Texte gesprochener deutscher Standardsprache 1971-1979]), вторая часть — «Корпус диалоговых структур» (72 текста). Для опубликованных фрагментов корпуса был разработан специальный транскрипционный формат представления. В настоящее время Фрейбургский корпус на машинных носителях находится в Институте немецкого языка в Мангейме. Имеющееся программное обеспечение позволяет удовлетворять самые различные запросы — по частоте слов и словоформ, по совместной встречаемости в рамках предложения, абзаца, текста и пр.
Существенно, что Фрейбургский корпус объединяет тексты двух различных типов. К первому типу относятся тексты радио- и телевизионных передач, предполагающих свободное ведение коммуникации — интервью, дискуссии и репортажи. Разумеется, свобода порождения текстов такого рода весьма относительна, поскольку часто первичным для них является письменный сценарий. Второй тип — записи спонтанных бесед, которые в ряде случаев производились без предварительного предупреждения. В этом отношении Фрейбургский корпус оказывается чрезвычайно ценным, поскольку с этической точки зрения запись речи без предупреждения говорящего не вполне корректна и считается противоправным действием, что затрудняет получение таких данных.
Кроме рассмотренных выше чисто текстовых корпусов, в Германии представлены также корпусы, которые условно можно было бы назвать мультимедиальнымиили мультимедийными.Корпусы такого рода, кроме текстовой составляющей, включают видеозаписи процесса коммуникации с привязкой к тексту. Примером такого корпуса может служить созданный на секции психоаналитических методов университета Ульма корпус терапевтического дискурса [Mergenthaler 1986]. Корпус состоит из видео- и аудиозаписей бесед, отражающих различные формы и методы психоанализа (парная терапия, семейная терапия, групповая терапия, анализ снов и пр.). Объем корпуса 8,2 млн словоупотреблений. Хотя этот корпус создавался не для лингвистов, тем не менее он представляет значительный интерес для лингвистических исследований различного рода, в том числе для проведения работ в области дискурс-анализа. К сожалению, для российской лингвистики мультимедиальные корпусы пока остаются красивой мечтой. Они требуют, кроме наличия чисто технических возможностей, затрат значительных ресурсов времени. Однако перспективность корпусов такого рода для исследования взаимодействия вербальной и невербальной составляющей естественного диалога не вызывает сомнений.
Корпусы письменных текстов немецкого языка.Сейчас в распоряжении лингвистов имеется значительное количество текстов в машиночитаемой форме. Это, однако, не приводит автоматически к появлению хороших корпусов текстов — коллекций текстов, отобранных по фиксированным параметрам, которые определяются некоторой исследовательской задачей. В немецкой традиции принципы отображения проблемной области в корпусе текстов в явном виде не обсуждаются. Большая часть корпусов образует замкнутые множества текстов — совокупность произведений одного автора на машинных носителях с необходимой компьютерной поддержкой [Kammer 1993]. В Мангейме в Институте немецкого языка представлены на машинных носителях корпусы текстов Томаса Манна и Гёте; в Бонне имеется также корпус текстов Канта, в Аахене/Зигене — корпусы текстов Гельдерлина, Клейста и Новалиса. К сожалению, точного и полного описания этих корпусов обнаружить не удалось.
Кроме корпусов художественных текстов, в Институте немецкого языка в Мангейме в распоряжении исследователей имеются: 1) Боннский корпус газетных текстов, объемом в 3 млн словоупотреблений (в качестве единицы хранения выступает текст всего номера газеты); 2) Корпус текстов справочников (Handbuchkorpora, около И млн словоупотреблений); 3) два корпуса текстов различных типов (Mannheimer Korpora I & II); 4) так называемый LIMAS-корпус (LIMAS сокр. от Linguistische und MAschinelle Sprachubersetzung). Последний корпус состоит из 500 подкорпусов по 2 000 словоупотреблений каждый, представляющих тексты различных типов, опубликованные в 1968 г.
Все эти корпусы имеются на машинных носителях, что позволяет, используя необходимое программное обеспечение, проводить обработку массивов текстов по различным параметрам. Так, например, возможен поиск на любую комбинацию слов в рамках любого фрагмента корпуса (строки, предложения, абзаца, главы и т.п.). Имеющаяся система лемматизации дает возможность пользователю не перечислять всех словоформ слова при поиске, что особенно важно для глаголов. Лемматизация позволяет, кроме того, осуществлять поиск разрывных составляющих.
Значительный интерес представляет «Wendekorpus», занимающий промежуточное положение между корпусами разговорной речи и письменных текстов [Teubert 1990]. Он включает, с одной стороны, газетные и журнальные тексты, а с другой — транскрипты интервью, круглых столов, радиодискуссий и т. п. Объем корпуса — 3,3 млн словоупотреблений. Проблемная область корпуса — тексты публичной политики за период 1989-1990 гг., касающиеся политических изменений в бывшей ГДР и объединения Германии. Наполовину корпус состоит из текстов средств массовой информации бывшей ГДР, наполовину — из текстов средств массовой информации ФРГ. «Wendekorpus» находится в Институте немецкого языка в г. Мангейм и доступен для работы по Интернету в режиме on-line.