Фонетический аспект порождения речи
Мы не будем останавливаться в настоящем разделе на традиционном представлении о механизмах фонации. Такого рода сведения можно найти в любом учебнике. Поэтому мы ограничимся изложением некоторых новых исследований, приведших к частичному или полному пересмотру наших представлений в этой области.
Одно из этих исследований, касающееся преимущественно процессов иннервации голосовых связок, принадлежит французскому физиологу Раулю Хюссону [108]. Ему удалось доказать, что в процессе фонации голосовые связки не являются пассивным звеном, иначе говоря, что колебательный ритм не навязывается им экспирацией, но обеспечивается специфической иннервацией со стороны головного мозга. Данные Хюссона представляют особый интерес в свете проблемы восприятия речи.
Другое важное исследование принадлежит советскому психологу Н. И. Жинкину [21 и др.]. Основные его результаты сводятся к тому, что в фонации принимают участие две основных физиологических системы, образующие «статический» и «динамический» компоненты речевого механизма. «Динамический» компонент — это механизм слогообразующий, а в конечном счете — форми<353>рующий синтагматическую звуковую структуру слова; образование слова Н. И. Жинкин относит за счет модуляций глоточной трубки. «Статический» компонент обеспечивает семантическое тождество и различение звуковых структур слов. Это, прежде всего, фонемный, артикуляционный механизм. «Без статических элементов речь потеряла бы смыслоразличительную функцию, а без слоговой динамики она просто не может осуществиться в звуковом произнесении» [21, 348].
Фонация организована, по Жинкину, следующим образом. «От моторной зоны коры речедвигательного анализатора при произнесении слова идет поток импульсов по пирамидному пути к языку. Системность этого потока подготовлена предшествующим речевым опытом и определена условнорефлекторными связями, организованными в совместной деятельности слухового анализатора и премоторной зоны речедвигательного анализатора. Одновременно от премоторной зоны речедвигательного анализатора такой же поток импульсов поступает по экстрапирамидным путям... к глотке. Так как глотка вместе с полостью рта составляет одну надставную, резонаторную трубку, в которой образуется качество речевого тембра, то объем потребного для фонации данного речевого звука воздуха определяется именно здесь, в глоточном резонаторе. Для перешифровки объемов глоточного резонатора и учета их возникает необходимость всесторонней афферентации. Движения глотки афферентируются: а) в премоторную зону, где сосредоточивается анализ и синтез выучки (т. е. динамических «индексов», закрепляемых за определенными звуками в словесном стереотипе. — А. Л. ); б) в слуховой анализатор, который осуществляет контроль за акустическим результатом произнесения; в) в таламическую и гипоталамическую области, возбуждение которых вызывает бронхиальную перистальтику... Изменяющийся просвет бронхов, в свою очередь, афферентирует дыхательный центр, который, соответственно требуемым объемам глоточного резонатора, вводит в действие дыхательные мышцы...» [22, 262]. Имеется, следовательно, два уровня регулирования фонационного процесса: подкорковый, автоматический, и корковый, неавтоматический, т. е. сознательная регуляция.
В работах Н. И. Жинкина впервые в нашей физиологии речи широко применялась методика рентгенокиносъемки. Такого рода исследования несколько позже производились и за рубежом (см. [148; 129]).
Остановимся на некоторых других методах исследования фонации. Здесь следует назвать (кроме традиционных) метод рентгенографии; метод стробоскопической съемки, в последнее время использованный Фудзимурой, но впервые примененный еще в 1913 г. [103]; близкий к нему метод съемки «ультра-рапидом», впервые использованный В. Эрриотт в 1938 г.; различного рода электромиографические исследования, осуществлявшиеся как<354> у нас в стране, так и за рубежом [29]; метод регистрации микродвижений органов речи [76] и т. д. Однако все без исключения эти методы имеют лишь весьма ограниченную ценность, ибо ни один из них не позволяет достаточно полно зарегистрировать все релевантные особенности действия фонационного аппарата и представить в единой, доступной анализу картине одновременную активность различных его частей.
Поэтому, поставив перед собой задачу исследования на современном уровне знаний процесса фонации и процесса восприятия речи, ленинградский физиолог Л. А. Чистович вынуждена была разработать и принципиально новую методику экспериментального исследования. Важнейшим компонентом такой методики явился метод «динамической палатографии», позволяющей регистрировать при помощи системы электродов, размещенных на искусственном небе, динамику движений языка. Кроме того, на той же осциллограмме, на которой регистрировались потенциалы, снятые с этих датчиков, регистрировались также: скорость потока воздуха, выходящего изо рта и из носа; внутриротовое давление, дыхательное движение (методом пневмографии); артикуляторные движения губ (методом измерения электрического сопротивления при помощи датчика с контактом); деятельность голосовых связок (при помощи ларингофона). Наконец, параллельно велась и обычная микрофонная регистрация с дальнейшим спектральным анализом.
Опираясь на такую комплексную методику, позволявшую одновременно и непрерывно получать 11 показателей, характеризующих поток речи, Л. А. Чистович добилась существенных успехов. Вот важнейшие из полученных ею результатов.
- «... Если мы... рассматриваем синтагму как последовательность слогов, то ее ритмический рисунок оказывается инвариантным... Отсюда естественно сделать вывод, что в программе синтагмы ритмически организованными являются слоговые команды, т. е. команды, вызывающие осуществление всего слогового комплекса движений. Развертывание слога в последовательности звуков речи происходит уже по каким-то собственным законам» [85, 96].
- «Для синтеза (записи) артикуляторной программы слова используются два раздельных блока (системы). В одном из блоков записываются указания только о том, когда нужно совершать движения. Во втором блоке содержатся перечисления необходимых движений и указание их последовательности. Работа блока, обеспечивающего временной рисунок, состоит в выработке ритмической последовательности импульсов, которые не имеют конкретных адресов» [85, 119].
- «Простейшим и основным артикуляторным комплексом является слог СГ. Более сложный слог типа ССГ представляет собой систему из этих простейших комплексов, построенную та<355>ким образом, что второй из этих комплексов может осуществляться частично параллельно с осуществлением первого» [85, 157].
Остановимся на проблеме дифференциальных признаков. Как известно, сама идея дифференциального фонетического признака восходит к работам И. А. Бодуэна де Куртенэ и, в частности, к выдвинутым им понятиям акусмы, кинемы и кинакемы. Акусма — это «представление акустического впечатления, вызываемого далее не разложимым произносительно-слуховым элементом, например, губной артикуляцией...»; кинема — «представление простейшего, далее психически не разложимого произносительного элемента, например, губной артикуляции...»; кинакема — «двусторонний простейший психический произносительно-слуховой элемент...Имеет место в тех случаях, когда акустический результат совпадает с вызывающим его движением органов речи» [8, 310].
В этих определениях, данных Бодуэном, намечены оба направления дальнейшей разработки идеи дифференциальных признаков в мировой науке — акустическое и артикуляционное. Первое из них представлено циклом работ, открытым монографией Р. Якобсона, Г. Фанта и М. Халле «Введение в анализ речи» [112; 113]. Идея Якобсона и его соавторов заключается в том, что для различения значимых единиц языка (морфем) слушающий использует набор элементарных акустических признаков. В основу выделения таких признаков положен дихотомический принцип. Фонема рассматривается как пучок таких признаков, ей приписывается своего рода матрица признаков, где клетки заполнены плюсами, минусами или нулями. Когда в конце 50-х гг. получила широкое распространение трансформационная модель языка, дихотомическая теория дифференциальных признаков вошла в нее как составная часть, описывающая «фонологический компонент» этой модели.
С самого начала концепция Якобсона вызвала ряд возражений. Указывалось, что дифференциальные признаки, если и поддаются отождествлению на спектрограмме, то остаются не определенными артикуляционно. Ставилась под сомнение и правомерность дихотомического принципа в теории дифференциальных признаков и т. д. В настоящее время вопрос как будто решился в сторону непризнания дифференциальных признаков реальными компонентами фонации и восприятия речи. Доказано, что между акустическими и артикуляционными характеристиками потока речи нет однозначного соответствия [120], нет такого соответствия и между дихотомической (якобсоновской) системой дифференциальных признаков и артикуляционными признаками звуков речи [9], так что наиболее правильным будет представлять дифференциальные признаки «в виде абстрактной системы, которая лишь опосредствованным образом соотносится с физическими данными» [26,171].<356>
«Артикуляционное» направление в теории дифференциальных признаков представлено группой американских работ, вышедших из Хаскинских лабораторий, и работами лаборатории Л. А. Чистович. Основное расхождение между американскими и советскими работами заключается в том, какой сегмент потока речи рассматривается как различаемая (или, напротив, синтезируемая) единица. Американские исследователи под руководством А. Л. Либермана считают такой единицей слог; Л. А. Чистович и ее сотрудники полагают, что в этой роли выступает слово.
Благодаря новой методике, разработанной в лаборатории Чистович, удалось составить список артикуляционно-акустических дифференциальных признаков, реально используемых в процессе анализа (синтеза) русской речи.
Отмеченное выше наличие двух направлений в исследовании дифференциальных признаков соотнесено с двумя направлениями в теории восприятия речи, существование которых было впервые отмечено Э. Фишер-Иоргенсен — акустическим и моторным [102].
Традиционная «акустическая» трактовка восприятия речи исходила из того, что поток речи воспринимается пофонемно, причем за каждой фонемой закреплены некоторые инвариантные признаки. Именно на такую трактовку опирался Якобсон в своей теории дифференциальных признаков. Однако основные предпосылки модели Якобсона не оправдались. Во-первых, обнаружилось, что информация о каждой данной фонеме не сосредоточена в одном звуке речи, а разбросана по нескольким. Во-вторых, оказалось, что переходы от звука к звуку несут не меньшую, а в ряде случаев более важную для распознавания информацию, чем так называемые «стационарные участки».
Противопоставленная акустической «моторная» теория восприятия предполагает, что в процессе восприятия происходит текущая артикуляционная имитация воспринимаемых звуков. Сама идея такой имитации (в типичном случае ограничивающейся соответствующей иннервацией) в науке не нова; в частности, она высказывалась О. Есперсеном [116, 20], а у нас в стране — А. А. Потебней, А. Л. Погодиным и П. П. Блонским. В последние годы она все чаще встречается на страницах научных книг и статей. Особенно ярыми пропагандистами «моторной» теории восприятия являются психологи из группы А. Либермана, один из которых, П. Делатр, прямо заявлял, что «звуковая волна воспринимается не прямо, а опосредствованно, путем соотнесения ее с артикуляторным движением» [100, 248]. Сторонником «моторной» теории в нашей науке является Л. А. Чистович.
Однако «моторная» теория отнюдь не общепринята в современной науке. Даже те, кто, как М. Халле, считают возможным говорить об «анализе через синтез» при восприятии речи, не обязательно распространяют эту концепцию на восприятие звуковой стороны речи. Что же касается таких активных сторонников<357> «акустической» теории, как Р. Якобсон, то они вообще считают наличие артикуляторного компонента в восприятии факультативным [111].
Рассмотрим эту проблему в двух планах; во-первых, с точки зрения того, какая из двух концепций более соответствует общепсихологическим данным; во-вторых, поставим вопрос, насколько обе концепции непримиримы и нельзя ли найти какой-то компромиссный путь.
Нет сомнения, что в целом «моторная» теория гораздо больше соответствует нашим современным знаниям о процессе восприятия вообще, нежели теория «акустическая». Существует (и в особенности — в советской психологии) целый ряд работ, убедительно показывающих роль моторного компонента в осязании и зрении [24; 43]. Общая теория восприятия, разработанная советским психологом В. П. Зинченко, включает в себя представление о встречной активности организма относительно воспринимаемого объекта; недаром его доклад на XVIII Международном психологическом конгрессе в Москве летом 1966 г. назывался «Восприятие как действие». Особенно существенны с точки зрения восприятия речи данные о звуковысотном слухе человека, так как обе способности — слух речевой и слух звуковысотный — являются специфически человеческими и генетически тесно связаны. Экспериментальное изучение высотного слуха «показало, что решающая роль в восприятии собственно высоты звука принадлежит моторному компоненту данного процесса» [57, 18].
Однако такой решительный вывод не влечет за собой обязательного участия моторного компонента во всех мыслимых случаях восприятия речи. Дело в том, во-первых, что сторонники двух соперничающих теорий в своей полемике недостаточно учитывают принципиальное различие физиологических функций речи, о котором шла речь выше; между тем оперирование с речью как первосигнальным раздражителем встречается в практике речевого общения и, в частности, восприятия речи гораздо чаще, чем это на первый взгляд кажется. Во-вторых, недостаточно учитывается факт отсутствия обязательной связи между системой восприятия речи и артикуляционной системой, т. е. возможность опоры на неадекватный моторный компонент, показанная в опытах А. И. Иошпе, выполненных под руководством О. В. Овчинниковой. В этих опытах моторный компонент звуковысотного восприятия был модифицирован: вместо того, чтобы формировать звуковысотный слух с опорой на деятельность голосовых связок, как это происходит обычно, для этой цели использовалась установка, где разным высотам приводилась в соответствие различная сила нажатия на клавишу. Оказалось, что выработка звуковысотного слуха от этого не страдает.
В-третьих (и это едва ли не самое главное), восприятие речи — это в большинстве случаев не первичное ознакомление с ее свой<358>ствами. Когда же такое ознакомление произведено, то «возможно осуществление опознавательного (и репродуктивного) действия. Однако в этом случае опознавательное действие опирается на иную систему ориентиров и признаков... По мере ознакомления с объектом наблюдатель выделяет в нем новые признаки, группирует их, часть из первоначально выделенных признаков отсеивает...» [24, 252—253]. Далее он объединяет отдельные признаки в своего рода структуры, целостные образы, которые и становятся оперативными единицами восприятия. Если так или примерно так происходит дело и с восприятием речи (а у нас нет оснований в этом сомневаться), то, по-видимому, окажется, что обе существующие теории слишком упрощают этот процесс.
Наконец, следует иметь в виду и тот факт, что один и тот же процесс может быть обеспечен как «структурным», так и статистическим механизмом [24, 254—256]. Это касается и более сложных процессов, связанных с восприятием речи, в частности — восприятия и понимания целых предложений. К вопросу о таком восприятии (и понимании как его части) мы сейчас и переходим.
Оно исследовано значительно хуже, чем восприятие фонетической стороны речи. Существует две основных концепции восприятия на уровне предложения: одна из них представлена концепцией «грамматики для слушающего», разработанной, в частности Ч. Хоккетом, другая развивается в русле идей «порождающей грамматики». По Хоккету, «слушание не включает операций, которые не входили бы в говорение; но говорение включает все операции, входящие в слушание, плюс логические операции обозрения будущего и выбора» [81, 165]. При этом операции, входящие в слушание, представлены, по Хоккету, в виде стохастического (марковского) процесса: «грамматику для слушающего можно было бы рассматривать как марковский процесс с бесконечным числом состояний» [81, 163]. Что касается «порождающей теории», представленной прежде всего известной работой М. Халле и К. Стивенса [106], то она в известном смысле противоположна, так как предполагает, что восприятие речи включает в себя правила порождения речи плюс правила соотнесения результатов этого порождения с сигналами на входе. В строгом смысле, как пишет об этой концепции Дж. Миллер, это «теория для носителя языка, а не для одного только говорящего или одного только слушающего» [125, 296].
Теория «анализа через синтез», хотя и пользуется большей популярностью, чем другие теории восприятия, не способна объяснить многое в процессе восприятия речи. Непонятно, прежде всего, какую роль в такой модели играет контекст, а значение кон текста для восприятия речи, как показывают многочисленные экс перименты (см. [94]), огромно. Необъяснимы многие ранее полученные данные о вероятностной структуре восприятия. По-видимому, истина лежит где-то посредине, и ни структурный компо<359>нент («анализ через синтез»), ни вероятностный не могут быть исключены из будущей модели восприятия речи.
В заключение настоящего раздела остановимся на одной частной проблеме, имеющей, однако, большое практическое значение. Речь идет о восприятии малознакомого или вовсе незнакомого языка и возникающих при этом явлениях. Безусловно установлено, что восприятие чужого языка происходит, так сказать, через призму родного: иными словами, мы «категоризуем» воспринимаемую нами речь, приписываем ей определенную структурность постольку, поскольку такая категоризация свойственна нашему родному языку. Так, звуковые различия, которых нет в фонологической системе, скажем, русского языка, не будут восприняты русским в иноязычной речи без специальной тренировки [63].
По-видимому, эти данные объективно подтверждают «моторную» точку зрения; однако они еще не получили вполне адекватной психологической интерпретации.