Глава 3. Оптимизация эпистемической функции языка. Корпусная лингвистика 121


Корпусная лингвистика 121



Имеющиеся компьютерные программы, ориентированные на обра­ботку корпуса текстов, строятся по двум основным стратегиям. В первом случае программа порождает для текста комплекс указателей, в частно­сти, указатель словоформ, в котором для каждой словоформы указывается адрес в тексте. В дальнейшем при составлении конкордансов программа оперирует не столько текстом как таковым, сколько указателями к нему. Типичный пример программ такого типа — программные пакеты UNILEX (Машинный фонд русского языка) [Мошкович 1989], а также американ­ские программы ETC и WORD CRUNCHER (более поздняя версия пакета ETC; компания Electronic Text Corporation и Brigham Young University) [WordCruncher 1989 a; WordCruncher 1989 b]. В Великобритании использу­ется аналогичный по функции пакет ОСР (Oxford Concordance Program), а в Германии — программа TEXTPACK[25]. При второй стратегии для поиска необходимых контекстов программа каждый раз последовательно просматривает текст, маркируя те фрагменты, которые удовлетворяют по­исковому заданию (см., например, программа DIALEX-DIAWIN — отдел экспериментальной лексикографии Института русского языка РАН [Иса­ев 1996]). Достоинства и недостатки первой и второй стратегии связаны с двумя факторами: с необходимостью предварительной обработки кор­пуса (подготовки его к составлению конкордансов) и с объемом корпуса. Первая стратегия (программы типа UNILEX) предполагает предваритель­ное разбиение текстов на модули и составление больших указателей, что, разумеется, требует значительного рабочего времени и наличия больших ресурсов памяти.

Совершенно иная ситуация с программами, работающими по вто­рой стратегии (программы типа DIALEX): указатели, которые они строят по корпусу текстов, являются временными и уничтожаются по мере выполнения алгоритма. Они не требуют предварительной обработки кор­пуса, членения текстов на отдельные модули и т. п. Но программы такого рода должны использовать очень продуктивные подпрограммы обработки текста, поскольку каждый поиск предполагает сплошной просмотр кор­пуса. Фактически программы типа DIALEX состоят из «кирпичиков» — очень продуктивных программ-перекодировщиков типа «FT». Основ­ной недостаток второй стратегии заключается в том, что значительное увеличение массива текстов в корпусе существенно замедляет работу про­граммы. В настоящее время эта пороговая величина находится на уровне 100 мегабайт. В этом случае более выгодно использовать программы ти­па UNILEX, работающие при составлении конкордансов не с текстами как таковыми, а с указателями к ним. Очевидно, однако, что разметка 80-100-мегабайтного корпуса и составление к нему указателей потребует значительного времени[26].

Особого программного обеспечения требуют корпусы параллельных текстов. Программа MULTICONCORD позволяет строить конкордансы и устанавливать соответствия между фрагментами оригинального текста и его переводами на другие языки [Groß, Mißler, Wolff 1996]. В настоя­щее время MULTICONCORD работает с корпусом из шести языков — английский, немецкий, французский, греческий, итальянский и датский (текст на источниковом языке и пять текстов на целевых языках). Для разных текстов целевые языки и языки-источники варьируются. Корпус параллельных текстов полностью интегрирован в программу. Он включа­ет разнообразные литературные тексты — романы, драмы, короткие рассказы, а также публицистику, информационные тексты, анекдоты. Программа дает возможность производить поиск по разным языкам, разным словам, словоформам и словосочетаниям. Ср. фрагмент поиска на английский глагол look в оригинальном тексте «Alice in Wonderland» и его лексические эквиваленты в переводе на немецкий язык:

First, she tried to look downand make out what she was coming to, but it was too dark to see anything; Als erstens spähtesie in die Tiefe hinab,um zu erkennen, was ihr dort bevorstand, aber es war so dunkel, daß man nichts sehen konnte;
It was as much as she could do, lying down on one side, to look throughinto the garden with one eye; Wenn sie sich seitlich hinlegte, konnte sie mit einem Auge gerade noch in den Garten hinausblicken,aber mehr auch nicht, und dorthin zu gelangen war aussichtsloser denn je;

Результаты поиска могут сортироваться по объему, алфавиту, по про­изведениям, авторам и т.д. Предполагается использовать MULTICON­CORD на занятиях по изучению иностранных языков, литературы и в сфе­ре контрастивной лингвистики.

Основная проблема в построении корпусов параллельных текстов и разработке пакетов программ для их обработки заключается в установле­нии соответствий между оригинальными текстами и переводами. Понят­но, что тривиальное соответствие по словам или предложениям здесь не­возможно. Теоретически обоснованным было бы использование техноло­гий систем машинного перевода с языком-посредником или универсаль­ным языком, однако в настоящее время такой подход вряд ли возможен. Насколько можно судить, создатели программы MULTICONCORD в про­стых случаях устанавливали лексические соответствия, а в случае свобод­ного перевода индексировали целые фрагменты предложений или текстов.

Наши рекомендации