Требования к корпусу текстов с точки зрения пользователя

Корпус данных, будучи отражением проблемной области, должен совмещать, с точки зрения пользователя, самые противоречивые требо­вания. Поскольку последовательное соблюдение любого из требований приводит к разрушению корпуса как такового, необходимо соблюдение баланса между ними. То, как создатель корпуса старается совместить различные требования, формирует стратегию построения корпуса.

Репрезентативность.Важнейшее свойство корпуса текстов — его репрезентативность по отношению к проблемной области. Под репрезен­тативностью понимается способность корпуса текстов отражать все свой­ства проблемной области, релевантные для данного типа лингвистичес­кого исследования, в определенной пропорции, определяемой частотой явления в проблемной области. Другими словами, частота явления в кор­пусе должна быть близка частоте в проблемной области. Это требование ориентирует «сборщика» корпуса текстов на специализацию разрабатыва­емого продукта по уровневой тематике: фонетические, морфологические, синтаксические, лексические, текстовые и пр. корпуса.

Например, текстовые корпуса должны содержать в соответствующей пропорции тексты с базовыми, наиболее типичными макроструктура­ми, имеющимися в данной проблемной области. С другой стороны, лексические корпуса должны включать выбранные исследователем поля лексических единиц.

Стремление к репрезентативности налагает определенные ограниче­ния на единицы хранения корпуса: если для морфологии это могут быть максимум словосочетания и отдельные предложения (для языков с раз­витой морфологией), то для собственно текстовых корпусов единицами хранения должны быть целые тексты и фрагменты их макроструктур.

Репрезентативность, конечно, не исчерпывается перечисленными параметрами. Так, в каждом конкретном случае может оказаться необхо­димым учесть стилистическую, временную, авторскую и другие составля­ющие текстового массива проблемной области.

Требование репрезентативности в самом простом варианте отража­ется в пропорциональном сужении проблемной области. В этом случае можно говорить о «пропорциональной стратегии» организации корпуса текстов. Требование адекватного отображения статистики может быть нарушено, если цель исследования заключается не столько в оценке ча­стотности того или иного явления, сколько в изучении множества уже выделенных языковых структур. Для таких задач более разумно и эконо­мично использовать иллюстративные корпусы текстов.

Полнота.Репрезентативность корпуса указывает на то, что единицы проблемной области отражаются пропорционально в корпусе данных, но при определенном пороге некоторые релевантные явления пропадут, исчезнут из корпуса. Полнота требует учета релевантных явлений, даже если это не соответствует идее пропорционального сужения. Требова­ние полноты совершенно необходимо в тех случаях, когда лингвист-конструктор корпуса приблизительно знает, что ему искать. В такой си­туации исследовательский корпус может приобрести те или иные черты иллюстративного корпуса.

Экономичность.Корпус текстов должен экономить усилия иссле­дователя при изучении проблемной области. В частности, он должен быть не просто строгим подмножеством текстов проблемной области, но, по возможности, существенно отличаться от нее по объему. В общем случае чем более «экономичен» корпус, тем выше порог отображения. В то же время для исследовательских корпусов экономия не может прово­диться в ущерб репрезентативности: статистические пропорции должны быть адекватно отображены, если это не оговорено специально.

Структуризация материала.Определение единиц хранения корпуса не должно быть непосильной задачей для пользователя. Желательно сопоставить корпусу опись данных, в которой единицы хранения харак­теризуются по тем параметрам, которые могут оказаться важными для

пользователя.

В ряде случаев на состав единиц хранения налагаются существен­ные ограничения. Если единицей хранения оказывается фрагмент тек­ста (предложение или группа связанных между собой предложений), то важно, чтобы он был самодостаточным.Последнее означает, что он не должен содержать неоднозначности любых типов, в частности, ме­стоимений, для которых невозможно восстановить антецедент и пр. В тех случаях, когда единицы хранения включают случаи языковой игры, связанной с неоднозначностью, рамки контекста должны быть таковы, чтобы пользователь мог легко определить, что речь идет о языковой игре, а не об ошибке в вычленении единицы хранения. Разумеется, это не очень существенно для таких корпусов, которые ориентирова­ны, например, на морфологическую или фонетическую инвентаризацию проблемной области.

Компьютерная поддержка.Желательна поддержка корпуса текстов комплексом программ по обработке данных, обеспечивающих функции составления конкордансов, статистической инвентаризации, автоматиче­ской словарной обработки (составление полных и частичных словников по различным основаниям — по частоте, по алфавиту и пр.), лемматиза-ции. Как минимум, корпус должен быть «прозрачен» для компьютерной обработки (отсутствие переносов, лишних пробелов и пр.[24]

Наши рекомендации