Требования к корпусу текстов с точки зрения пользователя
Корпус данных, будучи отражением проблемной области, должен совмещать, с точки зрения пользователя, самые противоречивые требования. Поскольку последовательное соблюдение любого из требований приводит к разрушению корпуса как такового, необходимо соблюдение баланса между ними. То, как создатель корпуса старается совместить различные требования, формирует стратегию построения корпуса.
Репрезентативность.Важнейшее свойство корпуса текстов — его репрезентативность по отношению к проблемной области. Под репрезентативностью понимается способность корпуса текстов отражать все свойства проблемной области, релевантные для данного типа лингвистического исследования, в определенной пропорции, определяемой частотой явления в проблемной области. Другими словами, частота явления в корпусе должна быть близка частоте в проблемной области. Это требование ориентирует «сборщика» корпуса текстов на специализацию разрабатываемого продукта по уровневой тематике: фонетические, морфологические, синтаксические, лексические, текстовые и пр. корпуса.
Например, текстовые корпуса должны содержать в соответствующей пропорции тексты с базовыми, наиболее типичными макроструктурами, имеющимися в данной проблемной области. С другой стороны, лексические корпуса должны включать выбранные исследователем поля лексических единиц.
Стремление к репрезентативности налагает определенные ограничения на единицы хранения корпуса: если для морфологии это могут быть максимум словосочетания и отдельные предложения (для языков с развитой морфологией), то для собственно текстовых корпусов единицами хранения должны быть целые тексты и фрагменты их макроструктур.
Репрезентативность, конечно, не исчерпывается перечисленными параметрами. Так, в каждом конкретном случае может оказаться необходимым учесть стилистическую, временную, авторскую и другие составляющие текстового массива проблемной области.
Требование репрезентативности в самом простом варианте отражается в пропорциональном сужении проблемной области. В этом случае можно говорить о «пропорциональной стратегии» организации корпуса текстов. Требование адекватного отображения статистики может быть нарушено, если цель исследования заключается не столько в оценке частотности того или иного явления, сколько в изучении множества уже выделенных языковых структур. Для таких задач более разумно и экономично использовать иллюстративные корпусы текстов.
Полнота.Репрезентативность корпуса указывает на то, что единицы проблемной области отражаются пропорционально в корпусе данных, но при определенном пороге некоторые релевантные явления пропадут, исчезнут из корпуса. Полнота требует учета релевантных явлений, даже если это не соответствует идее пропорционального сужения. Требование полноты совершенно необходимо в тех случаях, когда лингвист-конструктор корпуса приблизительно знает, что ему искать. В такой ситуации исследовательский корпус может приобрести те или иные черты иллюстративного корпуса.
Экономичность.Корпус текстов должен экономить усилия исследователя при изучении проблемной области. В частности, он должен быть не просто строгим подмножеством текстов проблемной области, но, по возможности, существенно отличаться от нее по объему. В общем случае чем более «экономичен» корпус, тем выше порог отображения. В то же время для исследовательских корпусов экономия не может проводиться в ущерб репрезентативности: статистические пропорции должны быть адекватно отображены, если это не оговорено специально.
Структуризация материала.Определение единиц хранения корпуса не должно быть непосильной задачей для пользователя. Желательно сопоставить корпусу опись данных, в которой единицы хранения характеризуются по тем параметрам, которые могут оказаться важными для
пользователя.
В ряде случаев на состав единиц хранения налагаются существенные ограничения. Если единицей хранения оказывается фрагмент текста (предложение или группа связанных между собой предложений), то важно, чтобы он был самодостаточным.Последнее означает, что он не должен содержать неоднозначности любых типов, в частности, местоимений, для которых невозможно восстановить антецедент и пр. В тех случаях, когда единицы хранения включают случаи языковой игры, связанной с неоднозначностью, рамки контекста должны быть таковы, чтобы пользователь мог легко определить, что речь идет о языковой игре, а не об ошибке в вычленении единицы хранения. Разумеется, это не очень существенно для таких корпусов, которые ориентированы, например, на морфологическую или фонетическую инвентаризацию проблемной области.
Компьютерная поддержка.Желательна поддержка корпуса текстов комплексом программ по обработке данных, обеспечивающих функции составления конкордансов, статистической инвентаризации, автоматической словарной обработки (составление полных и частичных словников по различным основаниям — по частоте, по алфавиту и пр.), лемматиза-ции. Как минимум, корпус должен быть «прозрачен» для компьютерной обработки (отсутствие переносов, лишних пробелов и пр.[24]