Глава 3. Оптимизация эпистемической функции языка. §3. Корпусная лингвистика______________________ 131


§3. Корпусная лингвистика______________________ 131



• жанровое распределение (предпочтение отдавалось жанрам, отража­ющим такие сферы функционирования языка, для которых типич­но употребление частиц: газетные и журнальные интервью; тексты радио- и телевизионных дискуссий; драматургические произведе­ния; поэзия представлена минимально; классическая литература также представлена образцами, в которых широко используются дискурсивные слова).

В настоящее время корпус по дискурсивным словам русского язы­ка включает около 30 мегабайт (приблизительно 15 тысяч страниц) текстов.

Корпус текстов словаря языка Достоевского.Текстовый корпус До­стоевского создавался как источник для словаря языка Достоевского. Параметры организации корпуса определялись правилами построения словарной статьи: поскольку словарная статья предполагала составление указателя ко всем употреблениям слова, то корпус должен был охватывать все тексты Достоевского — как художественные, так и публицистические. Тем самым сложности, связанные с разработкой теоретических оснований отображения проблемной области, отсутствовали. В качестве основного текстового источника использовалось академическое полное собрание сочинений Ф. М. Достоевского. Единицей хранения в корпусе текстов словаря является отдельное произведение (любого размера — от романа до письма). К настоящему времени на машинных носителях находятся все художественные произведения, публицистика и эпистолярное наследие писателя. Корпус хранится в ASCII формате с минимальной размет­кой, позволяющей осуществлять адресацию к произведению и странице по полному собранию сочинений. Для программной поддержки был разработан специальный пакет программ DIALEX-DIAWIN, идейную основу которого заложил М. Марон. Окончательное оформление пакета, доведение его до рабочего вида и дальнейшее развитие осуществлено И.Исаевым [Исаев 1996].

Основное направление развития Корпуса текстов словаря Достоев­ского в настоящее время — совершенствование программного обеспе­чения и технологии подготовки словаря. Кроме того, осуществляется ряд исследований, в результате которых предполагается получить слова­ри, которые можно будет использовать для лингвистического изучения корпуса текстов Достоевского. Сейчас готов частотный словарь, соста­вленный А. Я. Шайкевичем. Сформирована база данных по идиоматике Достоевского для словаря идиом писателя.

Корпус текстов словаря языка Достоевского существует также в CD-ромной версии («Достоевский: Тексты, исследования, материалы»), рас­пространяемой вместе с программами обработки корпуса, базой данных по идиоматике и базой данных по частотному словарю, составленному А. Я. Шайкевичем.

Динамический корпус текстов по современной публицистике (90-е гг.)[29].

Этот корпус текстов относится к числу новых проектов, осуществляемых в отделе экспериментальной лексикографии Института русского языка РАН. Основная цель проекта — дать источник для проведения раз­личных лингвистических исследований, ориентированных на изучение изменений языковой системы в период перестройки и постперестройки. В 90-е гг. произошли существенные изменения в языке средств массо­вой информации, в политическом дискурсе, что оказало существенное влияние на художественную прозу, научный язык и пр.

Динамический корпус текстов как новая технология прикладной лин­гвистики.Как было показано выше, корпус текстов в идеальном случае должен удовлетворять критерию репрезентативности и в то же время быть существенно меньше проблемной области, которую он отражает. С другой стороны, репрезентативность корпуса прямо связана и с теми задачами, которые стоят перед исследователем. Сложность совмещения требований статистической репрезентативности и установок пользователя приводит к тому, что многие значительные по объему корпусы вообще не име­ют четких критериев отбора текстов. В проекте динамического корпуса текстов по современной публицистике была предложена такая страте­гия формирования, которая позволяет каждому пользователю получить для решения конкретной задачи из базового массива свое подмножество текстов. Базовый, исходный массив текстов, из которого осуществляется отбор, вместе с программным обеспечением называется динамическим корпусом текстов.

Получение репрезентативного корпуса текстов по публицистике представляет собой сложную задачу, поскольку количество периодических изданий огромно, а количество текстов, появляющихся даже в течение одного дня, с трудом поддается исчислению. Эти тексты пишет целая армия журналистов и аналитиков, да и сами тексты сильно отличаются как по форме, так и по тематике. Отдельной проблемой, которую мы здесь не затрагиваем, является определение понятия публицистического текста. При формировании массива авторская группа опиралась на ин­туицию: не включались чисто информативные тексты, краткие заметки, лишенные авторского взгляда на описываемое положение дел, и т. п.

Стратегия формирования исходного массива. Вплане репрезентативно­сти основное внимание было обращено на выбор периодических изданий различной ориентации наиболее важных для общественного сознания в исследуемый период, и на соблюдение пропорции, учитывающей зна­чимость и популярность последних. Кроме того, вторым важным факто­ром организации корпуса был количественный критерий: текстов должно было быть достаточно много, чтобы отразить все релевантные свойства

Наши рекомендации