Лабораторная работа №12 «Корпусная лингвистика. Создание собственного корпуса»

1 Для создания своего собственного корпуса необходимо скачать программу конкорданс (например, AntConc http://www.laurenceanthony.net/software.html или TextSTAT http://neon.niederlandistik.fu-berlin.de/textstat/). Другие программы конкордансы Вы можете найти, пройдя по ссылке http://nit-for-you.wikispaces.com/%D0%9B%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0. Изучите краткую информацию о рекомендованных программах.

AntConc – это бесплатная, мультиплатформенная программа для проведения корпусных лингвистических исследований и управления данными. Она работает на любом компьютере под управлением Microsoft Windows (проверено на Win 98/Me/2000/NT, XP, Vista, Windows 7, Linux. AntConc содержит семь инструментов, к которым можно получить доступ, нажав на клавишу табуляции в меню инструментов, или используя функциональные клавиши F1-F7.

В качестве источников текстов для корпуса можно использовать как цифровые, так и не цифровые носители. Естественно, в последнем случае понадобится каким-то образом ввести текст в компьютер: заново набрать его, либо отсканировать и распознать (конечно, с последующим редактированием).

Храните тексты для корпуса в простом текстовом формате (plain text, *.txt). Во-первых, он занимает меньше места, чем сложные форматы типа MS Word. Во-вторых, хотя современные программы анализа корпусов обычно могут работать с документами в формате HTML (XML), но всё-таки это менее надёжно, чем простой текст. Plain text — это простоя последовательность букв, пробелов и знаков пунктуации.

Не храните Ваши корпусы в MS Word — это не имеет никакого смысла! Не забывайте про резервные копии. Ещё один тонкий момент — кодировка ваших файлов. Существует несколько так называемых «кодировок» (англ. encodings), которые описывают русский алфавит — среди них koi8-r или cp1251. Ни одну из них нельзя назвать стандартом. Кроме того, не так давно появилась кодировка Unicode, которая поддерживает символы всех алфавитов всех языков мира, включая даже египетские иероглифы. Но пока не все программы готовы с ней работать. Любой текстовый файл сохранён в одной из этих кодировок. Соответственно, если программа анализа корпуса считает, что кодировка одна, а на самом деле она другая — то файл будет прочитан неверно и вместо слов Вы получите бессмысленные наборы символов. Рекомендуется пользоваться либо Unicode (предпочтительнее), либо CP-1251. CP-1251 является стандартной кодировкой для MS Windows, а Unicode удобнее, поскольку может использоваться для любого языка. Анализируя текст в AntConc, Вы можете указать кодировку для файлов, которые загружаете в него (в меню Global Settings — Encodings). Corsis воспринимает кириллические тексты только если они сохранены в кодировке Unicode. Dialing, напротив, считает, что кириллические тексты должны быть только в CP-1251. Вы можете сохранять один и тот же текст сколько угодно раз в различных кодировках. С английскими текстами таких проблем нет, они будут нормально читаться и анализироваться вне зависимости от кодировки.

TextSTAT- это простая программа для анализирования текстов, читающая текстовые файлы и файлы расширения HTML (непосредственно из Интернета). Она выдает лист частоты встречаемости слов и конкордансы этих файлов. Данная версия включает в себя вэб-паука, который читает так много страниц, сколько вы захотите с какого-либо выбранного сайта и переносит их в программу. А новинка «читатель новостей» так же находит самостоятельно информацию и помещает их в окно программы TextSTAT. TextSTAT читает MS Word и OpenOffice файлы. Нет никакой нужды в преобразовании, просто добавьте файлы в корпус программы.

В программе можно использовать регулярные выражения, обеспечивающие вас возможностями мощного поиска. Программа многоязыковая. TextSTAT может справиться с множеством различных языков и кодировок файлов.

2 Соберите корпус не менее 10 тысяч словоупотреблений. Прежде чем начать планирование корпуса, определите, что именно Вы будете исследовать. Какова логическая идея, которая положена в основу корпуса? С каким объёмом данных Вы будете работать при составлении корпуса? Насколько это необходимо и реалистично? Что Вы будете использовать: отрывки из текстов, полные тексты или то и другое? Какова процедура отбора текстов в корпус? При наборе текстов в корпус всегда желательно учитывать такие экстралингвистические факторы, как источники текстов, их авторы (их пол, возраст, профессия, национальность), носитель текста, место действия, тематика, дата публикации, возраст и размер предполагаемой аудитории и т.д.

3 Проведите анализ исследуемого корпуса, рассмотрев употребление конкретных лексем, словосочетаний и изучив все возможные функции конкорданса.

13 Лабораторная работа №13 «Работа с приложением Wordfast»

1 Ознакомьтесь с краткой информацией о программе атоматизированного перевода Wordfast (Computer-Aided Translation — CAT), которая объединяет в себе две технологии: сегментирование и накопитель переводов (translation memory — TM).

В состав Wordfast входит средство контроля качества (quality check — QC) в реальном времени, включающее функции проверки правописания[1] и типографской разметки текста, а также сверки с глоссарием. Эти функции с широкими возможностями настройки позволяют контролировать типографскую и терминологическую точность перевода, что является очень важным достижением в области CAT. Иными словами, в Wordfast можно легко задать важную для заказчика терминологию, и все сегменты в ходе перевода будут проверяться на соответствие этой терминологии. Кроме того, контроль качества можно выполнить над многими документами в пакетном режиме, благодаря чему руководитель проекта может получить подробный отчет о качестве перевода обрабатываемых документов с точки зрения типографской разметки и терминологии.

Wordfast работает из MS Word, но можно переводить и другие документы MS Office™, такие как файлы MS Excel™, MS Access™, MS PowerPoint™, а также файлы HTML. Накопители переводов Wordfast имеют открытый формат — их можно просматривать и/или редактировать в Word™, Excel™, Access™ и многих других распространенных программах. Кроме того, Wordfast открывает файлы внутреннего формата Trados Workbench TMW и формата экспорта TXT, накопители переводов стандарта TMX (создаваемые в Trados, DejaVu, Star Transit и SDLX), а также EXP-файлы IBM Translation Manager. Наконец, Wordfast совместим со стандартными форматами разметки (tagging), благодаря чему его можно применять для перевода файлов, подготовленных программами разметки (утилитой RWS Rainbow, средствами из набора Trados и т.д.).

Wordfast работает в MS Word™ 97, MS Word™ 2000 и MS Word 2002 (XP) для PC, MS Word™ 98 и MS Word™ 2001 для Macintosh. С одним накопителем переводов через локальную сеть могут совместно и одновременно работать до 20 пользователей.

К Wordfast также можно подключить (локально или через сеть) программу или сервер машинного перевода (MT), что позволит получать машинный перевод, если в TM не найдено соответствий.

Дополнительные функции позволяют опытным пользователям выполнять сложные операции промышленного уровня, такие как извлечение сегментов из файлов Word, Access, PowerPoint или Excel, их предварительный перевод, оптимизация накопителей перевода, анализ проектов, контроль за использованием терминологии различными переводчиками, разработка специальных расширений для конкретных проектов и т.д.

2. Установите приложение Wordfast. Wordfast.dot не следует открывать как документ; его надо добавить в список шаблонов MS Word.

Пошаговая инструкция установки приложения:

1) Закройте MS Word. Скопируйте файл Wordfast.dot в папку автозагрузки (Startup) MS Word. Эта папка может находиться в следующих местах:

MS Word 97 ...\Program Files\Microsoft Office\Office\Startup

MS Word 2000 ...\Windows\Application Data\Microsoft\Word\Startup

Windows NT: ...\WinNt\Profiles\ИмяПользователя\Applicationdata\Microsoft\Startup

Windows 2000: ...\Documents and settings\ИмяПользователя\Application data\Microsoft\Word\Startup

Mac ...:Microsoft Office 98:Startup

Примечание 1: Если когда-нибудь MS Word предложит "сохранить" изменения, сделанные в шаблоне Wordfast, не делайте этого. Шаблон Wordfast не должен подвергаться изменениям.

Примечание 2: Если вам трудно найти папку Startup, запустите MS Word и в диалоге «сервис/Параметры (Tools/Options)» посмотрите на вкладку «расположение» (File Locations). Запомните полное имя папки "автозагружаемые" (startup).

Примечание 3: Если Wordfast.dot находится в папке Startup, Wordfast будет активизироваться при запуске MS Word™. Если Wordfast.dot скопирован в папку шаблоны (Templates), надо будет открыть диалоговое окно «сервис/шаблоны» (Tools/Templates), нажать кнопку Добавить (Add), выбрать Wordfast.dot и нажать Oк. Не следует открывать Wordfast.dot как документ.

Примечание 4: В Word 2000 и выше установите в диалоге «сервис/параметры/безопасность» (Tools/Macro/Security) низкий (low) уровень безопасности и перезапустите MS Word.

Примечание 5: Если на одном компьютере установлены две разные версии MS Word, рекомендуется установить две копии Wordfast — каждую в папке Startup или Templates соответствующей версии Word. Таким образом у каждого шаблона wordfast.dot будет отдельный INI-файл, где будет храниться отдельный номер лицензии. В каждой версии MS Word генерируется отдельный инсталляционный номер для Wordfast, поэтому нужно запросить на сайте Wordfast два (или больше) номера лицензии.

2) Запустите MS Word.

Должна появиться следующая панель инструментов (рисунок 13):

Лабораторная работа №12 «Корпусная лингвистика. Создание собственного корпуса» - student2.ru

Рисунок 13

Обычно панель Wordfast появляется свернутой в значок End Лабораторная работа №12 «Корпусная лингвистика. Создание собственного корпуса» - student2.ru . Чтобы развернуть ее, щелкните этот значок.

Примечание 1. В некоторых системах панель разворачивается, только если в Word уже открыт какой-то (можно пустой) документ.

Примечание 2. Часто шаблоны Wordfast и Trados не "уживаются" друг с другом. Поэтому после инсталляции Wordfast рекомендуется отключить в диалоге Word «сервис/шаблоны и надстройки» (Tools/Templates & Add Ins) шаблон TW4Win97.dot или TW4Win2K.dot. Потом его можно восстановить.

Наши рекомендации