Компьютерная лексикография: программы поддержки, автоматические словари.

Лексикография - наука, занимающаяся составлением словарей.

- традиционная (теория в сочетании с практикой составления словарей)

- машинная, компьютерная (создание автоматических словарей, лингвистических баз данных и разработка программ поддержки лексикографических работ).

Основные направления компьютерной лексикографии:

1. автоматическое получение из текста с помощью компьютерных средств различных словарей (частотных, терминологических, конкордансов и т.д.)

2. теоретические и практические аспекты составления компьютерных словарей для NLP-систем. (Natural Language Processing)

3. создание словарей, являющихся машинными версиями традиционных словарей.

Первое и второе направления занимаются разработкой «программ поддержки лексикографических работ»

Компьютерные программы поддержки лексикографических работ

Традиционная форма фиксации словарных данных - это католожная карточка, где описывается слово, пример словоупотребления, источник примера, синтаксическая информация и дополнительная информация, исходя из целей создания словаря. Каталожные карточки собираются в картотеки, а из картотек уже формируются словари различного рода. Вместо обычной картотеки в компьютерных средах используются записи в базы данных. Лексикографические базы данных фиксируют первичный материал, который используется для написания словарных статей словаря. Лексикографические базы данных не существуют, но традиционные стандартные пакеты для баз данных (MS Access, Paradox, D-Base) подходят для такой работы. Другим этапом лексикографической работы является поиск примеров на словоупотребление и формирование картотеки примеров. На компьютере это намного проще, так как выбор примеров из корпуса текстов автоматизируется с помощью макросов или специальных программ-конкордансов. Конкорданс - это ещё и специальный словарь примеров.

Создание автоматических словарей

Все электронные словари можно разделить на 2 типа:

- автоматические словари конечного пользователя (это копии бумаж-ных словарей, но с возможностями сортировки, поиска, группирования понятий). Например, Lingvo, Webster (на англ. языке), энциклопедический словарь Ожегова и др.

- автоматические словари для программ обработки текста (это информационно-поисковые тезаурусы, частотные словари, рубрикаторы, классификаторы, словари морфологического анализа; словари для машинного перевода), которые включают подробную информацию о морфологических, синтаксических и семантических особенностях функционирования слова. Количество зон словарных статей в таких словарях варьируется от 1 до 100. Каждая зона словарной статьи содержит особый тип словарной информации: лемма, грамматическая информация или стилистические пометы, зоны значения и толкования. В автоматических словарях количество зон больше, чем в обычных бумажных.

14. Проблемы терминоведения и терминографии.Терминология в широком понимании соотносится с областью всех терминов естественного языка, а в узком – связывается с терминами конкретной научной дисциплины или специальной области практической деятельности. В рамках одной системы термины образуют терминосистему. В лингвистике терминология как особая часть языковой системы изучается в терминоведении. Принципы построения специальных терминологических словарей разрабатываются в терминографии. К настоящему времени насчитывается более 20 тыс. терсинологических стандартов. Особые стандарты по организации терминосистем разрабатываются не только на гос. И международ.уровнях, но и в отдельных компаниях и фирмах. Многозначность терминов одной терминосистемы, омонимия, отсутствие согласования между близкими терминосистемами являются ощутимым препятствием для научно-технического прогресса и развития производства. Государство, проводя языковую политику, финансирует разработку терминологических стандартов, обязательных для применения в тех или иных документах. Это дает возможность систематизировать термины опред.проблемной области, избежать многозначности и т.д. Характерным примером ошибочной языковой политики может служить переименование ГАИ в ГИБДД –новое название не только труднопроизносимо, но и вызывает нежелательный ассоциации. Важной частью терминоведческой деятельности явл-ся перевод научно-технич. Терминологии. В идеал.случае перевод предполагает поиск эквивалента в языке-цели – языке, на который осуществляется перевод.(например, нем. Leitung на рус. Как управление). При отсутствии эквивалента новый термин может быть создан на основе близких по значению слов (ср. рус.слово дерево получило развитие как термин теории управления, теории классификации и информатики в словосочетаниях типа дерево цепей). Возможно также семантическое калькирование(ср. tree structure и древовидная структура), простое заимствование (know-how и варваризм ноу-хау). Современные компьютерные технологии позволяют разрабатывать терминологические банки данных (ТБД) по различным областям знания и сферам практической деятельности. По типу ТБД делятся на переводческие и информационно-нормативные. Создание словарей специальных терминов – еще один существенный выход работ в области изучения и описания терминологии.

17. Автоматическое распознавание звучащей речи.АРР - это процесс автоматической обработки речевого сигнала (РС) с целью указания последовательности слов, передающейся этим сигналом. Под речевым сигналом при этом понимают те акустические процессы, которые составляют физическую основу сообщения. Речевой сигнал существенно отличается от всех искусственных технических сигналов своей сложностью, неустойчивостью параметров, избыточностью. Неустойчивость параметров РС вызвана весьма существенной вариативностью произнесения слов, что является, в свою очередь, следствием сложных явлений, происходящих в процессе речеобразования. Так, осциллограммы РС одного и того же слова, произнесенного дважды одним диктором, никогда не окажутся идентичными друг другу. Но подобно тому, как человеческое ухо способно уловить, какие именно - одинаковые или разные слова - произносятся, машина в процессе речевого диалога с человеком может сравнивать слово, произносимое диктором, с имеющимися в ее памяти образцами и осуществлять действие, соответствующее произнесенной команде. Практические системы, использующие распознавание речи, обычно характеризуются следующими пунктами:

характер речи (изолированные слова (команды) или слитная речь);

объем словаря (маленький или большой);

настройка на голос пользователя системы (есть/нет).

Процесс распознавания речи включает в себя несколько этапов. На каждом из этапов для обработки речевого сигнала используется целый ряд различных подходов. Итак, этапы распознавания речи следующие:

1. Получение речевого сигнала и его предварительная обработка;

2. Распознавание фонем и слов;

3. Понимание речи.

Речь человека представляет собой колебания воздуха с частотой от 0 до 4 кГц. Попадая на мембрану микрофона, колебания воздуха преобразуются в электрические колебания, повторяющие эти колебания воздуха. Далее эти непрерывные (аналоговые) электрические колебания поступают в аналого-цифровой преобразователь, находящийся, например, на звуковой карте компьютера, где они преобразуются в дискретный сигнал, то есть последовательность величин, пропорциональных амплитуде сигнала в отдельные, быстро следующие друг за другом, моменты времени. В таком виде речевой сигнал становится удобным для обработки методами цифровой обработки сигналов, ибо отныне это цифровой сигнал. Далее из сигнала устраняется при помощи различных методов фильтрации шумы и помехи. Далее выделяются параметры, характеризующие речевой сигнал, которые и служат основой для распознавания речи.Для распознавания фонем, слогов и слов используются такие методы, как скрытые марковские модели, искусственные нейронные сети или их комбинация. Возможно, самое сложное, это понять речь. На этом этапе последовательности слов должны быть преобразованы в представления о том, что хотел сказать говоривший. Надо заметить, что живая человеческая речь не является полным аналогом письменной речи. Поэтому на входе синтезирующей системы или на выходе системы распознавания, работающих со слогами или фонемами, как правило, должна быть подсистема транскрибирования, то есть нечто, что будет переводить письменный текст в набор звуков и наоборот – набор звуков в письменный текст. Хорошо известно, что понимание речи опирается на огромный объем лингвистических и культурных знаний. Большая часть систем распознавания голоса учитывает при этом знания о естественном языке и конкретный контекст.

18. Синтез речевого сигнала: основные направления и подходы.Системы синтеза речи традиционно классифицируются по способу генерации речевого сигнала. Два основных направления – это параметрический и конкатенативный синтез. В системах параметрического синтеза речи, основанных на наборе правил, выделяется два подхода. Первый подход направлен на построение модели речепроизводящей системы человека, он известен под названием артикуляторного синтеза. Второй подход - формантный синтез по правилам, является на сегодняшний день более разработанным и популярным. Формантные синтезаторы используют возбуждающий сигнал, который проходит через цифровой фильтр, построенный на нескольких резонансах, похожих на резонансы голосового тракта. Для синтеза довольно разборчивой речи достаточно смоделировать три первых форманты, но для качественного синтеза моделируют четыре или пять формант, есть некоторые системы, которые моделируют семь формант. В отличие от параметрического синтеза речи, в системах конкатенативного синтеза (раньше он назывался компилятивным), синтез осуществляется путем склейки нужных единиц из имеющегося акустического инвентаря. На этом принципе построено большое количество систем, использующих разные типы единиц и различные методы составления инвентаря. В системах конкатенативного и компилятивного синтеза применяются два разных типа алгоритмов обработки сигнала: LP (сокр. англ. Linear Prediction - линейное предсказание) и PSOLA (сокр. англ. Pitch Synchronous Overlap and Add). LP-синтез основан в значительной степени на акустической теории речеобразования, в отличие от PSOLA-синтеза, который действует путем простого разбиения звуковой волны, составляющей единицу компиляции, на временные окна и их преобразования. Алгоритмы PSOLA позволяют добиваться хорошего сохранения естественности звучания при модификации исходной звуковой волны.Существуют системы речевого синтеза в которых лежит идея совмещения методов конкатенации и синтеза по правилам. Такие гибридные системы синтеза популярны, и как показывает обзор современных методов автоматического синтеза речи, метод конкатенации при адекватном наборе базовых элементов компиляции обеспечивает качественное воспроизведение спектральных характеристик речевого сигнала, а набор правил - возможность формирования естественного интонационно-просодического оформления высказываний. Русский синтезатор («АГАФОН»), созданный в 1992-1995 г. На базе мужского голоса, основанный на применении метода конкатенации, показал свою работоспособность и перспективность. В основе структуры большинства систем синтеза речи лежат 2 блока: блок лингвистической обработки и модуль озвучивания.

19. перевод как прикладная лингвистическая дисциплина

1) машинный перевод, 2) система Диалинг

1)актуальность: 1. Перевод с 1 языка на другой – единственный эффективный способ преодоления языковых барьеров, так как другие способы (изучение языков, эсперанто) не могут заменить перевода. 2. Растут возможности IT. 3. Спрос на перевод в мире.

Задача машинного перевода требует: распознования графических образов на этом этапе ввода в компьютер;

Машинный перевод

По качеству: 1) информативный – знакомство с текстом на иностранном языке, 2) точный – для детального знакомства с содержанием, 3)сверхточный – для официальных документов и хаконов.

Направления исследования: 1)перевод смысла безотносительно формы. «текст-смысл-текст». Используется универсальный язык-посредник. 2) перевод на уровне переводных языковых соответствий.

Виды: 1) информативный (пословный), 2) профессиональный – для больших переводов, 3)персональный – нужно предредактирование.

1.4.5. Некоторые известные системы машинного перевода. Количество ре­ально работающих и проектируемых систем МП к настоящему времени перевалило за сотню.

Система GAT(Georgetown Automatic Translation). Одна из первых систем МП, разрабатывавшаяся с 1952 г. в Джорджтаунском университете США. Проблемная область — перевод русскоязычных текстов по физике на английский язык. Страте­гия создания — прямой перевод с некоторыми син­таксическими перестановками, приближавшими русский порядок слов к английскому. При том, что програм­ма не имела под собой никакой серьезной лингвистической базы, она эксплуатировалась в Евроатоме до 1976 г.

Системы СЕТА и GETA. Система русско-французского машин­ного перевода, разрабатывавшаяся во Франции в Гренобльском универ­ситете с 1961 по 1971 гг. Стратегия построения — использование языка-посредника, независимого от структуры входного и выходного языков. Опыт разработки оказался не вполне удачным, поскольку сконструиро­ванный язык-посредник приводил к потере релевантной информации. Тем не менее с помощью СМП СЕТА были переведены русские тексты по математике и физике общим объемом 400 тыс. слов. В дальнейшем проект трансформировался в новый проект разработки СМП GETA, в которой реализовывалась стратегия построения СМП с трансфером. Грамматический модуль системы GETA состоит из трех типов программ: преобразование линейных цепочек в деревья (например, при морфоло­гическом анализе); преобразование одних деревьев в другие (например, при синтаксическом анализе и в ходе межъязыковых операций); преобра­зование деревьев в линейные цепочки (например, при морфологическом синтезе). Системы СЕТА и GETA являются научно-экспериментальны­ми, хотя в настоящее время предпринимаются усилия по разработке промышленной версии СМП GETA.

Системы семейства ЭТАП(Электротехнический Автоматический Перевод). Работа над системами началась в 1974 г. в ИНФОРМЭЛЕКТРО и была продолжена в Институте проблем передачи информации РАН; в 1980 г. была сдана первая очередь ЭТАП-1 (фран­цузско-русский перевод), а в 1985 — ЭТАП-2 (англо-русский перевод). СМП ЭТАП-2 предназначена для перевода связных текстов и заголовков патентов. Система ЭТАП-2 работала в режиме качественного перево­да на основе полного синтаксического анализа и в режиме пословного перевода.

Система ФРАП. Начало работ над системой ФРАП — французско-русский автоматический перевод — в 1975 г. под руководством Н. Н. Леонтьевой. Было реализовано две экспе­риментальные версии системы (первая версия — в 1980 г., вторая — в 1985 г.). Архитектура СМП ФРАП - перево­д через язык-посредник. В существующем варианте системы реализована лишь часть модели, выполняющая сле­дующие функции: построение подстрочника, грамматический режим, неполный семантический режим.

Система CULT. Программа CULT представляет собой типичный пример системы человеко-машинного перевода. Разработка системы, предназначенной для перевода китайских математических и физических текстов на английский язык. Требует активного участия человека в процессе самого перевода. Так, пользователь в ряде случаев должен выявить границы составляющих, определить, в каком значении используется то или иное слово. Активное уча­стие человека в процессе работы программы практически исключает этап постредактирования-успешная работа системы человеко-машинного перевода.

Системы семейства ALPS. -типичный пример компьютерного ин­струментария, образующего рабочее место переводчика. Системы фирмы ALPS позволяют проводить экранное редактирование текста в многооконном текстовом редакторе, осуществлять оперативный поиск слова в словарных базах дан­ных, переносить информацию из баз данных в текстовый файл, а также делать пословный перевод текста, опирающийся на введенные в систему словарные источники. Предусмотрена возможность пофразового перево­да, которая пока не реализована в полном объеме. Обеспечивают перевод на английский, немецкий, французский, португальский и испанский языки.

Наши рекомендации