Направления компьютерной лингвистики
Сфера КЛ весьма разнообразна и включает такие области, как компьютерное моделирование общения, моделирование структуры сюжета, гипертекстовые технологии представления текста, машинный перевод, компьютерная лексикография. В узком смысле проблематика КЛ часто связывается с междисциплинарным прикладным направлением с несколько неудачным названием «обработка естественного языка» (перевод английского термина Natural Language Processing). Оно возникло в конце 1960-х годов и развивалось в рамках научно-технологической дисциплины «искусственный интеллект». По своей внутренней форме словосочетание «обработка естественного языка» охватывает все области, в которых компьютеры используются для обработки языковых данных. Между тем в практике закрепилось более узкое понимание этого термина – разработка методов, технологий и конкретных систем, обеспечивающих общение человека с ЭВМ на естественном или ограниченном естественном языке.
Бурное развитие направления «обработки естественного языка» приходится на 1970-е годы, что было связано с неожиданным экспоненциальным ростом количества конечных пользователей ЭВМ. Поскольку обучение языкам и технологии программирования всех пользователей невозможно, возникла проблема организации взаимодействия с компьютерными программами. Решение этой проблемы коммуникации шло по двум основным путям. В первом случае предпринимались попытки адаптации языков программирования и операционных систем к конечному пользователю. В результате появились языки высокого уровня типа Visual Basic, а также удобные операционные системы, построенные в концептуальном пространстве привычных человеку метафор – ПИСЬМЕННЫЙ СТОЛ, БИБЛИОТЕКА. Второй путь – разработка систем, которые позволяли бы взаимодействовать с ЭВМ в конкретной проблемной области на естественном языке или каком-то его ограниченном варианте.
Архитектура систем обработки естественного языка в общем случае включает блок анализа речевого сообщения пользователя, блок интерпретации сообщения, блок порождения смысла ответа и блок синтеза поверхностной структуры высказывания. Особой частью системы является диалоговый компонент, в котором зафиксированы стратегии ведения диалога, условия применения этих стратегий, способы преодоления возможных коммуникативных неудач (сбоев в процессе общения).
Среди компьютерных систем обработки естественного языка обычно выделяются вопросно-ответные системы, диалоговые системы решения задач и системы обработки связных текстов. Изначально вопросно-ответные системы стали разрабатываться как реакция на плохое качество кодировки запросов при поиске информации в информационно-поисковых системах. Поскольку проблемная область таких систем была сильно ограничена, это несколько упрощало алгоритмы перевода запросов в представление на формальном языке и обратную процедуру преобразования формального представления в высказывания на естественном языке. Из отечественных разработок к программам такого типа относится система ПОЭТ, созданная коллективом исследователей под руководством Э.В.Попова. Система обрабатывает запросы на русском языке (с небольшими ограничениями) и синтезирует ответ. Блок-схема программы предполагает прохождение всех этапов анализа (морфологического, синтаксического и семантического) и соответствующих этапов синтеза.
Диалоговые системы решения задач, в отличие от систем предшествующего типа, играют в коммуникации активную роль, поскольку их задача заключается в том, чтобы получить решение проблемы на основе тех знаний, которые представлены в ней самой, и той информации, которую можно получить от пользователя. Система содержит структуры знаний, в которых фиксируются типичные последовательности действий для решения задач в данной проблемной области, а также сведения о необходимых ресурсах. Когда пользователь задает вопрос или ставит определенную задачу, активизируется соответствующий сценарий. Если какие-то компоненты сценария пропущены или отсутствуют какие-то ресурсы, система выступает инициатором коммуникации. Так работает, например, система SNUKA, решающая задачи планирования военных операций.
Системы обработки связных текстов довольно разнообразны по структуре. Их общей чертой можно считать широкое использование технологий представления знаний. Функции систем такого рода заключаются в понимании текста и ответах на вопросы о его содержании. Понимание рассматривается не как универсальная категория, а как процесс извлечения информации из текста, определяемый конкретным коммуникативным намерением. Иными словами, текст «прочитывается» только с установкой на то, что именно потенциальный пользователь захочет узнать о нем. Тем самым и системы обработки связных текстов оказываются отнюдь не универсальными, а проблемно-ориентированными. Типичными примерами систем обсуждаемого типа могут служить системы RESEARCHER и TAILOR, образующие единый программный комплекс, позволяющий пользователю получить информацию из рефератов патентов, описывающих сложные физические объекты.
Важнейшим направлением компьютерной лингвистики является разработка информационно-поисковых систем (ИПС). Последние возникли в конце 1950-х – начале 1960-х годов как ответ на резкое возрастание объемов научно-технической информации. По типу хранимой и обрабатываемой информации, а также по особенностям поиска ИПС разделяются на две больших группы – документальные и фактографические. В документальных ИПС хранятся тексты документов или их описания (рефераты, библиографические карточки и т.д.). Фактографические ИПС имеют дело с описанием конкретных фактов, причем не обязательно в текстовой форме. Это могут быть таблицы, формулы и другие виды представления данных. Существуют и смешанные ИПС, включающие как документы, так и фактографическую информацию. В настоящее время фактографические ИПС строятся на основе технологий баз данных (БД). Для обеспечения информационного поиска в ИПС создаются специальные информационно-поисковые языки, в основе которых лежат информационно-поисковые тезаурусы. Информационно-поисковый язык – это формальный язык, предназначенный для описания отдельных аспектов плана содержания документов, хранящихся в ИПС, и запроса. Процедура описания документа на информационно-поисковом языке называется индексированием. В результате индексирования каждому документу приписывается его формальное описание на информационно-поисковом языке – поисковый образ документа. Аналогичным образом индексируется и запрос, которому приписывается поисковый образ запроса и поисковое предписание. Алгоритмы информационного поиска основаны на сравнении поискового предписания с поисковым образом запроса. Критерий выдачи документа на запрос может состоять в полном или частичном совпадении поискового образа документа и поискового предписания. В ряде случаев пользователь имеет возможность сам сформулировать критерии выдачи. Это определяется его информационной потребностью. В автоматизированных ИПС чаще используются дескрипторные информационно-поисковые языки. Тематика документа описывается совокупностью дескрипторов. В качестве дескрипторов выступают слова, термины, обозначающие простые, достаточно элементарные категории и понятия проблемной области. В поисковый образ документа вводится столько дескрипторов, сколько различных тем затрагивается в документе. Количество дескрипторов не ограничивается, что позволяет описать документ в многомерной матрице признаков. Часто в дескрипторном информационно-поисковом языке налагаются ограничения на сочетаемость дескрипторов. В этом случае можно говорить о том, что информационно-поисковый язык обладает синтаксисом.
Одна из первых систем, работавших с дескрипторным языком, была американская система УНИТЕРМ, созданная М.Таубе. В качестве дескрипторов в этой системе функционировали ключевые слова документа – унитермы. Особенность этой ИПС заключается в том, что изначально словарь информационного языка не задавался, а возникал в процессе индексирования документа и запроса. Развитие современных информационно-поисковых систем связано с разработкой ИПС бестезаурусного типа. Такие ИПС работают с пользователем на ограниченном естественном языке, а поиск осуществляется по текстам рефератов документов, по их библиографическим описаниям, а часто и по самим документам. Для индексирования в ИПС бестезаурусного типа используются слова и словосочетания естественного языка.
К области компьютерной лингвистики в определенной степени могут быть отнесены работы в области создания гипертекстовых систем, рассматриваемых как особый способ организации текста и даже как принципиально новый вид текста, противопоставленный по многим своим свойствам обычному тексту, сформированному в гутенберговской традиции книгопечатания. Идея гипертекста связывается с именем Ванневара Буша – советника президента Ф.Рузвельта по науке. В.Буш теоретически обосновал проект технической системы «Мемекс», которая позволяла пользователю связывать тексты и их фрагменты по различным типам связей, преимущественно по ассоциативным отношениям. Отсутствие компьютерной техники сделало проект труднореализуемым, поскольку механическая система оказалась чрезмерно сложной для практического воплощения.
Идея Буша в 1960-е годы получила второе рождение в системе «Ксанаду» Т.Нельсона, которая уже предполагала использование компьютерной техники. «Ксанаду» позволял пользователю прочитывать совокупность введенных в систему текстов различными способами, в различной последовательности, программное обеспечение давало возможность как запоминать последовательность просмотренных текстов, так и выбирать из них практически любой в произвольный момент времени. Множество текстов со связывающими их отношениями (системой переходов) было названо Т.Нельсоном гипертекстом. Многие исследователи рассматривают создание гипертекста как начало новой информационной эпохи, противопоставленной эре книгопечатания. Линейность письма, внешне отражающая линейность речи, оказывается фундаментальной категорией, ограничивающей мышление человека и понимание текста. Мир смысла нелинеен, поэтому сжатие смысловой информации в линейном речевом отрезке требует использования специальных «коммуникативных упаковок» – членение на тему и рему, разделение плана содержания высказывания на эксплицитные (утверждение, пропозиция, фокус) и имплицитные (пресуппозиция, следствие, импликатура дискурса) слои. Отказ от линейности текста и в процессе его представления читателю (т.е. при чтении и понимании) и в процессе синтеза, по мнению теоретиков, способствовал бы «освобождению» мышления и даже возникновению его новых форм. См. также СЕМАНТИКА.
В компьютерной системе гипертекст представлен в виде графа, в узлах которого находятся традиционные тексты или их фрагменты, изображения, таблицы, видеоролики и т.д. Узлы связаны разнообразными отношениями, типы которых задаются разработчиками программного обеспечения гипертекста или самим читателем. Отношения задают потенциальные возможности передвижения, или навигации по гипертексту. Отношения могут быть однонаправленными или двунаправленными. Соответственно, двунаправленные стрелки позволяют двигаться пользователю в обе стороны, а однонаправленные – только в одну. Цепочка узлов, через которые проходит читатель при просмотре компонентов текста, образует путь, или маршрут.
Компьютерные реализации гипертекста бывают иерархическими или сетевыми. Иерархическое – древовидное – строение гипертекста существенно ограничивает возможности перехода между его компонентами. В таком гипертексте отношения между компонентами напоминают структуру тезауруса, основанного на родо-видовых связях. Сетевой гипертекст позволяет использовать различные типы отношений между компонентами, не ограничиваясь отношениями «род – вид». По способу существования гипертекста выделяются статические и динамические гипертексты. Статический гипертекст не меняется в процессе эксплуатации; в нем пользователь может фиксировать свои комментарии, однако они не меняют существо дела. Для динамического гипертекста изменение является нормальной формой существования. Обычно динамические гипертексты функционируют там, где необходимо постоянно анализировать поток информации, т.е. в информационных службах различного рода. Гипертекстовой является, например, Аризонская информационная система (AAIS), которая ежемесячно пополняется на 300–500 рефератов в месяц.
Отношения между элементами гипертекста могут изначально фиксироваться создателями, а могут порождаться всякий раз, когда происходит обращение пользователя к гипертексту. В первом случае речь идет о гипертекстах жесткой структуры, а во втором – о гипертекстах мягкой структуры. Жесткая структура технологически вполне понятна. Технология организации мягкой структуры должна основываться на семантическом анализе близости документов (или других источников информации) друг к другу. Это нетривиальная задача компьютерной лингвистики. В настоящее время широко распространено использование технологий мягкой структуры на ключевых словах. Переход от одного узла к другому в сети гипертекста осуществляется в результате поиска ключевых слов. Поскольку набор ключевых слов каждый раз может различаться, каждый раз меняется и структура гипертекста.
Технология построения гипертекстовых систем не делает различий между текстовой и нетекстовой информацией. Между тем включение визуальной и звуковой информации (видеороликов, картин, фотографий, звукозаписей и т.п.) требует существенного изменения интерфейса с пользователем и более мощной программной и компьютерной поддержки. Такие системы получили название гипермедиа, или мультимедиа. Наглядность мультимедийных систем предопределила их широкое использование в обучении, в создании компьютерных вариантов энциклопедий. Существуют, например, прекрасно выполненные CD-ромы с мультимедийными системами по детским энциклопедиям издательства «Дорлин Киндерсли».
В рамках компьютерной лексикографии разрабатываются компьютерные технологии составления и эксплуатации словарей. Специальные программы – базы данных, компьютерные картотеки, программы обработки текста – позволяют в автоматическом режиме формировать словарные статьи, хранить словарную информацию и обрабатывать ее. Множество различных компьютерных лексикографических программ разделяются на две больших группы: программы поддержки лексикографических работ и автоматические словари различных типов, включающие лексикографические базы данных. Автоматический словарь – это словарь в специальном машинном формате, предназначенный для использования на ЭВМ пользователем или компьютерной программой обработки текста. Иными словами, различаются автоматические словари конечного пользователя-человека и автоматические словари для программ обработки текста. Автоматические словари, предназначенные для конечного пользователя, по интерфейсу и структуре словарной статьи существенно отличаются от автоматических словарей, включенных в системы машинного перевода, системы автоматического реферирования, информационного поиска и т.д. Чаще всего они являются компьютерными версиями хорошо известных обычных словарей. На рынке программного обеспечения имеются компьютерные аналоги толковых словарей английского языка (автоматический Вебстер, автоматический толковый словарь английского языка издательства Коллинз, автоматический вариант Нового большого англо-русского словаря под ред. Ю.Д.Апресяна и Э.М.Медниковой), существует и компьютерная версия словаря Ожегова. Автоматические словари для программ обработки текста можно назвать автоматическими словарями в точном смысле. Они, как правило, не предназначены для обычного пользователя. Особенности их структуры, сфера охвата словарного материала задаются теми программами, которые с ними взаимодействуют.
Компьютерное моделирование структуры сюжета – еще одно перспективное направление компьютерной лингвистики. Изучение структуры сюжета относится к проблематике структурного литературоведения (в широком смысле), семиотики и культурологии. Имеющиеся компьютерные программы моделирования сюжета основываются на трех базовых формализмах представления сюжета – морфологическом и синтаксическом направлениях представления сюжета, а также на когнитивном подходе. Идеи о морфологическом устройстве структуры сюжета восходят к известным работам В.Я.Проппа (см.) о русской волшебной сказке. Пропп заметил, что при обилии персонажей и событий волшебной сказки количество функций персонажей ограничено, и предложил аппарат для описания этих функций. Идеи Проппа легли в основу компьютерной программы TALE, моделирующей порождение сюжета сказки. В основу алгоритма программы TALE положена последовательность функций персонажей сказки. Фактически функции Проппа задавали множество типизированных ситуаций, упорядоченных на основе анализа эмпирического материала. Возможности сцепления различных ситуаций в правилах порождения определялись типичной последовательностью функций – в том виде, в котором это удается установить из текстов сказок. В программе типичные последовательности функций описывались как типовые сценарии встреч персонажей.
Теоретическую основу синтаксического подхода к сюжету текста составили «сюжетные грамматики», или «грамматики повествования» (story grammars). Они появились в середине 1970-х годов в результате переноса идей порождающей грамматики Н.Хомского на описание макроструктуры текста. Если важнейшими составляющими синтаксической структуры в порождающей грамматике были глагольные и именные группы, то в большинстве сюжетных грамматик в качестве базовых выделялись экспозиция (setting), событие и эпизод. В теории сюжетных грамматик широко обсуждались условия минимальности, то есть ограничения, определявшие статус последовательности из элементов сюжета как нормальный сюжет. Оказалось, однако, что чисто лингвистическими методами это сделать невозможно. Многие ограничения носят социокультурный характер. Сюжетные грамматики, существенно различаясь набором категорий в дереве порождения, допускали весьма ограниченный набор правил модификации повествовательной (нарративной) структуры.
В начале 1980-х годов одной из учениц Р.Шенка – В.Ленерт в рамках работ по созданию компьютерного генератора сюжетов был предложен оригинальный формализм эмоциональных сюжетных единиц (Affective Plot Units), оказавшийся мощным средством представления структуры сюжета. При том, что он был изначально разработан для системы искусственного интеллекта, этот формализм использовался в чисто теоретических исследованиях. Сущность подхода Ленерт заключалась в том, что сюжет описывался как последовательная смена когнитивно-эмоциональных состояний персонажей. Тем самым в центре внимания формализма Ленерт стоят не внешние компоненты сюжета – экспозиция, событие, эпизод, мораль, – а его содержательные характеристики. В этом отношении формализм Ленерт отчасти оказывается возвращением к идеям Проппа.
К компетенции компьютерной лингвистики относится и машинный перевод, переживающий в настоящее время второе рождение.