Формальное моделирование в семантике

Лекция 8

Это, пожалуй, наиболее сложное направление формальных исследований. Сложность объясняется тем, что практически невозможно отделить лингвистическое значение от наших экстралингвистических знаний об окружающем мире. Еще одна причина – нежесткая связь между означающими и означаемыми языковых знаков: плохо поддаются формализации переносные употребления (метафора, ирония); по-прежнему много проблем вызывают такие явления как синонимия и полисемия.

Так же, как и в функциональной семантике, существует разделение на лексическую семантику и семантику высказывания, в формальных исследованиях мы можем выделить модели лексического уровня и модели, которые ориентированы на уровень высказывания.

1. Формальные лексико-семантические модели

Этот класс моделей исторически восходит к компонентному анализу – методу описания семантики слов, предложенному в рамках структуралистского подхода к языку. Исходная идея компонентного анализа – описать значение слова как совокупность семантических компонентов (сем). Эти компоненты отражают некоторое концептуальное содержание, из которого складывается общее значение слова. Набор сем позволяет обнаруживать бинарные противопоставления близких по значению слов (идея бинарного противопоставления своими корнями уходит в фонологию). Терминологический параллелизм компонентного анализа (по крайней мере в американской лингвистической традиции) позволил вернуть семантику в сферу интересов лингвистики.

В европейской лингвистике работы Косериу, Поттье и Греймаса – пример того, как идея функциональной оппозиции применялась к анализу элементов лексико-семантического поля: это позволяло проводить различия в семантике близких по значению элементов, составляющих поле. Например, Поттье анализировал различия в семантике французских существительных, обозначающих предметы мебели в терминах архисемы (для сидения) и дифференциальных сем (со спинкой, с подлокотником, мягкое и т.д.). По сути, и европейская, и американская традиция компонентного анализа близка лексикографической идее аналитического представления значения слова, разложения сложного на более простые компоненты (хотя критерий простоты остается спорным).

Компонентный анализ как способ представления информации о значении слова был успешно интегрирован в генеративистскую модель двумя американскими лингвистами – Катцем и Фодором. Их работа “The Structure of a Semantic Theory”, вышедшая в 1963 году, положила начало развитию направления, которое получило название Генеративная семантика. И хотя сегодня предложенные Катцем и Фодором методы описания лексического значения практически не используются, их исследование сыграло очень важную роль в семантике 1960-1970-х годов.

В модели Катца-Фодора следует обратить внимание на три аспекта: 1) использование идей структурализма; 2) применение формальных методов описания к лексическому значению; 3) опору на ментальную концепцию значения (интерес к психологической реальности значения).

Очевидно, что первое свойство модели Катца-Фодора – использование идей структуралистов – это логическое продолжение господствовавшей в лингвистике середины ХХ века структуралистской парадигмы. Два вторых свойства обеспечили модели новизну и в значительной степени определили направление развития лексической семантики в западной лингвистике. Катц и Фодор поставили ряд новых для лингвистической семантики вопросов, например, в какой мере можно формализовать значение? Какая формальная модель является наиболее адекватной для решения этой задачи? Каким образом психологический компонент может быть интегрирован в формальное описание семантики?

Используя метод компонентного анализа, Катц и Фодор стали представлять значения многозначных слов как запись в словаре, который, в свою очередь, является составной частью формальной грамматики. Например, запись для слова bachelor выглядит следующим образом:

Формальное моделирование в семантике - student2.ru

На диаграмме отражены два типа семантических компонентов: маркеры (в круглых скобках) и различители (в квадратных скобках). Маркеры составляют так называемую системную часть значения слова. Они определяют синтагматические свойства слова, т.е. служат своего рода ограничителями. Например, глагол говорить требует при себе одушевленное существительное в качестве субъекта действия, поэтому семантический компонент (Human) для него будет служить маркером. Различители, в отличие от маркеров, показывают индивидуальные компоненты в значении каждой единицы. Деление семантических компонентов на маркеры и различители, с одной стороны, помогает сделать модель более систематизированной и экономной. С другой стороны, вопрос отнесения компонента к маркерам или различителям определяется тем, играет ли этот компонент какую-либо роль в снятии неоднозначности высказывания. Например, чтобы объяснить, почему носители языка не считают предложение the old bachelor finally died многозначным (т.е. они однозначно выбирают значение someone who has never married, но не a knight who serves as a shield-bearer for another knight), Катц и Фодор делят семантические компоненты на маркеры и различители, и young попадает в класс маркеров, т.е. системных компонентов, и это делает прочтение предложения с таким значением аномальным (young противоречит old).

Такое объяснение удобно для описания действий носителей языка. Возникает вопрос, как процесс выбора значения может быть представлен в формальной грамматике? Иными словами, как грамматика сможет избегать аномальных интерпретаций? Именно этот вопрос оказался важным для развития лексической семантики, потому что в нем соединились необходимость описания лексического значения и синтаксическое описание языка. Семантика, таким образом, сделала первую попытку интеграции в моделирование грамматики естественного языка.

В модели Катца и Фодора формальный механизм, который позволял бы исключать семантически аномальные интерпретации, состоит из так называемых правил проекции. Правила проекции отвечают за комбинирование лексических значений отдельных слов внутри непосредственно составляющих и далее – за объединение смысловых комбинаций непосредственно составляющих и их интеграцию в общее значение высказывания. В составляющей типа the old bachelor индивидуальные значения словоформ интегрируются в общее значение составляющей. Если далее грамматика ошибочно интерпретирует слово bachelor как a knight who serves as a shield-bearer for another knight, то в репрезентацию значения составляющей оказываются включены противоречащие друг другу компоненты (молодой и старый). Если же грамматика интерпретирует bachelor как «холостяк» или «имеющий степень бакалавра», то никакой аномалии не возникает. Ясно, что такой механизм работает только в том случае, когда формальная грамматика «знает», что компоненты «молодой» и «старый» являются взаимоисключающими. Поэтому Катц и Фодор описывают их как антонимы и указывают, что антонимы являются несовместимыми семантическими компонентами.

Приведенный пример показывает, насколько сильна традиция структуралистского описания языка в работах Катца и Фодора. Это не только использование метода компонентного анализа значения, но и в целом позиция, которую занимают исследователи. Например, Катц сравнивал семантику с физикой: так же как в физике постулируют существование элементов, которые мы не можем воспринимать непосредственно (например, явление гравитации или молекулярную структур окружающих нас объектов), и затем используют эти понятия для объяснения наблюдаемых свойств объектов и взаимосвязей между объектами или явлениями, лингвисты могут использовать понятие глубинной структуры, правила проекции и формальные семантические представления для того, чтобы описывать наблюдаемые языковые явления. Исходной точкой в объяснениях должны быть суждения носителей языка о нормальности или аномальности семантики высказывания, поскольку именно эти суждения помогут ответить на вопросы, какие значения являются тождественными, а какие – различными, что такое многозначность и т.д. Поэтому-то модель Катца-Фодора в основном ориентирована на описание семантического тождества слов (т.е. синонимии), семантической противоположности (антонимии), таксономических взаимоотношений между словами, в частности, словами, входящими в одно лексико-семантическое поле. Интересно, что генеративная семантика пытается охватить и парадигматические, и синтагматические отношения между словами.

Несмотря на приверженность идеям структурализма, модель Катца-Фодора – это первый шаг за рамки господствовавшей парадигмы. Во-первых, формализация – обязательный элемент этой модели. Таксономические отношения – не главная цель Катца и Фодора, наоборот, это «входящая информация», на основе которой показывается, каким образом строятся эти отношения с применением правил проекции. В качестве примера посмотрим на отношения гипонимии.

Грамматика должна уметь определять, являются ли некоторые два слова участниками гипо-гиперонимических отношений. Для этой цели необходимо формализовать понятие «гипонимия». Например, можно утверждать, что некоторое понятие Сi является гипонимом понятия Сj, принадлежащего к тому же классу слов, если одно из значений понятия Сj является частью одного из значений понятия Сi. Более формально можно сказать, что речь идет о соотношении соответствующих формальных описаний. Возвращаясь к нашему примеру с холостяком, мы можем заметить, что в одном из своих значений (Human – Male – who has never married). Одно из значений слова man также представлено набором свойств (Human – Male). Это описание полностью входит в структуру значения слова «холостяк», поэтому мы можем считать, что холостяк является гипонимом по отношению к слову man. Поэтому формальное представление оказывается удобным: оно помогает более строго определить различные семантические отношения.

Во-вторых, Катц и Фодор ввели элемент психологизма в лингвистическую семантику. Объектом исследования становятся не системно-структурные отношения на семантическом уровне, а умение носителя языка интерпретировать предложения. Такой подход коррелирует с предложенным Хомским понятием языковой компетенции как основным объектом лингвистического исследования. Теперь, вместо рассуждений о языке как системе, существующей независимо от тех, кто ею пользуется, язык получает психологическую интерпретацию.

Модель Катца-Фодора вызвала много вопросов. Например, довольно быстро отказались от деления семантических компонентов на маркеры и различители. Вторым поводом для критики оказались правила проекции: они вмешивались в работу синтаксических правил и не позволяли различать составляющие типа cats chase mice и mice chase cats. Дело в том, что правила проекции приводили к одинаковому семантическому представлению таких случаев. Чтобы обойти возникшую проблему, Катц предложил так называемые «сложные маркеры». Например, для глагола chase маркер выглядел так:

((Activity of X) (Nature: Physical)) ((Motion) (Rate: (Fast)) (Character: (Following Y)))), (Intention of X: (Trying to catch ((Y) (Motion)))).

Такие комплексные маркеры, по замыслу Катца, должны были различать значение составляющих типа cats chase mice и mice chase cats. Однако критики Катца (например, Бирвиш), отметили, что в данной ситуации гораздо более экономным оказывается логико-семантическое описание. Например, на языке логики предикатов первого порядка информация о двухместном предикате chase выглядит следующим образом: CHASE (x, y).

Дальнейшее развитие генеративной семантики пошло по пути объединения семантических идей с логическим способом представления информации. Семантические компоненты теперь начали описываться как предикаты, а значение лексической единицы теперь представлялось как сложная пропозиция.

Постепенно начались разногласия между сторонниками модели Катца-Фодора. Одни считали, что семантика предшествует работе синтаксического блока, другие, наоборот, считали синтаксис главным уровнем, отводя семантике второстепенную роль. В споре победили сторонники синтаксиса, а лексический блок генеративной грамматики практически перестал обсуждаться. Одна из причин победы – в том, что с точки зрения сторонников Хомского, только синтаксис является врожденным, и только синтаксическая сложность делает человеческий язык таким уникальным. Поэтому предложение сделать семантический компонент первым (до синтаксического блока) было отвергнуто, как и идея о том, что глубинное представление предложения является семантическим. Нерешенным остался и вопрос о том, как влияют синтаксические трансформации на общее значение высказывания.

Генеративная семантика довольно быстро «сошла на нет», однако интерес к формальным способам представления лексического значения сохранился. Новые теории, такие как генеративный лексикон Пустейовского или словарь в модели Смысл-Текст Мельчука, или проект WordNet развивались не только как теоретические, но и как прикладные модели.

Двухуровневая семантика

Одной из заметных моделей формального описания лексического значения стала Двухуровневая Семантика Манфреда Бирвиша и Эвальда Ланга. Исследователи пытались ответить на вопрос, где проходит граница между собственно лингвистическим значением и энциклопедическим знанием. Для этой модели характерно модульное представление когнитивной системы: мышление – это процесс взаимодействия модулей. Полисемия, присущая естественному языку, может быть описана как взаимодействие двух уровней: семантической формы и концептуальной структуры.

Семантическая форма – это специфическое для каждого языка формальное описание лексических единиц. Оно определяет условия для связывания лексической единицы с единицами концептуальной структуры и содержит грамматическое описание, которое определяет условия вхождения лексической единицы в синтаксические конструкции.

Концептуальная структура, модуль второго уровня, состоит из независимых от языка элементов и их комбинаций, с помощью которых описываются понятия. Понятия, соответствующие конкретным объектам, например, представлены как схемы, в которых прописаны пространственные свойства объектов.

Как взаимодействуют эти уровни? Для каждого слова имеется единственное лексическое значение на уровне семантической формы, но в процессе взаимодействия с концептуальными элементами слово может приобретать несколько контекстно-зависимых интерпретаций. Такое представление должно отражать динамический характер значения, его зависимость от контекста, а также описывать полисемию.

Посмотрим на несколько примеров. Например, слова университет или школа могут означать либо учреждение, где обучают, либо здания, в которых обучаются студенты. Тем не менее, семантическая форма у этих значений будет единая:

λx [PURPOSE [x w]].

Далее можно представить более специализированное описание для слова университет:

λx [PURPOSE [x w] & advanced study and teaching [w]].

В таком семантическом описании х – это переменная, значение которой определяется на втором, концептуальном уровне. Два значения, о которых мы говорили выше, соответствуют двум вариантам спецификации х:

λx [INSTITUTION [x] & PURPOSE [x w]]

λx [BUILDING [x] & PURPOSE [x w]].

Много критики вызвала идея единого лексического значения на уровне семантической формы. К нему предъявляется очень жесткое требование – оно должно охватывать все случаи употребления данного слова. Поэтому и описание значения должно быть однозначным (что в принципе невозможно, если в качестве метаязыка описания мы используем слова естественного языка). Кроме того, при таком подходе плохо решается проблема синонимии: получается, что на уровне семантической формы близкие по значению слова должны описываться одинаково (например, кроме университетов существуют также колледжи, академии и институты).

К достоинствам двухуровневой семантики можно отнести ее компактность и стремление учесть зависимость значения слова от контекста. Бирвиш предложил различать собственно лингвистический уровень описания значения, на котором дается единое семантическое описание слова, и контекстуальный уровень, на котором происходят изменения исходного значения. Фактически эти два уровня означают четкое разделение семантики и прагматики. Функция изменения значения передается на прагматический уровень, и таким образом моделируется творческое использование языка. Если использование слова в определенном контексте сводилось бы к выбору одного из готовых значений, то языковое творчество оказалось бы в принципе невозможным. Предложенный Бирвишем и Лангом двухуровневый механизм объясняет, каким образом язык может быть использован творчески.

Заметим, однако, что компактность модели является одновременно и ее недостатком. Если мы говорим о существовании единственного семантического описания слова, мы должны обосновать условия его уместного использования. Единственное значение также подразумевает, что оно охватывает все возможные случаи использования слова в речи и отличает данную единицу от других единиц этого же класса. Описания, предложенные Бирвишем, этим требованиям не удовлетворяли.

Вторая проблема – это проблема не конкретной модели Бирвиша-Ланга, а общая проблема всей семантики: в какой степени процесс контекстуализации может быть формализован без обращения к более широкому энциклопедическому знанию? Есть масса примеров того, как понимание слова определяется в первую очередь на основе знаний о мире. Например, в немецком языке слова Parlament (парламент) и Regierung (правительство) различаются, среди прочего, и на основе знания о том, что парламент – структура, которая находится в определенном здании, в то время как правительство такой локации не имеет. Очевидно, данная информация не является частью лингвистической семантики данных слов. Знания о том, как функционируют правильство и парламент, определяют лексическую сочетаемость лексем. Например, можно сказать “Der Parlament liegt am Stadtrand” (Парламент расположен на окраине города), но нельзя – “Die Regierung liegt am Stadtrand” (Правительство расположено на окраине города).

Третья проблема касается исторических изменений языка. Компактное представление значения отделяет семантическую информацию, хранящуюся в ментальном лексиконе, от интерпретаций, к которым мы приходим под влиянием контекста. Это позволяет защитить лексикон от переполнения информацией и сохранить простоту описания значения. Но если мы будем принимать во внимание языковые изменения, строгое разделение между информацией, хранимой в лексиконе, и информацией, выводимой под влиянием контекста, сохранить не удастся. Прагматические значения могут закрепляться и становиться частью семантики – на это обратили внимание уже давно, и, если мы посмотрим на историю лингвистической семантики, то обнаружим там термин «узуальное значение» - с его помощью описываются как раз такие переходные случаи, когда новое значение постепенно становится привычным для носителей языка. Если бы новые значения не становились узуальными, никаких исторических изменений в значении слов не происходило бы. Но мы знаем, что именно лексика в наибольшей степени подвержена изменениям.

Генеративный лексикон Пустейовского

Это еще одна модель, в основе которой лежат идеи компонентного анализа. Мы обратим внимание на четыре аспекта: общую структуру модели, способ представления информации, варианты развития генеративного лексикона и слабые места этой модели.

Общая структура модели характеризуется двумя чертами: во-первых, основной интерес Пустейовского лежит в сфере регулярной полисемии. Примерами регулярной полисемии являются метафорические и метонимические переносы (как уже рассмотренный нами случай употребления слова университет в двух значениях или употребление неисчисляемых существительных в конкретно-предметных значениях, например, он заказал два кофе). Регулярная полисемия характерна не только для существительных, но и для прилагательных (a fast car – a fast road) и глаголов.

Вторая характерная черта генеративного лексикона – желание объяснить творческое использование языка, создать динамическую (а не статическую) модель лексикона. Кроме того, Пустейовский использует логический способ представления информации, а это позволяет использовать данную модель в компьютерной лингвистике.

Семантическое представление в данной модели порождается в результате ряда процедур, которые опираются на информацию, заложенную в систему для каждой лексической единицы. Записи лексем включают сведения о количестве и типах аргументов (если речь идет о предикате), информацию о структуре описываемой ситуации, а также дескриптивные компоненты значения (это похоже на компонентный анализ). Для описания значения используются матрицы. В качестве иллюстрации посмотрим на описание значения существительного sandwich:

Sandwich(x)

CONST = {bread,...}

FORMAL = physform(x)

TELIC = eat(P,w,x)

AGENTIVE = make activity(z,x)

Данная запись содержит информацию о характере действия (атрибут TELIC описывает действие как процесс P, происходящий между индивидом w и физическим объектом х). Более сложные типы значений описываются большим количеством признаков (см. стр. 149 Geeraerts).

Build

Transition-event

EVENT 1 = 1 event

TYPE =process

EVENTSTR= EVENT 2 = 2 event

TYPE =state

Событийная структура указывает, что глагол build обозначает событие, состоящее из двух подсобытий, одно из которых – это процесс, а второе – состояние, которое возникает в результате процесса. Связь между событиями указана в строке RESTRICT: подсобытия хронологически упорядочены (процесс предшествует результату). Кроме того, первое подсобытие является более важным по сравнению со вторым, поэтому оно считается вершиной событийной структуры.

Аргументная структура задает три аргумента для глагола build:два первых соответствуют синтаксическим ролям подлежащего и прямого дополнения, причем первый аргумент – подлежащее – обязательно должен быть одушевленным существительным. Здесь же содержится отсылка к так называемой качественной структуре (QUALIA) – первый аргумент обязательно должен иметь значение «существо» - creature – как формальную характеристику. Второй аргумент – это предмет (артефакт), а третий – так называемый «аргумент по умолчанию» - подразумевается семантикой, но не является обязательным для выражения. В случае с build таким аргументом является материал, из которого создается нечто.

Качественная структура может включать в себя четыре обширных категории характеристик. Формальные характеристики описывают, что представляет собой объект, конститутивные характеристики описывают составные части объекта, например, материал, из которого состоит объект. Целевые характеристики описывают назначение объекта, а агентивные отвечают на вопрос, каким образом появился описываемый объект. Разные характеристики могут играть разные роли в структуре значения разных имен. Например, в случае с build качественная структура имеет форму лексико-концептуальной парадигмы, в которой указаны роли, которые может исполнять объект, т.е. быть либо процессом, либо результатом. Процессуальный вариант требует в качестве синтаксического подлежащего ARG1 и факультативный аргумент D-ARG2.

Есть еще один тип информационной структуры, который не приведен в примере. Это так называемая структура лексического наследования, в которой отражается информация об иерархических отношениях между единицами словаря.

Почему в названии модели есть слово «генеративный»? Этот термин отражает те способы, которые используются для объединения предиката с его аргументами. Таких способов три. Первый называется «соотнесением типов» (Type Matching). Он заключается в том, что аргумент подбирается в соответствии с тем типом, который указан в структуре предиката. Например, если глагол «течь» требует, чтобы его первым аргументом было существительное, обозначающее жидкость, а существительное «вода» обозначено как жидкость, то словосочетание «вода течет» является семантически приемлемым.

Второй тип объединения предиката и его аргументов называется аккомодацией. Тип аргумента наследуется через структуры лексического наследования. Иными словами, можно выбрать не родовое, а видовое имя. Например, глагол drive в качестве аргумента может принимать не только существительное a car, но также и все существительные, которые наследуют этот семантический признак, например, названия конкретных марок машин.

Последний тип, «типовое принуждение» (Type Coercion), характеризует случаи, когда тип аргумента не соответствует функции предиката ни прямо (как в случае соотнесения типов, ни косвенно (как в случае аккомодации), но он «навязывается» предикату. При этом тип аргумента меняется в соответствии с требованиями предиката. Например, у многозначных имен из нескольких выбирается только тот тип, который соответствует функции предиката («книга» - это и физический объект, и носитель информации; соответственно, для глагола «покупать» остается только первый тип значения, второй просто игнорируется).

Мы видим, что модель Пустейовского является более мощным формализмом по сравнению с многими другими лексико-семантическими моделями. Как идет ее дальнейшее развитие?

Во-первых, существует несколько вариантов компьютерной реализации этой модели. Для усиления эмпирической базы описания семантики пытаются делать на основе корпусного анализа. Вообще, как и многие другие генеративные модели, модель Пустейовского относится к так называемым top-down моделям: формализация и построение теории в них проводится на относительно небольшом объеме реального языкового материала. Проверка теории на более обширных данных показала (например, в исследованиях Адама Килгариффа), что Генеративный лексикон практически не справляется с фразеологизмами. Для их описания необходимо расширять существующие схемы.

Еще один вариант развития Генеративного лексикона – введение лексических правил (Тед Бриско). Это позволит создать более экономные описания случаев регулярной полисемии, например, для перехода между исчисляемыми и неисчисляемыми вариантами употребления существительных (поймать рыбу – есть рыбу). В данном случае правило может указывать на возможность такого перехода, причем, если в модели Пустейовского этот переход надо прописывать для каждого случая, то правило дает возможность описать весь класс таких употреблений.

Еще один аспект – возможность формального описания не только метонимий, но и метафорических переносов. Ашер и Ласкаридес предложили систему лексических правил для описаний метафор. Их описание глаголов движения показывает, что метафорические переносы тоже можно систематизировать. Например, глагол входить требует в прямом значении перемещения внутрь актанта с семантикой трехмерного пространства. При метафорическом переносе существительное, занимающее эту позицию, должно предполагать «пространственную» интерпретацию. Чувства и состояния позволяют метафорически представлять их как пространства, поскольку они длятся во времени, а время и пространство тесно связаны в нашем сознании – это измерения. Поэтому можно сказать по-английски to enter the crisis. При метафорическом употреблении сохраняется орфографический облик слова, его синтаксическое поведение и качественные характеристики (QUALIA). А вот семантический тип может быть любым, он может отличаться от исходного типа.

Суммируем достоинства Генеративного лексикона. Это самая продвинутая формальная модель, основанная на идее компонентного анализа. Пустейовский и его сторонники делают попытку учесть контекстуальную гибкость лексического значения, причем задействуют для этого довольно сложные структуры. К достоинствам можно также отнести и желание учесть прагматические факторы, которые влияют на выбор значения многозначного слова. Тем не менее, проблема разграничения лингвистического и энциклопедического знания остается нерешенной (вряд ли вообще это возможно).

Есть и ряд проблем, за которые модель критикуют. Например, при сочетании предиката с аргументом по типу «принуждение» фраза Sidney began a novel интерпретируется как Sidney began reading a novel, поскольку в структуре значения существительного novel есть указание на назначение:

novel (x)

CONST = pages (z)

FORM = physobj (x)

TELIC = read (P,y,x)

Если мы возьмем существительное sweater, которое тоже обозначает физический объект, мы будем ожидать, что его назначение будет описываться функцией to wear. Однако вряд ли можно сказать Sidney began a sweater в значении Sidney began to wear a sweater.

Есть вопросы и относительно статуса свойств. Например, насколько характеристика «физический объект» очевидна и может считаться постоянной? Какова ее собственная семантика? Можем ли мы, отвлекаясь от лингвистической семантики, точно определить, что является физическим объектом, а что – нет (например, облака, огонь, интернет)? Такая же проблема возникает с правилами для метафорических переносов. Если мы утверждаем, что эмоции и состояния имеют измерения, это тоже метафорический перенос. Получается, что попытка формализации наталкивается на те же проблемы, что и традиционная семантика.

Другие формальные семантические теории

Пока мы анализировали модели, в основе которых лежит идея компонентного анализа лексического значения. Есть еще одна группа моделей, в которых используется идея лексико-семантических отношений. Эти модели тесно связаны с разработками в области компьютерной лингвистики: фактически они служат информационной базой для создания лексиконов, электронных словарей (часто пользователем таких словарей является не человек, а сам компьютер). Мы посмотрим на принципы организации двух таких моделей: проект WordNet и теорию «Смысл – текст».

WordNet представляет собой практическое приложение, в котором моделируются семантические отношения между словами. Существует версия для английского языка и также разрабатываются аналогичные продукты для других языков (голландского, итальянского, испанского, немецкого, французского, чешского, эстонского). Идея WordNet принадлежит американскому психолингвисту Джорджу Миллеру и Кристиану Феллбауму.

В WordNet глаголы, существительные и прилагательные сгруппированы в семантические ряды (synsets). Например, описание слова chair выглядит следующим образом:

Noun

• S: (n) chair (a seat for one person, with a support for the back) "he put his coat over the back of the chair and sat down"

• S: (n) professorship, chair (the position of professor) "he was awarded an endowed chair in economics"

• S: (n) president, chairman, chairwoman, chair, chairperson (the officer who presides at the meetings of an organization) "address your remarks to the chairperson"

• S: (n) electric chair, chair, death chair, hot seat (an instrument of execution by electrocution; resembles an ordinary seat for one person) "the murderer was sentenced to die in the chair"

• S: (n) chair (a particular seat in an orchestra) "he is second chair violin"

Verb

• S: (v) chair, chairman (act or preside as chair, as of an academic department in a university) "She chaired the department for many years"

S: (v) moderate, chair, lead (preside over) "John moderated the discussion"

Для каждого значения представлены синонимические ряды, дефиниция и пример употребления. Очевидно, синонимия в данной модели понимается достаточно широко, поскольку в синонимические ряды включены не только синонимы, но и близкие по значению слова. Например, слова chairman и chairwoman вряд ли могут быть отнесены к синонимам, скорее, речь идет о производных словах.

Далее для каждого из значений мы можем посмотреть списки гипонимов и гиперонимов, а также меронимию (т.е. слова, находящиеся в отношениях «целое – часть»). Для глаголов также можно посмотреть логические отношения «причина – следствие» и модель управления (см. sentence frame для snore).

Verb

• S: (v) snore, saw wood, saw logs (breathe noisily during one's sleep) "she complained that her husband snores"

direct hypernym / inherited hypernym / sister term

Entailment

S: (v) sleep, kip, slumber, log Z's, catch some Z's (be asleep)

derivationally related form

sentence frame

Somebody ----s

В состав WordNet включены не только отдельные слова, но и фразеологизмы. Из частей речи описываются только глаголы, существительные, прилагательные и наречия. Служебные части речи в базу не включены. Также в базе не прописаны синтагматические характеристики (сочетаемость). Но модель (как прикладной продукт, который постоянно пополняется) и не претендует на полноту описания.

То, что WordNet описывает многочисленные семантические связи слов, делает эту базу данных удобным источником семантической информации для других компьютерных разработок.

Наши рекомендации