Нечеткость природы лингвистических объектов 1 страница

В отличие от “языка” компьютера, являющегося исчислением дис-кретных единиц, естественный язык имеет нечетко-континуальную при-роду. Поэтому одной из основных задач, связанных с компьютерным мо-делированием РМД человека, является, с одной стороны, формальное описание этой нечеткости и континуальности, а с другой - поиски путей представления нечетких и размытых объектов РМД в виде четких и дискретных аналогов, которые могут быть восприняты и переработаны компьютером.

1.6.1. Уровни сознания и формирование лингвистических объектов. Современные нейрофизиологические и психолингвистические исследования [34; 53; 57. С. 18] показывают, что РМД человека, биологическим субстратом которой является нейронная сеть (подробнее см. 8.2.1), целесообразно рассматривать в русле трехзвенной схемы сознания. Эта схема включает:

- имплицитно-аморфное п о д с о з н а н и е, представляющее

собой множество неосознаваемых, с трудом вербализуемых и коммуницируемых процессов (эти процессы не принимают участия в логико-смысловой деятельности сознания);

- эксплицитно-языковое б а з о в о е с о з н а н и е, т.е. совокупность тех психических процессов сознания, которые активно участвуют в ос-

мыслении человеком внешнего мира и своего собственного бытия (эти процессы вербализуемы и коммуницируемы);

- с в е р х с о з н а н и е, объединяющее те не всегда вербализуемые, коммуницируемые и контролируемые базовым сознанием психические процессы, которые определяют творчество человека.

Традиционная схема приема и переработки информации из внешнего мира человеком показана на рис. 3.

 
  Нечеткость природы лингвистических объектов 1 страница - student2.ru

Подблок регуляции

тонуса и бодроство-

вания

 
  Нечеткость природы лингвистических объектов 1 страница - student2.ru

Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Инфор- Рецептор- Память: Эффекторный

Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru мация из ный блок 1)долговременная блок (речевой

внешнего (органы 2)кратковременная аппарат, рука)

Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru мира чувств) (оперативная)

Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru 3)сенсорная

Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru (иконическая)

 
  Нечеткость природы лингвистических объектов 1 страница - student2.ru

Информация,

Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Нечеткость природы лингвистических объектов 1 страница - student2.ru Подблок программирования, выданная во

контроля и регуляции внешний мир

Нечеткость природы лингвистических объектов 1 страница - student2.ru

Рис. 3. Схема приема и переработки информации в памяти человека

Нечеткость ЕЯ и РМД человека является следствием не только амо-рфности подсознания, где в ходе чувственного отражения предметов и явлений формируются их праобразы. Главным источником этой нечетко-сти является тот факт, что в силу ограниченных возможностей своей па-мяти человек не может оперировать по отдельности всеми образами окружающих его единичных предметов и явлений.

Человек вынужден объединить единичных предметы и явления в группы, которые фиксируются в мышлении в виде понятий-гештальтов и закрепляются в значениях слов, словосочетаний (с/с) и т.п. При этом за основу берется некоторый критерий, в качестве которого выступает характерный для объектов, обобщаемых гештальтом, признак (к о н ц е п т). Однако сам внешний мир есть недостаточно структурированный континуум, в котором многие объекты и их группы "переливаются" друг в друга. Этот переход происходит не скачкообразно, через четкие границы, а путем плавного скольжения из одной группы объектов в другую.

В силу особой организации своего эксплицитно-логического базового сознания человек, проводя классификацию и группировку реальных и идеальных объектов, пытается либо провести в континууме внешнего мира границы, которые на самом деле не существуют, либо более четко очертить те границы, которые обозначены в объективной действительности недостаточно ясно. Разметка этого континуума про-исходит в условиях противоречивого взаимодействия индивидуального сознания и общественной практики. С одной стороны, группировка объектов внешнего мира производится отдельными людьми в доста-точной степени субъективно, исходя из личного жизненного опыта, социальной, возрастной, половой и иной принадлежности. С другой, ― общность человеческой природы и особенно необходимость взаимо-понимания заставляет людей группировать объекты внешнего мира в своем сознании сходным образом и формировать в целом сходные для членов данного коллектива понятия. Применительно к РМД это взаи-модействие, отражаясь в известной антиномии языка и идиолекта, приво-дит к тому, что образы реальных и идеальных объектов группируются в совокупности, обладающие размытыми границами и относящиеся к классу т.н. н е ч е т к и х м н о ж е с т в. Рассмотрим в качестве иллюстрации несколько примеров из системы языка и речи.

1.6.2.Нечеткость в языке. Известно, что хроматический спектр по своей физической природе непрерывен. Однако наше сознание не способно воспроизвести эту непрерывность средствами ЕЯ. Поэтому все языки мира разбивают спектр на несколько участков, в центре каждого из которых находится некоторая ‘‘фокальная’’ точка. Носители русского языка делят этот спектр на семь основных областей - множеств хроматических типов. Для каждого множества имеется специальное обозначение (ср. красный, оранжевый, желтый, зеленый, голубой, синий, фиолетовый). В западноевропейских языках выделяется лишь шесть таких участков - ср. англ. red `красный', orange `оранжевый', уеllоw `желтый', green `зеленый', blue `голубой, синий', violet `фиолетовый'. В тюркских языках снова особое деление цветового спектра – ср. казах. коныр ‘кирпичный’, кызыл `ярко красный, оранжевый', сары `желтый', жасыл ‘ярко зеленый’, кок – участок спектра oт зелено-голубого до cине-фиолетового, включая серый и коричневый цвета). Но дело не только и не столько в особом разбиении хроматического спектра в каждой группе языков. Самое важное то, что границы между этими областями-множест-вами нечетки и подвижны.

В этом можно убедиться, наблюдая за тем, в какие из этих множеств включают те или иные оттенки цвета носители того или иного языка. Задача эта решалась на примере обозначений основных холодных цветов – фиолетового, синего, голубого и зеленого – в современном русском языке. Для этого: 67 носителям русского языка было предложено отнести каждый из указанных во 2-й графе табл. 1 оттенков к одному или одновременно к двум или трем базовым цветообозначениям. Результаты опыта показаны в столбцах 4 – 11 таблицы. Степень принадлежности (m) конкретного оттенка-элемента (xj) к базовому цвету (множеству Ai) определяется здесь как частное от деления числа испытуемых (m), относящих данный оттенок к базовому цвету, на общее число полученных ответов (N) относительно данного оттенка, т.е. (m= m/N).

Данные табл.1, обобщающие результаты описанного опыта, пока-зывают, что только один оттенок 'салатный' единодушно зачислен всеми испытуемыми во множество “зеленый”. Что же касается других оттенков, то каждый из них разносится испытуемыми по разным множествам. Т. о. границы между обозначениями цвета определяются носителями русского языка по-разному в зависимости от особенностей хроматического зрения, профессиональных привычек, художественного вкуса и т.д. Для одних верхняя граница множества “зеленый”. проходит между элементами `небесный' и `бирюзовый', для других – между `бирюзовый' и `изумруд-ный', для третьих – между `изумрудный' и `салатный' (15% испытуемых дало заведомо неправильный ответ на этот вопрос). Аналогичным образом колеблются границы множеств“синий”и “фиолетовый”.

Размытость границ характеризует значения не только прилага-тельных или абстрактных существительных типа ночь, утро, день, вечер, наречий типа правильно ― неправильно, и большинства глаголов. Эта нечеткость присуща также существительным, обозначающим вполне конкретные и дискретные объекты, в том числе и одушевленным суще-ствительным. Примером может служить нечеткость семантических гра-ниц такого, казалось бы, четкого и дискретного понятия как ‘‘человек’’. Между тем если представить это понятие в виде семантического множества, элементами которого являются частные антропологические понятия типа ‘дриопитек’, ‘рамапитек’, ‘австралопитек’, ‘габилис’, ‘пите-кантроп’, ‘синеантроп’, ‘неандерталец’, ‘кроманьонец’, ‘неоантроп’, обра-зующие звенья цепи, связывающие человека с его предками – ‘‘человекообразными обезьянами’’, то границы между обоими семантическими множествами окажутся размытыми. Действительно, одни специалисты в области антропогенеза относят габилисов к человекообразным обезьянам, а другие считают их уже людьми. Таким образом, семантические множества "человек" и "человекообразная обезьяна" оказываются нечетко отграниченными друг от друга. Их граница проходит либо между смысловыми элементами ‘габилис' и ‘питекантроп', либо между понятиями ‘австралопитек' и ‘габилис'.

Нечеткость лингвистических объектов является одним из источников различного осмысления разными людьми одного и того же сообщения на естественном языке, подробнее см. 3.1.2.

1.6.3. Нечеткость в речи. Хотя речь и обладает мощными средствами актуализации лексических и грамматических значений, в реальных устных и письменных текстах постоянно обнаруживаются случаи неоднозначности и нечеткости границ, образующих эти тексты единиц. Это проявляется в частности в том, что разные носители языка могут давать разное смысловое членение одного и того же текста. Об этом в свое время так писал В.Маяковский: «Размер и ритм вещи значительнее пунктуации, и они подчиняют себе пунктуацию когда она берется по старому образцу. Все-таки все читают стих Алексея Толстого:

Шибанов молчал. Из пронзенной ноги

Кровь алым струилась потоком.

как -

Шибанов молчал из пронзенной ноги...

Дальше -

Довольно, стыдно мне

Пред гордою полячкой унижаться...

читается как провинциальный разговорчик:

Довольно стыдно мне...

Чтобы читалось так, как думал Пушкин, надо разделить строку так, как делаю я:

Довольно,

стыдно мне...

(В.В.Маяковский, Как делать стихи. М.: Советский писатель,1952, с.36-37).

Нечеткость смысловых границ текстовых слов и с/с проявляется в таких грамматико-орфографических несогласованностях как рус. за рубежом, но зарубежный, фр. chemin de fer `железная дорога', но chemindeferrique `жeлeзнoдopoжный' , или англ. The Prime Minister of Britain `британский премьер-министр', но the Prime Minister of Britain's

residence `резиденция британского премьер-министра', где присоединение форманта 's к с/ф Britain вместо с/ф Minister указывает на восприятие цепочки Prime Minister of Britain в качестве единого словоупотребления, что с грамматической точки зрения неверно.

Большая нечеткость обнаруживается в акустической организации речи. Спектральный анализ показывает, что между отдельными звуками речевой цепи невозможно провести четкие границы. Соседние звуки выступают в виде наплывающих друг на друга акустических пятен, которые образуют нечеткие переходные участки.

Cемантическая и акустическая нечеткость лингвистических объектов в речевой цепи являются одним из наиболее серьезных препятствий при автоматическом анализе письменного и устного текста и в том числе при построении учебных компьютерных систем.

1.6.4. Формализация лингвистической нечеткости (от нечёткости лингвистических множеств к “чёткости” множеств и их элементов в искусственных языках) Лингвистические единицы и их совокупности имеют в человеческом сознании вид размытых пятен. Чтобы вложить это онтологическое свойство в инженерно-лингвистичес-–кие модели, необходимо дать формально-математическое представление этих пятен. Теоретически процедура формализации этой нечеткости выглядит следующим образом.

Описание того или иного участка внешнего мира (предметной области – ПО) задается в виде семантического пространства (СП), которое представляет собой сумму смысловых (тематических) областей (подобластей, участков и т.п.), обозначаемых символом Sh. Тогда

СП = S Sh).

Каждое Sh может рассматриваться в свою очередь как сумма

Sh= S Ã i,

где Ãi– нечеткая совокупность (нечеткое множество) элементов x1, x2,...xn.

Применительно к системе обозначения цветов и их оттенков, рас-смотренных выше, эта формализация выглядит следующим образом. Не-прерывный хроматический спектр выступает в представлении носителя русского языка как ПО, которое распадается на два пространства - СП "холодных" и СП "теплых" цветов. Каждое СП есть сумма нечетких мно-жеств (Sh= S Ã i) основных цветов, а каждое нечеткое множество состоит из элементов (xi), в роли которых выступают цветовые оттенки (табл. 1). Нечеткость множества Ãi выражается в том, что каждому элементу xi, ска-жем, из СП "холодные" цвета приписывается коэффициент m, характе-ризующий его принадлежность к множеству Ãi, при этом 0 < m < 1. Для выражения того, что элемент xi принадлежит множеству Ãi, а степень этой принадлежности равна m, используются такие синонимические записи:

m(xiÎ Ã i), m (xi / Ã i ), m/ xi Ai .

Итак, нечеткое множество представляет собой некоторую совокупность Ã элементов xi, каждый из которых характеризуется определенной степенью принадлежности к данному множеству. В формальной записи третьего типа это будет выглядеть так:

Ã={m1/x1, m2 /x2,...m n/xn}. (1.1)

Соответственно четкое ("классическое") множество (или просто множе-

ство), являющееся частным случаем нечеткого множества, есть такая совокупность A, каждый из элементов xi которой характеризуется полной (m = 1) принадлежностью к A, т.е.

A={1/x1,1/x2,...1/xn}={x1,x2,...xn

Нечеткое множество Ã, состоящее только из одного элемента x ,

называется н е ч е т к и м о д н о т о ч е ч н ы м м н о ж е с т в о м: Ã=m/x. Примером такого множества может служить ‘‘легендарная богатая золотом страна, находившаяся где-то в Южной Америке’’. То множество включает только один элемент ‘Эльдорадо’, реальность существования которого признавалось лишь немногими средневековыми путешест-венниками. Поэтому величина m, характеризующая степень принадлежности слова Эльдорадо к указанному множеству, заведомо меньше единицы.

Нечеткие лингвистические множества обычно подвергаются следую-щим операциям.

1. Д о п о л н е н и ю множества Ã. Существо этой операции состоит в том, что формируется новое нечеткое множество

ùÃ = не Ã,

включающее все те элементы xi из надмножества S, которые не входят в Ã. Если обратиться к нашему примеру, приведенному в табл. 1, то дополнением к множеству A = ‘синий’ будет множество

ù Ã ={‘густо фиолетовый’, ‘бирюзовый’,... ‘хаки’}.

2. О б ъ е д и н е н и ю множеств, которое выглядит как

à iÈ Ã j = à iили à j

Суть этой операции состоит в том, что образуется новое нечеткое множество, которое объединяет элементы, входящие или в Ã i или в Ã j , или одновременно в оба множества. Величина коэффициента m для xj равна его максимальной величине в Ã iили Ã j .

Рассмотрим эту операцию на примере объединения множеств Ã 2 (‘синий’) и Ã 3 (‘голубой’),- табл. 1. Здесь имеем:

à 2È Ã 3 = {0,48/`сине-фиолетовый’, 0,69/`индиго’, 0,56/`ультрама-

рин’, 0,64/`электрик’, 0,83/`васильковый’, 0,95/`небесный’,

0,54/бирюзовый’, 0,03/`изумрудный’}.

3. П е р е с е ч е н и ю множеств, которое обозначается как

à iÇ Ã j = и à i,и à j .

Существо операции состоит в том, что формируется новое нечеткое множество, в которое включаются элементы, входящие одновременно и в Ã i и в Ã j Величина коэффициента m для xj равна его минимальной величине в указанных множествах. Применительно к контрольному примеру имеем:

à 2Ç Ã 3 = {0,26/`индиго’, 0,36/`ультрамарин’, 0,36/`электрик’,

0,09/`васильковый’, 0,01/`небесный’}.

Нечеткость природы лингвистических объектов 1 страница - student2.ru



4. С г у щ е н и ю (Int) нечетких множеств. Cуть этой очень

важной для лингвистики и лингводидактики операции состоит в том, что в ее результате происходит увеличение коэффициентов m > 0,5 до единицы и уменьшение значений m < 0,5 до нуля (разумеется, при необходимости эти пороги могут быть изменены). Т.о. сгущение может настолько снизить нечеткость множества Ã, что оно превратится в ближайшее четкое множество A. С помощью этой операции моделируется способность сознания и РМД человека к категоризации и таксономизации континуальной реальности внешнего мира. Примером такой дискретной категоризации является сгуще-ние нечеткого множества

Ã(‘зеленый’) = {0,05/‘индиго’, 0,07/‘ультрамарин’, 0,03/ ‘васильковый’, 0,46/‘бирюзовый’, 0,97/‘изумрудный’, 1,00/‘салатный’, 0,51/‘хаки’}.

В результате этой опереции получаем четкое множество

Int(Ã 4) = A4 = {‘изумрудный’, ‘салатный’, ‘хаки’}.

При моделировании нечётких множеств с помощью традиционного математического аппарата наиболее сложной и трудоёмкой задачей является количественное определение степени принадлежности элемента xjк множеству Ã. В настоящее время для решения этой задачи используются несколько приемов. Укажем на основные.

1. Метод вероятностных оценок. Сущность его состоит в том, что

величина m приравнивается к величине вероятности p (или чаще всего к относительной частоте f) появления элемента xj во множестве Ã, тогда имеем

m (xj Ã) = p(xj ) = f(xj ) = m/N,

где N - объем выборки (испытаний на появление xj во множестве Ã, а m - число благоприятных исходов (появлений) элемента xj в Ã.

Например, при разработке системы автоматического индексирования французских текстов по технологии окраски в машиностроении выяснилось, что термин pistolage ‘окраска пистолетом’ встретился 40 раз в обследованных текстах. Внутри этого СП выделяется три тематических области, которые можно рассматривать как нечеткие множества ключевых терминов. Если считать, что термин pistolage может быть элементом любого из указанных множеств, то степень его принадлежности (m) к каждому из нечетких множеств оценивается долей (f) его употребления в этих подъязыках-множествах. Тогда имеем:

- для области «Электростатика и пневмораспыление»

m (pistolage) = 24/40 = 0,6;

- для области «Электрофорез»

m (pistolage) = 0/40 = 0,0;

- для области «Оборудование для получения лакокрасочных покрытий»

m (pistolage) = 16/40 = 0,4.

2. Метод экспертных оценок. С помощью этих оценок были определе-ны степени принадлежности названий цветовых оттенков к базовым цвето-образованиям. Выявление нечеткости лингвистических объектов, её количе-ственная оценка, а также формальное представление нечеткости являются наиболее сложными задачами, которые приходится решать в ходе АПТ. Именно здесь чаще всего применяется вероятностная мера. Экспертные оценки используются реже, поскольку их реализация связана со сложным тестовым экспериментом.

1.6.5. Моделирование нечётких лингвистических объектов в речи с помощью дискретных примитивов. Начнём рассмотрение этого подхода с фонетического примера. Спектральный анализ звуков показывает, что речевую реализацию фонемы (точнее, звукотипа) следует рассматривать не как единообразный дискретный элемент, но как динамически изменяющееся соотношение формант и формантных областей, которое образует нечеткое множество, наплывающее на соседний звук. Поэтому, чтобы осуществить автоматическое распознавание слитной устной речи, ее приходится делить на мелкие дискретные сегменты (“примитивы”) s, каждый из которых по протяженности заведомо короче фонемы-звукотипа.

Рассматривая каждый такой звук как нечеткое множество Ã элементов (сегментов) sj, выделим некоторые стационарные сегменты sk, которые можно считать эталонными представителями фонемы (звукотипа) Ã. Сте-пень принадлежности таких сегментов к Ã будет всегда равна единице, т.е.

m (sk Î Ã) = 1. Затем, определив характеризующие их структуру форманты-признаки, перейдем к причислению других сегментов sj к фонеме Ã. Эта операция реализуется с помощью выражения m (sj Î Ã) = m/N.

Здесь N  общее число структурных признаков, которые характеризуют стационарный сегмент sk , представляющий фонему Ã, а величина m указывает на количество структурных признаков фонемы Ã содержащихся в сегменте sj .

Рассмотрим эту процедуру на спектральной схеме русского слога [ku] в слове куриный [113а. С. 267]. Разобьем слог на восемь сегментов, каждый из которых будет характеризоваться определенными структурными признаками. В их роли будут выступать следующие характеристики:

 первая форманта (F1),

 вторая форманта (F2),

 третья форманта (F3),

 четвертая форманта (F4),

 основная область усиления среднечастотных шумов (F*), соответству-ющих звуку [k].

Теперь каждый звуковой сегмент нашей цепочки может быть

представлен в виде комбинации структурных признаков, характеризующих фонемы [k] или [u]. В табл.2 присутствие таких признаков отмечено знаком +, а отсутствие знаком  .

Исходя из спектральных характеристик отдельных звуков сегмент s8, включающий первую, вторую и четвертую форманты, следует считать эта-лонным для звука [u]. Что же касается звука [k], то его стационарными сег-ментами можно считать сегменты s5 и s6, характеризующиеся наличием область усиления среднечастотных шумов F*.

Будем рассматривать оба звука, образующих слог [ku], в качестве не-четких множеств Ã 1 = [k] и Ã 2 = [u], первое из которых включает в качестве примитивов сегменты s1-6, и s7-9. Тогда, используя данные табл. 2 и прене-брегая изменениями положения формант и формантных областей в ходе про-изнесения слога и не учитывая их функциональные веса, дадим с помощью выражения (1.1) следующее теоретико-множественное описание этих звуков:

[k]=A1= {1/s5, 1/s6},

[u]=A2= {0,66/s7, 1/ s8, 0,66/s9}.

Таблица 2. Структурные характеристики русского слога [ku]

Cтруктурные признаки (форманты) s1-4 s5 , s6 s7 s8 s9
F1 - - - + + +
F2 - - - + + +
F3 - - - - -  
F4 - - - - + -
F* - + + - - -

Несмотря на схематизацию и огрубление, только что построенная не-четкомножественная модель отражает динамику развития формантной стру-ктуры обоих звуков в слоге [ku]. Действительно, каждое множество содержит ядерные сегменты, принадлежность которых к данной фонеме равна едини-це. Для переходного сегмента, где звук ‘‘наплывает’’ на соседний звук при-надлежность его к этим звукам, естественно меньше единицы. Предло-женную нечетко-множественную модель можно было бы улучшить, учитывая:

 сдвиги в положении формантных полос и областей по отношению к положению соответствующих формант в эталонных сегментах,

 различия в интенсивности форманты (эти различия отмечаются

степенью густоты штриховки на спектрограммах [113а. С. 267]),

 функциональную значимость каждой форманты в структуре звука. Структурный подход используется не только при разработке лингвистиче-ского обеспечения систем автоматического анализа устной речи (7.1.1). Известно, что нечетко-множественная методика хорошо отражает природу таких наплывающих друг на друга размытых объединений, какими являются говоры, диалекты и ареалы отдельных лингвистических явлений. Их выдлее-ние и разграничение с помощью экспертных оценок и статистических приё-мов оказываются крайне трудоемкими, субъективными и не всегда надеж-ными. Именно поэтому, решая задачи разбиения континуального диалект-ного пространства и таксономии выделенных в нем дискретных единиц, лин-гвогеографы начинают обращаться к нечетко-множественному моделирова-нию, опирающемуся на структурные признаки говоров, диалектов и ареалов. Решение задачи осложняется тем, что исследователь имеет здесь дело с боль-шим числом объектов, которые нужно расклассифицировать по многим при-знакам. Чтобы преодолеть это затруднение, из общего числа признаков через операцию сгущения (1.6.4) выделяют главные структурные признаки говора, или диалекта (их p > 0,5), которые образуют эталон типичности. Он становится основным инструментом для дискретного таксономического моделирования размытого диалектного континуума [64. С. 18 - 22, 26 - 33]. Здесь использовать числовые (экспертные или вероятностные) значения не удается, поэтому приходится применять оценки типа интенсив-ное/средне-интенсивное/ спорадическое использование или полное отсутствие явления.

Наши рекомендации