Расплывчатое описание ситуаций

Обратим внимание на то, что все измерительные шкалы, рассмотренные в § 6.2, имеют одно общее свойство: они основаны на справедливости отношения эквивалентности (см. табл. 6.1) . Это отношение имеет силу как отдельно на множестве состояний наблюдаемого объекта и множестве наблюдений, зафиксированных в любой из шкал (два состояния или два измерения либо тождественны, либо различны), так и на их совокупности (состояния и соответствующие им измерения находятся во взаимно однозначном соответствии). Использование рассогласованной (т.е. более слабой, чем можно) шкалы приводит к образованию на множестве состояний новых классов эквивалентности, внутри которых состояния неразличимы в данной шкале (хотя их и можно различить в более сильной шкале). Однако и в этом случае отношение эквивалентности соблюдается.

ПОНЯТИЕ РАСПЛЫВЧАТОСТИ

В действительности встречаются (и гораздо чаще, чем кажется) случаи, когда тождество или различие двух состояний и/или наблюдений нельзя утверждать с полной уверенностью. Наиболее явно это видно на примере шкал, в которых классы обозначаются конструкциями естественного языка. “В комнату вошел высокий молодой человек” – класс, к которому принадлежит человек, назван (т.е. измерение состоялось), но какого он роста и сколько ему лет? “В руках он держал довольно тяжелый сверток” – какого веса была его ноша? Если разобраться, то почти каждое наше слово обозначает некоторое не вполне определенное множество. (“Почти” – какой процент? “Наше” – чье именно? “Не­ко­торое” – какое же? “Не вполне” – насколько? “Определенное” – кем и как? и т.д.) Это свойство естественного языка, природное и неотъемлемое, безусловно, полезное (иначе бы оно не закрепилось в процессе развития языка), но приводящее к затруднениям, когда сопровождающая его неопределенность мешает. Древние логики дискутировали вопрос о том, сколько песчинок должно быть собрано вместе, чтобы получилась куча песка; сегодня мы просто говорим, что слово “куча” – это лишь метка нечетко определенного множества. Спор о том, сколько песчинок в “куче”, эквивалентен спору о том, в каком возрасте человек становится “старым” или сколько волосинок должно у него выпасть, чтобы он был “лысым”.

Эта неопределенность смысла языковых конструкций является одной из основных трудностей автоматизации анализа и синтеза речи, ав­то­матического (и не только автоматического) перевода с одного языка на другой. Например, одному английскому предложению, состоящему из пяти слов, можно дать пять разных (!) смысловых интерпретаций [7]:

TIME FLIES LIKE AN ARROW

ВРЕМЯ ЛЕТИТ СТРЕЛОЙ

ВРЕМЯ ЛЕТИТ В НАПРАВЛЕНИИ СТРЕЛЫ

МУХАМ ВРЕМЕНИ НРАВИТСЯ СТРЕЛА*

ИЗМЕРЯЙ СКОРОСТЬ МУХ ТАК ЖЕ, КАК СКОРОСТЬ СТРЕЛЫ**

ИЗМЕРЯЙ СКОРОСТЬ МУХ, ПОХОЖИХ НА СТРЕЛУ

Неизвестно, действительный ли это факт или научно-фольклорная история, основанная на потенциальной возможности, но в литературе по автоматизации перевода приводится рассказ о кольцевой работе программ, переводящих с одного языка на другой: фраза “плоть слаба, а дух силен” после нескольких переводов превратилась в “мясо тухлое, но водка крепкая”.

Все сказанное выше мотивирует введение понятия лингвистической переменной как переменной, значение которой расплывчато по своей природе, как метки размытого, расплывчатого множества* . Хотя теория размытых множеств, построенная Л. Задэ, прекрасно иллюстрируется языковыми примерами и имеет интересные приложения в области искусственного интеллекта, размытость оказывается свойством не только естественного языка. Например, в математике с успехом применяются понятия “значительно больше” (символ ») и “приблизительно равно” (символ » или расплывчатое описание ситуаций - student2.ru ), являющиеся типично расплывчатыми.

ОСНОВНЫЕ ПОНЯТИЯ ТЕОРИИ РАСПЛЫВЧАТЫХ МНОЖЕСТВ

Изложим основные понятия теории расплывчатых множеств [1]. Расплывчатое множество А состоит из неопределенного числа элементов х: признаки, по которым элементы включаются в расплывчатое множество, не позволяют однозначно отделить все элементы, входящие в него, от элементов, ему не принадлежащих; по крайней мере некоторые элементы можно считать как относящимися к множеству, так и не входящими в него.

Важным является понятие функции принадлежности ?А(х). Счи­та­ет­ся, что для каждого элемента х можно задать число ?А(х), 0 £ ?А(х) £ 1, выражающее степень принадлежности этого элемента к расплывчатому множеству А. Если ?А(х) = 0, то элемент х определенно не принадлежит мно­жеству А, если ?А(х) = 1 – определенно входит в него. Величина ?А(х), рассматриваемая как функция аргумента х, и называется функцией принадлежности. Если ?А(х) принимает значения только либо 0, либо 1, то множество А является нерасплывчатым (на­пример, множеству А чисел, не превосходящих 5, соответствует функция ?А(х) = {1: х £ 5; 0: х > 5}). Характерным признаком расплывчатости множества является наличие хотя бы одного элемента с функцией при­надлежности, отличной от 0 и 1 (например, множество R+ положительных чисел становится размытым, если положить ?R+(0) = 1/2, так как есть основания считать нуль “отчасти положительным, а в чем-то отрицательным” числом) .

Итак, расплывчатое множество А в Х определяется как сово­куп­ность упорядоченных пар вида

А = {x, ?А(х)}, x Î Х.

Пустое расплывчатое множество f определяется как такое, для которого mf(х): º 0.

Иногда удобно использовать понятие носителя S(А) расплывчатого множества А, который определяется как такое множество, для которого

[х Î S(А) Í Х] Û [?А(х) > 0].

Расплывчатое множество А называется номинальным тогда и только тогда, когда supx?А(х) = 1, в противном случае – суб­нор­маль­ным. Непустое субнормальное множество можно нормализовать, разделив ?А(х) на supx?А(х). В связи с возможностью субнормальности следует дополнить определение нерасплывчатого мно­жества случаем, когда ?А(х) = const < 1 для всех х Î S(А).

Равенство двух расплывчатых множеств А и В определяется условием

(А = В) Û (?А(х) = ??(х)) " х Î Х.

Включение расплывчатого множества А в множество В определяется следующим образом:

(А Í B) Û [?А(х) £ ??(х)] " х Î Х.

Например, множество очень больших чисел является подмножеством больших чисел.

SUPPLEMENT, COMPLEMENT дополнение LABEL метка SET множество MEMBERSHIP принадлежность (множеству) FUZZINESS расплывчатость   Расплывчатость – это такое свойство явлений, при котором не выполняется отношение эквивалентности: явление одновременно может принадлежать данному классу и не принадлежать ему. Неопределенность такого типа описывается с помощью функции принадлежности; значение этой функции выражает степень уверенности, с которой мы относим данный объект к указанному классу. Сам класс в итоге становится не определяемым однозначно и называется расплывчатым множеством.

Расплывчатое множество А' называется дополнением к расплывчатому множеству А тогда и только тогда, когда ?А’(х) = 1 – ?А(х). Например, множества “высокие люди” и “невысокие люди” могут быть как дополнительными друг к другу, если их функции принадлежности в сумме тождественно равны единице, так и не являться дополнительными при другом задании этих функций.

Пересечение размытых множеств А и В оп­ре­деляется соотношением

А Ç В Û ?АÇB(х) = min[?А(х), ??(х)], х Î Х.

Объединением размытых множеств А и В называется расплывчатое множество А È В, удовлетворяющее условию

А È В Û ?АÈB(х) = max [?А(х), ??(х)], х Î Х.

В некоторых приложениях удобно определить такие составные множества, которые соответствуют конкретным арифметическим операциям над функциями принадлежности составляющих множеств.

Так, алгебраическое произведение расплывчатых множеств А и В обозначается через АВ и определяется равенством

?АB(х) = ?А(х)·?B(х), х Î Х;

алгебраическая сумма А Å В соответствует равенству

?АÅB(х) = ?А(х) + ?B(х) –??А(х)·?B(х), x Î Х.

Говорят, что имеет место расплывчатое отношение R между элементами х и у множеств Х и Y, если множество пар (х, у), удовлетворяющих этому отношению хRу, образует расплывчатое множество в Х ´ Y, т.е. можно задать ?R(х, у) – функцию принадлежности (х, у) к R.

Например, пусть отношение R есть х » у:

?R(х,у) = { 0: х £ у; [1 + (х – у)-2 ]-1: х > у } .

Пусть С – расплывчатое множество в пространстве Х ´ Y с функцией принадлежности ?C(х, y). Множество С называется разложимым по Х и Y в том и только в том случае, если С допускает представление С = А Ç В, или, что то же самое,

?C(х, y) = min [?А(х), ?B(у)].

Мы привели основные (не все) понятия, с помощью которых строится теория размытых множеств и решаются соответствующие задачи (некоторые из таких задач будут рассмотрены в гл. 7). Цель данного параграфа – дать представление о том, как можно построить математическую модель наблюдений, не удовлетворяющих аксиомам тождества. Иными словами, каждая измерительная шкала может быть “размыта”. Для размытия шкал наименований и порядка достаточно тех понятий, которые приведены выше; количественные шкалы требуют некоторых дополнительных определений.

Самым “узким” местом теории (и практики) размытых множеств является задание функций принадлежности. Существует несколько подходов к определению функции ?А(х):

1) эвристический подход, когда субъект сам определяет, как он понимает степень принадлежности (например, числа n к множеству “не­сколь­ко”); функции, задаваемые разными людьми для одного множества, могут различаться, что отражает разницу в понимании расплывчатого термина;

2) статистически подход, при котором ?А(х) определяется усреднением функций, задаваемых разными экспертами;

3) частичное задание ?А(х) поясняющими примерами (например, для нескольких значений х) и последующее доопределение всей функции подходящим методом;

4) интервальное определение типа задания пессимистической и оптимистической границ для функции ?А(х);

5) кратная расплывчатость, т.е. задание ?А(х) как размытого множества с помощью функции принадлежности второго порядка ?А2(?А(х)).

Подведем итог Расплывчатость является специфическим видом неопределенности. Ее главная особенность состоит в том, что в результате наблюдения конкретизируется лишь сам наблюдаемый объект, а неопределенность его принадлежности к расплывчатому множеству, известная заранее, сохраняется. Это описывается с помощью функции принадлежности. Другие особенности расплывчатых ситуаций моделируются аксиомами теории расплывчатых множеств. Summary Fuzziness is a specific type of uncertainty. Its main feature is that observation concretely defines merely the object itself, but uncertainty of its membership in a fuzzy set remains the same as before. This is represented by introducing the concept of the membership function. The other characteristics of fuzzy situations are modeled by the axioms of fuzzy set theory.

§ 6.4. ВЕРОЯТНОСТНОЕ ОПИСАНИЕ СИТУАЦИЙ.
СТАТИСТИЧЕСКИЕ ИЗМЕРЕНИЯ

Говоря о наблюдениях над изучаемым объектом и о фиксации результатов этих наблюдений (измерений), а именно это является основной темой данной главы, еще раз напомним, что сама необходимость обращения к эксперименту вытекает из того, что нужно устранить некоторую неопределенность, свойственную нашим знаниям об объекте до проведения этого эксперимента. В некоторых случаях эксперимент устраняет неопределенность полностью (как при бросании монеты или контрольном замере уровня масла в двигателе); в других случаях неопределенность лишь уменьшается до некоторого предела, относительного (т.е. в принципе преодолимого) или абсолютного (неуменьшаемого). Ясно, что и организация эксперимента, и обработка экспериментальных данных, определяющие степень уменьшения неопределенности, должны исходить из природы, существа, причины неопределенности.

ПОНЯТИЕ СЛУЧАЙНОЙ НЕОПРЕДЕЛЕННОСТИ

Оказывается, что неопределенность бывает разного происхождения. Один из ее видов – неизвестность – рассматривается теорией познания и философией; такого типа неопределенность характеризует ситуацию, когда мы задаемся вопросом “есть ли жизнь на Марсе?” (посадка советской автоматической станции на эту планету уменьшила неопределенность, но не сняла ее совсем) или “существуют ли внеземные цивилизации?” (поиск возможных искусственных радиосигналов, пока, к сожалению, безуспешен). Другой вид неопределенности – расплывчатость – был обсужден в предыдущем параграфе; для нее характерно, что эксперимент в принципе не снимает ее полностью. Третий вид неопределенности – случайность – мы кратко рассмотрим сейчас; при этом будем исходить из того, что читателю знакомы элементы теории вероятностей.

Говоря о случайных явлениях, прежде всего обращают внимание на их непредсказуемость, противопоставляют случайность детерминированности, хаотичность – упорядоченности. Имеющее определенный смысл, такое противопоставление является односторонним, так как оставляет в тени тот факт, что под случайностью понимается вид неопределенности, подчиняющийся строгой закономерности, которая выражается распределением вероятностей. Зная распределение (напри­мер, плотность р(х)) вероятностей, можно ответить на любой вопрос о случайной величине: в каком интервале находятся ее возможные значения (определим носитель распределения Х – множество элементов х, для которых р(х) > 0); около какого значения рассеиваются ее ре­ализующие значения (найдем параметр положения распределения, например среднее, моду или медиану); насколько сильно разбросаны эти значения (найдем масштабный параметр – дисперсию или стандартное отклонение, средний модуль разности, энтропию); какова связь между разными реализациями (вычислим заданную меру зависимости) и т.д.

О ПРИРОДЕ СЛУЧАЙНОСТИ

Различные определения вероятности рассматриваются в соот­вет­ствующих курсах; мы же остановимся на природе случайности. Существует несколько точек зрения на этот счет, причем каждая из них имеет достаточные основания.

1. Согласно первой точке зрения, случайным нам представляется нечто такое, в чем мы пока не уловили закономерности. По мере познания явления в последнем остается все меньше и меньше случайного. Ярким выразителем такой позиции был Лаплас, считавший, что случайность не присуща самим объектам, а связана только с незнанием, в принципе устранимым.

2. Противоположная точка зрения состоит в том, что случайность является объективным свойством всех явлений, а детерминированность – лишь предельный случай случайности. Более ста лет назад О. Курно писал, что “случайность вмешивается во все, что творится на свете”, что “миром управляет случай, или, говоря точнее, случай имеет свою часть, и притом весьма значительную, в управлении вселенной”.

3. Промежуточная позиция признает как существование вполне детерминированных явлений, так и в принципе случайных, описываемых статистическими закономерностями (большая частота рождения мальчиков по сравнению с девочками; законы Менделя; статистические законы физики, химии, термодинамики; законы квантовой механики и т.д.). Таким образом, случайность признается объективным свойством лишь некоторых явлений.

DATA данные EXPERIMENT DESIGN планирование эксперимента ASSUMPTION, SUPPOSITION, PREMISE предположение DISTRIBUTION распределение STATISTICAL статистический   Самая полная информация, которой можно располагать о случайном объекте, содержится в распределении вероятностей по возможным состояниям этого объекта. Важно, что само конкретное распределение уже есть закономерность: неоднозначная (но и не вполне произвольная) для того, какое именно состояние реализуется, и вполне однозначная для многих важных характеристик, выражаемых функционалами от распределения.

4. В последние годы представители школы И. Пригожина развивают подход, согласно которому случайные и детерминированные периоды сменяют друг друга в истории любой системы. Детерминированные процессы постепенно сменяются процессами, все более удаленными от равновесия, все более хаотическими, пока в период сильной неравновесности случайность не становится определяющей причиной того, в какое из возможных новых равновесных состояний придет система.

СТАТИСТИЧЕСКИЕ ИЗМЕРЕНИЯ

При всем отличии этих точек зрения они не столько несовместимы, как это представляется на первый взгляд. Рассмотрим наглядную в этом отношении простейшую задачу обнаружения постоянного сигнала в нормальном шуме. Сигнал может принимать одно из двух (известных заранее) значений, S или 0, с вероятностями Р и Q соответственно (это и есть случайность незнания). В любом из этих случаев мы можем наблюдать только аддитивную смесь сигнала с гауссовым шумом, т.е. иметь выборку х1, ..., хn либо из распределения Nx(0, ?2), либо из распределения Nx(S, ?2). Здесь шум представляет собой объективную и неустранимую случайность, подчиненную закономерности нормального распределения. Зная априори величины Р, Q, S, 0, функцию Nx(a, ?2) при любых а и ?2, а также используя наблюдения х1, ..., хN, мы можем уменьшить неопределенность того, какое же из возможных значений, S или 0, имеет место, т.е. уменьшить случайность незнания. Однако объективная случайность шума не позволяет сделать это безошибочно; даже при оптимальных методах обработки измерений х1, ..., хN вероятности ошибок отличны от нуля, хотя при неограниченном увеличении N они стремятся к нулю.

Как видим в практических задачах объективные и субъективные случайности неразделимо переплетены. Такое слияние может быть еще более тесным: например, в непараметрической статистике распределения, характеризующие объективную случайность, считаются лишь существующими, но функционально неизвестными, т.е. субъективное незнание распространяется и на описание объективной случайности.

Итак, как и любые эксперименты, измерения случайных величин и процессов выполняются для уточнения их моделей, снятия или уменьшения неопределенности незнания. Обычно достаточно знать не все распределение, а лишь какой-то из его параметров, и тогда задача сводится к оценке этого параметра по наблюдаемой выборке. Хотя это уже “вторичная” обработка данных, измерение выборочных значений и вычисление оценки в совокупности можно трактовать как “измерение параметра”. То же относится и к определению по выборке более сложных характеристик – самих распределений, регрессий, корреляций, спектров и т.д. Такое совместное рассмотрение непосредственных измерений и их обработки оказывается полезным еще и потому, что можно проводить общую оптимизацию этого процесса, и она далеко не всегда совпадает с оптимизацией компонент в отдельности.

Все эти соображения и дают основания ввести понятие статисти­ческих измерений, рассматривать эту проблематику как самостоятельный раздел метрологии со своей теорией и измерительной техникой [2; 12].

В заключение подчеркнем еще раз, что статистический, вероятностный подход относится к неопределенности, описываемой распределениями вероятностей. На то, что методы статистики надо применять ос­торожно, что многие экспериментальные ситуации могут быть хотя и ха­отическими, но не иметь вероятностного характера, обращали внимание многие исследователи. В учебной и популярной литературе этот мо­мент настойчиво и очень эмоционально подчеркивает В.Н. Тутубалин [9].

Еще один важный момент состоит в том, чтобы по возможности ослабить или хотя бы учесть влияние измерений на наблюдаемый объект. Особенно это существенно при социальных исследованиях, наблюдениях за людьми: сам факт осознания, что они являются объектом внимания, заметно меняет их поведение. Воздействие измерительного устройства на измеряемый объект должно также учитываться при физических и химических экспериментах.

Подведем итог Случайная неопределенность характеризуется предположением о том, что распределение вероятностей существует, хотя и неизвестно. После наблюдений над случайной величиной требуется снять неопределенность ее распределения (или его заданной характеристики). Чем больше произведено наблюдений, тем больше имеется возможностей снять неопределенность. Как именно это сделать и от чего зависит оставшаяся неопределенность – на эти вопросы отвечает математическая статистика (см. § 7.7). Summary Under stochastic uncertainty we are able to suppose that there exists a probability distribution, even if it is unknown. Having observed a random variable we must remove the uncertainty of the distribution (or of its characteristic). The larger the size of a sample, the more possibilities there are for doing this. How to do this, and what the remaining uncertainty depends on – these questions are answered by mathematical statistics (sf. § 7.7).

§ 6.5. РЕГИСТРАЦИЯ ЭКСПЕРИМЕНТАЛЬНЫХ ДАННЫХ
И ЕЕ СВЯЗЬ С ПОСЛЕДУЮЩЕЙ ИХ ОБРАБОТКОЙ

Результаты любого эксперимента фиксируют в той или иной форме, а затем используют для той цели, ради которой и проводился эксперимент. Иногда эти операции практически совмещены во времени, например при автоматическом управлении производственным процессом, при автоматизации экспериментов в реальном масштабе времени и т.п. В некоторых же видах человеческой практики (научные исследования; системный анализ; контрольная, ревизионная, следственная и другие виды административной деятельности; учебные эксперименты и пр.) обработка экспериментальных данных является отдельным, самостоятельным этапом, промежуточным между этапами получения информации (измерения) и ее использования (принятия решений и их выполнения) . В таких случаях исходной информацией для обработки являются протоколы наблюдений (называемые также матрицами данных, зкспериментальными таблицами).

Характер самих протоколов наблюдений и методы их обработки зависят от того, какова модель, для уточнения которой ставится эксперимент: фактически обработка данных – это просто преобразование информации к виду, удобному для использования, перевод ответов природы с языка измерений на язык уточняемой модели. Наши знания могут быть как первоначальными, грубыми, так и далеко продвинутыми, хорошо структурированными, хотя и требующими уточнения. Соответствующие два типа моделей разные авторы называют по-разному, в зависимости от того, какой их аспект они хотят подчеркнуть: дескриптивные и конструктивные, качественные и количественные, декларативные и процедуральные, классификационные и числовые. Мы в данном параграфе будем пользоваться последними терминами; отметим, что в них отражено и то различие, что классификационные модели описывают множество различных объектов, а числовые – один объект (или множество схожих объектов). Отметим также, что в классификационной модели могут участвовать количественные переменные, и это не меняет ее качественного характера (например, диагноз больному ставится с учетом количественных анализов); аналогично, в числовых моделях часть переменных может измеряться в слабых шкалах. Рассмотрим кратко особенности экспериментальных данных и их обработки для обоих типов моделей.

КЛАССИФИКАЦИОННЫЕ МОДЕЛИ

Классификационные модели являются основополагающими, первичными, исходными формами знания. Узнавание окружающих предметов – типичный пример классификационных процессов в мыслительной деятельности человека (и животных). И в науке познание начинается с соотнесения изучаемого объекта с другими, выявления сходства и различия между ними. Поэтому протокол наблюдений на классификационном уровне эксперимента содержит результаты измерения ряда признаков Х для подмножества А объектов, выбранных из множества Г: каждый объект аi Î А Í Г обладает значениями признаков хi = (хi0, хi1, ..., хin) Î { Х0, Х1, ..., Хn } = Х, расплывчатое описание ситуаций - student2.ru , n – число признаков, N – число объектов в А. Признак характеризует конкретное свойство объекта, поэтому иногда такой протокол называют таблицей “объект – свойство”.

Как уже отмечалось, способ обработки протокола зависит от цели обработки. Часто оказывается, что задача может быть сформулирована как определение по наблюдавшимся значениям признаков х = (х1, ..., хn) значений ненаблюдаемого (“целевого”) признака х0. Как правило, целевыми признаками являются те параметры модели, которые требуется уточнить по экспериментальным данным.

Рассмотрим различные типы задач для классификационных моделей.

Кластеризация (поиск “естественной” группировки объектов). Не заданы ни границы классов в пространстве признаков, ни число классов. Требуется их определить исходя из “близости”, “похожести” или “различия” описаний объектов хi = (хi1, ..., хin). Компоненты вектора Х0 – признаки кластера, значения которых подлежат определению.

Классификация (распознавание образов). Число классов задано. Если также заданы границы между классами, то имеем априорную классификацию; если границы требуется найти, оценить по классифицированным примерам, то задача называется распознаванием образов по обучающей выборке. Целевой признак Х0 имеет значения в номинальной шкале (имена классов).

OBSERVATION наблюдение DIMENSIONALITY размерность DISTRIBUTION распределение ORDERING упорядочивание     Всякая статистическая задача состоит в том, чтобы, несмотря на неустранимую неопределенность наблюдений “внутри” распределения, снять (или точнее, уменьшить до приемлемого предела) неопределенность интересующей нас характеристики распределения.

Упорядочивание объектов. Требуется установить отношения порядка между х10, х20, ..., хN0(или некоторой их частью) по определенному кри­терию предпочтения.

Уменьшение размерности модели. Классификационные модели как первоначальные, “сы­рые”, учитывают множество предположений, ко­торые еще надо проверять. Так, сам список приз­наков Х формируется эвристически, часто “с за­пасом”, и оказывается довольно длин­ным, а главное, избыточным, содержащим “дуб­ли­ру­ющие” и “шумящие” признаки. Поэтому одна из важных задач совершенствования классификационных моделей состоит в уменьшении размерности модели с помощью отбора наиболее информативных признаков, “скле­и­ва­ния” нес­кольких признаков в один и т.п. Как следует из практики, информативные признаки могут оказаться различными для разных классов [3].

ЧИСЛОВЫЕ МОДЕЛИ

Числовые модели отличаются от классификационных тем, что: 1) целевые признаки х0 измеряются в числовых шкалах; 2) числа х0 представляют собой функционалы или функции признаковых переменных (которые не обязательно все являются числовыми); 3) в них гораздо чаще учитываются связи переменных во времени (в классификационных задачах время иногда даже называют “забытой” переменной). В связи с этим и протоколы наблюдений могут не обязательно относиться к множеству объектов; модель можно уточнять и по экспериментам с одним объектом в разные моменты времени.

Отметим, что числовые модели могут задавать связь между переменными как в параметризованной форме (т.е. в виде функции с конечным числом параметров), так и в непараметризованной форме (в виде функционала) . Например, за­ви­симость между входом х = { хi } и выходом у некоторой системы может задаваться в виде параметризованной линейной регрессии у = ?аiхi + + Е либо в непараметризованной форме как функционал линии регрессии у(х) = ò у·р(у | х)dу, где р(у | х) – не­из­вестная плотность условного распределения вероятностей.

Приведем типичные задачи для числовых моделей.

Косвенные измерения (оценка параметра). Требуется определить значение х0 по заданному множеству {хij}. В отличие от классификации х0 измеряется не в номинальной, а в числовой шкале. Если {хij} определены до некоторого момента t0, а х0 требуется оценить для t > t0, то задача называется прогнозированием. (Прогнозирование имеет смысл и в задаче классификации; например, ранняя диагностика заболевания.)

Поиск экстремума (планирование эксперимента). Считается, что имеется возможность пошагового изменения величин {хij (tk)}, tk = t0 + + k?t, k = 0, 1, 2, ... . Требуется изменять их так, чтобы в конце концов получить экстремальное значение целевого признака х0.

ОСОБЕННОСТИ ПРОТОКОЛОВ НАБЛЮДЕНИЙ

Отметим встречающиеся на практике особенности реальных протоколов наблюдений, которые следует учитывать при их обработке.

Большая размерность. Во многих исследованиях число объектов N и число признаков n велики, так что произведение n ´ N достигает не­сколь­ких десятичных порядков. Учет времени приводит к еще большему увеличению размерности блока данных. В настоящее время применение ЭВМ существенно расширяет количественные возможности обработки данных, но “проклятие размерности” остается в силе и для ЭВМ.

Разнотипность данных. Разные признаки могут измеряться в различных шкалах. Многие алгоритмы построены для обработки однотипных переменных, что часто вызывает необходимость приводить разнотипные данные к одной шкале. Ясно, что более правильной стратегией поведения является разработка алгоритмов, специально построенных так, чтобы имелась возможность обрабатывать разнотипные данные, не внося в протокол никаких изменений, не связанных с экспериментом.

Пропущенные значения. Незаполненная ячейка таблицы данных – не такой уж редкий случай, особенно если эксперимент производится не в лабораторных, а в естественных условиях. Исключить из таблицы строку и столбец, на пересечении которых находится пустая ячейка, – выход далеко не всегда приемлемый. Можно, используя избыточность таблицы, некоторым образом “восстановить” пропущенные значения, а затем обрабатывать таблицу так, будто их и не было. Однако критерий “восстановления” и цель обработки должны быть согласованы, поэтому не может быть универсального способа “восстановления” пропусков. Хотя этот путь в ряде случаев вполне допустим, перспективным представляется конструирование алгоритмов обработки, позволяющих использовать таблицы с пробелами без их предварительного заполнения.

3ашумленность. Довольно часто измерение, занесенное в протокол, на самом деле отличается от измеряемого значения на некоторую случайную величину. Статистические свойства этой добавочной помехи могут не зависеть от измеряемой величины, и тогда мы говорим об аддитивном шуме. В противном случае имеет место неаддитивная или зависимая помеха. Все эти варианты должны по-разному учитываться при обработке.

Искажения, отклонения от предположений. Приступая к обработке протокола наблюдений, мы всегда исходим из определенных предположений о природе величин, занесенных в протокол. Любой способ обработки дает результаты ожидаемого качества только в том случае, если данные отвечают определенным предположениям. Далеко не всегда в ходе обработки данных обращают внимание на то, действительно ли данные отвечают предположениям, заложенным в алгоритм обработки.

Например, данные могут выглядеть как неразмытые, но быть на самом деле расплывчатыми (см. § 6.3). Цифры в действительности могут быть символами, а мы можем считать, что они числа. Числовые шкалы предполагают одинаковость единиц измерения вдоль всей шкалы (см. § 6.2), а измерительный прибор может обладать нелинейной характеристикой, и если это не отражено в протоколе, то мы будем обрабатывать искаженные данные. Измеряемая величина может быть непрерывной, но в протоколе она неизбежно приводится с округлением, и это также является искажением.

Чтобы повысить качество выводов, получаемых при обработке данных, мы должны обеспечить соответствие свойств данных и требований к ним алгоритмов либо максимально обезопасить себя от возможного несоответствия: контролировать условия эксперимента; вносить допустимые поправки в протоколы (например, производить перерасчет нелинейности); наконец, разрабатывать алгоритмы, либо содержащие возможный минимум предположений (например, процедуры непараметрической статистики), либо специально разработанные с расчетом на возможные отклонения (как в робастной статистике).

Способы обработки экспериментальных данных с целью извлечения из них полезной информации и отсеивания ненужной, мешающей, мы рассмотрим в следующей главе.

Подведем итог Данный параграф посвящен тому, как обрабатывать результаты измерений. Рассмотрены два аспекта этой проблемы: связь способа обработки с целью измерений (т.е. в конечном счете с проверяемой моделью) и его связь с условиями измерений, приводящими к тому, что реальные протоколы наблюдений обычно далеки от желаемого идеала. Summary The processing of experimental data is the subject of this section. There are many problems connected with this question. In this section we have singled out only two: the relationship between data processing and the purpose of the experiment; and data processing's connection with experimental conditions that result in various errors in real-life data.

ЗАКЛЮЧЕНИЕ

Системный анализ часто приводит к необходимости экспериментального исследования изучаемой системы. Такие эксперименты должны проводиться обязательно с участием прямых специалистов в данной конкретной области. Однако системный аналитик, оказавшийся в каком-то случае не прямым специалистом, не может ограничиваться лишь ролью заказчика на выполнение эксперимента. Очень многое зависит от постановки цели опытов, но часто не менее важно правильно извлечь информацию из результатов опыта. Поэтому предметом специального внимания должны стать такие вопросы, как выбор шкал максимально допустимой силы; употребление методов обработки, содержащих только допустимые преобразования исходных данных; учет реальных особенностей протоколов наблюдений в алгоритмах их обработки.

ЛИТЕРАТУРА

1. Беллман Р., 3адэ Л. Принятие решений в расплывчатых условиях. – В. кн.: Вопросы анализа и процедуры принятия решений. – М.: Мир, 1976,

2. Бендарт Дж., Пирсол А. Измерение и анализ случайных процессов. – М.: Мир, 1974.

3. Лбов Г.С. Методы обработки разнотипных экспериментальных данных –Ново­си­бирск: Наука, 1981.

4. Леонардо да Винчи. Избр. естественно-научные произв. – М.: АН СССР, 1965.

5. Пригожин И., Стенгерс И. Порядок из хаоса. – М.: Прогресс, 1986.

6. Пфанцагль И. Теория измерений. – М.: Мир, 1976.

7. Рафаэл Б. Думающий компьютер. – М.: Мир, 1979.

8. Розенблют А., Винер Н. Роль моделей в науке. – В кн.: Неуймин Я.Г. Модели в науке и технике. – Л.: Наука, 1984.

9. Тутубалин В.Н. Теория вероятностей. Краткий курс и научно-методические замечания. – М.: МГУ, 1972.

10. Фейнман Р. Характер физических законов. – М.: Мир, 1968.

11. Черчмен У., Акофф Р., Арноф Л. Введение в исследование операций. – М.: Наука, 1968.

12. Gray R.М., Davisson L.D. Random Processes; A Mathematical Approach for Engineers. –New Jersey: Prentice – Hall Inc., 1986.

Наши рекомендации