Методические указания преподавателю
Введение
Данный практикум рекомендуется в качестве руководства для выполнения лабораторных работ по курсу «Теория систем и системный анализ» студентами, проходящими обучение в образовательных учреждениях высшего профессионального образования по направлениям 351400 – прикладная информатика в экономике и 061800 – математические методы в экономике. Он разработан с учётом действующих государственных образовательных стандартов высшего профессионального образования по данным направлениям.
Лабораторные работы, вошедшие в состав практикума, основаны на сквозной задаче, ежегодно решавшейся студентами в течение 1993…2007 гг. В течение этого периода задание совершенствовалось с целью повышения эффективности использования учебного времени и степени усвоения материала. Накопленный в течение 15 лет опыт нашёл отражение в данном практикуме. В данном издании цикл лабораторных работ дополнен рядом новых элементов:
¨ существенно переработана и пополнена теоретическая часть практикума с учётом имеющихся различий в степени освоения отдельных дисциплин (прежде всего статистики и математики) студентами различных специальностей, относящихся к вышеуказанным направлениям;
¨ пересмотрен набор вариантов заданий с ориентацией на системный анализ аграрных производственных систем национального уровня, что обеспечивает применимость практикума для решения более широких педагогических задач — в частности, для подготовки специалистов для любого уровня управления АПК и сельским хозяйством;
¨ в качестве рекомендуемой информационной базы практикума используются международные информационные ресурсы, представленные в сети Internet, причём поиск и отбор конкретных данных для анализа студентам предлагается выполнять самостоятельно;
¨ уточнены объём, содержание и методика выполнения ряда лабораторных работ;
¨ списки рекомендуемой литературы полностью обновлены и дополнены источниками на английском языке по тем вопросам, которые не нашли достаточного отражения в отечественных и переводных изданиях.
Особенностью настоящего практикума является то, что задания ориентированы на коллективное выполнение рабочими группами студентов. Это, во-первых, позволяет решать учебную задачу той степени сложности, при которой удаётся сохранить содержательность предметной области в сочетании с необходимой степенью разнообразия используемых аналитических процедур, приёмов и методик. Во-вторых, в ходе выполнения заданий формируются начальные навыки координации и компетенции, необходимые для командного стиля работы.
Приступая к выполнению заданий лабораторного практикума, студент обязан внимательно изучить раздел «Постановка задачи» и при необходимости получить консультации у преподавателя по всем возникшим вопросам.
Постановка задачи и каждая изучаемая тема снабжены теоретическим материалом, минимально необходимым для понимания задания и его выполнения. Его наличие не освобождает от необходимости обращения к лекционному материалу, рекомендуемой литературе и ресурсам сети интернет для вовлечения в процесс решения учебной задачи самых современных методических подходов, адекватных специфике анализируемой системы.
Практическая часть каждой темы содержит формулировку цели работы, перечень необходимых приборов и материалов, задание для самостоятельного выполнения, методические указания по его выполнению, включающие рекомендации технического и организационного плана, облегчающие и ускоряющие выполнение работ, и перечень требований к отчёту, обязательных для выполнения. Отчёт принимается преподавателем только в печатном виде на листах формата A4 или A5, аккуратно оформленным. Небрежность в оформлении отчёта (включая ошибки компьютерного редактирования, непоименованные показатели, пропущенные единицы изменения, неправильные названия рисунков и таблиц) является достаточным основанием для повторного выполнения задания с самого начала по новому варианту во внеучебное время. Перед сдачей отчёта каждый участник рабочей группы обязан внимательно прочитать отчёты (или индивидуальные разделы коллективного отчёта) всех своих товарищей по группе, указать им на замеченные ошибки, неточности и опечатки в отчёте и проконтролировать их исправление.
Отзывы, замечания и предложения по совершенствованию практикума просьба направлять автору по адресу электронной почты
[email protected].
Постановка задачи
Теоретическая часть
Представим процесс производства, распределения обмена и (или) потребления, характеризующий аграрную или аграрно-промышленную систему, в форме системы, обладающей структурой ‹x, q(x)›, где x — вектор переменных системы (не обязательно числовых), q(x) — вектор отношений, упорядочивающих вектор x. Для многих приложений можно предположить, что вектор-функция q(x) отображает вектор x на вектор действительных чисел, а правило упорядочения представляет собой векторное уравнение q(x) = 0.
Предположим далее, что вектор-функция q(x) нам не известна, зато имеются данные наблюдений некоторых (возможно, не всех) компонентов вектора x, и в их числе того компонента, который характеризует цель управления данной системой.
Задача состоит в том, чтобы аппроксимировать реально существующую структуру ‹x, q(x)› некоторой другой структурой ‹y, r(y)›, обладающей следующими свойствами:
¨ она гомоморфна структуре ‹x, q(x)›, откуда, в частности, следует существование отношения, отображающего x на y;
¨ её можно синтезировать на основе имеющихся данных, пользуясь некоторой формализованной процедурой.
Аппроксимацию нужно выполнить таким образом, чтобы возможно полнее использовать информацию о структуре ‹x, q(x)›, содержащуюся в матрице X, в которой представлены все имеющиеся в распоряжении исследователя результаты наблюдений данной системы.
Если бы имело место следующее:
a) в распоряжении исследователя были сведения, достаточные для обоснованного выбора функциональной формы уравнения r(y)=0;
b) данные наблюдений представляли бы собой репрезентативную выборку;
c) компоненты вектора y представляли бы нормально распределённые случайные величины;
d) все они, кроме одного, были бы независимы между собой,
тогда можно было бы воспользоваться классическими методами регрессионного анализа.
Если бы выполнялось по крайней мере условие (a), существовала бы возможность воспользоваться специальными методами оценивания параметров корреляционных связей — например, методом максимальной энтропии. При подобных обстоятельствах необходимо, чтобы результат оценивания параметров уравнений регрессии в полном объёме сохранял неопределённость, объективно обусловленную недостаточностью, неполнотой, а подчас и недостоверностью имеющихся данных. Методы данного класса отвечают указанному требованию. Благодаря этому они обеспечивают использование информации, заключённой в теоретической модели исследуемого процесса и в имеющихся наблюдениях, в условиях, когда этой информации недостаточно для применения классических методов.
Но часто случается, что нет никаких оснований для того, чтобы предположить ту или иную функциональную форму. В этом случае постулирование функциональной формы приводит к систематическим ошибкам в принятии управленческих решений, подготавливаемых на основе результата системного анализа — модели ‹y, r(y)›. Причина в том, что предположение о форме функциональной связи, если только оно случайно не совпало с действительным законом, присущим системе ‹x, q(x)›, препятствует отражению действительной степени неопределённости исследуемой системы, создавая иллюзию более высокой управляемости исследуемой системы в сравнении с действительностью.
Методика, представленная в практикуме, используется (наряду с другими приёмами системного анализа) для формализации систем, структура которых изучена недостаточно. Она опирается на систему общенаучных и специальных методов, используемых в различных областях знания.
Цель методики — описать структуру исследуемой системы в форме таблиц условных вероятностей реализации возможных состояний её переменных.
Реализация данной методики обычно предполагает следующие этапы:
1. Выбор выходной переменной, отражающей полезный эффект функционирования изучаемой системы.
2. Выбор входных переменных, влияющих на выходную переменную.
3. Приведение действительных переменных (если таковые имеются) к дискретной форме.
4. Проверка существенности влияния входных переменных на выходную и взаимной независимости входных переменных.
5. Построение таблиц условных вероятностей и оценка достоверности значений условных вероятностей.
6. При необходимости — рассмотрение некоторых или всех переменных, отобранных на шаге 2, в качестве выходных переменных и выполнение для каждой из них шагов 2…6 данного алгоритма.
7. Проверка работоспособности модели.
Данная методика может применяться при выполнении следующих условий.
¨ Постановка задачи системного исследования должна включать спецификацию переменной, закон изменения значений которой требуется установить (далее — выходной переменной).
¨ Исследуемая система должна допускать декомпозицию на подсистемы, описываемые единственной выходной и произвольным числом входных переменных.
¨ Входные переменные каждой подсистемы должны быть взаимно независимыми или степень зависимости между ними должна быть пренебрежимой.
¨ Обусловленность значения выходной переменной каждой подсистемы значениями входных переменных должна быть достаточно высока, чтобы обеспечить необходимую точность его определения.
На тип переменных никаких ограничений не накладывается: допустимы как числовые, так и нечисловые (в частности, логические) переменные. Примеры переменных: норма внесения удобрений (ц действующего вещества на 1 га пашни), сорт культуры, наличие системы орошения, число полей в севообороте.
Этап 6 выполняется в тех случаях, когда не удаётся установить непосредственное влияние некоторых переменных на выходную переменную (нет соответствующих данных). Тогда, если возможно, изучают их влияние на другие входные переменные, зависимость от которых выходной переменной уже изучена, но которые на практике не могут использоваться для её оценивания[2].
Формализм условных вероятностей, применяемый для представления знаний о связях между переменными исследуемой системы, не требует предположений о форме функциональной связи. Он, в отличие, например, от метода наименьших квадратов, широко используемого для статистического оценивания[3] параметров регрессионных зависимостей, не имеет теоретических ограничений по применению в случае малого количества наблюдений, на основании которых можно судить об исследуемых связях. Практические ограничения, связанные со снижением достоверности оценивания параметров связей, сохраняются: о том, достаточно ли достигнутой точности для принятия конкретного управленческого решения, судит лицо, принимающее данное решение.
рис. 1. Представление производственной системы после декомпозиции. |
Декомпозиция позволяет представить исследуемую систему в виде дерева, подобного изображённому на рис. 1. Здесь (1) — подсистема первого уровня, (2)…(4) — подсистемы второго уровня, (5)…(9) — третьего. Стрелками обозначены переменные системы, в том числе жирной стрелкой — выходная переменная.
Число входных переменных каждой подсистемы и число уровней иерархии модели определяются:
¨ доступной информационной базой;
¨ требуемой точностью предсказания значения выходной переменной на основе информации о значениях входных переменных.
Кроме того, обычно необходимо, чтобы входные переменные терминальных подсистем (то есть подсистем низшего уровня) допускали непосредственное наблюдение либо поддавались управлению со стороны человека. Иначе их невозможно будет использовать для определения значения выходной переменной.
Библиографический список
Городецкий В.И. Байесовский вывод. Л.: ЛИИАН, 1991.
Нейлор К. Как построить свою экспертную систему. М.: Энергоатомиздат, 1991.
Zellner, A. Bayesian analysis in econometrics and statistics. North-Holland publ., 1980.
Zellner, A. An introduction to Bayesian inference in econometrics. Wiley, 1971.
Задание
Описать структуру системы, определяющей значение выходной переменной, указанной в разделе «Варианты заданий для лабораторного практикума», в форме таблиц условных вероятностей. Оценить степень адекватности описания путём тестирования модели и сопоставления его результатов с фактическими данными.
Самостоятельно определить множество входных переменных, принимая во внимание следующие ограничения, обусловленные учебным характером задачи:
¨ число уровней — 2 (см. этап 6 последовательности реализации методики, с. 10);
¨ число переменных первого уровня — 4 или 5;
¨ число переменных в каждой модели второго уровня — 2;
¨ число моделей второго уровня — не менее 3 (остальные переменные первого уровня предполагаются поддающимися непосредственному наблюдению или управлению);
¨ число наблюдений, используемых для формулирования моделей первого уровня — от 45 до 60; для формулирования моделей второго уровня — от 20 до 60.
В процессе выполнения лабораторного практикума добиться возможно большей информативности модели по отношению к выходной переменной.
Проделанную работу отразить в письменных отчётах в соответствии с требованиями, сформулированными в практикуме.
Варианты заданий для лабораторного практикума
Наименование выходной переменной
1. Цена кукурузы, произведённой в странах Европы.
2. Производство кукурузы в странах Европы.
3. Потребление молока в странах Европы.
4. Урожайность пшеницы в странах Европы.
5. Производство яблок в странах Европы.
6. Импорт картофеля в страны Европы.
7. Производство хлопковолокна в странах мира.
8. Производство мяса птицы в странах Европы.
9. Поголовье овец в странах Европы.
10. Поголовье овец в странах Азии.
11. Производство куриных яиц в странах Европы.
12. Производство шерсти в странах Азии.
13. Мясная продуктивность свиней в странах Европы.
Примечание. Дополнительные варианты при необходимости могут быть получены выбором другой группы стран.
Теоретическая часть
Приступая к исследованию системы, структура которой неизвестна, прежде всего определяют множество переменных (как количественных, так и нечисловых), которыми можно описать её состояние и поведение. Выделив в их числе выходную переменную — ту, зависимость которой от других переменных необходимо определить для решения тех или иных задач управления, — и задавшись целью представить данную зависимость в форме таблиц условных вероятностей, полезно предварительно определить набор переменных, связь которых с выходной переменной наиболее существенна.
Теоретически для этой цели можно использовать все доступные для наблюдения переменные. Однако на практике такое решение приводит к неприемлемо высоким затратам труда на представление системы в требуемой форме. Поэтому обычно из всего множества доступных для наблюдения переменных отбирают те, которые, по мнению экспертов, накопивших большой опыт наблюдения исследуемой системы, сильнее других влияют на выходную переменную. В дальнейшем мнение экспертов подвергают проверке с помощью формализованных методов, которые будут рассмотрены в теме 3.
В практических приложениях число отобранных таким образом переменных имеет порядок сотен или тысяч. При этом в процессе оценивания выходной переменной участвуют лишь немногие из них, отбираемые на основе формализованных критериев (статистических оценок тесноты связи, показателей относительной информативности и т.д.).
Мнения одного эксперта относительно степени влияния переменных (факторов) на выходную переменную обычно бывает недостаточно. Если система сложна, каждый эксперт, как правило, располагает достаточными сведениями о зависимости выходной переменной лишь от части факторов, с которыми она связана в действительности. Чтобы повысить вероятность адекватного представления исследуемой системы, включающего наиболее существенные факторы, к оценке их значимости привлекают группы экспертов. При этом необходимо заботиться о том, чтобы мнение каждого эксперта оставалось, по возможности, не зависимым от мнений его коллег. В противном случае внимание экспертов, как показывает практика, сосредоточивается на сравнительно узком круге факторов, и многие существенные переменные ускользают от их внимания.
Для организации коллективных экспертиз предложен ряд специальных методик, содействующих преодолению данной проблемы: метод мозгового штурма, метод Дельфи, метод провокаций, метод решающих матриц и др. В нашем случае целесообразно использовать форму организации коллективной экспертизы, в которой выделяются три этапа:
¨ идентификация факторов;
¨ согласование мнений экспертов о факторах;
¨ ранжирование факторов.
На этапах выявления и ранжирования факторов каждый эксперт работает самостоятельно, чем достигается его независимость от мнения других экспертов. Процедура согласования обладает характерными чертами метода комиссий: она представляет собой открытое обсуждение с целью уточнения смыслового содержания отобранных факторов и характера их влияния на выходную переменную. Последнее необходимо для того, чтобы эксперты, не знакомые со смысловым содержанием отдельных факторов, могли на третьем этапе экспертизы дать оценку их ранга в сравнении с другими факторами.
Для проведения первого этапа каждый эксперт получает задание в течение установленного времени (обычно 15-20 минут) указать (как правило, в письменном виде) как можно больше известных ему факторов, влияющих на заданную целевую переменную. На этом этапе взаимодействие между экспертами должно быть полностью исключено. Факторы могут иметь числовое или нечисловое выражение, но должны характеризоваться единственным значением — в частности, не могут выражаться векторами[4]. Эксперту вменяется в обязанность формулировать факторы таким образом, чтобы из формулировки однозначно вытекала процедура их измерения или оценивания. Тем самым, в частности, подразумевается следующее:
¨ каждому фактору, допускающему количественное выражение, должна сопоставляться единица измерения, а также процедура его измерения, если она не очевидна[5];
¨ если фактор отражается нечисловой переменной, эксперт должен однозначно указать множество его значений и процедуру определения конкретного значения данного фактора.
На данном этапе эксперт не должен принимать во внимание доступность фактора для наблюдения и измерения, сопряжённые с этим процессом затраты и другие возможные препятствия его использованию. Его задача состоит лишь в том, чтобы перечислить возможно больше факторов, информация о которых (если доступна) снимает неопределённость выходной переменной.
Цель второго этапа — формирование объединённого списка факторов. На этом этапе должны быть исключены повторяющиеся (возможно, под разными наименованиями) факторы, встречающиеся в индивидуальных списках, и достигнуто единообразное понимание смысла каждого фактора, названного каждым экспертом.
Работа осуществляется по процедуре, схожей с методом комиссий в том отношении, что решения принимаются по результатам открытого обсуждения (как правило, консенсусом). Отличие состоит в отсутствии заранее определённого списка дискутируемых положений: его функцию выполняет объединённый список факторов, названных каждым из экспертов. Комиссия (состоящая из тех же экспертов, которые работали на первом этапе) обладает правами:
¨ исключить фактор, названный каким-либо экспертом, только в том случае, если он в точности повторяет по смыслу и по процедуре измерения фактор, названный другим экспертом и уже включённый в объединённый список;
¨ уточнять наименование факторов, а также единицы их измерения либо множество их значений.
Продолжительность второго этапа, как правило, не регламентируется.
Неповторяющиеся факторы включаются в объединённый список даже в том случае, если эксперт, предложивший данный фактор, на втором этапе экспертизы отказывается от своего мнения, выраженного на первом этапе. Во избежание непродуктивных дискуссий не разрешается также включение в объединённый список факторов, не названных на первом этапе, но выявленных в процессе работы комиссии.
При необходимости по результатам второго этапа координатор экспертизы может вынести решение о повторении её первого этапа с целью пополнения полученного объединённого списка факторов. Такое решение принимается в случае, если комиссия в процессе уточнения смысла уже названных факторов выявила отсутствие в результатах работы экспертов целых классов факторов, отражающих существенные аспекты формирования значения целевой переменной. Вновь предложенные факторы пополняют ранее полученный объединённый список.
На третьем этапе эксперты получают задание ранжировать объединённый список факторов, выработанный комиссией, по предполагаемой степени информативности для оценивания значения целевой переменной. Время, выделяемое на ранжирование, как правило, не регламентируется. От эксперта не требуется указание мотивов, по которым он присвоил показателю тот или иной ранг.
Технически этот этап поддерживается программным обеспечением, позволяющим эксперту визуально располагать факторы в определённой последовательности.
Лучше других зарекомендовала себя следующая процедура ранжирования. Вначале каждому фактору присваивается балльная оценка по пятибалльной шкале, отражающая мнение эксперта о его информативности для получения оценки выходной переменной, и производится ранжирование по баллам. Далее процедура повторяется для всех показателей, получивших одинаковый балл на предыдущем этапе, но высшую оценку (пять баллов) получает наиболее информативный, а низшую (один балл) — наименее информативный фактор из числа получивших одинаковый балл на предыдущем этапе. Новая балльная оценка приписывается к предыдущей в качестве разряда десятичной дроби.
Например, если некоторый фактор в группе факторов, оценённых в 4 балла, получил оценку, равную 2 баллам, то ему приписывается оценка 4,2. Когда все показатели получили двузначную балльную оценку, ранжирование всего списка повторяется.
Факторы, снова получившие одинаковый балл, могут быть вновь подвергнуты оценке по тому же принципу, что и выше, и таким образом приобретают трёхзначную оценку (например, 4,25); но если численность факторов, имеющих одинаковый балл, не более 4 или 5, то они могут быть упорядочены между собой непосредственно, без помощи присвоения баллов.
Характерная ошибка, допускаемая экспертами на этом этапе, — размещение целой группы факторов в ранжированном ряду как неделимого целого. Эксперты должны вполне уяснить, что ранг каждого фактора определяется безотносительно к смысловым связям данного фактора с другими факторами. Он должен отражать только способность фактора информировать о вероятном значении целевой переменной.
Завершается процедура суммированием индивидуальных оценок рангов каждого фактора, полученных каждым экспертом, и повторным ранжированием списка факторов в порядке возрастания полученной суммы. Факторы, сумма номеров рангов которых оказалась одинаковой, упорядочиваются решением комиссии экспертов.
По завершении экспертизы в формализованное описание исследуемой системы включается заранее оговорённое число факторов, получивших наибольший ранг. Это число зависит, с одной стороны, от уровня приемлемых затрат труда и денежных средств на представление исследуемой системы, с другой — от требуемой точности предсказания значения выходной переменной. При этом допускается:
¨ заменять факторы, не доступные для наблюдения, их аппроксиматорами, если выполняются два условия: аппроксиматор поддаётся наблюдению и не встречается в ранжированном списке факторов;
¨ пропускать факторы, которые в принципе не поддаются наблюдению в сроки, обусловленные целью исследования системы, с помощью средств, имеющихся в распоряжении исследователей.
Библиографический список
Гаврилова Т.А., Червинская К.Р. Извлечение и структурирование знаний для экспертных систем. М.: Радио и связь, 1982. — 200 с.
Глушков В.М. О прогнозировании на основе экспертных оценок // Кибернетика, 1969. — №2.
Литвак Б.Г. Экспертные технологии в управлении. М.: Дело, 2004. — 398 с.
Нейлор К. Как построить свою экспертную систему. М.: Энергоатомиздат, 1991.
Практическая часть
Аудиторные занятия: 2 часа.
Цель работы
Овладеть приёмами спецификации входных и выходных переменных исследуемой подсистемы.
Закрепить теоретические знания по вопросам «предмет теории систем» и «методы организации сложных экспертиз».
Приборы и материалы
Компьютерный класс с доступом к сети Internet; программное обеспечение, автоматизирующее рутинные операции по ранжированию факторов[6]; информационный сайт Продовольственной и сельскохозяйственной организации ООН (FAO): http://faostat.fao.org/DesktopDefault.aspx?PageID=567&lang=ru
Задание
Выполнить предварительную спецификацию входных переменных подсистемы первого уровня производственной системы, исследуемой в соответствии с индивидуальными вариантами задания, приведёнными на с.13 практикума. Для этого:
¨ составить ранжированный список факторов, влияющих на целевой показатель, соответствующий индивидуальному варианту задания;
¨ выбрать факторы для включения в модель исследуемой системы с учётом их положения в ранжированном списке, требования их взаимной независимости, имеющейся информационной базы.
Оформить отчёт.
Методические указания по выполнению задания
Задание выполняется коллективно рабочей группой численностью 4…6 чел., сформированной преподавателем.
Ранжированный список факторов составляется в соответствии с методиками, изложенными в теоретической части данной темы.
Учитывая учебный характер задачи, предлагается отобрать 4 (рекомендуется) или 5 входных переменных подсистемы первого уровня.
Каждый член рабочей группы индивидуально составляет список переменных, оказывающих, с его точки зрения, непосредственное влияние на выходную переменную.
Рабочая группа совместно производит объединение индивидуальных списков, устранение повторов, достигает соглашения о точных наименованиях переменных, исключает переменные, не связанные непосредственно с выходной.
Отмечаются переменные, информация по которым не содержится в материалах производственной практики и не может быть предоставлена преподавателем.
Оставшиеся переменные тем или иным способом ранжируются по степени их влияния на выходную. Из наиболее существенных формируется список переменных для включения в модель. Среди них не должно быть заведомо зависящих друг от друга переменных.
Чтобы исключить возможную неоднозначность толкования переменных, каждая переменная должна иметь название, исчерпывающим образом характеризующее её смысл. Для каждой переменной должна быть указана единица её измерения или (если переменная нечисловая) возможные значения. Рекомендуется указывать источник, из которого можно получить значение переменной (коды документа, строки и столбца).
Требования к отчёту
Отчёт о выполнении практического задания состоит из коллективной и индивидуальных частей. Объём коллективной части не должен превышать 3 страниц[7], каждой индивидуальной — 1 страницы. При необходимости отчёт может быть дополнен приложениями.
В индивидуальной части должны быть представлены:
¨ краткая характеристика личного вклада студента в работу группы;
¨ список предложенных составителем переменных, из которых производился отбор входных переменных;
¨ список использованной литературы.
В коллективной части должны быть представлены:
¨ ранжированный список переменных, составленный рабочей группой;
¨ список выбранных входных переменных;
¨ краткие аргументы в пользу выбранных входных переменных;
¨ краткое описание использованных подходов к спецификации подсистемы первого уровня, отличающихся от рекомендуемых в методических указаниях (с указанием источника).
Теоретическая часть
Для приведения числовых переменных системы к дискретной форме проводится их статистический анализ, преследующий цели:
¨ снизить энтропию модели до уровня, обусловленного целями исследования;
¨ повысить достоверность определения вероятности каждого состояния модели.
Один из приёмов приведения числовых переменных к дискретной форме состоит в разбиении интервала вариации переменной на квантили — интервалы, обладающие тем свойством, что вероятности попадания значения переменной в каждый из них равны. На практике часто выделяют квартили приближённо, пользуясь непосредственно эмпирическими данными. Однако во многих (хотя не во всех) случаях использование теоретического знания о законе распределения исследуемой переменной в дополнение к имеющимся опытным данным (часто ограниченным и не всегда достоверным) позволяет несколько повысить точность разбиения, а значит, и достоверность результатов системного анализа. В этом случае следует:
¨ определить число наблюдений исследуемой переменной (N).
¨ разбить интервал вариации переменной на аналитических интервалов, определить число наблюдений в каждом аналитическом интервале, выдвинуть гипотезу о характере статистического распределения вариации переменной и проверить её (см. Приложение 2);
¨ определить число квантилей, учитывая требования снижения энтропии модели и обеспечения достаточной точности её результатов;
¨ выделить квантили.
Для выделения квантилей используется алгоритм, приведённый ниже.
¨ Определить вероятность p = 1 / Q того, что значение переменной принадлежит требуемой квантили (Q — число квантилей).
¨ Определить верхнюю границу x1 первой квантили из уравнения
где f(x) — функция плотности распределения вероятностей значений переменной, a — нижняя граница области определения f (x), x1 — верхняя граница первой квантили. Если известны значения функции распределения вероятностей F(x), то следует решить относительно x1 уравнение F(x1) – F(a) = p.
¨ Определить верхнюю границу следующей квантили из уравнения
где xa — верхняя граница предыдущей, xb — искомая верхняя граница данной квантили.
Если определены границы квантили, перейти следующему шагу; иначе повторить предыдущий.
¨ Убедиться, что имеет место равенство
(β — верхняя граница области определения f (x)). Расхождение, обусловленное ограниченной точностью численных методов, не должно быть слишком большим.
После разбивки интервала вариации на квантили каждое значение переменной заменяется номером квантили, которой оно соовтетствует. В результате получаем отображение непрерывного множества значений переменной на конечное дискретное множество значений. Это впоследствии обеспечит требуемую уровень грубости (робастности) модели анализируемой системы, обеспечивающую её работоспособность при ограниченной эмпирической базе для её разработки.
Библиографический список
Бронштейн И.Н., Семендяев К.А. Справочник по математике для инженеров и учащихся ВТУЗов. М, 1980.
Гатаулин А.М. Система прикладных статистико-математических методов обработки экспериментальных данных в сельском хозяйстве. М., 1992.
Искусственный интеллект: Справочник: в 3 книгах / Под ред. Э.В. Попова. М., 1990.
Орлов А.И. Прикладная статистика: Учебник. М.: «Экзамен», 2004.
Численные методы / Н.С. Бахвалов, Н.П. Жидков, Г.М. Кобельков. 4‑е изд. М.: БИНОМ. Лаборатория знаний, 2006.
Практическая часть
Аудиторные занятия: 4 часа.
Самостоятельная работа: 2 часа.
Цель работы
Освоить приёмы приведения числовых переменных к дискретной форме.
Закрепить теоретические знания по вопросу «виды шкал».
Приборы и материалы
Компьютерный класс с доступом к сети Internet; программное обеспечение, реализующее аналитическую группировку, проверку статистических гипотез о характере распределения случайной величины и численные методы решения интегральных уравнений (рекомендуется MathCad; в его отстутствие задача может быть решена средствами Excel и VBA); информационный сайт Продовольственной и сельскохозяйственной организации ООН (FAO): http://faostat.fao.org/DesktopDefault.aspx?PageID=567&lang=ru
Задание
Привести числовые переменные системы, специфицированной при выполнении предыдущего задания, к дискретной форме. Для этого:
¨ обоснованно выдвинуть и проверить гипотезу о характере статистического распределения факторных переменных;
¨ выделить квартили интервалов вариации факторных переменных.
Методические указания по выполнению задания
Чтобы избежать неоправданно большого объёма вычислений, в учебной задаче достаточно выделить четыре квантили для каждой числовой переменной, а нечисловые переменные не должны иметь более пяти вариантов.
Если переменная принимает только неотрицательные значения, её распределение не может быть нормальным[8]. Многие из неотрицательных экономических переменных имеют распределения, близкие к гамма-распределению или логнормальному распределению. Переменные, означающие численность редких событий (неисправностей сельхозтехники, заболеваний скота, отказов контрагентов от выполнения обязательств), распределены согласно закону Пуассона.
Если эмпирическое распределение многовершинное, совокупность наблюдений (при их достаточной численности) часто удаётся разделить на качественно различающиеся совокупности, в каждой из которых эмпирическое распределение одновершинное. Если наблюдений мало (до 20), в подобных случаях практически оправданно выдвигать гипотезу о равномерном распределении.
Требования к отчёту
Отчёты о выполнении практического задания составляются индивидуально. Объём каждого отчёта не должен превышать 6 страниц (не считая приложений).
В каждом отчёте должны присутствовать:
¨ характеристики распределения вероятности для каждой числовой переменной, исследованной составителем отчёта;
¨ расчёт и результаты проверки гипотезы о соответствии эмпирического распределения выбранному теоретическому распределению;
¨ краткое описание подходов к статистическому анализу, не описанных в методических указаниях, но использованных при выполнении практического задания (со ссылками на источники);
¨ границы квантилей числовых переменных;
¨ список использованной литературы.
Теоретическая часть
Библиографический список
Гатаулин А.М. Система прикладных статистико-математических методов обработки экспериментальных данных в сельском хозяйстве. М., 1992.
Искусственный интеллект: Справочник: в 3 книгах / Под ред. Э.В. Попова. М., 1990.
Красс М.С., Чупрынов Б.П. Математические методы и модели для магистрантов экономики: Учеб. пособие. СПБ.: Питер, 2006.
Нейлор К. Экспертные системы: принципы работы и примеры. М., 1987.
Орлов А.И. Теория принятия решений: Учеб. пособие. М.: Изд-во «Март», 2004.
Светлов Н.М. Обоснование весовых коэффициентов исходов в стохастических моделях сельскохозяйственного производства // Доклады ТСХА. М., 1995, вып. 266, с. 190-