Построение моделей и проверка гипотез
Проверка гипотез заключается в использовании данных для осуществления выбора одной из двух (или более) различных возможностей при решении вопроса в неоднозначной ситуации. Проверка гипотезы на основе собранных данных дает определенное решение о том, какая из возможностей является верной. Процедура проверки гипотезы включает сбор данных, которые помогают осуществить выбор одной из возможностей, и использование анализа данных для подтверждения принятого решения, если это решение не вытекает из простого беглого анализа данных.
Ниже приведено несколько примеров гипотез, которые можно было бы
проверить с использованием данных.
1. Средний житель посёлка в следующем месяце планирует
тратить на покупку некоторого продукта, по крайней мере, 250 рублей.
2. Завтра на выборах победит кандидат Y.
3. Новое медицинское средство безопасно и эффективно.
4. Средство марки "X" эффективно стирает и отбеливает.
5. Ошибка в финансовом отчете меньше некоторой величины.
6. Исходя из прошлого опыта можно предсказать ситуацию на
фондовом рынке.
7. Уровень производственного брака ниже, чем ожидают потребители
продукции.
Обратите внимание, что каждая гипотеза сформулирована как определенное утверждение, которое может быть либо верным, либо неверным. Результатом проверки гипотезы является заключение о том, что данные либо подтверждают гипотезу, либо нет.
Часто методы анализа данных используют, чтобы решить, можно ли в качестве допустимой возможности рассматривать просто чистую случайность.
Пример. Контроль качества.
Рассмотрим некоторое производство. Его производственные процессы несовершенны (как и у других фирм), и время от времени некоторое изделие необходимо или вторично переработать, или просто выбросить. Группа контроля, которая делает все, чтобы недоброкачественное изделие не попало к потребителю. Однако контроль, обнаружение и решение этих проблем –все это стоит немалых денег. Вот почему многие фирмы начали использовать методы анализа экспериментальных данных для контроля качества.
Упрощая ситуацию, будем считать, что сборочная линия контролируема, если изготовленные изделия имеют стабильные показатели, которые удовлетворяют техническим требованиям. В противном случае, сборочная линия считается неконтролируемой. Статистические методы помогают наблюдать за производственным процессом таким образом, что можно сэкономить финансовые средства тремя способами: (1) снизить затраты на сбор информации;
(2) быстро выявлять проблемы и, следовательно, минимизировать ущерб;
(3) по возможности не вмешиваться в процесс тогда, когда в этом нет необходимости. Ниже в общих чертах описано, как в данной ситуации реализуются четыре этапа анализа данных.
На стадии планирования следует решить, что и как часто следует
измерять. Например, можно принять решение извлекать случайную выборку
объемом 5 изделий из каждой партии объемом 500 изделий. Каждое изделие в
выборке оценивают по внешнему виду, выявляя очевидный брак, а также
измеряют длину и ширину изделия. Результат стадии планирования
исследования представляет собой план раннего выявления проблем. План
должен работать в реальном времени, чтобы проблемы можно было выявлять
немедленно, а не на следующей неделе.
В ходе предварительного исследования данные наносят на карты
контроля качества и изучают те конфигурации, которые вызывают тревогу-
Правильно определив направление изменения данных, можно даже
предсказать и установить проблему раньше, чем она приведет к
производственным потерям!
Статистическая оценка обеспечивает менеджмент информацией о ходе
производственного процесса. Если производственный процесс хорошо
управляется в установленных границах, то можно даже поднять сортность
продукции, а значит, и цену. Оценки качества текущей продукции
необходимы для удовлетворения текущих заказов, а прогноз качества на
будущее полезен для стратегического планирования и выработки ценовой
политики.
Статистическую проверку гипотез можно использовать для ответа на
важный вопрос: контролируется данный процесс или нет? Поскольку
производственный процесс может быть большим, длительным и сложным, не
всегда можно оценить его, посмотрев на работу части оборудования.
Максимально используя статистическую информацию, содержащуюся в
имеющихся данных, вы надеетесь достичь двух целей. Во-первых, вы хотите
определить момент выхода системы из-под контроля, прежде чем уровень
качества станет недопустимым. Во-вторых, вам хочется минимизировать
"ложную тревогу", чтобы не тратить напрасно время и деньги на
вмешательство в процесс тогда, когда он фактически является управляемым.
1.3. Структуры данных: классификация различных типов наборов данных.
Одной из основных форм является символьная, которая включает представление данных в виде чисел, двоичных величин или текста. Для задания значений соответствующих величин применяются различные шкалы измерений.Описательные (качественные) признаки измеряются на основе номинальных (наименований) и порядковых шкал. Номинальные шкалы обеспечивают только группирование объектов по признаку наличия у них некоторых общих свойств, но не позволяют проводить ранжирование объектов. Порядковые шкалы обеспечивают возможность упорядочивания данных по признакам "больше", "меньше", "равно", но при этом не указывается, на сколько одно значение признака больше или меньше другого.
Количественные свойства отображаются числами в шкале интервалов, либо относительных или абсолютных шкалах измерений. В относительных шкалах точки начала отсчета и масштаб измерений имеют условный характер. Например, температуру можно измерять в относительных шкалах по Цельсию, Реомюру, Фаренгейту. Исходя из этого, результаты количественного сравнения величин зависят от используемой шкалы, а некоторые операции над количественными признаками недопустимы. Например, температура одного объекта выше температуры другого на три градуса Цельсия, эти три градуса не равны трем градусам шкалы Фаренгейта. Абсолютная шкала обеспечивает однозначное представление точки отсчета и масштаба. Примерами абсолютных шкал является шкала температур по Кельвину, шкала вероятностей. Эти шкалы позволяют дать однозначные ответы на вопросы о том, на сколько или во сколько раз одна величина больше (меньше) другой. Именно применение относительных и абсолютных шкал дает возможность проводить количественную обработку ЭД. Но при обработке следует применять только те операции, которые допускаются применяемой шкалой измерений.
Количественные характеристики (параметры) представимы дискретными или непрерывными величинами. Дискретные параметры принимают только отдельные значения, без промежуточных значений между ними. Часто дискретные параметры имеют такое большое количество допустимых значений, что их на практике считают квазинепрерывными. Непрерывные параметры способны принимать любые значения из некоторого допустимого диапазона. В процессе обработки непрерывные величины всегда округляют и представляют ограниченным числом разрядов, т. е. они становятся квазинепрерывными. На практике ЭД отображают с разрядностью, обеспечивающей относительную погрешность не более единиц или десятых долей процента.
Экспериментальные данные могут быть представлены не только в символьной, но и в других формах: графической (графики, осциллограммы, штриховые рисунки, цветные изображения и полутоновые рисунки); аудиоданных. Такие данные обрабатывают непосредственно или предварительно преобразуют в числовую форму.
В дальнейшем будем рассматривать только числовую форму представления данных. Эта форма универсальна и широко распространена и количественно характеризует параметры объектов и процессов. А сами параметры считаются непрерывными величинами, если особо не оговорено иное. Обработка данных, представленных в других формах, обладает существенной спецификой и требует отдельного рассмотрения.
Параметры, вообще говоря, зависят или не зависят от времени. Результаты наблюдений носят детерминированный или случайный характер.
Данные могут быть представлены в различной форме. Полезно иметь
базовую классификацию различных типов данных, чтобы сразу же определять тип новых данных и использовать соответствующий метод анализа. Набор данных состоит из результатов наблюдений объектов, обычно включающих регистрацию одной и той же информации для каждого объекта.
Можно указать четыре основных способа классификации
наборов данных.
Первый. По количеству порций информации (переменных) для каждой элементарной единицы.
Второй. По типу измерения (числа или категории) для каждого наблюдения.
Третий. По тому, важна или нет упорядоченность во времени записей о результатах измерений.
Четвертый. По тому, собиралась ли информация специально для этого
анализа или данные собирались ранее кем-то другим для своих нужд.
Порция информации, регистрируемая для каждого объекта (например,
стоимость), называется переменной. Количество переменных, или порций
информации, регистрируемых для каждого объекта, указывает на сложность
набора данных и определяет соответствующий тип анализа. В зависимости от
того, имеем ли мы дело с одной, двумя или многими переменными, мы
получаем соответственно одномерный, двумерный или многомерный набор
данных.
Одномерные данные
Одномерные наборы данных (одна переменная) содержат только один признак, зарегистрированный для каждой элементарной единицы. В этом случае статистические методы используют для обобщения основных свойств этого единственного признака, отвечая на такие вопросы:
1.Чему равно типичное (обобщенное) значение?
2.Насколько различаются эти объекты?
3.Имеются ли в этом наборе данных отдельные элементы или группы элементов, требующие особого внимания?
Двумерные данные
Наборы двумерных (две переменные) данных содержат информацию о двух признаках для каждого из объектов. В дополнение к обобщению свойств каждой из этих двух переменных, рассматриваемых как отдельные наборы одномерных данных, статистические методы можно использовать для изучения связи между этими двумя измеренными факторами, выясняя при этом следующее:
1.Существует ли между этими двумя переменными простая связь?
2.Насколько сильно взаимосвязаны переменные?
3.Можно ли предсказать значение одной переменной на основании другой? Если да, то с какой степенью надежности?
4.Существуют ли отдельные объекты или группы, которые требуют
особого внимания?
Многомерные данные
Наборы многомерных (много переменных) данных содержат информацию о трех или более признаках для каждого объекта. В дополнение к обобщению свойств каждой из этих переменных (рассматриваемых как отдельные наборы одномерных данных) и установлению зависимости между парами переменных (как при анализе набора двумерных данных) статистические методы можно использовать для изучения взаимосвязей между всеми этими переменными, выясняя при этом следующие вопросы:
1. Существует ли простая зависимость между этими признаками?
2. Насколько сильно они взаимосвязаны?
3. Можно ли предсказать значения одной ("выделенной") переменной исходя из значений остальных? С какой степенью надежности?
4.Существуют ли отдельные объекты или группы, которые требуют особого внимания?
Количественные данные: числа
Числа, имеющие содержательную интерпретацию, –это числа, которые непосредственно представляют измеренный или наблюдаемый объем некоторого признака или количество элементарных единиц. К числам, имеющим содержательную интерпретацию, можно отнести, например, количество рублей, частоты, размеры, количество служащих или число километров на литр бензина. К ним не относятся те числа, которые используют для кодирования или нумерации чего-либо, как, например, номер на футбольной спортивной форме или кодирование сделок вида 1 = покупка акции, 2 = продажа акции, 3 = покупка обязательств, 4 = продажа обязательств. Если данные представляют собой числа, имеющие содержательную интерпретацию, то мы имеем дело с количественными
данными (т.е. они представляют количество чего-либо). С количественными данными можно выполнять все обычные операции над числами, такие как вычисление среднего и оценку изменчивости. С такими данными можно проводить непосредственные вычисления. В зависимости от того, какие
значения может потенциально принимать переменная, выделяют два типа
количественных данных: дискретные и непрерывные.
Дискретные количественные данные
Дискретная переменная –это такая переменная, которая может принимать значения только из некоторого списка определенных чисел. Например, число детей в семье является дискретной переменной. Поскольку возможные значения переменной можно перечислить, то с наборами дискретных данных работать относительно легко. Рассмотрим несколько
примеров дискретных переменных.
1. Сколько раз за последние 24 часа на предприятии выключали
компьютер.
2. Количество действительно заключенных контрактов из 18
подготовленных вами предложений.
3. Число иностранных танкеров, пришвартовавшихся сегодня в
определенном порту.
4. Пол служащего, записанный с помощью числа 0 или 1.
Непрерывные количественные данные
Непрерывной будем считать любую числовую переменную, которая не является дискретной. Слово "непрерывная" используют, поскольку возможные значения переменной образуют "континуум", как, например, множество всех положительных чисел, множество всех чисел или все значения между 0 и 100%. Например, фактический вес леденца на палочке, записанный как "нетто вес 17 грамм", представляет собой непрерывную случайную переменную, поскольку фактический вес может быть равен
17,0235 или 16,9481 грамм, а не точно 17 грамм. Если вы все еще не обладаете статистическим мышлением, можете считать, что фактический вес точно равен 17 грамм; в действительности в любых реальных измерениях всегда есть небольшие (а иногда большие) отклонения от ожидаемых значений.
Качественные данные: категории
Если набор данных показывает, какой из нескольких нечисловых категорий принадлежит каждый из объектов, то данные являются качественными (поскольку они регистрируют определенное качество, которым обладает объект). Будьте внимательны и осторожны, чтобы избежать искушения приписать числовые значения категориям (классам) и
далее проводить с ними вычисления. Если имеется несколько классов, то можно оперировать процентами (частотами) событий в каждом классе (создав таким образом нечто числовое из представленных категориями данных). Если есть в точности две категории, их можно обозначить цифрами 1 и 0, приписать эти значения соответственно каждому из объектов и затем (в достаточно многих случаях) обрабатывать полученные данные как количественные. Давайте сначала рассмотрим общий случай, когда речь идет
о трех или более категориях.
Существуют два типа качественных данных: порядковые (ординальные, для которых существует имеющий содержательный смысл порядок, но нет содержательного числового обозначения) и номинальные (для которых нет содержательно интерпретируемого порядка).
Порядковые качественные данные. Набор данных является ординальным, если существует имеющий содержательный смысл порядок: можно вести речь о первом (например, "лучшем"), втором, третьем и т.д.
Можно ранжировать данные в соответствии с этим порядком и использовать это ранжирование при выполнении анализа, особенно если оно имеет отношение к изучаемому вопросу. Рассмотрим некоторые примеры порядковых данных:
1. Должность, записанная для каждого из группы руководителей:
президент, вице-президент, начальник отдела, заместитель начальника
отдела. Хотя классификатор не содержит чисел и не совсем ясно, каким
образом их можно здесь использовать, объекты можно естественным образом
упорядочить.
2. Характеристики, такие как АА+, АА, АА-, А+, А, А-, В+, В и В-, зафиксированные для набора долговых обязательств. Это чисто порядковые категориальные данные, поскольку упорядоченность имеет смысл с точки зрения риска вкладов и используется в анализе инвестиций.
3. Ответы на вопрос анкеты: "Пожалуйста, выскажите свое мнение относительно вашей работы в фирме, используя шкалу от 1 до 5, где 1 означает "с трудом дожидаюсь окончания рабочего дня", а 5 –"все мои мысли заняты работой". Несмотря на то, что ответы выражены числами, мы имеем дело с порядковыми данными, поскольку предложенная шкала оценок носит субъективный характер. Непонятно, можно ли считать, что разница между оценками 5 и 4 такая же, как и между оценками 2 и 1. Кроме того, можно ли считать, что оценка 2 в два раза лучше оценки 1. Однако упорядочение и
ранжирование здесь явно имеют место.
Номинальные качественные данные определяются в терминах
категорий, которые нельзя содержательно упорядочить. Для таких категорий
нет чисел, с которыми можно производить вычисления, и нет основы для
ранжирования. Все, что можно сделать, –это подсчитать процент (или
количество) попадающих в каждую из категорий наблюдений и использовать
в качестве обобщающего показателя моду (наиболее часто встречающаяся
категория). Рассмотрим несколько примеров номинальных данных:
1. Главный продукт каждого из нескольких производственных
предприятий диверсифицированного бизнеса, как, например, пластмасса,
электроника, древесина. Эти категории действительно не упорядочены.
Чтобы их упорядочить, необходимо рассмотреть дополнительный фактор
(как, например, потенциал роста данной фирмы в отрасли), не являющийся
внутренним свойством этих категорий.
2. Названия всех фирм, указанных на первой странице сегодняшнего выпуска журнала “Экономика России”
Временные ряды и данные об одном временном срезе
Если порядок записи значений данных имеет содержательный смысл,
как, например, ежедневные цены на фондовом рынке, то мы имеем дело с
временным радом. Если последовательность, в которой записаны данные, не
важна, как, скажем, доходы восьми IT фирм в первом квартале 2008 года, то
мы имеем данные об одном временном срезе. Слова об одном временном
срезе в данном случае означают лишь то, что нет никакого упорядочения во
времени, а есть лишь информация о некоторых объектах в определенный
момент времени (своего рода "моментальный снимок").
Анализ временных рядов в целом сложнее, чем анализ данных об одном
временном срезе, поскольку требует тщательного учета порядка наблюдений.
Источники данных, включая Internet
Откуда берут данные? Существует много источников, выбор которых осуществляют исходя из их стоимости, доступности и потребностей экономической деятельности. Если вы самостоятельно разрабатываете план сбора данных (даже если собственно собирают данные другие), то вы получите первичные данные. Если же вы используете данные, ранее собранные другими людьми и для других целей, то вы используете вторичные данные. Главное преимущество первичных данных состоит в том, что в этом
случае у вас больше возможностей собрать действительно необходимую вам информацию, поскольку вы сами управляете процессом получения данных путем планирования вопросов или измерений, а также путем определения выборки элементарных единиц для измерения. К сожалению, часто
получение первичных данных слишком дорого и занимает много времени. С
другой стороны, вторичные данные дешевле (или вообще бесплатные), и можно найти именно то (или почти то), что нужно. Это предполагает следующую стратегию получения данных: поиск вторичных данных, которые быстро удовлетворяют ваши потребности за приемлемую цену. Если это невозможно, оцените стоимость сбора первичных данных и решайте, какой источник (первичный или вторичный) использовать, исходя из соотношения расходов и преимуществ каждого из подходов.
Рассмотрим несколько примеров источников первичных данных:
1. Информация о производительности вашего оборудования, включая объем и качество (например, уровень брака) ежедневно выпускаемой продукции. Такие данные может автоматически собирать информационная система на предприятии.
2. Данные опроса, проведенного служащими маркетинговой фирмы, нанятыми с целью изучения влияния возможной рекламной кампании на поведение потребителей.
3. Собранные в ходе политической кампании данные о проблемах, которыми обеспокоены избиратели, собирающиеся голосовать на предстоящих выборах.
А теперь рассмотрим примеры источников вторичных данных.
1. Собранные и сведенные в таблицу правительством России экономические и демографические данные, которые доступны бесплатно в библиотеке или через Internet.
2. Данные из специализированных журналов (например, реклама, объемы производства, финансы и т.п.), которые помогают фирмам, работающим в этом секторе рынка, оценить ситуации на рынке и успех отдельных продуктов.
3. Данные, собранные компаниями, специализирующимися на сборе данных и продающими их другим компаниям.
1.6. Краткий обзор современных программных средств для проведения анализ данных.
Существует огромное количество разнообразных программных пакетов
для выполнения анализа экспериментальных данных. Рассмотрим наиболее
популярные из них.
MATLAB
MATLAB –это высокопроизводительный язык для технических расчетов. Он включает в себя вычисления, визуализацию и программирование в удобной среде, где задачи и решения выражаются в форме, близкой к математической. Типичное использование MATLAB –это:
•математические вычисления
•создание алгоритмов
•моделирование
•анализ данных, исследования и визуализация
•научная и инженерная графика
•разработка приложений, включая создание графического интерфейса
MATLAB –это интерактивная система, в которой основным элементом данных является массив. Это позволяет решать различные задачи, связанные с техническими вычислениями, особенно в которых используются матрицы и вектора, в несколько раз быстрее, чем при написании программ с использованием "скалярных" языков программирования, таких как Си или Фортран.
Слово MATLAB означает матричная лаборатория (matrix laboratory). MATLAB был специально написан для обеспечения легкого доступа к LINPACK и EISPACK, которые представляют собой современные программные средства для матричных вычислений.
MATLAB развивался в течении нескольких лет, ориентируясь на различных пользователей. В университетской среде, он представлял собой стандартный инструмент для работы в различных областях математики, машиностроении и науки. В промышленности, MATLAB –это инструмент для высокопродуктивных исследований, разработок и анализа данных. В MATLAB важная роль отводится специализированным группам программ, называемых toolboxes. Они очень важны для большинства пользователей MATLAB, так как позволяют изучать и применять специализированные методы. Toolboxes –это всесторонняя коллекция функций MATLAB (М-файлов), которые позволяют решать частные классы задач. Toolboxes применяются для обработки сигналов, систем контроля, нейронных сетей, нечеткой логики, вэйвлетов, моделирования и т.д.
Mathcad
Mathcad –программное средство, среда для выполнения на компьютере разнообразных математических и технических расчетов, снабженная простым в освоении и в работе графическим интерфейсом, которая предоставляет пользователю инструменты для работы с формулами, числами, графиками и текстами. В среде Mathcad доступны более сотни операторов и логических функций, предназначенных для численного и символьного решения математических задач различной сложности и применения этих функций для
анализа данных.
STATISTICA
STATISTICA –это универсальная интегрированная система, предназначенная для статистического анализа и визуализации данных, управления базами данных и разработки пользовательских приложений, содержащая широкий набор процедур анализа для применения в научных исследованиях, технике, бизнесе, а также специальные методы добычи данных.
Помимо общих статистических и графических средств в системе имеются специализированные модули, например, для проведения социологических или биомедицинских исследований, решения технических и, что очень важно, промышленных задач: карты контроля качества, анализ процессов и планирование эксперимента. Работа со всеми модулями происходит в рамках единого программного пакета, для которого можно выбирать один из нескольких предложенных интерфейсов пользователя.
С помощью реализованных в системе STATISTICA мощных языков программирования, снабженных специальными средствами поддержки, легко создаются законченные пользовательские решения и встраиваются в различные другие приложения или вычислительные среды.
STATGRAPHICS
STATGRAPHICS –это универсальный пакет для анализа и
визуализации данных. Отличительной особенностью пакета является наличие
такого инструмента как StatAdvisor, который помогает пользователям интерпретировать полученные результаты, обеспечивает возможность объединения в одном окне нескольких текстовых и графических подокон. StatAdvisor дает пользователям понятные разъяснения полученных результатов, определяет, являются ли эти результаты существенными, и обращает особое внимание на любые возможные ошибки в анализе.
Пользователи получают немедленную интерпретацию результатов в процедурах, доступных в как основной системе, так и в четырех специальных модулях, поставляемых по выбору: Quality Control (контроль качества), Experimental Design (планирование эксперимента), Time-Series Analysis (анализ временных рядов) и Advanced Multivariate Method (анализ вариаций). Особо привлекателен модуль StatAdvisor для неопытных пользователей или студентов.
1.7. Контрольные вопросы и задания для самопроверки
1. Почему стоит тратить усилия на изучение методов анализа
экспериментальных данных, зная, что уже существует большое количество
разнообразных математических программных пакетов прикладных программ?
2. Выберите одну из практических областей деятельности человека и
укажите, как можно использовать методы анализа экспериментальных
данных в этой области.
3. Какие бывают и что представляют собой этапы анализа данных?
4. Что такое набор данных?
5. Какими способами можно классифицировать наборы данных?
6. Почему двумерные данные представляют собой больше, чем просто
два отдельных одномерных набора данных?
7. В чем разница между качественными и количественными данными?
8. Что такое переменная? Приведите несколько примеров?
9. Найдите в интернете (или журналах) табличные данные. Определите
тип данных каждой переменной.
10. Можно ли принимать управленческие решения, опираясь только на
результаты, полученные в ходе анализа данных и не учитывать опыт и
интуицию экспертов?
11. Какие вы знаете основные законы распределения случайных
величин?
12. Как соотносятся различные законы распределения случайных
величин и объекты (явления) реального мира?
13. Найдите с помощью поисковых систем в интернете несколько
сайтов, посвященных различным математическим пакетам. Ознакомитесь с презентационными материалами, представленными на этих сайтах
Тема №2. Базовые понятия обработки экспериментальных данных.
Основные законы распределения случайных величин: равномерное, нормальное, экспоненциальное, Лапласа, Хи-квадрат, Стьюдента, Пуассона, биноминальное. Их назначение. Основные статистические (числовые) характеристики: минимум, максимум, среднее, дисперсия, стандартное отклонение, медиана, квартили, эксцесс, асимметрия. Генеральная совокупность. Выборка. Вариационный ряд. Относительная частота. Эмпирическая функция распределения. Гистограмма. Полигон.