Представление числовых данных в виде таблиц и диаграмм. Гистограмма. Полигон. Полигон интегральных процентов.
Вопрос 1
Статистика – это искусство и наука сбора и анализа данных. Поскольку данными называется любой вид зарегистрированной информации, статистика играет важную роль во всех сферах деятельности человека.
Определения:
- Статистикой называется отрасль знаний, объединяющая принципы и методы работы с числовыми данными, характеризующими массовые явления.
- Статистикой называется отрасль практической деятельности, направленной на сбор, обработку и анализ статистических данных.
Предмет статистического изучения – статистические совокупности.
Познание закономерностей возможно при изучении не отдельных явлений, а их совокупности. В каждом явлении необходимое – то, что присуще всем явлениям данного вида, проявляется в единстве со случайным, индивидуальным, присущим лишь этому конкретному явлению. Статистика рассматривает общую картину, но не игнорирует отдельные объекты.
(Реклама – двигатель торговли)
Закономерности, в которых необходимость неразрывно связана в каждом отдельном явлении со случайностью и лишь во множестве явлений проявляет себя как закон, называются статистическими.
Статистическая совокупность состоит из единиц совокупности. Каждая единица совокупности представляет собой частный случай проявления изучаемой закономерности. Единица совокупности – это предел дробления объекта исследования, при котором сохраняются все свойства изучаемого процесса.
Статистика – это самостоятельная обще-ственная наука, изучающая количественную сторону массовых социально-экономических явлений в неразрывной связи с их каче-ственной стороной в конкретных условиях времени и места. Объект – общество и про-цессы в нем, предмет – качественная сторона явлений. Статистическая совокупность – со-вокупность единиц изучаемого объекта, об-разованная по определенному признаку. Признак – свойства, характерные изучаемому явлению (существенные и второстепенные, количественные и атрибутивные, факторные и результативные). Показатель – обобщенная количественная характеристика. Статистическая закономерность – повторяе-мость, последовательность и порядок в явле-ниях. Вариация – процесс изменения значе-ний признака у отдельных единиц совокуп-ности.
Вопрос 2
Для изучения своего предмета статистика разрабатывает и применяет разнообразные методы, в зависимости от поставленных задач и характера исходной информации.
Все методы применяются на трех основных стадиях экономико-статистического исследования:
1. Сбор первичной статистической информации
2. Статистическая сводка и обработка первичной информации
3. Анализ статистической информации для принятия решений
1) Статистическое наблюдение – собира-ется необходимая информация. Носит мас-совый характер и охватывает большое число единиц. Разрабатываются план наблюдения и программа, включающая в себя программно-методологические и организационные вопросы. 2) Сводка и группировка – выяв-ляются статистические закономерности пу-тем выделения качественно однородных групп, структуры совокупности, устанавли-ваются связи, применяются табличный и графический методы. 3) Анализ – позволяет выделить статистические закономерности и взаимосвязи, сформулировать выводы и предложения. Используются абсолютные и относительные величины, средние, матема-тический и дисперсионный анализ.
Вопрос 3
Основные методы:
1. Методы массового наблюдения. Закон больших чисел.
Основное содержание этого закона: в сводных статистических характеристиках действие элементов случайности взаимопогашается, хотя они и могут проявляться в признаках отдельных единиц статистической совокупности.
2. Метод статистических группировок. Метод обобщающих статистических показателей.
3. Метод средних величин и показателей вариации.
Ряды динамики (временные ряды).
Индексный метод.
Корреляционно-регрессионный анализ.
Выборочный метод.
Вопрос 4
Статистическая информация (статистические данные) – первичный статистический материал, формирующийся в процессе статистического наблюдения (СН), который затем подвергается систематизации, сводке, обработке, анализу и обобщению.
СН – это начальная стадия экономико-статистического исследования. Это научно организованная работа по сбору массовых первичных данных о явлениях и процессах во всех сферах бизнеса.
Требования к СН:
ü ценность,
ü полнота,
ü достоверность,
ü объективность,
ü сопоставимость
Зачем нужны данные: (сформулировать самостоятельно)
ü Для обзора
ü Для изучения
ü Для оценки качества предоставляемых услуг или производственного процесса
ü Для выработки альтернативных решений
ü Для удовлетворения любопытства
Основные способы получения данных:
ü Изучение промышленных, правительственных, финансовых и др. источников.
Источники данных разделяются на первичные (если данные непосредственно используются для анализа)и вторичные (если некто собирает данные для последующей передачи).
ü Эксперимент
В нем все испытания проводятся под строгим контролем. Планирование эксперимента. (эффективность моющих средств).
ü Опрос
Респонденты свободно отвечают на ряд вопросов. Затем ответы редактируются, шифруются, табулируются для дальнейшего анализа.
ü Наблюдение
Для явлений, обычно протекающих в естественных условиях- знания о животном мире. (социология и бизнес- наблюдение за фокус-группой).
Вопрос 5
Типы данных
Результатом опроса являются случайные величины (random variables). наборы данных: категорийные (качественные) и числовые.
Категорийные случайные величины (categorical random variables) возникают в результате категорических ответов на заданные вопросы ( «да» или «нет»).. Категорийные переменные могут иметь не только два возможных значения. Например, существует несколько вариантов ответа на вопрос: «В какой день недели Вы предпочитаете обедать в ресторане?»
Числовые случайные величины (numerical random variables) являются ответами на вопросы о каком-либо измерении, например, о росте опрашиваемого. Существуют две разновидности числовых переменных: дискретные и непрерывные.
Дискретные случайные величины(discrete random variables), используются для ответа на вопрос, требующий подсчета.(кол. Журнал.)
Непрерывная случайная величина (continuous random variables) возникает как ответ на вопрос, требующий измерения. Типичным примером такой величины является рост опрашиваемого, который может изменяться в определенном интервале и измеряться с заданной точностью. (рост)результаты эксперимента или опроса содержат взаимосвязанные наблюдения, даже если случайная величина является непрерывной.
Шкалы измерений
Данные можно классифицировать по шкалам(scales), или уровням измерений. Сущ.:
Номинальная и порядковая шкалы. Данные, представляющие собой значения категорийных переменных)
Номинальная шкала классифицирует данные по неупорядоченным категориям. Номинальными переменными являются ответы на вопросы о любимых напитках, о последних прочитанных книгах. Номинальное шкалирование является слабейшей формой измерения, поскольку исследователи не дифференцируют результаты, принадлежащие одной и той же категории, и не устанавливают отношение порядка между категориями.
Порядковая шкала классифицирует данные по разным упорядоченным категориям. Ответ на вопрос представляет собой порядковую переменную, поскольку ее значения ранжируются по степени удовлетворенности клиентов: намного лучше ожидаемого, лучше ожидаемого, соответствует ожиданиям, хуже ожидаемого, намного хуже ожидаемого.
Порядковая шкала представляет собой более точную форму измерений, поскольку между ответами, отнесенными к разным категориям, устанавливается отношение порядка. Порядковое шкалирование, - разновидностью относительно менее точных измерений, поскольку данные, относящиеся к одной и той же категории по-прежнему не дифференцируются.
Интервальные шкалы и шкалы отношений.
Интервальная шкала представляет собой порядковую шкалу, в которой разности между измерениями выражаются ненулевым числом. Например, температура воздуха, равная 150 С на 20 С теплее, чем 130 С. Кроме того, разность между температурами, равными 270 С и 250 С также равна 20 С. Следовательно, указанные разности сохраняют смысл для любых измерений.
Шкала отношений – это упорядоченная шкала, в которой разности между измерениями (высоты, веса, возраста или зарплаты) могут равняться нулю.Значения числовых переменных, как правило, измеряются либо по интервальной шкале, либо по шкале отношений. Эти шкалы образуют высший уровень измерения. Они точнее, чем порядковая шкала, поскольку позволяют определить, не только какая из наблюдаемых величин больше другой, но и насколько.
Вопрос 6
Оценка достоверности результатов исследования (цель опроса, зачем и для кого они проводятся; какие выборки положены в основу опроса)
Детерминированная выборка состоит из элементов, включенных в нее без учета вероятности их появления.
Вероятностная выборка состоит из элементов, вероятность появления которых известна заранее.
Ошибки статистических исследований:
1. Ошибка, связанная с охватом исследования (систематическая ошибка выбора)
2. Ошибка, связанная с отсутствием ответа
3. Ошибка выборочного исследования (целесообразность, относительная дешевизна, эффективность – преимущества выборочного наблюдения).
4. Ошибка измерения
Вопрос 7
Статистические группировки (СГ) – это процесс образования однородных групп на основе разделения статистической совокупности на части или объединение изучаемых единиц в частные совокупности по существенным для них признакам.
СГ - метод статистического исследования, позволяющий уловить переход количественных изменений в качественные, выявить закономерности их развития.
Результатом осуществления этого процесса является разделенный на группы объект наблюдения.
Пример. Группировка коммерческих фирм по численности работников, величине ОФ.
Виды группировок:
Типологические
Структурные
Аналитические Главное – правильный выбор группировочного признака.
Вопрос 8
Типологические группировки – для выделения из множества признаков, характеризующих изучаемые явления, основных типов в качественно однородные группы.
Структурные группировки – используются для изучения строения исследуемой совокупности (торговая сеть – по специализации; работники торговли – по возрасту, стажу работы, по образованию). По ним можно оценить качественные сдвиги или процесс концентрации.
Крупные магазины имеют большую долю в обороте, чем в общей их численности !!!
Аналитические группировки – для изучения явления и связи между отдельными признаками явления. Так в коммерческой деятельности встречается много взаимосвязей между признаками, выступающими в роли причины или следствия явления.
Виды взаимосвязей в аналитической группировке:
1) Фактор – количественный признак, а результат – качественный признак (стаж работы и квалификация сотрудника; время договорных связей поставщик-торговля и качество товара)
2) Фактор (основа группировки) – качественный признак, а результат – количественный признак (квалификация сотрудников и производительность их труда)
3) Фактор и результат – качественные признаки (категория работников и их образование)
4) Фактор и результат – количественные признаки (производительность труда и заработная плата)
Устойчивые хозяйственные связи оказывают положительное влияние и на качество поставляемых товаров !!!
Комбинированные группировки – образование групп по двум и более признакам, взятым в определенном сочетании. При этом группировочные признаки принято располагать, начиная к атрибутивного (категорийного), в определенной последовательности, исходя из логики взаимосвязи показателей.
Пример. Разделение по формам хозяйствования, затем по уровню рентабельности и т.д.
! С увеличением числа группировочных признаков, снижается наглядность, что уменьшает эффективность использования статистической информации.
Вопрос 9
Группировочный признак. Образование групп и интервалов группировки
Все многообразие признаков, на основе которых могут производиться статистические группировки, можно соответствующим образом классифицировать:
1) по форме выражения признаки бывают атрибутивными (категорийными), не имеющими количественного значения (профессия, образование и т.д.) и количественными (числовыми), принимающими различные цифровые характеристики (число работников, величина дохода). При этом количественные признаки бывают дискретными (прерывными), значения их – только целые числа (число комнат в квартире) и непрерывными, значения их могут быть как целыми так и дробными (сумма издержек обращения).
2) по характеру изменчивости признаки бывают альтернативными, которыми одни единицы обладают, а другие – нет (поставленный товар м.б. качественным и некачественным) и имеющими множество количественных значений (величина фонда оплаты труда, прибыль).
3) по роли, которую играют признаки во взаимосвязи изучаемых явлений, они бывают факторными, т.е. воздействующими на другие признаки и результативными, т.е. испытывающими на себе влияние других.
В зависимости от сложившихся объективных условий и цели исследования признаки могут меняться ролями.
(величина прибыли предприятия - зависит от качества работы коллектива; величина прибыли – это источник дальнейшего расширения всего торгового потенциала – основных фондов, числа работников)
Вопрос распределения единиц совокупности по группам.
Вопросы количества групп и величины интервала взаимосвязаны между собой.
Чем больше число групп, тем меньше величина интервала и наоборот.
Количество групп - какой признак служит основанием группировки.
Атрибутивные (категорийные) признаки предопределяют число групп (группы работников по образованию).
Аналогично разделяется совокупность по дискретному признаку, изменяющемуся в малом диапазоне (группы магазинов по числу товарных секций).
В зависимости от степени изменения признака, от характера распределения статистической совокупности бывают интервалы равные и неравные.
При равенстве интервалов используется формула американского ученого Стерджесса, с помощью которой определяется число групп n при известной численности совокупности N:
Зная размах изменений значений изучаемого признака во всей совокупности и намечаемое число групп, величина равного интервала, определяется по формуле:
, где n – число групп.
В экономической практике часто применяются неравные интервалы, прогрессивно возрастающие или убывающие (интервал по товарообороту для мелких, средних и крупных магазинов).
При построении интервалов группировки нередко (при непрерывно изменяющемся признаке) одно и то же число служит верхней и нижней границами 2-х смежных групп
Интервалы бывают: открытые и закрытые.
Вопрос 10
Графики в статистике – условные изображения числовых величин и их соотношений в виде различных геометрических образов – точек, линий, плоских фигур и т.п.
Основные элементы статистического графика:
1. Поле графика – место, на котором он выполняется. 1*1,3 – правило «золотого сечения»
2. Графический образ – символические знаки, с помощью которых изображаются данные
3. Пространственные и масштабные ориентиры – координатная сетка или контурные линии. Масштаб графика – это мере перевода численной величины в графическую.
4. Экспликация графика – это пояснение его содержания (название, подписи шкал).
Гистограмма –это диаграмма, на которой изображены столбики, границы которых совпадают с границами групп.
При ее построении исследуемая случайная величина откладывается по горизонтальной оси Х, а количество элементов в соответствующих группах (их относительная частота или процентная доля), по оси вертикальной У.
Процентный полигон – график, построенный путем соединения средних точек, соответствующих процентной доле каждой группы.
Как и при построении гистограмм, величина исследуемой переменной откладывается вдоль по горизонтальной оси, по вертикальной оси – количество элементов в каждой группе, их относительная доля или процент.
Вывод: Различия между двумя распределениями, обнаруженные ранее теперь видны четче.
Полигон накопленных (интегральных) % или кривая распределения является графическим изображением распределения суммарных процентов.
Вывод: до 20% по пятилетней доходности кривая распределения ВФ с медленным ростом капитала справа от кривой распределения доходности фондов с быстрым ростом капитала. Количество фондов с доходностью свыше 20% для этих двух групп приблизительно одинаковы.
Вопрос 11
Организации числовых данных. Упорядоченный массив. …
Сценарий. Сравнение эффективности взаимных фондов.
В последние годы вклады во взаимные фонды (ВФ) составили миллиарды долларов. Приобретая акции (долю) взаимного фонда, инвестор вступает во владение всеми акциями компании, принадлежащими фонду. В нашем сценарии мы играем роль финансового советника, выбирающего фонд, в который следует вкладывать средства.
Цели взаимных фондов различны:
ü Капитал обычно складывается их акций схожих компаний. Например, фонды могут специализироваться на акциях крупных, средних или мелких компаний.
ü ВФ различаются по степени риска, связанного с ценными бумагами, которыми они владеют. По этому критерию фонды делятся на ВФ с очень высоким, высоким, средним, низким и очень низким уровнями риска.
Вопросы:
v Эффективность ВФ? Являются ли фонды, ориентированные на быстрый рост капитала, более эффективными, чем фонды, ориентированные на медленный рост?
v Как использовать таблицы и диаграммы для анализа эффективности различных ВФ?
Р/Е превышает среднее значение у аналогичных компаний – ориентация ВФ на быстрый рост капитала.
Здесь Р – рыночная цена в расчете на одну акцию;
Е – чистая прибыль в расчете на одну акцию.
Р/Е – характеризует скорость роста капитала.
Проанализируем данные об эффективности 259 ВФ, в т.ч. группы –
158 ВФ, ориентированных на быстрый рост капитала
101 ВФ, ориентированных на медленный рост капитала
Сравним годовые показатели доходности этих групп.
Чем больше анализируемых данных, тем труднее сконцентрировать внимание на их основных характеристиках. Для лучшего восприятия информации из набора данных, надо их правильно организовать.
Упорядоченный массив состоит из последовательных данных, расположенных по возрастанию.
Диаграмма «ствол и листья» - это инструмент для организации набора данных и анализа их распределения. Данные в этой диаграмме распределены в соответствии с первыми цифрами, или стволами и замыкающими цифрами или листьями.
Например, число 10,9% состоит из ствола 10 и листа 9.
Первые два столбца – ствол, содержащий ведущие цифры чисел. Листья или замыкающие цифры, расположены справа.
Выводы по диаграмме:
1. Мин уровень пятилетней среднегодовой доходности = -6,1%
2. Ман уровень пятилетней среднегодовой доходности = 26,3%
3. Уровни доходности 158 ВФ колеблются между этими значениями, причем наибольшая концентрация доходности в интервале от 1,8 до 18,9%.
4. Количество ВФ у крайних значение невелико
5. Только 4 ВФ приносят убытки
6. Только у 4-х ВФ доходность превышает 20%
Вопрос 12
Вопрос 13
Статистические данные могут быть представлены абсолютными, относительными и средними величинами.
Абсолютные величины – всегда числа именованные, имеющие определенную размерность, единицы измерения.
В зависимости от различных причин и целей анализа применяются следующие абсолютные величины:
а) натуральные – кг, м, л
в) денежные (стоимостные) - цены
с) трудовые единицы измерения- человеко-часы; человеко-дни.
а) соответствуют природным или потребительским свойствам предмета, товара и выражаются в физических мерах веса, длины и т.д. – килограммы, тонны, литры
Условно-натуральные единицы измерения получаются при приведении различных натуральных единиц к одной, принятой за основу, эталон.
Банки в консервной промышленности (353,4 см3), процентное содержание активных веществ в химической промышленности.
Вопрос 14
Вопрос 15
Средние величины – это обобщающие показатели, в которых находят выражение действие общих условий, закономерность изучаемого явления.
В большинстве случаев данные концентрируются вокруг некоей центральной точки. Таким образом, для описания любого набора данных, достаточно указать некое типичное значение. Эту величину называют средним значением.
ü Признак, по которому находится средняя, называется осредняемым признаком -
ü Величина осредняемого признака у каждой единица совокупности, называется индивидуальным его значение (или вариантами) – Х1, Х2 , …, Хn.
ü Частота – это повторяемость индивидуальных значений признака – f
ü Частоты, выраженные относительными величинами, это частости – w
виды средних.
Средняя арифметическая исчисляется, когда объём осредняемого признака образуется как сумма его значений из отдельных единиц изучаемой статистической совокупности.
Средняя арифметическая невзвешенная получается делением количества сводного признака на число показаний:
.
Если значение признака встречается несколько раз используют среднюю арифметическую взвешенную:
где xi - значения признака; fi - их частота.
Взвешенная средняя учитывает различное значение отдельных вариантов в пределах совокупности. Для интервальных рядов распределения (варианты признака представлены в виде интервалов) в каждом интервале определяется серединное значение, после чего взвешивание производится обычным порядком.
! Величина итогового показателя не должна изменяться при замене индивидуальных значений признака средней величиной.
Способность средних величин сохранять свойства статистических совокупностей называют определяющим свойством.
Средняя геометрическая применяется если при замене индивидуальных величин признака на среднюю надо сохранить неизменным произведение индивидуальных величин. Этот вид средней позволяет оценить степень изменения переменной с течением времени.
.
Средняя гармоническая - это величина, обратная средней арифметической. Она используется если по условиям задачи необходимо, чтобы неизменной оставалась при определении сумма величин, обратных индивидуальным значениям признака.
.
Средняя квадратическая применяется если при замене индивидуальных величин признака на среднюю величину надо сохранить неизменной сумму квадратов исходных величин. Основное применение при измерении вариации признака в совокупности.
.
4< 4.25 < 4.5 < 4.75 – это свойство мажорантности средних. Чем больше показатель степени у Хi , тем больше и величина соответствующей средней
Вопрос 16
Виды дисперсии
Виды дисперсии – это показатель изменения признака в совокупности.
Определим три вида дисперсии:
общую дисперсию ,
межгрупповую дисперсию ,
среднюю внутригрупповых дисперсий .
Общая дисперсия характеризует вариацию признака, которая зависит от всех условий в данной совокупности.
где - общая средняя для всей изучаемой совокупности.
Межгрупповая дисперсия отражает вариацию изучаемого признака, которая возникает под влиянием признака фактора, положенного в основу группировки.
где - средняя по отдельным группам;
- средняя общая;
- численность отдельных групп.
Средняя внутригрупповых дисперсий характеризует случайную вариацию в каждой отдельной группе. Это вариация результативного признака, которая возникает под влиянием всех остальных факторов, кроме группировочного.
где - дисперсия в каждой группе.
Большую практическую значимость имеет правило сложения дисперсий:
.
Коэффициент детерминации h2 находят по формуле: .
Корень квадратный из коэффициента детерминации называется эмпирическим корреляционным отношением.
20. Анализ данных с помощью блочных диаграмм. Базовые показатели.
Стандартная ошибка – стандартное отклонение деленное на квадратный корень объема выборки.
Ассиметричность характеризует отклонение от симметричности распределения и является функцией, зависящей от куба разностей между элементами выборки и средним значением.
Эксцесс – это мера относительной концентрации данных вокруг среднего значения по сравнению с хвостами распределения; зависит от разностей между элементами выборки и средним значением, возведенными в четвертую степень.
Основные характеристики позволяют описать свойства данных и перейти к более глубоким исследованиям. Довольно часто для анализа данных применяется подход, основанный на пятерке базовых показателей и построении блочной диаграммы.
Блочная диаграмма представляет собой удобное средство для изображения пяти базовых показателей:
21. Дисперсия альтернативного (качественного признака).
Альтернативные – это признаки, которыми обладают одни единицы совокупности и не обладают другие.
Наличие изучаемого признака обозначается 1, а его отсутствие 0.
Доля показателей, обладающих изучаемым признаком, обозначается – р, а доля значений, не обладающих признаком, обозначается q.
P + q = 1
Найдем их средние значения и дисперсию.
=
22. Основная задача выборочного обследования
Статистика не всегда имеет дело с данными сплошного наблюдения. Из всех видов несплошного наблюдения главным является выборочное наблюдение, т.к. только выборка позволяет распространить данные, полученные по части совокупности, на всю совокупность.
Под выборочным понимается метод статистического исследования, при котором обобщающие показатели изучаемой совокупности (генеральной совокупности) устанавливаются по некоторой её части (выборочной совокупности или просто выборке) на основе положений случайного отбора.
В проведении ряда исследований выборочный метод является единственно возможным, например, при контроле качества продукции (товара), если проверка производится с уничтожением или разложением на составные части обследуемых образцов.
Причины использования выборочного метода:
1) повышение точности данных
2) экономия материальных, трудовых, финансовых ресурсов и времени (аудиторские проверки крупных фирм; составление баланса денежных доходов и расходов населения)
3) без выборки не обойтись, когда наблюдение связано с порчей наблюдаемых объектов)
Далее будем использовать следующие понятия:
Генеральная совокупность – это подлежащая изучению статистическая совокупность, из которой производится отбор части единиц
Выборочная совокупность (выборка) – отобранная из генеральной совокупности некоторая часть единиц, подвергающаяся обследованию.
Суть выборочного метода:
получение характеристик изучаемой совокупности (генеральной) по обследованию некоторой ее части (выборке).
Выборочный метод использует два основных вида обобщающих показателей:
- относительную величину альтернативного (качественного) признака;
Она характеризует долю (удельный вес) единиц в статистической совокупности, которые отличаются от других единиц только наличием изучаемого признака (доля нестандартных изделий во всей партии товара)
- среднюю величину количественного признака.
Это обобщающая характеристика варьирующего признака, который имеет различные значения у отдельных единиц статистической совокупности (средняя цена акции; средняя выработка; средняя оплата труда)
Определим следующие величины для генеральной совокупности:
- доля единиц с изучаемым признаком (генеральная доля) Р;
- средняя величина варьирующего признака (генеральная средняя)
для выборки:
- доля изучаемого признака (выборочная доля или частота) w;
- средняя величина в выборке (выборочная средняя).
Тогда основная задача выборочного обследования состоит в том, чтобы на основе характеристик w и из выборки получить достоверные суждения о Р и в генеральной совокупности.
Их расхождения измеряются средней ошибкой выборки m.
23. Ошибка выборки
Ошибка выборки – это объективно возникающие расхождения между характеристиками выборки и генеральной совокупности
В математической статистике доказывается, что среднее значение ошибки выборки определяется по формуле:
где - генеральная дисперсия; n – объем выборки.
Однако обычно неизвестно, наоборот, его как правило надо определить.
Поэтому используют соотношение
, где - дисперсия в выборочной совокупности.
Если n – велико, то стремится к 1.
Тогда (1)
где s2- дисперсия в выборочной совокупности; n- объём выборки.
Формула (1) используется при повторном отборе.
При этом для показателя доли альтернативного признака w дисперсия в выборочной совокупности определяется по формуле:
, где w=m/n
m – доля единиц с изучаемым признаком; n – объем выборки.
Для бесповторного отбора: (2)
где N - численность генеральной совокупности.
Повторный отбор – каждая попавшая в выборку единица после фиксации значения изучаемого признака, должна быть возвращена в генеральную совокупность, где ей опять предоставляется равная возможность попасть в выборку. (Используется редко)
Возможные значения, в пределах которых может находиться доля единиц, обладающих изучаемым признаком, в генеральной совокупности определяется по формуле: . (3)
Для средних значений в генеральной совокупности установлены следующие границы: (4)
Формулы (3) и (4) гарантированы не с абсолютной достоверностью, а лишь с определённой степенью вероятности.
В математической статистике доказывается, что пределы значений характеристик генеральной совокупности (Р и ) отличаются от характеристик выборочной совокупности (w и ) на величину лишь с определенной вероятностью = 0,683. Т.е. в 317 случаях из 1000 значения могут выйти из этих пределов.
Эту вероятность можно увеличить, увеличив в t раз среднюю ошибку m.
Здесь t - коэффициент доверия.
При t =2 доверительная вероятность = 0,954
При t =3 доверительная вероятность = 0,997 (т.е. выход в 3-х случаях из 1000)
Величина коэффициента доверия t зависит о доверительной вероятности и определяется по специальным таблицам, исчисленным применительно к случаю нормально распределенной совокупности (таблицы интегральной функции Лапласа).
Тогда:
При изучении доли альтернативного признака показатели соотносятся следующим образом: , (5)
При изучении средней величины: . (6)
Ошибки репрезентативности выборочного наблюдения это разновидность случайных ошибок. Они появляются как результат неполноты наблюдения. Если провести несколько выборочных наблюдений по одной совокупности, то полученные расхождения между показателями выборочной и генеральной совокупностей (т.е. ошибки выборки) будут различны как по знаку, так и по величине. Вот почему с помощью теорем математической статистики определя