Группировка статистических данных
Статистические графики
Современную науку невозможно представить без применения графических методов. Особое место они занимают в областях, имеющих дело с большими комплексами цифр. Графические методы помогают описанию, а затем и анализу данных. С помощью графиков легко выявить и наглядно представить закономерности, которые часто трудно бывает уловить в сложных статистических таблицах. При этом используются различные графики, многообразие видов которых обусловлено различиями в их статистическом содержании.
График в статистике – это условное изображение числовых величин и их соотношений в виде различных геометрических образов.
Статистические графики можно классифицировать по разным признакам: назначению (содержанию), способу построения и характеру графического образа.
По содержанию или назначению можно выделить графики: сравнения в пространстве, различных относительных величин, вариационных рядов, размещения на территории и т.д. По способу построения графики можно разделить на диаграммы, картодиаграммы и картограммы.
По характеру графического образа различают графики: точечные, линейные, плоскостные (столбиковые, почасовые, квадратные, круговые, секторные, фигурные) и объемные.
Рассмотрим правила построения столбиковой диаграммы, которая чаще всего используется для сравнения одноименных показателей, характеризующих различные объекты или территории. Значения сравниваемых показателей изображаются при этом в виде прямоугольных столбиков, имеющих одинаковую ширину и расположенных на общей горизонтальной или вертикальной базовой линии. Высота (или длина) каждого столбика в определенном масштабе соответствует величине изображаемого показателя. Столбики могут располагаться либо вплотную (гистограмма), либо на одинаковом расстоянии друг от друга. Примерами такой диаграммы служат рис.1 и рис.2.
Разновидностью столбиковой диаграммы является полосовая (ленточная) диаграмма, для которой характерны горизонтальная ориентация столбиков (полос) и вертикальное расположение базовой линии. Полосовая диаграмма особенно удобна в тех случаях, когда отдельные объекты сравнения могут характеризоваться противо положными по знаку показателями (рис.3).
Рис.1. Дебит нефти крупнейших нефтяных компаний России, т/сут
Рис.2. Эффективность разведочного бурения нефтяной компании ЮКОС
При построении столбиковых структурных диаграмм по абсолютным данным общая высота столбиков соответствует размерам всей совокупности, а высота отдельных частей этих столбиков – долям совокупности. Ширина же всех столбиков должна быть одинаковой (рис.4).
Основной формой структурных диаграмм являются секторные. В данном случае, «работающим» геометрическим параметром в секторной диаграмме удельных весов служит величина угла между радиусами: 1% принимается на диаграмме равным 3,6 градуса, а сумма всех углов, составляющая 360 градусов, приравнивается к 100% (рис.5 и рис.6).
Рис.5. Структура затрат на добычу нефти в естественном режиме ЗАО «НобельОйл»
Рис.6. Структура затрат на добычу термической нефти ЗАО «НобельОйл»
Для изображения экономических и других явлений, протекающих во времени, принимают динамические диаграммы. В отличие от диаграмм, отображающих сравнительные величины отдельных объектов или их структуры, в динамических диаграммах объектом отображения служат процессы. Геометрически адекватной формой их отражения являются линейные координатные диаграммы. Геометрическими знаками – символами на таких диаграммах служат точки и последовательно соединяющие их прямые линии, складывающиеся в ломаные «кривые», конфигурация которых дает представление об изображаемом процессе. Ось абсцисс является в такой диаграмме осью времени с равномерно размещенными отметками, а ось ординат – осью значений, которые принимает с течением времени изучаемый показатель. Примером может служить рис.7.
Для изображения вариационных рядов применяются линейные и плоскостные диаграммы, построенные в прямоугольной системе координат. При дискретной вариации признака графиком вариационного ряда служит полигон распределения (рис.8).
При непрерывной вариации используют, как известно, интервальные вариационные ряды, графическим изображением которых служит гистограмма (рис.9).
Задача 1.1
Построить график по следующим данным.
Таблица 1.1.
Динамика показателей работы скважин Приобского месторождения после внедрения новой технологии (куст 580, скважина 10166)
Число и месяц обработки | Дебит, м3/ сут | Обводнённость, % |
25 марта 26 - “ - 27 - “ - 28 - “ - 29 - “ - 30 - “ - | 50,4 41,0 35,8 31,2 37,7 25,5 | 17,8 3,5 15,3 34,8 37,4 11,4 |
Задача 1.2
Изобразите графически данные, приведенные в таблице, и сделайте соответствующие выводы.
Таблица 1.2
Цены на СПГ (сжиженный природный газ) в США по сравнению с природным газом из Канады
Вид газа | Цена, долл./тыс.м3 | |||||
1996г. | 1997г. | 1998г. | 1999г. | 2000г. | 2001г. | |
СПГ | 86,2 | 92,7 | 80,3 | 83,2 | 88,7 | 142,9 |
Природный газ | 99,4 | 91,1 | 74,9 | 81,7 | 153,2 | 130,0 |
Задача 1.3
Постройте структурные диаграммы, вычислив процентное соотношение показателей, указанных в таблице.
Таблица 1.3
Бурение в странах мира
Страна | 2000г. | 2002г. | ||
число скважин | % к итогу | число скважин | % к итогу | |
Российская Федерация Восточная Европа Западная Европа Северная Америка Южная Америка Дальний Восток Ближний Восток Африка Другие страны | ||||
Итого |
Задача 1.4
Постройте структурную диаграмму по данным, представленным в таблице.
Таблица 1.4
Закупка российской нефти крупнейшими американскими фирмами
Организация | Объем закупок, млн. барр. | Доля в закупках, % |
ExxonMobil Corp. | 11,8 | 38,1 |
Premcor Refgr Group Inc. | 5,1 | 16,4 |
Citgo Corp. | 3,3 | 10,7 |
Motiva Enterprises Lic | 3,1 | 10,1 |
Atofina Petrochemicals Inc. | 2,6 | 8,3 |
Murphy Oil Usa Inc. | 2,1 | 6,7 |
Valero mktd & supply Co | 1,8 | 5,7 |
Trigeant Ltd | 0,5 | 1,6 |
Flint Hills Resources Lp | 0,5 | 1,5 |
Koch supply & trdg Co | 0,3 | 0,9 |
Задача 1.5
Построить гистограмму распределения предприятий по среднегодовой стоимости нефтяного оборудования.
Таблица 1.5
Среднегодовая стоимость оборудования (млн. ден.ед.) | Число фирм |
12 – 14 14 – 16 16 – 18 18 – 20 |
Задача 1.6
Необходимо построить столбиковую структурную диаграмму.
Таблица 1.6
Доля иностранного участия в разработке нефтяных запасов
ряда стран, %
Страна | 100% | |
Доля капитала страны | Доля иностранного капитала | |
Великобритания Норвегия Канада Венесуэла Россия США Саудовская Аравия Мексика | - |
Задача 1.7
Построить ленточную диаграмму по следующим данным.
Таблица 1.7
Прирост добычи газа некоторых российских производителей, млн. м3
Предприятие | 2002г. | 2003г. | % прироста |
Нарьянмарнефтегазпром Геойлбент Лимитед Усть-Кут – Нефтегаз Адыгеянефтегаз Белые Ночи Петросах Алроса – Газ Югра – нефть | 35,8 16,1 40,2 23,9 65,9 136,2 | 74,9 34,6 19,7 67,7 154,3 |
Группировка статистических данных
Изучаемые статистикой массовые явления и процессы протекают в качественно однородных совокупностях. Группировка – это разбиение совокупности на группы по какому-либо признаку. С точки зрения отдельных единиц совокупности, группировка – это объединение отдельных единиц совокупности в группы, однородные по каким-либо признакам. Группировочный признак – это признак, по которому происходит объединение отдельных единиц совокупности в однородные группы.
Интервал очерчивает количественные границы групп. Как правило, он представляет собой промежуток между максимальными и минимальными значениями признака в группе.
Интервалы бывают:
- равные, когда разность между максимальным и минимальным значениями в каждом интервале одинакова;
- неравные, когда, например, ширина интервала постепенно увеличивается, а верхний интервал часто не закрывается вовсе;
- открытые, когда имеются только либо верхняя, либо нижняя границы;
- закрытые, когда имеются и нижняя и верхняя границы.
Среди простых группировок особо выделяют ряды распределения. Ряд распределения – это группировка, в которой для характеристики групп применяется один показатель – численность группы.
Ряды, построенные по атрибутивному признаку, называют атрибутивными. Ряды распределения, построенные по количественному признаку, называют вариационными. Числовые значения признака, встречающиеся в данной совокупности, называют вариантами значений (x). Число повторений отдельных вариант называют частотой повторений (f). В тех случаях, когда число вариантов дискретного (прерывного) признака достаточно велико, а также при анализе вариации непрерывного признака, когда значения признака у отдельных единиц могут вообще не повторяться, строятся интервальные ряды распределения.
При построении интервальных рядов распределения необходимо, прежде всего, установить число групп (интервалов), на которое следует разбить все единицы изучаемой совокупности.
Определение величины интервала h для построения вариационного ряда с равными интервалами производится следующим образом:
1) вычисляется разность между максимальным и минимальным значениями признака первичного ряда (так называемый размах вариации, R):
R = Xmax – Xmin; (2.1)
2) размах вариации делится на число групп k, т. е. h = R / k.
Число групп можно приближенно определить по формуле Стэрджесса:
k = 1+3,322 lg n, (2.2)
где n – число изучаемых единиц совокупности.
Указанное выражение часто оказывается дробной величиной, которую округляют до целого числа.
Величина интервала должна определяться в соответствии с точностью данных наблюдения: если исходные данные представлены целыми числами, то рассчитанная величина округляется до ближайшего целого числа; если данные представлены с точностью до 0,1, то величина интервала округляется до целых с десятыми и т. д. (здесь округление производится в большую сторону).
Знание величины интервала позволяет определить границы всех интервалов ряда распределения. Нижнюю границу первого интервала целесообразно принимать равной минимальному значению признака. Рассмотрим построение ряда распределения по данным о среднегодовой стоимости основных промышленно-производственных фондов 20 фирм нефтяной отрасли (млн. долл.): 3,7; 4,3; 6,7; 5,6; 5,1; 8,2; 4,6; 5,7; 6,4; 5,9; 5,2; 6,2; 6,3; 7,2; 7,9; 5,8; 4,9; 7,6; 7,0;6,9.
Определяем количество групп интервального вариационного ряда: k ≈ 1 + 3,322 lg 20 = 1 + 3,322 · 1,301 = 5,32.
Округляя, получим число групп, равное 5.
Определим величину интервала:
h = R / k = (X max – X min) / k = (8,2 – 3,7) / 5 = 0,9.
Величина интервала составляет 0,9 млн. долларов.
В результате группировки получим ряд распределения предприятий по среднегодовой стоимости основных промышленно-производственных фондов, представленный в виде интервалов с соответствующей численностью. Полученные данные представлены в табл. 2.1.
Таблица 2.1
Среднегодовая стоимость основных промышленно- производственных фондов (млн. долларов) | Число предприятий |
3,7 – 4,6 4,6 –5,5 5,5 – 6,4 6,4 – 7,3 7,3 – 8,2 | |
Итого |
Задача 2.1
Имеются следующие технологические показатели СНДГУ – 2 по скважинам Самотлорского месторождения.
Таблица 2.2
Номер скважины | Обводненность, % | Номер скважины | Обводненность,% |
33,4 53,4 62,5 80,7 87,2 64,3 93,0 70,6 32,9 78,3 10,9 38,7 45,1 | 3308б 4111б 7256б 80926г 8188б | 49,5 13,2 56,1 54,4 31,1 64,1 44,5 36,1 33,7 8,0 40,6 32,9 44,5 9,6 |
Требуется произвести группировку скважин по проценту обводненности, образуя пять групп с равными интервалами. По каждой группе подсчитайте число скважин, входящих в данный интервал. Результаты оформить в виде таблицы.
Задача 2.2
Имеются следующие данные по 25 предприятиям нефтяной отрасли промышленности по добыче нефти и газа за первое полугодие 2003 года:
Таблица 2.3
Интегрированные и многопрофильные нефтегазовые компании | Добыча, тыс.т |
Тэбукнефть Байтэк – Силур Битран Турсунт Волглдеминойл Варандейнефтегаз Бовэл Полярное Сияние Компания Нефтегаз Геойлбент Лимитед Белые Ночи Несугнефть Башсибнефть Обьнефтегеология Славнефть – Нижневартовск Ульяновскнефть Соболь Нафта – Ульяновск Югнефтегаз Роснефть – Ставропольнефть Роснефть – Краснодарнефтегаз Роснефть – Сахалинморнефтегаз НК ЮКОС Сибнефтьполен Сибнефть – Югра | 658,0 338,2 280,1 153,2 245,9 171,2 192,7 681,0 458,7 452,0 443,4 461,2 426,7 242,5 255,3 169,2 247,9 147,4 152,2 580,9 769,0 940,8 987,4 758,2 299,3 |
Необходимо произвести группировку предприятий по добыче нефти, образовав шесть групп с равными интервалами и численностью предприятий, соответствующей каждому интервалу. Результаты оформить в виде таблицы.
Задача 2.3
Имеются следующие данные по бурению скважин в странах Ближнего Востока и в странах Африки за 2002 год:
Таблица 2.4
Страна | Число скважин |
Катар Сирия Турция Кувейт Алжир Йемен Конго Экваториальная Гвинея Ливия Габон Нигерия Судан Тунис Иран ОАЭ – Абу-Даби Нейтральная Зона Египет ОАЭ – Дубай |
Необходимо произвести группировку стран по количеству пробуренных скважин, определив число групп по формуле Стэрджэсса. Подсчитайте число стран, соответствующее каждому интервалу. Результаты оформить в виде таблицы.
Задача 2.4
Имеются данные по странам, экспортирующим нефть в США.
Необходимо произвести группировку стран по объему экспорта нефти в США, образовав четыре группы с равными интервалами, и подсчитать число стран, входящих в каждый интервал. Результаты оформить в виде таблицы.
Таблица 2.5
Страна – экспортер | Объем поставок (млн. баррелей) |
Австралия Алжир Аргентина Бразилия Вьетнам Габон Гватемала Индонезия Йемен Камерун Китай Конго Россия Тринидад и Тобаго Эквадор Экваториальная Гвинея |
Задача 2.5
Имеются следующие показатели эксплуатации добывающих скважин:
Таблица 2.6
Номер скважины | Дебит нефти, т / сут. | Номер скважины | Дебит нефти, т / сут. |
12,6 13,7 44,2 31,3 25,7 17,0 15,6 31,4 10,6 9,8 65,2 | 18,3 36,7 7,6 26,3 9,6 19,2 18,1 5,2 26,2 22,5 47,1 |
Требуется произвести группировку скважин по дебиту нефти, образуя пять групп с равными интервалами. По каждой группе подсчитать число скважин. Результаты оформить в виде таблицы.
Задача 2.6
Имеются данные по объему инвестиций, вкладываемых в месторождения Коми, Урало-Поволжья, Западной Сибири.
Таблица 2.7
Месторождение | Капитальные вложения в обустройство, млн. долл. |
Приобское Восточно-Прибрежное Ен-Яховское Соленинское Белокаменное Красноленинское Талинское Ем-Еговское Каменное Мамонтовское Северо-Кальчинское Кальчинское Сомотлорское Верх-Тарское Самбурское Восточно-Харьягинское Лебяжье Черногорское Юрупченское Перевальное Южно-Комсомольское Троянинское | 940,0 540,8 100,0 296,0 123,6 759,4 123,6 173,6 462,2 356,9 122,2 432,6 461,9 834,2 115,6 185,6 926,5 412,3 298,7 568,2 402,8 296,3 |
Требуется произвести группировку месторождений с равными интервалами по объему инвестиций, вкладываемых в их обустройство. Подсчитайте число месторождений, входящих в интервалы. Результаты оформите в виде таблицы.