Charakteristiky variability 5 страница
Komentář: kumulativní četnosti
Sedm domácností, které představují 19,4 % domácností daného statistického souboru, má měsíční příjem v intervalu od 22 001 Kč do 24 500 Kč, osmnáct domácností, které představují 50,0 % domácností, má měsíční příjem v intervalu od 22 001 Kč do 27 000 Kč, 26 domácností, tj. 72,2 %, má měsíční příjem domácnosti v intervalu od 22 001 Kč do 29 500 Kč, 32 domácností, což je 88,9 % všech domácností, má měsíční příjem v intervalu od 22 001 Kč do 32 000 Kč, 35 domácností, tj. 97,2 % domácností daného statistického souboru, má měsíční příjem v intervalu od 22 001 Kč do 34 500 Kč a všech 36 domácností zkoumaného statistického souboru, tj. všech 100 % domácností daného statistického souboru, má měsíční příjem v intervalu od 22 001 Kč do 37 000 Kč, neboli žádná z uvažovaných domácností nemá měsíční příjem větší než 37 000 Kč.
Grafickým znázorněním intervalového rozdělení četností je histogram četností, viz obrázek 1.12.
Obrázek 1.12
Cvičení
1.U 60 studentů druhého ročníku Vysoké školy finanční a správní byly před zápisem do třetího ročníku zjištěny následující údaje tykající se počtu ztracených kreditů v druhém ročníku. Tyto údaje se nacházejí v tabulce 1.14.
Tabulka 1.14 | ||||||||||
Číslo studenta | Počet ztracených kreditů | Číslo studenta | Počet ztracených kreditů | Číslo studenta | Počet ztracených kreditů | Číslo studenta | Počet ztracených kreditů | |||
Sestavte tabulku rozdělení četností a kumulativních četností, v obou případech absolutních a relativních, počtu ztracených kreditů studenta.
2. U 36 domácností jsou k dispozici údaje týkající se průměrného věku vydělávajících členů domácnosti (po zaokrouhlení na celá čísla), viz tabulka 1.15.
Tabulka 1.15 | |||||||
Číslo domácnosti | Průměrný věk vydělávajících členů | Číslo domácnosti | Průměrný věk vydělávajících členů | Číslo domácnosti | Průměrný věk vydělávajících členů | ||
Sestavte tabulku intervalového rozdělení četností pro průměrný věk vydělávajících členů domácnosti.
Výsledky
1.
Počet ztracených | Četnost | Kumulativní četnost | ||
kreditů | absolutní | relativní | absolutní | relativní |
0,200 0,117 0,150 0,083 0,150 0,067 0,133 0,067 0,033 | 0,200 0,317 0,467 0,550 0,700 0,767 0,900 0,967 1,000 | |||
Celkem | 1,000 | X | X |
2.
R = 41
dělitelné k = 6 a větší než R = 41 je číslo 42, variační rozpětí zvětšíme na 42, abychom hodnoty mohli rozdělit do k = 6 stejně dlouhých intervalů, např. zvolíme intervaly
Číslo | Interval pro průměrný věk | Četnost | Kumulativní četnost | ||
intervalu | vydělávajících členů | absolutní | relativní | absolutní | relativní |
24 - 30 31 - 37 38 - 44 45 - 51 52 - 58 59 - 65 | 0,222 0,167 0,361 0,139 0,083 0,028 | 0,222 0,389 0,750 0,889 0,972 1,000 | |||
Celkem | 1,000 | X | X |
Kvantily
Kvantil je hodnota, která je určená tak, že hodnoty menší než daný kvantil nebo stejné jako tento kvantil tvoří procentuálně předem stanovenou část rozsahu statistického souboru (např. 5 %, 10 %, 25 % apod.) a hodnoty, které jsou větší než příslušný kvantil nebo stejné jako tento kvantil, tvoří zbývající procentuální část rozsahu statistického souboru (např. 95 %, 90 %, 75 % apod.). Označme p relativní četnost malých hodnot číselné proměnné x. 100p% kvantil proměnné x rozděluje statistický soubor hodnot této proměnné na dvě části tak, že odděluje 100p % malých hodnot proměnné x od 100(1 – p) % velkých hodnot proměnné x. 100p% kvantil proměnné x označujeme
Pro výpočet kvantilů je nutné nejprve všechny napozorované hodnoty sledované číselné proměnné uspořádat vzestupně podle velikosti od nejmenší hodnoty po největší. Označme m100p pořadové číslo hodnoty ve vzestupně uspořádané posloupnosti odpovídající hledanému kvantilu (tj. m100p je přirozené číslo) a n je počet statistických jednotek v proměnné, tj. rozsah statistického souboru. Při výpočtu kvantilu je třeba určit pořadové číslo prvku m100p, které určíme pomocí vztahu
(1.9) |
Vyjdou-li n · p a n · p + 1 jako desetinná čísla, je hledaným kvantilem m100p-tá hodnota v uspořádané posloupnosti hodnot sledované proměnné. Vyjdou-li n · p a n · p + 1 jako celá čísla (přirozená čísla), potom příslušný kvantil vypočteme jako aritmetický průměr dvou hodnot, které mají pořadí n · p a n · p + 1 (určené nerovností (1.9)) ve vzestupně uspořádané posloupnosti hodnot dané proměnné.
Z tabulky intervalového rozdělení četností je možné odhadnout přibližnou hodnotu 100p% kvantilu lineární interpolací podle vztahu
(1.10) |
kde: | xh je dolní hranice intervalu, ve kterém leží hledaný kvantil, xd je horní hranice intervalu, ve kterém leží hledaný kvantil, ih je kumulativní relativní četnost v procentech (po vynásobení stem) odpovídající xh, id je kumulativní relativní četnost v procentech (po vynásobení stem) odpovídající xd, |
přičemž s využitím sloupce kumulativních relativních četností nejprve zjistíme, ve kterém intervalu se hledaný kvantil nachází.
Nejdůležitější z kvantilů je 50% kvantil, který se nazývá medián a značíme jej
nebo v případě mediánu i . Medián, neboli prostřední hodnota, rozděluje statistický soubor na dvě stejně četné poloviny. Při lichém rozsahu statistického souboru n je medián vždy hodnota prostřední statistické jednotky souboru (po vzestupném uspořádání hodnot proměnné), při sudém rozsahu statistického souboru n leží medián mezi hodnotami dvou prostředních statistických jednotek (opět po vzestupném uspořádání hodnot sledované proměnné) a vypočte se jako aritmetický průměr těchto dvou hodnot.
Druhů kvantilů je velmi mnoho, kvantily menší než medián nazýváme dolní kvantily a kvantily větší než medián nazýváme horní kvantily.
Tercily jsou dva kvantily, které rozdělují neklesající řadu hodnot sledované proměnné na tři stejně četné části. Dolní tercil
je kvantil a odděluje jednu třetinu statistických jednotek s menší nebo stejnou hodnotou sledované proměnné jako dolní tercil od dvou třetin statistických jednotek s větší nebo stejnou hodnotou sledované proměnné jako dolní tercil. Horní tercil
je kvantil a odděluje dvě třetiny statistických jednotek, které mají hodnotu sledované proměnné menší nebo stejnou jako horní tercil, od jedné třetiny statistických jednotek, které mají hodnotu sledované proměnné větší nebo stejnou jako horní tercil.
Kvartily jsou tři kvantily, které rozdělují neklesající řadu hodnot sledované proměnné na čtyři stejně četné části. Dolní kvartil
je 25% kvantil a odděluje jednu čtvrtinu statistických jednotek s menší nebo stejnou hodnotou sledované proměnné jako dolní kvartil od tří čtvrtin statistických jednotek s větší nebo stejnou hodnotou sledované proměnné jako dolní kvartil. Prostřední kvartil je medián. Horní kvartil
je 75% kvantil a odděluje tři čtvrtiny statistických jednotek, které mají hodnotu sledované proměnné menší nebo stejnou jako horní kvartil, od jedné čtvrtiny statistických jednotek, které mají hodnotu sledované proměnné větší nebo stejnou jako horní kvartil.
Kvintily jsou čtyři kvantily, které rozdělují neklesající řadu hodnot sledované proměnné na pět stejně četných částí. Jedná se o dolní kvintily
a horní kvintily
Stejným způsobem rozdělují neklesající řadu hodnot sledované proměnné sextily na šest stejně četných částí, septily na sedm stejně četných částí, oktávily na osm stejně četných částí, nonily na devět stejně četných částí, decily na deset stejně četných částí atd. až percentily, rovněž se používá název centily nebo procentily, na sto stejně četných částí. Podobně např. půlpercentily rozdělují neklesající řadu hodnot sledované proměnné na 200 stejně četných částí atd.
Oblíbeným znázorněním extrémních hodnot a kvartilů je krabičkový graf, viz obrázek 1.13, kde extrémní hodnoty: xmin je minimální hodnota sledované proměnné a xmax je maximální hodnota sledované proměnné v souboru.
Obrázek 1.13
Příklad 1.5
Tabulka 1.16 obsahuje údaje o věku člena domácnosti s největším příjmem v dokončených letech 32 domácností.
Tabulka 1.16 | ||||||
Číslo domácnosti | Věk člena s nejvyšším příjmem | Číslo domácnosti | Věk člena s nejvyšším příjmem | |||
Určete nejmenší a největší hodnotu, variační rozpětí a kvartily věku člena domácnosti s nejvyšším příjmem. Výsledky interpretujte a znázorněte graficky.
Řešení:
Všechny výše uvedené hodnoty věku člena domácnosti s nejvyšším příjmem nejprve uspořádáme podle velikosti od nejmenší hodnoty po největší, viz tabulka 1.17.
Tabulka 1.17 | ||||||||||
Pořadí | 1. | 2. | 3. | 4. | 5. | 6. | 7. | 8. | ||
Hodnota | ||||||||||
Pořadí | 9. | 10. | 11. | 12. | 13. | 14. | 15. | 16. |
Hodnota |
Pořadí | 17. | 18. | 19. | 20. | 21. | 22. | 23. | 24. |
Hodnota |
Pořadí | 25. | 26. | 27. | 28. | 29. | 30. | 31. | 32. |
Hodnota |
Z tabulky 1.17 je zřejmé, že nejmenší hodnota věku člena domácnosti s nejvyšším příjmem je
xmin = 25 let |
a největší hodnota
xmax = 68 let, |
a tedy variační rozpětí
R = xmax – xmin = 68 – 25 = 43 let. |
Počet sledovaných statistických jednotek (rozsah výběru) n = 32 domácností. Kvartily jsou tři, a to dolní kvartil, tj. 25% kvantil, medián (prostřední kvartil), tj. 50% kvantil, a horní kvartil, tj. 75% kvantil.
Nejprve vypočteme dolní kvartil, v takovém případě je 100 p = 25, a tedy p = 0,25. Dosadíme do vztahu (1.9)
Odtud získáváme
z tabulky 1.17 je vidět, že 8. nejmenší hodnota je 33 let a 9. nejmenší hodnota je 35 let. Protože n · p = 8 a n · p + 1 = 9 jsou celá čísla (přirozená) a nikoliv čísla desetinná, vypočteme dolní kvartil jako aritmetický průměr 8. nejmenší hodnoty a 9. nejmenší hodnoty, tj. jako aritmetický průměr z hodnot 33 a 35
V případě mediánu je 100 p = 50, a tedy p = 0,5. Opět dosadíme do vztahu (1.9)
a získáváme
Z tabulky 1.17 vyplývá, že 16. nejmenší hodnota je 41 let a 17. nejmenší hodnota je rovněž 41 let. Protože opět n · p = 16 a n · p + 1 = 17 jsou celá čísla (přirozená) a nikoliv čísla desetinná, vypočteme medián jako aritmetický průměr 16. a 17. nejmenší hodnoty
Zbývá vypočítat horní kvartil, kdy 100 p = 75, a tedy p = 0,75. Dosazením do vztahu (1.9) získáváme
Z tabulky 1.17 je zřejmé, že 24. nejmenší hodnota je 46 let a 25. nejmenší hodnota je 47 let. Horní kvartil z již uvedených důvodů vypočteme opět jako aritmetický průměr těchto dvou hodnot
Lze konstatovat, že v případě 25 % domácností uvažovaného statistického souboru je věk člena domácnosti s nejvyšším příjmem nejvýše 34 let a v případě 75 % domácností uvažovaného statistického souboru je věk člena domácnosti s nejvyšším příjmem nejméně 34 let. Obdobně, polovina domácností z uvažovaného statistického souboru domácností má věk člena s nejvyšším příjmem nejvýše 41 let a polovina nejméně 41 let. U třech čtvrtin domácností je věk člena domácnosti s nejvyšším příjmem maximálně 46 let (protože se jedná o věk v dokončených letech, můžeme konstatovat 46 místo 46,5 let) a u jedné čtvrtiny domácností je věk člena domácnosti s nejvyšším příjmem minimálně 47 let (číslo 46,5 je mezi čísly 46 a 47).
Pro zobrazení kvartilů se nejčastěji používá krabičkový graf, viz obrázek 1.14.
Obrázek 1.14
25 34 41 46,5 68
Další možností znázornění dat je číslicový dendrogram, který na ukázku vytvoříme z neuspořádaných dat, tedy z tabulky 1.16. Data v tomto příkladu mají nejvyšší řád desitky, stonek bude tvořen tedy desítkami. Druhý nejvyšší řád jsou jednotky, listy budou tedy tvořeny jednotkami. Hodnoty věku člena domácnosti s nejvyšším příjmem se pohybují od 25 let do 68 let. Stonek bude tedy tvořen číslicemi od 2 (25) do 6 (68). Aby graf nebyl příliš široký, dohodneme se tak, že všechny číslice (s výjimkou krajních, pokud nejsou potřeba) budou ve stonku obsaženy dvakrát, a to tak, že k hoření číslici budeme přiřazovat listy v rozmezí 0 až 4 a k dolení číslici listy v rozmezí 5 až 9. Nadepíšeme si číslice stonku a číslice listů k nim postupně dopisujeme z tabulky 1.16. Zde končí první krok. V druhém kroku číslice stonku v každém řádku uspořádáme podle velikosti vzestupně od nejmenší po největší. Vzniká následující graf, viz obrázek 1.15.
Obrázek 1.15
První krok | Druhý krok | |||||
stonek | listy | stonek | listy | |||
(*10) | (*1) | (*10) | (*1) | |||