Príklad: Na veľkej univerzite v USA v r. 1969 zisťovali ročné príjmy profesorov (v 1000$) podľa pohlavia. Podnetom bolo tvrdenie feministickej organizácie, že ženy-profesorky majú v priemere o 7000$ nižší ročný príjem. Zistené hodnoty náhodne vybraných profesorov boli:
skupina | platy |
ženy (X) | 9, 12, 8, 10, 16 |
muži (Y) | 12, 11, 19, 16, 22, 20, 14, 17, 14, 15 |
Máme teda rozhodnúť o správnosti (pravdivosti) hypotézy H0:μ1=μ2. Stručne sa hovorí o testovaní hypotézy. Mohli by sme ju zapísať aj v tvare H0:Δ=μ1−μ2=0.
Jeden z možných prístupov k tejto otázke je, že zostrojíme IS pre Δ; to je totiž množina najpravdepodobnejších hodnôt tohto parametra. Ak naša hypotetická hodnota bude patriť do IS, bude to svedčiť v prospech hypotézy. Naopak, ak ju IS nebude obsahovať, bude to svedčiť v neprospech hypotézy.
Pre α=5% dostávame:
Δ∈(¯X−¯Y)±tn+m−2(α/2)sp√1n+1m=(11−16)±2.16√15213√15+110≐−5.00±4.05=(−9.05;−0.95).
Je teda Δ∈(−9.05;−0.95) so spoľahlivosťou 95%. Preto sa nám
tvrdenie Δ=0 zdá neprijateľné, lebo hypotetická hodnota
0 nepatrí do IS.
Záver: hypotézu zamietame. Tvrdenie, že muži a ženy majú rovnaké platy je v rozpore
s dátami. Oproti tomu tvrdenie Δ=−7 je prijateľné, lebo
−7∈IS. Túto hypotézu nezamietame. To však
nijako nevyplýva z predchádzajúceho, hypotézy Δ=0 a
Δ=−7 boli na sebe nezávislé.
Vo všeobecnosti štatistickou hypotézou nazývame každé tvrdenie o (neznámych) populačných parametroch. Okrem základnej nulovej hypotézy, ktorú obvykle chceme vyvrátiť, musíme formulovať aj alternatívnu hypotézu, ktorá hovorí, aký spôsob narušenia nulovej hypotézy je pre nás zaujímavý. Nulová hypotéza je väčšinou bodová, t.j. tvrdí, že neznámy parameter je rovný jednému konkrétnemu číslu. Alternatívna hypotéza je väčšinou intervalová a určuje, akým spôsobom sa bude testovať nulová hypotéza. Napr. v predchádzajúcom príklade sme uvažovali alternatívne hypotézy H1:Δ≠0resp.H1:Δ≠−7. Preto sme použili k testovaniu dvojstranný IS. Vzhľadom k motivácii prieskumu by sme však mali uvažovať alternatívnu hypotézu H1:Δ<0. K takému testu musíme použiť jednostranný IS: Δ∈(−∞;¯X−¯Y+tn+m−2(α)sp√1n+1m)=(−∞;11−16+1.77√15213√15+110)≐(−∞;−1.68). Tento interval tiež neobsahuje 0, takže nulovú hypotézu zamietame.
Test hypotézy pomocou intervalu spoľahlivosti robíme teda tak, že sa na IS pozeráme ako na množinu prijateľných hypotéz (pri danej hladine spoľahlivosti). Druh IS je pritom určený alternatívnou hypotézou, ktorá hovorí o predpokladanom spôsobe narušenia nulovej hypotézy. Z tradičných dôvodov sa hovorí o teste hypotézy na hladine α, ak použijeme IS na hladine 1−α. Ak príslušný IS neobsahuje hypotetickú hodnotu (z nulovej hypotézy), potom H0 zamietame. V opačnom prípade ju nezamietame. Nepoužívame termín prijímame hypotézu, keďže dáta nám nikdy nemôžu dať konečný dôkaz o jej platnosti - vždy sa môžu (neskôr) vyskytnúť dáta hypotézu vyvracajúce.
V našom príklade hypotetická hodnota bola mimo IS na hladine 95%; v takom prípade sa μ1 a μ2 nazývajú štatisticky rozlíšiteľné na hladine 5%, resp. hovoríme, že priemery sú štatisticky významne odlišné na hladine 5%.
Príklad: Keby sme uvažovali obojstranný IS na hladine 99%, potom Δ∈(−10.6;+0.6), a teda 0∈IS. Na hladine 99% (pri obojstrannej alternatíve) teda priemery nie sú štatisticky významne odlišné. Ich rozdiel potom považujeme iba za náhodnú fluktuáciu spôsobenú náhodnosťou výberu jedincov.Vidíme teda, že výber hladiny testu podstatným spôsobom ovplyvňuje interpretáciu výsledkov experimentu. Preto jeho voľbe musíme venovať primeranú pozornosť.
Štatistická významnosť však nemusí znamenať aj praktickú dôležitosť: keby bol IS pre rozdiel v platoch −0.005±0.004=(−0.009;−0.001), bol by rozdiel tiež štatisticky významný, ale z praktického hľadiska by bol bezvýznamný: maximálny rozdiel by bol 9$ ročne.
Príklad: V závode na výrobu TV obrazoviek vedia, že ich stredná životnosť je
μ=12000 hod a smerodajná odchýlka
σ=3000 hod. Vývojové oddelenie navrhuje
novú technológiu, ktorá by mala zvýšiť životnosť. Po skúšobnom zavedení technológie
na jednej výrobnej linke sa otestovala vzorka 100 obrazoviek, pričom dosiahnutý priemer bol
¯X=12650 hod. Je nová technológia
naozaj lepšia?
Máme teda H0:μ=12000 proti alternatíve
H1:μ>12000. Smerodajnú odchýlku považujeme
za rovnakú v oboch prípadoch. Ako mieru zhody hypotézy s pozorovanými hodnotami môžeme
vypočítať pravdepodobnosť, že ¯X dosiahne hodnotu
12 650 alebo väčšiu za predpokladu platnosti hypotézy H0:
p=P(¯X≥12650)=P(¯X−μ0σ√n≥12650−120003000√100)=P(Z≥2.17)≐0.015.
Ak teda v skutočnosti nová technológia nie je lepšia, pravdepodobnosť, že budeme pozorovať
taký veľký priemer bude len 1,5%. Číslo 1,5% budeme volať p-hodnotou pre
H0. P-hodnota určuje mieru zhody medzi nulovou hypotézou
a dátami.
Pri tomto prístupe musíme poznať rozdelenie bodového odhadu testovaného parametra. V prípade, že je k dispozícii viac odhadov, volíme odhad s najväčšou eficienciou.
Definícia 10.2.1: P-hodnotou testovanej hypotézy H0 nazývame pravdepodobnosť, že výberová hodnota odhadu testovaného parametra bude aspoň taká veľká ako pozorovaná (t.j. taká istá alebo vzdialenejšia od nulovej hypotézy v smere alternatívnej hypotézy), ak H0 v skutočnosti platí. |
Klasický postup testovania hypotézy zahŕňa tieto kroky (v zátvorkách sú údaje z príkladu s obrazovkami):
Ak sme hypotézu zamietli, sú možné 2 prípady:
Všetky tri uvedené spôsoby testovania (t.j. klasický test, test pomocou p–hodnoty a test pomocou intervalu spoľahlivosti) sú pri rovnakej hladine testu ekvivalentné. Dnes sa najčastejšie používa prístup pomocou p–hodnoty, lebo sa najjednoduchšie programuje a nevyžaduje do softwaru vstup hladiny testu - užívateľ programu si záver urobí sám.
Môžeme ale urobiť dva druhy chýb:
![]() |
O pravdepodobnosti chyby 2. druhu β väčšinou nič nevieme. Z obrázka je jasné, že α→0 spôsobí β→1. Preto je nutné spraviť kompromis. Takouto kompromisnou hodnotou je obvykle α=5%. |
Príklad: Keby bolo μ1=12400, potom by β>1/2 (viď ďalej).
V princípe môžeme na pravdepodobnosti chýb testovania pozerať nasledujúcim spôsobom: ak nulová hypotéza tvrdí „podozrivý je nevinný“, potom α=P(odsúdenie nevinného)aβ=P(neodsúdenie páchateľa). Preto kontrolujeme radšej α ako β. Zväčšením rozsahu výberu (viac dôkazov) môžeme zmenšiť α aj β. Ľubovoľnosť voľby α však zostáva filozofickým problémom.
Príklad: Nech v skutočnosti platí H1 s hodnotou
μ1=12400 hod. Aká je pravdepodobnosť chyby 2. druhu?
β=P(¯X<12493.5)=P(¯X−μ1σ√n<12493.5−124003000√100)=P(Z<0.31)≐0.62.
Pri tejto veľkosti vzorky je teda odhalenie takéhoto zlepšenia výrobného procesu málo
pravdepodobné.
Je však nerealistické rátať len s jednou alternatívnou hodnotou, máme skôr podozrenie na isté
rozpätie. Skúsime preto ešte μ1=12800 hod
a μ1=13200 hod.
Pre μ1=12800 je β=P(¯X<12493.5)=P(Z<−1.02)≐0.15,
Pre μ1=13200 je β=P(¯X<12493.5)=P(Z<−2.36)≐0.01.
Vidíme, že takéto zlepšenia procesu už vieme odhaliť s rozumnou pravdepodobnosťou.
Ale naša alternatíva bola vlastne H1:μ>12000. Bolo by
teda dobré vypočítať β=β(μ) pre každú hodnotu
μ>12000. Dostaneme tak funkciu - s rastúcim
μ bude β klesať k 0
a 1−β rásť k 1.
Funkciu f(μ)=1−β(μ) nazývame silofunkcia testu. Zobrazuje pravdepodobnosť správneho zamietnutia H0 v závislosti na hodnote testovaného parametra. Zrejme platí f(μ0)=1−β(μ0)=α.
![]() |
Obrázok znázorňuje silofunkciu testu
z nášho príkladu. V princípe chceme konštruovať také testy, aby silofunkcia rástla čo najrýchlejšie. Silofunkcia nám pomáha uvedomiť si, aký rozdiel medzi nulovou a alternatívnou hypotézou (tzv. veľkosť efektu) vieme pri danom rozsahu výberu reálne, t.j. s rozumnou pravdepodobnosťou detekovať. |
Príklad: Opäť uvažujeme príklad s výrobou obrazoviek. Stále máme H0:μ=12000, ale tentoraz v situácii, keď niet dôvodu sa domnievať, že by nová technológia nemohla byť aj horšia ako stará. Preto musíme vziať H1:μ≠12000. V tom prípade budú proti hypotéze H0 svedčiť veľmi veľké aj veľmi malé hodnoty. Za mieru vzdialenosti ¯X od hypotézy vezmeme výraz |¯X−μ0|. Máme teda: P(|¯X−μ0|≥|12650−12000|)=P(|¯X−μ0|σ√n≥|12650−12000|3000√100)≐P(|Z|>2.17)=2P(Z>2.17)≐0.03. To je p–hodnota obojstranného testu.
P–hodnota obojstranného testu vo všeobecnom prípade teda používa ako mieru vzdialenosti
od nulovej hypotézy absolútnu hodnotu rozdielu. V tomto zmysle treba chápať aj
Definíciu 10.2.1.
Pri klasickom postupe pri obojstrannej alternatíve musíme určiť dve kritické hodnoty,
dolnú a hornú tak, že
P(¯Xd<¯X<¯Xh)=1−α,
kde α je hladina testu.
Kritický obor potom je (−∞;¯Xd⟩∪⟨¯Xh;+∞).
Príklad: Kritické hodnoty N(0;1) pre α=5% sú ±zα/2=±1.96. Obe hranice teda dostaneme riešením rovníc ¯X−μ0σ√n=±zα/2. Preto ¯Xd=12000−1.963000√100≐11412a¯Xh=12000+1.963000√100≐12588. H0 teda zamietame pre ¯X≤11412 alebo ¯X≥12588.
Už vieme, že ekvivalentný postup s pomocou intervalu spoľahlivosti je zamietnuť H0, ak dvojstranný IS neobsahuje μ0. V prípade jednostranného testu pomocou IS volíme jednostranný IS podľa toho, na ktorej strane od H0 leží alternatíva. Ak je alternatíva pravostranná, použijeme horný IS, v prípade ľavostrannej alternatívy použijeme dolný IS.
Príklad: Pri pôvodnej alternatíve H1:μ>12000 musíme použiť horný IS. Pri α=5% je to interval (¯X−zασ√n;+∞)=(12650−1.6453000√100;+∞)=(12156.5;+∞). Tento interval neobsahuje hodnotu 12000, preto H0 zamietame.
Táto podkapitola obsahuje systematické zhrnutie niektorých najdôležitejších štatistických testov. Niektoré už boli uvedené v predchádzajúcom texte, ostatné z uvedeného ľahko vyplýva. Testy neuvedené v tomto prehľade sa odvodia analogickým spôsobom z intervalov spoľahlivosti uvedených v 9. kapitole.
Ak je jasné, že rozdelenie pravdepodobnosti v skúmanej populácii je výrazne nenormálne, napr. šikmé, nemôžeme použiť klasické testy založené na normalite. V takom prípade obvykle používame neparametrické testy založené na poradiach. Pretože u všeobecného spojitého rozdelenia nemusí existovať ani rozptyl ani stredná hodnota, pri testoch polohy sa zameriavame na medián. Najčastejšie používané testy sú nasledujúce:
Pojem silofunkcie testu je úzko spojený s pojmom veľkosti efektu. Veľkosť efektu je vzdialenosť skutočnej hodnoty testovaného parametra od hodnoty predpokladanej nulovou hypotézou. Hoci test vie pri dostatočnom množstve pozorovaní odhaliť ľubovoľne malú odchýlku od , nie všetky rozdiely sú pre výskumníka naozaj zaujímavé. Napr. pri testovaní životnosti TV obrazoviek nebudú z hľadiska výrobcu zaujímavé rozdiely v minútach, ba ani v hodinách: reálne využiteľný rozdiel je až v desiatkach či stovkách hodín. Preto sa často určuje tzv. minimálna veľkosť efektu, ktorú chceme odhaliť. Ak pre túto veľkosť vieme vyjadriť hodnotu silofunkcie ako funkciu rozsahu výberu, vieme stanoviť aj minimálne , pre ktoré bude sila testu postačujúca. Takýmto spôsobom vieme kontrolovať naraz pravdepodobnosti oboch druhov chýb, i .