Loading [MathJax]/jax/element/mml/optable/BasicLatin.js

X. Testovanie hypotéz

10.1 Testovanie hypotéz pomocou intervalov spoľahlivosti

Príklad: Na veľkej univerzite v USA v r. 1969 zisťovali ročné príjmy profesorov (v 1000$) podľa pohlavia. Podnetom bolo tvrdenie feministickej organizácie, že ženy-profesorky majú v priemere o 7000$ nižší ročný príjem. Zistené hodnoty náhodne vybraných profesorov boli:

skupinaplaty
ženy (X)9, 12, 8, 10, 16
muži (Y)12, 11, 19, 16, 22, 20, 14, 17, 14, 15

Máme teda ¯X=11, n=5, ¯Y=16, m=10. Máme rozhodnúť, či muži majú vo všeobecnosti rovnaké platy ako ženy.

Máme teda rozhodnúť o správnosti (pravdivosti) hypotézy H0:μ1=μ2. Stručne sa hovorí o testovaní hypotézy. Mohli by sme ju zapísať aj v tvare H0:Δ=μ1μ2=0.

Jeden z možných prístupov k tejto otázke je, že zostrojíme IS pre Δ; to je totiž množina najpravdepodobnejších hodnôt tohto parametra. Ak naša hypotetická hodnota bude patriť do IS, bude to svedčiť v prospech hypotézy. Naopak, ak ju IS nebude obsahovať, bude to svedčiť v neprospech hypotézy.

Pre α=5% dostávame: Δ(¯X¯Y)±tn+m2(α/2)sp1n+1m=(1116)±2.161521315+1105.00±4.05=(9.05;0.95). Je teda Δ(9.05;0.95) so spoľahlivosťou 95%. Preto sa nám tvrdenie Δ=0 zdá neprijateľné, lebo hypotetická hodnota 0 nepatrí do IS.
Záver: hypotézu zamietame. Tvrdenie, že muži a ženy majú rovnaké platy je v rozpore s dátami. Oproti tomu tvrdenie Δ=7 je prijateľné, lebo 7IS. Túto hypotézu nezamietame. To však nijako nevyplýva z predchádzajúceho, hypotézy Δ=0 a Δ=7 boli na sebe nezávislé.

Vo všeobecnosti štatistickou hypotézou nazývame každé tvrdenie o (neznámych) populačných parametroch. Okrem základnej nulovej hypotézy, ktorú obvykle chceme vyvrátiť, musíme formulovať aj alternatívnu hypotézu, ktorá hovorí, aký spôsob narušenia nulovej hypotézy je pre nás zaujímavý. Nulová hypotéza je väčšinou bodová, t.j. tvrdí, že neznámy parameter je rovný jednému konkrétnemu číslu. Alternatívna hypotéza je väčšinou intervalová a určuje, akým spôsobom sa bude testovať nulová hypotéza. Napr. v predchádzajúcom príklade sme uvažovali alternatívne hypotézy H1:Δ0resp.H1:Δ7. Preto sme použili k testovaniu dvojstranný IS. Vzhľadom k motivácii prieskumu by sme však mali uvažovať alternatívnu hypotézu H1:Δ<0. K takému testu musíme použiť jednostranný IS: Δ(;¯X¯Y+tn+m2(α)sp1n+1m)=(;1116+1.771521315+110)(;1.68). Tento interval tiež neobsahuje 0, takže nulovú hypotézu zamietame.

Test hypotézy pomocou intervalu spoľahlivosti robíme teda tak, že sa na IS pozeráme ako na množinu prijateľných hypotéz (pri danej hladine spoľahlivosti). Druh IS je pritom určený alternatívnou hypotézou, ktorá hovorí o predpokladanom spôsobe narušenia nulovej hypotézy. Z tradičných dôvodov sa hovorí o teste hypotézy na hladine α, ak použijeme IS na hladine 1α. Ak príslušný IS neobsahuje hypotetickú hodnotu (z nulovej hypotézy), potom H0 zamietame. V opačnom prípade ju nezamietame. Nepoužívame termín prijímame hypotézu, keďže dáta nám nikdy nemôžu dať konečný dôkaz o jej platnosti - vždy sa môžu (neskôr) vyskytnúť dáta hypotézu vyvracajúce.

V našom príklade hypotetická hodnota bola mimo IS na hladine 95%; v takom prípade sa μ1 a μ2 nazývajú štatisticky rozlíšiteľné na hladine 5%, resp. hovoríme, že priemery sú štatisticky významne odlišné na hladine 5%.

Príklad: Keby sme uvažovali obojstranný IS na hladine 99%, potom  Δ(10.6;+0.6), a teda 0IS. Na hladine 99% (pri obojstrannej alternatíve) teda priemery nie sú štatisticky významne odlišné. Ich rozdiel potom považujeme iba za náhodnú fluktuáciu spôsobenú náhodnosťou výberu jedincov.

Vidíme teda, že výber hladiny testu podstatným spôsobom ovplyvňuje interpretáciu výsledkov experimentu. Preto jeho voľbe musíme venovať primeranú pozornosť.

Štatistická významnosť však nemusí znamenať aj praktickú dôležitosť: keby bol IS pre rozdiel v platoch 0.005±0.004=(0.009;0.001), bol by rozdiel tiež štatisticky významný, ale z praktického hľadiska by bol bezvýznamný: maximálny rozdiel by bol 9$ ročne.

10.2 p–hodnoty

Príklad: V závode na výrobu TV obrazoviek vedia, že ich stredná životnosť je μ=12000 hod a smerodajná odchýlka σ=3000 hod. Vývojové oddelenie navrhuje novú technológiu, ktorá by mala zvýšiť životnosť. Po skúšobnom zavedení technológie na jednej výrobnej linke sa otestovala vzorka 100 obrazoviek, pričom dosiahnutý priemer bol ¯X=12650 hod. Je nová technológia naozaj lepšia?
Máme teda H0:μ=12000 proti alternatíve H1:μ>12000. Smerodajnú odchýlku považujeme za rovnakú v oboch prípadoch. Ako mieru zhody hypotézy s pozorovanými hodnotami môžeme vypočítať pravdepodobnosť, že ¯X dosiahne hodnotu 12 650 alebo väčšiu za predpokladu platnosti hypotézy H0: p=P(¯X12650)=P(¯Xμ0σn12650120003000100)=P(Z2.17)0.015. Ak teda v skutočnosti nová technológia nie je lepšia, pravdepodobnosť, že budeme pozorovať taký veľký priemer bude len 1,5%. Číslo 1,5% budeme volať p-hodnotou pre H0. P-hodnota určuje mieru zhody medzi nulovou hypotézou a dátami.

Pri tomto prístupe musíme poznať rozdelenie bodového odhadu testovaného parametra. V prípade, že je k dispozícii viac odhadov, volíme odhad s najväčšou eficienciou.

Definícia 10.2.1: P-hodnotou testovanej hypotézy H0 nazývame pravdepodobnosť, že výberová hodnota odhadu testovaného parametra bude aspoň taká veľká ako pozorovaná (t.j. taká istá alebo vzdialenejšia od nulovej hypotézy v smere alternatívnej hypotézy), ak H0 v skutočnosti platí.

Keďže p-hodnota je mierou zhody medzi hypotézou a dátami, budeme nulovú hypotézu zamietať pre malé hodnoty p. Postup testovania je teda nasledovný: zvolíme hladinu testu α a vypočítame p-hodnotu nulovej hypotézy. Ak pα, potom H0 zamietame. Ak p>α, potom H0 nezamietame.

10.3 Klasické testovanie hypotéz

Klasický postup testovania hypotézy zahŕňa tieto kroky (v zátvorkách sú údaje z príkladu s obrazovkami):

  1. Formulujeme nulovú (H0:μ=12000) a alternatívnu (H1:μ>12000) hypotézu.
  2. Zvolíme si hladinu testu α. Obvykle je to 5% alebo 1%. Ideálne je jej veľkosť zvolená na základe analýzy možných strát pri nesprávnom rozhodnutí o platnosti hypotézy.
  3. Za predpokladu, že H0 platí, nájdeme rozdelenie bodového odhadu parametra, ktorý je predmetom hypotézy (testovaný parameter je μ, príslušný bodový odhad ¯X). Potom na pravom alebo ľavom konci rozdelenia (resp. obidvoch) - podľa toho, aká je alternatívna hypotéza - odsekneme časť s (súhrnnou) pravdepodobnosťou α. Odseknutá časť je kritický obor (kritická oblasť). (Označme ¯Xc kritickú hodnotu priemeru. Pre α=5% je kritická hodnota Z=¯Xcμ0σn=z0.05=1.645, z čoho ¯Xc=12000+1.6453000100=12493.5. Kritický obor je teda ¯X12493.5.)
  4. Urobíme náhodný výber, vypočítame odhad testovaného parametra a porovnáme ho s vypočítanou kritickou hodnotou. Ak odhad parametra padne do kritickej oblasti, zamietneme H0 v prospech H1, v opačnom prípade H0 nezamietneme (keďže ¯X=12650>12493.5, H0 zamietame).

Ak sme hypotézu zamietli, sú možné 2 prípady:

  1. H0 v skutočnosti platí, ale mali sme smolu pri našom náhodnom výbere a dostali preto málo pravdepodobný výsledok.
  2. H0 v skutočnosti neplatí a preto vysoká hodnota nie je prekvapujúca.
Vysvetlenie b) je pravdepodobnejšie a preto ho prijímame; napriek tomu však môže byť pravdivé vysvetlenie a). Mierou pochybností je hladina testu α.

Všetky tri uvedené spôsoby testovania (t.j. klasický test, test pomocou p–hodnoty a test pomocou intervalu spoľahlivosti) sú pri rovnakej hladine testu ekvivalentné. Dnes sa najčastejšie používa prístup pomocou p–hodnoty, lebo sa najjednoduchšie programuje a nevyžaduje do softwaru vstup hladiny testu - užívateľ programu si záver urobí sám.

Môžeme ale urobiť dva druhy chýb:

testovanie_hypotez
skutočnosť\rozhodnutie H0 nezamietame H0 zamietame
H0 platísprávne
P=1α
hladina spoľahlivosti
chyba 1. druhu
P=α
hladina testu
H0 neplatí chyba 2. druhu
P=β
správne
P=1β
sila testu




O pravdepodobnosti chyby 2. druhu β väčšinou nič nevieme.
Z obrázka je jasné, že α0 spôsobí β1.
Preto je nutné spraviť kompromis.
Takouto kompromisnou hodnotou je obvykle α=5%.

Príklad: Keby bolo μ1=12400, potom by β>1/2 (viď ďalej).

V princípe môžeme na pravdepodobnosti chýb testovania pozerať nasledujúcim spôsobom: ak nulová hypotéza tvrdí „podozrivý je nevinný“, potom α=P(odsúdenie nevinného)aβ=P(neodsúdenie páchateľa). Preto kontrolujeme radšej α ako β. Zväčšením rozsahu výberu (viac dôkazov) môžeme zmenšiť α aj β. Ľubovoľnosť voľby α však zostáva filozofickým problémom.

10.4 Silofunkcia testu

Príklad: Nech v skutočnosti platí H1 s hodnotou μ1=12400 hod. Aká je pravdepodobnosť chyby 2. druhu? β=P(¯X<12493.5)=P(¯Xμ1σn<12493.5124003000100)=P(Z<0.31)0.62. Pri tejto veľkosti vzorky je teda odhalenie takéhoto zlepšenia výrobného procesu málo pravdepodobné.
Je však nerealistické rátať len s jednou alternatívnou hodnotou, máme skôr podozrenie na isté rozpätie. Skúsime preto ešte μ1=12800 hod a μ1=13200 hod.
Pre μ1=12800 je β=P(¯X<12493.5)=P(Z<1.02)0.15,
Pre μ1=13200 je β=P(¯X<12493.5)=P(Z<2.36)0.01.
Vidíme, že takéto zlepšenia procesu už vieme odhaliť s rozumnou pravdepodobnosťou. Ale naša alternatíva bola vlastne H1:μ>12000. Bolo by teda dobré vypočítať β=β(μ) pre každú hodnotu μ>12000. Dostaneme tak funkciu - s rastúcim μ bude β klesať k 0 a 1β rásť k 1.

Funkciu f(μ)=1β(μ) nazývame silofunkcia testu. Zobrazuje pravdepodobnosť správneho zamietnutia H0 v závislosti na hodnote testovaného parametra. Zrejme platí f(μ0)=1β(μ0)=α.

silofunkcia_testu Obrázok znázorňuje silofunkciu testu z nášho príkladu.


V princípe chceme konštruovať také testy, aby silofunkcia rástla čo najrýchlejšie. Silofunkcia nám pomáha uvedomiť si, aký rozdiel medzi nulovou a alternatívnou hypotézou (tzv. veľkosť efektu) vieme pri danom rozsahu výberu reálne, t.j. s rozumnou pravdepodobnosťou detekovať.

10.5 Obojstranné a jednostranné testy

Príklad: Opäť uvažujeme príklad s výrobou obrazoviek. Stále máme H0:μ=12000, ale tentoraz v situácii, keď niet dôvodu sa domnievať, že by nová technológia nemohla byť aj horšia ako stará. Preto musíme vziať H1:μ12000. V tom prípade budú proti hypotéze H0 svedčiť veľmi veľké aj veľmi malé hodnoty. Za mieru vzdialenosti ¯X od hypotézy vezmeme výraz |¯Xμ0|. Máme teda: P(|¯Xμ0||1265012000|)=P(|¯Xμ0|σn|1265012000|3000100)P(|Z|>2.17)=2P(Z>2.17)0.03. To je p–hodnota obojstranného testu.

P–hodnota obojstranného testu vo všeobecnom prípade teda používa ako mieru vzdialenosti od nulovej hypotézy absolútnu hodnotu rozdielu. V tomto zmysle treba chápať aj Definíciu 10.2.1.
Pri klasickom postupe pri obojstrannej alternatíve musíme určiť dve kritické hodnoty, dolnú a hornú tak, že P(¯Xd<¯X<¯Xh)=1α, kde α je hladina testu. Kritický obor potom je (;¯Xd¯Xh;+).

Príklad: Kritické hodnoty N(0;1)  pre α=5%±zα/2=±1.96. Obe hranice teda dostaneme riešením rovníc ¯Xμ0σn=±zα/2. Preto ¯Xd=120001.96300010011412a¯Xh=12000+1.96300010012588. H0 teda zamietame pre ¯X11412 alebo ¯X12588.

Už vieme, že ekvivalentný postup s pomocou intervalu spoľahlivosti je zamietnuť H0, ak dvojstranný IS neobsahuje μ0. V prípade jednostranného testu pomocou IS volíme jednostranný IS podľa toho, na ktorej strane od H0 leží alternatíva. Ak je alternatíva pravostranná, použijeme horný IS, v prípade ľavostrannej alternatívy použijeme dolný IS.

Príklad: Pri pôvodnej alternatíve H1:μ>12000 musíme použiť horný IS. Pri α=5% je to interval (¯Xzασn;+)=(126501.6453000100;+)=(12156.5;+). Tento interval neobsahuje hodnotu 12000, preto H0 zamietame.

10.6 Prehľad klasických testov hypotéz

Táto podkapitola obsahuje systematické zhrnutie niektorých najdôležitejších štatistických testov. Niektoré už boli uvedené v predchádzajúcom texte, ostatné z uvedeného ľahko vyplýva. Testy neuvedené v tomto prehľade sa odvodia analogickým spôsobom z intervalov spoľahlivosti uvedených v 9. kapitole.

  1. test H0:μ=μ0, σ2 známe
  2. test H0:μ=μ0, σ2 neznáme (jednovýberový t-test)
  3. test H0:μ1=μ2, σ21 a σ22 známe
  4. test H0:Δ=μ1μ2=0, σ2 neznáme pri dvoch závislých náhodných výberoch (párový t-test)
  5. test H0:μ1=μ2, σ21 a σ22 neznáme (dvojvýberový t-test)

10.7 Neparametrické testy hypotéz

Ak je jasné, že rozdelenie pravdepodobnosti v skúmanej populácii je výrazne nenormálne, napr. šikmé, nemôžeme použiť klasické testy založené na normalite. V takom prípade obvykle používame neparametrické testy založené na poradiach. Pretože u všeobecného spojitého rozdelenia nemusí existovať ani rozptyl ani stredná hodnota, pri testoch polohy sa zameriavame na medián. Najčastejšie používané testy sú nasledujúce:

10.8 Silofunkcia testu najjednoduchších testov

Pojem silofunkcie testu je úzko spojený s pojmom veľkosti efektu. Veľkosť efektu je vzdialenosť skutočnej hodnoty testovaného parametra od hodnoty predpokladanej nulovou hypotézou. Hoci test vie pri dostatočnom množstve pozorovaní odhaliť ľubovoľne malú odchýlku od , nie všetky rozdiely sú pre výskumníka naozaj zaujímavé. Napr. pri testovaní životnosti TV obrazoviek nebudú z hľadiska výrobcu zaujímavé rozdiely v minútach, ba ani v hodinách: reálne využiteľný rozdiel je až v desiatkach či stovkách hodín. Preto sa často určuje tzv. minimálna veľkosť efektu, ktorú chceme odhaliť. Ak pre túto veľkosť vieme vyjadriť hodnotu silofunkcie ako funkciu rozsahu výberu, vieme stanoviť aj minimálne , pre ktoré bude sila testu postačujúca. Takýmto spôsobom vieme kontrolovať naraz pravdepodobnosti oboch druhov chýb,  i .

  1. test , známe
  2. test , neznáme
  3. test , a známe