Hüljakem nullhüpoteeside testid

20. aprill 2019 7 min lugemist

Nullhüpoteeside testid on üks tavalisemaid vahendeid teadlase tööriistakastis. Kuid sama kaua, kui noori teadlasi on õpetatud neid kasutama, on ka teste kritiseeritud. Praeguseks on teadlaste rühmad hakanud avaldama manifeste nullhüpoteeside testide ja statistlise olulisuse vastu. Näiteks ilmus sellel teemal alles märtsis artikkel teadusajakirjas Nature [1]. Püüan selles artiklis selgitada, miks võiks teaduses loobuda nullhüpoteeside testide põhjal otsuste tegemisest.

Kellele teadus huvi pakub, soovitan lugeda ka eelmist selleteemalist artiklit.

Mis on NHST?

Inglise keeles öeldakse nullhüpoteeside testide kohta null hypothesis significance testing (NHST). NHST on raamistik andmetes seoste kontrollimiseks. Toome illustreerimiseks näite, kus võrdleme kahe grupi inimeste keskmist pikkust.

Püstitatakse kaks hüpoteesi. Nullhüpotees ( $H_0$ ) ütleb, et seos puudub ja alternatiivne hüpotees ( $H_1$ ) on nullhüpoteesi eitus ehk väidab, et seos kehtib. Meie näite puhul võiks nullhüpotees väita, et kahe grupi keskmised pikkused on võrdsed:

$\mu_1 = \mu_2$

ning alternatiivne hüpotees, et keskmised pole võrdsed:

$\mu_1 \neq \mu_2 .$

Hüpoteeside püstitamise järel arvutatakse katsest saadud andmestiku $D$ tõenäosus eeldusel, et kehtib $H_0$ :

$P[D | H_0] .$

Kui see tõenäosus on väike, siis võiks arvata, et eeldus $H_0$ oli vale. Sellisel juhul võetakse vastu alternatiivne hüpotees $H_1$ . Tavaliselt kasutatakse otsustamiseks piiri 0.05 (olulisusnivoo) ehk vaadeldav tõenäosus peab olema alla 5%, et võtta vastu alternatiivne hüpotees.

Nullhüpoteesi test seisnebki üldiselt kahe või enama jaotuse võrdlemises. Näiteks uurides, kas sugu on seotud suitsetamisega, võrdleme suitsetamise jah/ei vastuste jaotust naiste ja meeste seas. Selle tarbeks saame kasutada $\chi^2$ -testi. Kui me võrdleme normaaljaotusega tunnust kahes grupis nagu meie pikkuse näites, kasutatakse tavaliselt Studenti t-testi.

Nullhüpotees pole kasulik väide

Kirjutame nullhüpoteesi ümber sellisel kujul:

$\mu_1 - \mu_2 = 0 .$

Tegemist on kahe pideva juhusliku suuruse vahega, mis on samuti pidev juhuslik suurus. Kes on tõenäosusteooria esimest kursust võtnud, teab, et pideva juhusliku suuruse suvalise punkti tõenäosus on null. Seega on ka nullhüpoteesi tõenäosus null.

Teisisõnu, valides kaks juhuslikku inimeste gruppi ning mõõtes mõlema grupi keskmist pikkust, pole võimalik, et keskmiste vahe on täpselt 0.0. Praktikas me muidugi ei mõõda pikkust täpselt vaid ümardame sentimeetriteni, aga sellegipoolest on tegelikult ka intuitiivselt mõistetav, et selline olukord ei saa juhtuda.

Kui nullhüpotees on alati vale, siis miks tuleb mõnikord tõenäosus ikkagi nii suur, et peame jääma nullhüpoteesi juurde? P-väärtus sõltub kahest tegurist:

efekti suurus (kui palju erinevad võrreldavad jaotused),
valimi maht (mitu elementi on andmestikus).

Mida suurem on valim, seda väiksemaks lähevad p-väärtused. Väikeste valimite korral võivad p-väärtused väga palju kõikuda.

P-väärtused on ebastabiilsed

Püüame selgitada, miks sõltub p-väärtus valimi mahust. Oma ülesandes tegelesime kahe grupi jaotuste võrdlemisega. Pikkuste jaotused on erinevad, kui gruppide keskmiste vahe on väike negatiivne või suur positiivne arv. Tähistame $\hat{\mu_i}$ grupi $i$ pealt arvutatud keskmist. Seega huvitab meid $\hat{\mu_1} - \hat{\mu_2}$ jaotus.

Kui meie grupid koosnevad kumbki vaid ühest juhuslikult valitud inimesest, siis milline on $\hat{\mu_1} - \hat{\mu_2}$ jaotus? Sellisel juhul võib vahe tulla suhteliselt suvaline arv. Kui me kordame seda katset 100 paari peal, siis on usutav, et vahe võib tulla -7.2 cm, 0.21 cm, 13.8 cm, … Üheelemendiliste valimite korral on $\hat{\mu_1} - \hat{\mu_2}$ võimalike väärtuste hulk lai.

Kui meil on aga kaks gruppi, kus on kummaski 1000 inimest, siis milline on $\hat{\mu_1} - \hat{\mu_2}$ jaotus? Intuitiivselt on see tugevalt koondunud ümber nulli, sest need grupid ei erine. Mõlema grupi keskmine peegeldab üldpopulatsiooni keskmist pikkust, kust me inimesed valisime. Üksikisikute pikkus ei oma enam rolli 1000 inimese puhul, sest pikad ja lühikesed inimesed “korvavad” üksteist. Suvalise nullist erineva vahe tõenäosus (ja seega ka p-väärtus) on selles jaotuses väga väike.

Pikkuse eksperimendi simulaator

Kuna see jutt võib häguseks jääda, siis demonstreerime p-väärtuste ebastabiilsust eksperimentaalselt. Järgnev programm genereerib kaks gruppi inimeste pikkuseid. Parameetrid võimaldavad muuta gruppide suuruseid ning teoreetiliste jaotuste keskmiste vahet, kust juhuslikult väärtuseid võetakse. Programm läbib katset kakskümmend korda ning kuvab punktina iga katse tulemuse p-väärtuse (kasutades Studenti t-testi). Hall kujund taustal on p-väärtuste jaotus.

Programmiga mängides näeme, et väikeste valimite korral saame nii väikeseid kui suuri p-väärtuseid. Ka vaid 1 cm erinevuse puhul võib kahe kümneliikmelise grupiga katse anda statistiliselt olulise tulemuse.

Tõstes valimi suurust sadadesse näeme, et gruppide erinevus ei oma enam tähtsust. 1 cm erinevuse ja 1000-liikmeliste gruppide korral on enamiku katsete tulemused statistiliselt olulised. Piisavalt suure valimi korral on kõik erinevused statistiliselt olulised.

Seega on statistiliselt olulise tulemuse saamiseks kaks võimalust:

valida nii suured grupid, et suvaline tulemus oleks positiivne;
korrata katset väikestel valimitel kuni saame positiivse tulemuse.

“Statistiliselt oluline” ei ole oluline. Kui leiduks “ravi”, mis tõstaks inimese pikkust 1 cm, oleks selle praktiline väärtus vaieldav. Oluline on vaadata ka efekti suurust, aga dihhotoomne kategoriseerimine p-väärtuse alusel ei pööra sellele tähelepanu.

Pikkuse näide esineb ka reaalsetes andmetes. Ühes 14 000 koolilapsega andmestikus leiti statistiliselt oluline seos pikkuse ja IQ vahel [2]. Kas see tähendab, et võiksime lastele kasvuhormoone anda lootes, et nad muutuvad targemaks? Kuid regressioonimudeli koefitsent näitas, et IQ tõstmine 100 pealt 130-le vajaks üle neljameetrist kasvu. “Statistiliselt oluline” ja praktiliselt oluline pole alati seotud.

P-väärtuste tõlgendamise ja testide kasutamise vead

Meenutame, et p-väärtus on tõenäosus $P[D | H_0].$ Kuid tegelikult soovime järeldusi teha hüpoteesi, mitte andmestiku kohta. Seetõttu kipuvad inimesed sageli arvama, et p-väärtus on $P[H_0 | D].$ Kuigi need suurused on seotud, pole need võrdsed!

Selle väärarusaama tagajärjel arvatakse ekslikult, et kõrge p-väärtus tõestab nullhüpoteesi ehk seose puudumist. Alguses viidatud Nature’i artikli autorid hindasid erinevate uuringute tulemusi kombineerides, et umbes pooltes teadusartiklites tõlgendatakse $p > 0.05$ valesti (analüüsis oli 791 artiklit) [1]. Samamoodi ei tõesta väike p-väärtus seose olemasolu.

Kui p-väärtuse põhjal tehtud järeldus ei ühti mõne varasema artikliga, siis järeldatakse vahest, et uuringute vahel on ebakooskõla. See ei pruugi aga nii olla. Näiteks võib kahes katses leiduda sama tugev seos, kuid valimi suuruse, metoodika või juhuse tõttu on p-väärtused erinevad ning jäävad erinevale poolele maagilisest 0.05 piirist.

Viimase väärarusaama tõttu on tekkinud olukord, kus $p < 0.05$ põhjal tehtud avastust peavad hiljem ilmunud artiklid ümber lükkama. Kuid tegelikult pole artikli ilmumise kuupäev ja selle sisuline väärtus seotud.

Kuna järeldusi tehakse p-väärtuste põhjal, siis võivad teadurid otsida analüüsimeetodeid, mis annaksid väikese p-väärtuse. Ühte hüpoteesi on võimalik uurida erinevate statistiliste testidega ning andmeid on võimalik erineval moel kodeerida. Näiteks saame pideva tunnuse (nagu pikkus) jaotada kategooriateks (näiteks 10 cm kaupa) ning ka kasutada diskreetsete jaotuste võrdlemiseks mõeldud testi.

Testides erinevaid seoseid ning raporteerides vaid statistiliselt olulised seosed teeme vea, mille kohta öeldakse multiple testing problem. Kui eeldada, et ühe seose kontrollimisel on 5% tõenäosus saada juhuslikult positiivne tulemus, siis tõenäosus kahest katsest üks positiivne tulemus saada on 9.8%, kolme katse korral 14.3% jne. Sellega tuleks arvestada ning otsustamise piiri (olulisusnivood) tuleks vastavalt korrigeerida, kuid sageli unustatakse seda teha ning alati pole see võimalik. Kui kaks rühma teadlasi viib sõltumatult läbi sama katse ning üks neist saab positiivse tulemuse, mis publitseeritakse artiklina, siis on ka tegu mitmese testimise probleemiga, kuigi keegi sellega arvestada ei saanud.

P-väärtuste põhjal otsustamine on kaasa toonud efekti suuruste ülehindamise. Kuna suurema efektiga on p-väärtused väiksemad, siis on uusi seoseid avastanud väikese p-väärtusega artiklites suurem efekt kui publitseerimata jäänud suurema p-väärtusega katsetes. Kui katset korratakse hiljem suuremate valimitega, siis metaanalüüsides efekt langeb [3–5].

Miks on NHST nii populaarne?

Võib arvata, et nullhüpoteeside testid on populaarsed, sest meile meeldib dihhotoomne mõtlemine. Maagiline oraakel, mis oskab kindlalt öelda, kas väide on tõene või väär, kõlab ahvatlevalt. Kuid teaduses on ebakindlus paratamatu ning seda tuleb aksepteerida.

Nullhüpoteeside testide poolt kõneleb ka nende kasutamise lihtsus. Keerulisemate statistikatööriistade tundmaõppimine võib olla raske ning aeganõudev inimestele, kes ei tegele reaalteadustega.

Kategoriseerimine aitab ka teadusajakirjade publitseerijaid. Kui meil on lihtne reegel, mille põhjal teadustöid hinnata, on artiklite arvustamine kergem. Kui peaksime rohkem süvenema metoodikasse, mitte tulemusse, siis nõuaks artikli arvustamine rohkem aega.

Mis võiksid olla lahendused?

Üks idee oleks lasta otsustamise tõenäosuse piir (olulisusnivoo) allapoole [6]. See on kompromiss, mis võimaldab statistikatarkvara oraaklina edasi kasutada, aga loodetavasti vähendab valepositiivsete tulemuste hulka. Kuid see ei lahendaks dihhotoomse mõtlemise probleemi. Ebakindlusega teaduses tuleb leppida.

Ükski statistika vahend pole iseenesest järelduste tegemiseks piisav. Tähelepanu tuleb pöörata ka andmete kvaliteedile, uuringu metoodikale, uuritava seose võimalikele põhjustele. Ka uuringud, mille tulemus pole statistiliselt oluline, võivad olla väärtuslikud, kui nende metoodika on hea või kui autorid pakuvad välja hea teooria seose põhjuse kohta. Neid aspekte peaksid kirjeldama artiklite autorid ning nendega tuleks arvestada arvustamise protsessis lisaks raporteeritud statistiliste analüüside tulemustele.

Rohkem tähelepanu võiks pöörata ka efektile reaalse maailma kontekstis. Efekti olemasolu või puudumine pole ainuke oluline info. Meid peaks huvitama ka efekti implikatsioonid praktilises elus. Kirjeldada tuleks efekti suuruse usaldusintervalli mõlema äärmuse tagajärgi.

Oma mõtlemises võiksime rohkem lähtuda bayesian inference põhimõtetest, millest oli juttu eelmises artiklis. Me ei peaks seadma eesmärgiks millegi tõestamist või ümberlükkamist vaid andmete kogumise. Väited ei jagune tõesteks ja vääradeks vaid igal väitel on uskumuse tugevus, mis sõltub teadustulemustest ja uueneb andmete täienemisel.

Allikad

[1] V. Amrhein, S. Greenland, and B. McShane, “Scientists rise up against statistical significance.” Nature Publishing Group, 2019.

[2] J. Cohen, “The Earth is Round (p < .05),” in What if there were no significance tests?, Routledge, 2016, pp. 69–82.

[3] Z. Zhang, X. Xu, and H. Ni, “Small studies may overestimate the effect sizes in critical care meta-analyses: A meta-epidemiological study,” Critical care, vol. 17, no. 1, p. R2, 2013.

[4] J. P. Ioannidis, “Contradicted and initially stronger effects in highly cited clinical research,” Jama, vol. 294, no. 2, pp. 218–228, 2005.

[5] K. S. Button, J. P. Ioannidis, C. Mokrysz, B. A. Nosek, J. Flint, E. S. Robinson, and M. R. Munafò, “Power failure: Why small sample size undermines the reliability of neuroscience,” Nature Reviews Neuroscience, vol. 14, no. 5, p. 365, 2013.

[6] J. P. A. Ioannidis, “The proposal to lower p value thresholds to .005,” JAMA, vol. 319, no. 14, pp. 1429–1430, Apr. 2018.