Teadus on raske
Mulle meeldib vabal ajal lugeda empiirilise teaduse protsessist. Lood ebaõnnestumistest on mõnikord päris meelelahutuslikud, aga ka protsess iseenesest on põnev. Mõned väidavad, et tõde polegi olemas, aga inimkonna pidev püüd sellele lähemale jõuda ning oma vigadest õppida, on minu jaoks paeluv. Olen paar korda sellel teemal loetust ettekande pidanud ning mõtlesin ettekande artikliks vormistada. Osaliselt võib see niisama põnev lugemine olla, aga teisalt võiks see aidata skeptilisemalt tõlgendada meedias, internetis ja diskussioonides kõlanud väiteid teaduslikest avastustest.
Näide oma elu elama hakanud ebakindlast väitest: power posing
Psühholoog Amy Cuddy koos kolleegidega leidsid, et enesekindlas poosis seismine tekitab inimesele jõulise enesetunde, tõstab testosterooni ning langetab kortisooli taset [1]. Selle nähtuse kohta öeldakse power posing ning sellest sai alguse Amy Cuddy coaching’u karjäär. Ta on kirjutanud New York Timesi bestselleri, andnud koolitusi tuntud organisatsioonides ning on kõige enam vaadatud TED Talk’ide nimistus teisel kohal.
Aastal 2015 püüdis rühm psühholooge katset suurema valimi peal korrata. Nad ei saanud sama tulemust [2]. Seejärel lahvatas diskussioon psühholoogia teadustulemuste usaldusväärsuse üle. Üks hilisem metaanalüüs (sama küsimust puudutavate uuringute analüüs) leidis tõendeid, et positiivsed power posing’u tulemused on valikulise raporteerimise tagajärg [3]. See tähendab, et enam publitseeritakse positiivseid tulemusi, kuid negatiivse tulemusega katsed jäävad teadusartikliks kirjutamata. Esialgse artikli üks autoritest, Dana Carney, tunnistas, et nende uurimuses oli mitmeid puudujääke ning ta otsustas järeldust enam mitte toetada.
See ei osutunud aga probleemiks ja power posing on jätkuvalt populaarne enesabi meede.
Ego depletion: veel üks eneseabi meede nõrkadel jalgadel
Ego depletion on idee, et enesekontrolli ja tahtejõu kasutamine kulutab mingit piiratud vaimset ressurssi. Roy Baumeister koos kolleegidega tegid katse, kus katsealused pidid lahendama võimatut mõistatust. Üks grupp pidi enne katset vältima šokolaadi söömist ning leppima redistega ning teisel grupil piiranguid polnud. Grupp, kes pidi šokolaadi vältimiseks enesekontrolli kasutama, andis mõistatust lahendades kiiremini alla. Ego depletion’ist sai omaette nähtus ning seda on erineva formaadiga katsetes korratud enam kui 200 uuringus. Ilmselgelt on tõendid väga üksmeelsed ja me kõik võiksime oma igapäevaelus selle nähtusega arvestada?
Aastal 2016 ilmus artikkel huvitavast ego depletion’i uurimiseks tehtud katsest, kus fikseeriti katse protokoll ja analüüs ennem katset ning sama protsessi läbisid 23 erinevat rühma. Tulemus leidis, et ego depletion’it ei eksisteeri [4].
Kuidas võis see juhtuda? Miks ei õnnestu alati kinnitada juba aksepteeritud tõdesid nagu power posing või ego depletion? On mitmeid erinevaid efekte, mis võisid seda põhjustada. Arvatakse, et positiivse tulemusega artiklit on kergem publitseerida. Praegune teaduse publitseerimise süsteem ja teaduse meedias kajastamise praktika pooldab uusi avastusi. Seega võivad jääda negatiivse tulemusega artiklid avaldamata. Selle nähtuse kohta öeldakse publication bias. Väikese valimi peal katset korrates tulevad paratamatult mõned tulemused juhuslikult positiivsed. Selleks, et leida kõikide tulemuste konsensust, kasutatakse metaanalüüsi meetodit, kuid see ei toimi, kui me ei näe negatiivseid tulemusi.
Teine probleem on liigne paindlikkus katse ning analüüsi meetodite valikul. Kuna replitseerimise katsetes oli protokoll fikseeritud, siis polnud võimalik valida erinevate analüüsivõimaluste seast sellist, mis annaks positiivse tulemuse.
Üks lahendus on artiklite publitseerimine otsus teha uuringu protokolli põhjal enne katse läbiviimist. Sellisel juhul saaks hiljem kontrollida, kas autorid järgisid protokolli ning ka negatiivsed tulemused saaksid publitseeritud. Seda lähenemist propageerib Center for Open Science.
Milline osa psühholoogia teadustulemustest on tõene?
Arst ja nö “teadusskeptik” John Ioannidis on kirjutanud põneva essee, kus ta argumenteerib matemaatilise statistika ning empiiriliste hinnangute abil, et üle poole teadusartiklite tulemustest on valed [5]. Tema argumendid on natuke keerulised, et neid siin kokku võtta, aga kindlasti oli see essee omal ajal väga intrigeeriv. Kuidas me saaksime tema väites veenduda?
Aastal 2015 ilmus põnev artikkel, kus 270 teadlast püüdsid reprodutseerida 100 erineva 2008. aastal ilmunud psühholoogiaartikli tulemust [6]. Eesmärk oli esialgsete katsete meetodeid võimalikult täpselt jäljendada. Sama tulemus õnnestus saada vaid 39% katsetest. Eeldusel, et esialgseid katseid õnnestus korrektselt jäljendada, õnnestus neil minu silmis Ioannidise analüüsi usaldusväärsust tõsta.
Miks sa ainult psühholoogia kallal võtad?
Psühholoogia on põnev valdkond ja selle õnnestumistest ning ebaõnnestumistest lugemine on huvitav, aga hoolimata väidetest, et psühholoogia on pseudoteadus, esinevad sellised probleemid ka paljudes teistes valdkondades, millesse esmapilgul nii kriitiliselt võib-olla ei suhtuta.
Ravimitootja Amgen püüdis korrata 53 katset, mis puudutasid vähiravi bioloogiat. Neil õnnestus kinnitada vaid 11% avastustest [7]. Sarnase uuringu viis läbi ravimitootja Bayer, kes kordas 67 katset. Neil õnnestus enda valitud katsetest kinnitada 25% [8]. Farmakoloogia esialgsed uuringud, mis veel otsivad bioloogilisi mehhanisme haiguste raviks, on selline pimedas kompamine, et ravimitootjad ei saa teaduskirjandust usaldada, vaid peavad sageli alustama iga ravimi tootmisel teadustööga nullist.
John Ioannidis on uurinud New England Journal of Medicine’is (NEJM) aastatel 2001-2010 publitseeritud artiklite järeldusi. NEJM on üks hinnatumaid meditsiini teadusajakirju. Artiklitest, mis hindasid juba kasutusel olevat meditsiinipraktikat, kinnitasid 38% selle tõhusust ning 40.2% lükkasid selle ümber [9]. Kui see peegeldaks üldist taset meditsiinis, siis tõenäosused, et arsti soovitatud protseduur on kasutu või kasulik, on võrdsed. Siiski võib spekuleerida, et reaalsus nii kole ei ole, sest NEJM võib meelsamini publitseerida intrigeerivaid tulemusi, mis mõne levinud praktika kahtluse alla seavad.
Meetodite liigne paindlikkus
Aastal 2015 ilmus ajalehe Daily Mail veebiväljaandes artikkel pealkirjaga (ligikaudne tõlge) “Ulata šokolaadi! Uus uuring paljastab, et šokolaadi söömine ei mõjuta sinu kehamassiindeksit… ja võib aidata isegi kaalu KAOTADA!”. Artikkel kajastas katset, kus määrati kaks katsealuste gruppi süsivesikutevaesele dieedile. Üks grupp pidi lisaks sööma iga päev tahvli tumedat šokolaadi. Šokolaadi söönud grupp kaotas kaalus kiiremini ja neil olid paremad kolesterooli näidud [10]. Praeguseks on artikkel tagasi võetud.
Kuigi see katse oli reaalne, oli autorite tegelik eesmärk näidata, kui kerge on suvalisi seoseid publitseerida. Nad mõõtsid katsealuste peal kokku 18 erinevat tervist puudutavat tunnust ning kontrollisid, kas mõni nendest on šokolaadi söömisega seotud. Kui eeldada, et ühe seose kontrollimisel on 5% tõenäosus saada juhuslikult positiivne tulemus, siis tõenäosus, et 18 seosest vähemalt üks on juhuslikult positiivne, on 60%. Kui katsetada andmete peal erinevaid seoseid ning raporteerida artiklis vaid positiivsed tulemused, on võimalik suhteliselt suvalisi seoseid “tõestada”.
Positiivse tulemuse jahtimist nimetatakse vahest p-hacking’uks või noise-mining’uks. Probleem ei pruugi isegi olla tingitud ebaaususest. Ka heas usus valikuid tehes võime kogemata valida analüüsimeetodi, mis annab juhuslikult positiivse tulemuse [11].
Veebilehel FiveThirtyEight on mäng, kus tuleb tõestada, et üks või teine USA partei mõjub USA majandusele kas positiivselt või negatiivselt. Valides sobivad mõõdikud või poliitiku positsiooni on alati võimalik endale meelepärane tulemus saada. Rakenduse taga on päris andmed. Rakendusega mängides saab ise selle efektiga tutvuda.
Kontekst on oluline
Järgneval joonisel on välja toodud erinevate toodete tarvitamise ja mingi vähkkasvaja riski seoste relative risk’id või odds ratio’d [12–15]. Lihtsustatult näitab odds ratio (OR) mitu korda suurem on katsegrupis risk. OR 1 tähendab, et riskid on samad, väärtus alla ühe tähendab, et risk langeb ja väärtus üle ühe, et risk tõuseb. Suure andmestiku korral on relative risk ja odds ratio ligikaudu võrdsed. Mõnel juhul on tegu kaitsva seosega (D-vitamiin, kiudained), mõnel juhul on toote tarvitamine kahjulik (sool, tubakas).
Kui keegi soovib väita, et liigne soolasöömine põhjustab maovähki, siis pole tal raske tõendeid leida. Omaette küsimus on, kas me peaksime sellepärast muretsema. Efekti olemasolu iseenesest pole piisav. Selleks, et järeldusi teha, peaksime selle mõju konteksti panema. Nagu näeme, siis soola söömise risk on suurusjärk väiksem tubakasuitsetamise riskist.
Spinatis leidub opioid rubiscolin 5 [16]. Oleme ilmselt kõik kuulnud, et opioidid on kõrge sõltuvuspotentsiaaliga ning mitmetel neist on suhteliselt kõrge üledoosi risk. Seega on spinat ohtlik ning me peaksime seda vältima? Tegelikult on seda opioidi spinatis nii vähe, et 70kg kaaluv inimene peaks sööma ligi 10kg spinatit korraga, et see aine talle mõjuks. Konteksti tundes on absurdne väita, et spinat seetõttu ohtlik oleks.
Efekti suuruse ja konteksti abil saab igaüks ise otsustada, milline risk on tema jaoks aksepteeritav selle asemel, et öelda dihhotoomselt, kas miski on kahjulik või mitte.
Üks vastuargument oleks, et isegi, kui spinatis leiduva rubiscolin 5 tase on madal, siis mida vähem seda tarvitada, seda parem. Selle vastu argumenteerimiseks vaatame ühte hüpoteetilist dose-response curve’i.
X-teljel on aine doos ja Y-teljel mõju ulatus. Näiteks võib sellise joonise teha vererõhku alandava ravimi doosi ja vererõhu languse seosest. Tavaliselt on dose-response curve S tähe kujuline nagu sellel joonisel. Threshold dose on minimaalne doos, mille tarvitamisel on mõõdetav efekt. Sellest väiksemad kogused mõju ei oma. Kui me vähendame kahjuliku aine tarbimist, siis mingist hetkest oleme kahju minimeerinud ning edasine vähendamine ei oma tähtsust. Efekti suurust ja doosikõverat võiks meeles pidada, kui keegi hirmutab meid mingi aine kahjulikkusega. Viide aine mingis koguses kahjulikkust kinnitavale uuringule ei ole veel piisav põhjus seda vältida.
Kõik uuringud pole võrdsed
Vaatlusuuring analüüsib andmeid, mis on subjektidelt kogutud. Näiteks küsitakse inimestelt, mida nad söövad ja mõõdetakse nende tervisenäitajaid ning seejärel uuritakse, kas mõni tervisenäitaja on mõne toiduainega seotud. Vaatlusuuringust parem on katse, kus jagatakse inimesed juhuslikelt gruppidesse ning gruppidele antakse erinevad soovitused. Näiteks üks grupp haigeid tarvitab ravimit ja teine suhkrutabletti.
Miks on vaatlusuuringud halvad? Näiteks leiavad vaatlusuuringud sageli, et suures koguses C-vitamiini tarvitamine vähendab südamehaiguste ja erinevate vähkkasvajate riski. Kuid katsetes ei õnnestu selliseid efekte demonstreerida [17]. Põhjuseks võib olla C-vitamiini tarbimise seos majandusliku staatusega lapsepõlves. Jõukamate perekondade lapsed saavad mitmekülgsemat toitu ning parem majanduslik olukord tähendab, et näiteks ei pruugi nad tervisele kahjulikku tööd teha ning võivad saada vajadusel paremat arstiabi. Ka näiteks auto omamine korreleerub C-vitamiini tarvitamisega [17]. Vaatlusandmetel leitud seoste puhul on raske olla kindel, et ükski kõrvaline efekt seda ei põhjusta. Selle nähtuse kohta öeldakse confounding.
See probleem esineb eriti tugevalt toitumist puudutavates uuringutes. Selleks, et toitumine mõju omaks, tuleks kindlal toitumisrežiimil olla pikemat aega. Mitmeaastased katsed oleksid väga kulukad ning aastakümnete pikkused katsed pole teostatavad. Ühtlasi oleks raske eetiliselt põhjendada inimestele potentsiaalselt ohtliku toitumise määramist. Seetõttu tehakse paljud toitumist puudutavad uuringud vaatlusandmete põhjal. Vaatlusandmed jagunevad veel omakorda alamgruppidesse. Näiteks cross-sectional uuringus kogutakse andmed ühel hetkel, aga kohordiuuringutes (cohort study) kogutakse andmeid ühelt inimgrupilt perioodiliselt (näiteks iga 5 aasta järel).
Kuigi kohordiuuringud on usaldusväärsemad, võib ka nendega probleeme esineda. Selliste andmete kogumine on kulukas, mistõttu püütakse neid võimalikult palju ära kasutada. Uus-Meremaa linnas Dunedinis hakati 70ndatel jälgima 1037 lapse elukäiku. Dunedini kohordi andmetest on kirjutatud üle 1200 artikli. See teeb rohkem kui üks artikkel iga inimese kohta. Ühe seose kontrollimisel on võimalik juhuslikult saada positiivne tulemus. 1200 seose kontrollimisel on täiesti kindlasti mingi osa positiivsetest tulemustest juhuslikult positiivsed.
Viidete noppimine
Järgneval joonisel olen reastanud mõned odds ratio’d artiklitest, mis uurivad kohvi joomise ja mõne vähkkasvaja riski seost [18–24].
Näeme, et kohvi joomine võiks korraga nii põhjustada vähkkasvajaid kui ka ennetada kasvajate teket. Kui ma kirjutan blogipostituse ja soovin “tõestada”, et kohv on kasulik, siis valin ühest vasemale jäävad uuringud. Kui soovin “tõestada”, et kohv on kahjulik, valin ühest paremale jäävad uuringud. Mõlemal juhul on mu väited teaduslike artiklitega põhjendatud. Kuidas saaks mulle vastu vaielda? Seetõttu on asjalik otsida ise metaanalüüse (millest tuleb hiljem juttu), mis võtavad mingit küsimust puudutavad uuringud kokku.
Tähelepanek: sellel joonisel ning tubaka, soola, kiudainete ja D-vitamiini joonisel on teadlikult tehtud viga. Osades viidatud uuringutes on kasutatud odds ratio’t, osades hazard ratio’t, osades relative risk’i ja ühes rate ratio’t. Kodune ülesanne statistikahuvilisele lugejale on uurida nende sarnasusi ja erinevusi.
Kui juba toidust juttu on, siis igasuguste toiduainete ohtlikkust on võimalik “teaduslikult tõestada”. John Ioannidis kirjutas kolleegiga analüüsi, kus nad otsisid kokaraamatust juhuslikult valitud 50 hariliku toiduaine ja vähi seost käsitlevaid uuringuid. Nad leidsid, et nendest 40 peaksid põhjustama vähki [25]. Vähiga hirmutamine on meedias nii populaarseks saanud, et on koostatud lausa andmebaas Daily Maili artiklitest, mis seostavad midagi vähitekke või vähi ennetamisega.
Isiklikud huvid
Paratamatult on ka teadlased oma arvamustega inimesed. Isegi, kui uuring on ausalt läbi viidud, siis järelduste tegemisel ning artiklit meedias kajastades on autoritel vaba voli oma arvamust kasutada. Ühes uuringus vaadeldi antidepressantide metaanalüüside järeldusi. Leiti, et ravimitootjatega seotud autorid raporteerisid 22 korda harvemini ravimi negatiivseid kõrvaltoimeid [26]. Mõnikord tuleb paratamatult ka jälgida, millised on autori huvid.
Õhku täis puhutud meediakajastus
Ajakirjanikele ei paku huvi kaalutletud ja ettevaatlikud järeldused. Inimesed tahavad lugeda revolutsiooniliste avastuste kohta. Seetõttu kannatab sageli objektiivse teadustöö aus kajastus. Toome ühe näite antidepressantide näol. 2008. aastal ja 2018. aastal tehtud metaanalüüsides leiti, et antidepressantide efekti suurus on vastavalt 0.32 ja 0.30 (Coheni d) [27, 28]. Coheni d on üks statistik efekti suuruse mõõtmiseks. Praegu on ainult oluline panna tähele, et need väärtused on sisuliselt identsed. Vaatame aga kuidas kajastas neid artikleid ajakiri The Guardian.

Samast tulemusest on tehtud täpselt vastupidised järeldused. Tegelikult ei saa siinkohal Guardiani süüdistada, sest nemad kirjutasid oma artiklid teadusartiklite järeldustest. Kuna antidepressantide mõju on küllaltki väike, siis võib subjektiivselt vaielda nende tarvitamise vastu või poolt. Aga oluline on meelde jätta, et pealkirjad meedias stiilis “Teadlased avastasid, et …”, ei ole usaldusväärsed.
Metaanalüüsid
Metaanalüüs on mitme uuringu tulemusi kombineeriv statistiline analüüs. Metaanalüüsi metoodika võimaldab arvutada vaatluse all oleva seose efekti suuruse, mis võtab kokku kõigi käsitletud uuringute tulemused. Kui üksikud uuringud võivad seost kinnitada või ümber lükata, siis metaanalüüs võiks meile anda teaduse konsensuse. Kui mind huvitab mingi seos, siis kõigepealt püüan otsida, kas selle kohta on kirjutatud metaanalüüse. Tervist puudutavate küsimuste osas on väga hea allikas Cochrane’i andmebaas.
Siiski ei saa ka metaanalüüsi pimesi uskuda. Mitmed kirjeldatud probleemid puudutavad ka metaanalüüse. Näiteks võib metaanalüüsi autor järelduste tegemisel isiklikku arvamust kasutada. Publication bias’i tõttu võib analüüsi sisendiks olevate uuringute kvaliteet vilets olla, sest negatiivse tulemusega uuringud on jäänud publitseerimata. Näiteks võib leida metaanalüüse, mis kinnitavad, et inimesed saavad tulevikku ennustada [29] ja homöopaatilised ravimid töötavad [30]. Statistika meetodite puhul tuleb meeles pidada GIGO põhimõtet – garbage in, garbage out.
Bayesian inference
Mitmed teadlased peavad probleemiks uuringute disainis ja andmeanalüüsis kasutatud filosoofilist lähenemist. Kuigi koolis õpetatakse, miks nii mõelda ei saa, kiputakse statistikat ikkagi nägema oraaklina, kellele andmeid söötes saab jah/ei vastuseid. Iga katse kas tõestab või lükkab ümber midagi.
Nö klassikalise statistika maailmavaate kohta öeldakse frequentist, mis tuleneb sõnast frequency (sagedus). Näiteks populaarne nullhüpoteeside testide loogika on lihtsustades selline:
- Eeldame, et efekti pole olemas.
- Arvutame andmestiku tõenäosuse põhinedes sellel eeldusel.
- Kui see tõenäosus on väga väike (ehk me poleks tõenäoliselt pidanud sellist andmestikku saama), siis oli ilmselt efekti puudumise hüpotees vale.
Kui loogikas kehtib implikatsioon A järelikult B, siis B mittekehtimine seab tõesti A kahtluse alla, aga siin pole tegu loogikaga, sest me tegeleme juhuslike sündmustega. Praktika näitab, et nullhüpoteeside testidega võib väga sageli saada juhuslikult positiivseid tulemusi.
Üks idee oleks lasta otsustamise tõenäosuse piir (olulisusnivoo) allapoole [31]. See on kompromiss, mis võimaldab statistikatarkvara oraaklina edasi kasutada, aga loodetavasti vähendab valepositiivsete tulemuste hulka.
Teine idee on lähtuda alternatiivsest maailmavaatest – Bayesian inference’ist, mis on nime saanud matemaatik Thomas Bayesi järgi. Selles maailmavaates ei ole tõenäosus mitte sündmuse toimumise sagedus vaid mingi väite uskumise tugevus. Bayesian inference õpetab, kuidas uskumuse tugevust muuta uute andmete ilmumisel. Kõige lihtsam näide oleks münt, mis maandub enam ühele küljele. Enne katsete tegemist võtan ma kulli ja kirja tõenäosuseks 50%. Kui ma saan mündiviskel pärast esimest katset kulli, tõstan oma uskumust kulli suhtes. Kui ma saan pärast teist katset kirja, langetan kulli uskumust. Kui ma olen näiteks pärast sadat katset saanud 70 korda kulli, siis on minu usk mündiviskel kulli saamisesse tugev. Samamoodi võiksime suhtuda teadusuuringutesse:
- Uuringu eesmärk pole väidet tõestada ega ümber lükata vaid koguda andmeid.
- Ükski väide pole tõene või väär. On vaid väited, millesse meil on tugevam või nõrgem usk.
- Bayesian lähenemise eelis on ka eelduste tõenäosused. Kui mingi väide on andmeid nägemata teoreetiliselt väga kahtlane, siis ma saan uskumuse tugevuse, mida ma uuendama hakkan, seada sellele vastavalt.
Lisaks filosoofilisele aspektile on Bayesian inference metoodika loonud ka matemaatilisi vahendeid, mis on alternatiiviks klassikalistele frequentist meetoditele [32]. Need vahendid on aga keerulisemad ning nõuavad mõnikord suuremat arvutusressurssi, mistõttu need pole seni väga populaarseks saanud. Nullhüpoteeside testide probleemidest ja lahendustest on põneva artikli kirjutanud Andrew Gelman koos kolleegidega [33].
Kokkuvõte
Teadust on raske teha ning tõlgendada.
Need negatiivsed näited on tegelikult hea uudis, sest see näitab, et protsess töötab – teadlased avastavad probleeme ja püüavad protsessi parandada. Teadus ei ole Piibel, mis ütleb meile, mis on õige ja vale, vaid see on protsess, mis enda parandamise läbi jõuab tõele lähemale.
Kui sa juba polnud teaduse kajastuse suhtes kriitiline, siis loodan, et pärast nende näidete lugemist suhtud skeptilisemalt meedias, internetis ja raamatutes levivasse infosse. Kõige turvalisem on parema info puudumisel uskuda, et ühtegi seost pole olemas. Nii on ka endal kergem elada, sest ei pea kogu aeg midagi kartma.
Allikad
[1] D. R. Carney, A. J. C. Cuddy, and A. J. Yap, “Power posing: Brief nonverbal displays affect neuroendocrine levels and risk tolerance,” Psychological Science, vol. 21, no. 10, pp. 1363–1368, 2010.
[2] E. Ranehill, A. Dreber, M. Johannesson, S. Leiberg, S. Sul, and R. A. Weber, “Assessing the robustness of power posing: No effect on hormones and risk tolerance in a large sample of men and women,” Psychological Science, vol. 26, no. 5, pp. 653–656, 2015.
[3] J. P. Simmons and U. Simonsohn, “Power posing: P-curving the evidence,” Psychological Science, vol. 28, no. 5, pp. 687–693, 2017.
[4] M. S. Hagger, N. L. D. Chatzisarantis, H. Alberts, C. O. Anggono, C. Batailler, A. R. Birt, R. Brand, M. J. Brandt, G. Brewer, S. Bruyneel, D. P. Calvillo, W. K. Campbell, P. R. Cannon, M. Carlucci, N. P. Carruth, T. Cheung, A. Crowell, D. T. D. D. Ridder, S. Dewitte, M. Elson, J. R. Evans, B. A. Fay, B. M. Fennis, A. Finley, Z. Francis, E. Heise, H. Hoemann, M. Inzlicht, S. L. Koole, L. Koppel, F. Kroese, F. Lange, K. Lau, B. P. Lynch, C. Martijn, H. Merckelbach, N. V. Mills, A. Michirev, A. Miyake, A. E. Mosser, M. Muise, D. Muller, M. Muzi, D. Nalis, R. Nurwanti, H. Otgaar, M. C. Philipp, P. Primoceri, K. Rentzsch, L. Ringos, C. Schlinkert, B. J. Schmeichel, S. F. Schoch, M. Schrama, A. Schütz, A. Stamos, G. Tinghög, J. Ullrich, M. vanDellen, S. Wimbarti, W. Wolff, C. Yusainy, O. Zerhouni, and M. Zwienenberg, “A multilab preregistered replication of the ego-depletion effect,” Perspectives on Psychological Science, vol. 11, no. 4, pp. 546–573, 2016.
[5] J. P. Ioannidis, “Why most published research findings are false,” PLoS medicine, vol. 2, no. 8, p. e124, 2005.
[6] Open Science Collaboration, “Estimating the reproducibility of psychological science,” Science, vol. 349, no. 6251, 2015.
[7] C. G. Begley and L. M. Ellis, “Drug development: Raise standards for preclinical cancer research,” Nature, vol. 483, no. 7391, p. 531, 2012.
[8] F. Prinz, T. Schlange, and K. Asadullah, “Believe it or not: How much can we rely on published data on potential drug targets?” Nature reviews Drug discovery, vol. 10, no. 9, p. 712, 2011.
[9] J. P. Ioannidis, “How many contemporary medical practices are worse than doing nothing or doing less?” in Mayo clinic proceedings, 2013, vol. 88, pp. 779–781.
[10] J. Bohannon, D. Koch, P. Homm, and A. Driehaus, “Chocolate with high cocoa content as a weight-loss accelerator,” Global Journal of Medical Research, 2015.
[11] A. Gelman and E. Loken, “The garden of forking paths: Why multiple comparisons can be a problem, even when there is no ‘fishing expedition’ or ‘p-hacking’ and the research hypothesis was posited ahead of time,” Department of Statistics, Columbia University, 2013.
[12] L. D’Elia, G. Rossi, R. Ippolito, F. P. Cappuccio, and P. Strazzullo, “Habitual salt intake and risk of gastric cancer: A meta-analysis of prospective studies,” Clinical nutrition, vol. 31, no. 4, pp. 489–498, 2012.
[13] F. Barbone, M. Bovenzi, F. Cavallieri, and G. Stanta, “Cigarette smoking and histologic type of lung cancer in men,” Chest, vol. 112, no. 6, pp. 1474–1479, 1997.
[14] J. Liu, Y. Dong, C. Lu, Y. Wang, L. Peng, M. Jiang, Y. Tang, and Q. Zhao, “Meta-analysis of the correlation between vitamin d and lung cancer risk and outcomes,” Oncotarget, vol. 8, no. 46, p. 81040, 2017.
[15] D. Aune, D. S. Chan, R. Lau, R. Vieira, D. C. Greenwood, E. Kampman, and T. Norat, “Dietary fibre, whole grains, and risk of colorectal cancer: Systematic review and dose-response meta-analysis of prospective studies,” Bmj, vol. 343, p. d6617, 2011.
[16] R. Perlikowska and A. Janecka, “Rubiscolins-highly potent peptides derived from plant proteins,” Mini reviews in medicinal chemistry, vol. 18, no. 2, pp. 104–112, 2018.
[17] D. A. Lawlor, G. D. Smith, K. R. Bruckdorfer, D. Kundu, and S. Ebrahim, “Those confounded vitamins: What can we learn from the differences between observational versus randomised trial evidence?” The Lancet, vol. 363, no. 9422, pp. 1724–1727, 2004.
[18] D. A. Boggs, J. R. Palmer, M. J. Stampfer, D. Spiegelman, L. L. Adams-Campbell, and L. Rosenberg, “Tea and coffee intake in relation to risk of breast cancer in the black women’s health study,” Cancer Causes & Control, vol. 21, no. 11, pp. 1941–1948, 2010.
[19] M. M. Ros, H. Bas Bueno-de-Mesquita, F. L. Büchner, K. K. Aben, E. Kampman, L. Egevad, K. Overvad, A. Tjønneland, N. Roswall, F. Clavel-Chapelon, and others, “Fluid intake and the risk of urothelial cell carcinomas in the european prospective investigation into cancer and nutrition (epic),” International journal of cancer, vol. 128, no. 11, pp. 2695–2708, 2011.
[20] D. S. Michaud, V. Gallo, B. Schlehofer, A. Tjønneland, A. Olsen, K. Overvad, C. C. Dahm, B. Teucher, A. Lukanova, H. Boeing, and others, “Coffee and tea intake and risk of brain tumors in the european prospective investigation into cancer and nutrition (epic) cohort study,” The American journal of clinical nutrition, vol. 92, no. 5, pp. 1145–1150, 2010.
[21] K. Nakamura, C. Nagata, K. Wada, Y. Tamai, M. Tsuji, N. Takatsuka, and H. Shimizu, “Cigarette smoking and other lifestyle factors in relation to the risk of pancreatic cancer death: A prospective cohort study in japan,” Japanese journal of clinical oncology, vol. 41, no. 2, pp. 225–231, 2010.
[22] B. Ganesh, S. Sushama, S. Monika, and P. Suvarna, “A case-control study of risk factors for lung cancer in mumbai, india,” Asian Pac J Cancer Prev, vol. 12, no. 2, pp. 357–62, 2011.
[23] T. Michikawa, M. Inoue, T. Shimazu, S. Sasazuki, M. Iwasaki, N. Sawada, T. Yamaji, and S. Tsugane, “Green tea and coffee consumption and its association with thyroid cancer risk: A population-based cohort study in japan,” Cancer Causes & Control, vol. 22, no. 7, p. 985, 2011.
[24] L. M. Nilsson, I. Johansson, P. Lenner, B. Lindahl, and B. Van Guelpen, “Consumption of filtered and boiled coffee and the risk of incident cancer: A prospective cohort study,” Cancer Causes & Control, vol. 21, no. 10, pp. 1533–1544, 2010.
[25] J. D. Schoenfeld and J. P. Ioannidis, “Is everything we eat associated with cancer? A systematic cookbook review,” The American journal of clinical nutrition, vol. 97, no. 1, pp. 127–134, 2012.
[26] S. Ebrahim, S. Bance, A. Athale, C. Malachowski, and J. P. Ioannidis, “Meta-analyses with industry involvement are massively published and report no caveats for antidepressants,” Journal of clinical epidemiology, vol. 70, pp. 155–163, 2016.
[27] I. Kirsch, B. J. Deacon, T. B. Huedo-Medina, A. Scoboria, T. J. Moore, and B. T. Johnson, “Initial severity and antidepressant benefits: A meta-analysis of data submitted to the food and drug administration,” PLoS medicine, vol. 5, no. 2, p. e45, 2008.
[28] A. Cipriani, T. A. Furukawa, G. Salanti, A. Chaimani, L. Z. Atkinson, Y. Ogawa, S. Leucht, H. G. Ruhe, E. H. Turner, J. P. Higgins, and others, “Comparative efficacy and acceptability of 21 antidepressant drugs for the acute treatment of adults with major depressive disorder: A systematic review and network meta-analysis,” Focus, vol. 16, no. 4, pp. 420–429, 2018.
[29] D. J. Bem, “Feeling the future: Experimental evidence for anomalous retroactive influences on cognition and affect.” Journal of personality and social psychology, vol. 100, no. 3, p. 407, 2011.
[30] K. Linde, N. Clausius, G. Ramirez, D. Melchart, F. Eitel, L. V. Hedges, and W. B. Jonas, “Are the clinical effects of homoeopathy placebo effects? A meta-analysis of placebo-controlled trials,” The Lancet, vol. 350, no. 9081, pp. 834–843, 1997.
[31] J. P. A. Ioannidis, “The proposal to lower p value thresholds to .005,” JAMA, vol. 319, no. 14, pp. 1429–1430, Apr. 2018.
[32] J. K. Kruschke, “Bayesian estimation supersedes the t test.” Journal of Experimental Psychology: General, vol. 142, no. 2, p. 573, 2013.
[33] B. B. McShane, D. Gal, A. Gelman, C. Robert, and J. L. Tackett, “Abandon statistical significance,” arXiv preprint arXiv:1709.07588, 2017.