Vabandust! Lõppude lõpuks pole psühholoogilises teaduses „reprodutseeritavuse kriisi”

Kui teil on uurimisprojekt - avatud teaduse koostöö (OSC) -, mis hõlmab 270 läbimurreteadusega tegelevat teadlast, loodate, et nad saavad mõned põhitõed õigeks. Nagu randomiseeritud uuringu kavandamine, mis oleks metodoloogiliselt mõistlik ja suudaks seista eakaaslaste kontrolli all.

Kuid 44 teadlase 2015. aasta augustis avaldatud murrangulisel artiklil "Psühholoogiateaduse reprodutseeritavuse hindamine" (Nosek et al., 2015) näib olevat olnud mõningaid olulisi vigu. Uus artikkel viitab sellele, et tegelikult pole psühholoogias „korduvuskriisi”.

Neli teadlast Harvardi ülikoolist ja Virginia ülikoolist (Gilbert et al., 2016) avaldasid oma leiud aastal Teadus (nende psühholoogia replikatsioonide veebisaidil on kõik andmed ja materjal). Nad usuvad, et leidsid algses uuringus kolm peamist statistilist viga, mis seavad selle järeldused tõsiselt kahtluse alla. Uued teadlased väidavad: "Tõendid on tõepoolest kooskõlas vastupidise järeldusega - et psühholoogilise teaduse reprodutseeritavus on üsna kõrge ja tegelikult statistiliselt 100% -liselt eristamatu."

Vabandust.

Esialgses uuringus (Nosek et al., 2015) üritati korrata 100 katse tulemusi, mis on esitatud 2008. aastal avaldatud artiklites kolmes kõrgel psühholoogiaajakirjas. Uuringu esimene kriitika seisneb selles, et see ei olnud psühholoogia uuringute randomiseeritud valik. Selle asemel piirdus Noseki rühm uuringute valiku ainult kolme ajakirjaga, mis esindasid kaht tühist psühholoogiadistsipliini, jättes välja sellised peamised valdkonnad nagu arengu- ja kliiniline psühholoogia. Siis Nosek jt. kasutas keerukat meelevaldsete reeglite ja kriteeriumide kogumit, mis diskvalifitseeris enam kui 77 protsenti uuringutest nende kolme uuritud ajakirja alt.

Kallutatud valimist alustavatel uuringutel on kindlasti probleeme. Randomiseeritud valimist alustamata aitasid teadlased juba seada pettumust valmistavate leidude etapi.

Muutkem (märkimisväärselt) uuringuid, mida me kordame

Veelgi hullem kui kallutatud, mitte-randomiseeritud valimi alustamine oli see, kuidas teadlased replikatsioone tegelikult viisid. Esiteks kutsusid teadlased "konkreetseid meeskondi teatud uuringuid kordama või lubasid meeskondadel valida uuringud, mida nad soovisid korrata". Selle asemel, et määrata uurijaid juhuslikult replikatsiooniks tehtavatele uuringutele, lasid nad teadlastel valida - tuues iga uurija kallutatuse, et valida uuringud, mida nende arvates kõige vähem tõenäoliselt korratakse.

Uued uuringud erinesid mõnikord oluliselt vanadest uuringutest, mida nad üritasid korrata. Siin on vaid üks (vähemalt tosinast) näidet selle kohta, kuidas replikatsiooniuuring tõi kaasa olulisi tüsistusi:

Teises uuringus vaatasid Stanfordi ülikooli valged üliõpilased videot neljast Stanfordi üliõpilasest, kes arutasid oma ülikooli vastuvõtupoliitikat (Crosby, Monin ja Richardson, 2008). Kolm arutlejat olid valged ja üks mustanahalised. Arutelu käigus tegi üks valgetest üliõpilastest jaatava tegevuse kohta solvavaid kommentaare ja teadlased leidsid, et vaatlejad vaatasid mustanahalist üliõpilast oluliselt kauem, kui nad uskusid, et ta kuuleb teiste kommentaare, kui siis, kui ta ei suutnud. Kuigi replikatsiooniuuringus osalejad olid Amsterdami ülikooli üliõpilased, vaatasid nad sama videot Stanfordi tudengitest (inglise keeles!) Stanfordi vastuvõtupoliitikast.

Kas Amsterdami ülikooli üliõpilased võiksid Ameerika ja Amsterdami ühiskonna olulisi kultuurilisi erinevusi arvestades tõesti mõista, mis oli jaatav tegevus Ameerikas? Hämmastavalt väitsid replikatsiooni läbi viinud teadlased, et uuringud olid "praktiliselt identsed" (ja loomulikult on nad seda kallutanud, kuna see on nende Uuring). Esialgsed teadlased, tunnistades kahe populatsiooni olulisi kultuurilisi erinevusi, ei kinnitanud siiski uut replikatsiooniuuringut.

Gilbert ja tema kolleegid leidsid sellist probleemi mitte ainult ühes, vaid paljudes replikatsiooniuuringutes. Tundub veider, et Nosek jt. tundis, et sellised vastuolud ei mõjuta uuringu kvaliteeti (või "truudust", nagu teadlased seda nimetavad). Kuid ilmselgelt on need olulised kvalitatiivsed erinevused, mis kindlasti mõjutavad uuringu korduvust.

Me vajame rohkem energiat!

Uuring võib seista või langeda selle kujundusele. Ja uurimisuuringu kujunduse põhiosa on see võim. Replikatsiooniuuringus kasutati disaini, mis oli tõenäoliselt juba eos luhtunud. Väikese energiatarbega disainilahendused ei suuda saavutada efekti suurust, mida suudavad suurema võimsusega uuringud. Valides madala energiatarbega disaini, tagasid Nosek ja tema kolleegid praktiliselt oma negatiivsed leiud enne ühe andmepunkti kogumist.

Nosek ja tema kolleegid esitasid disainilahenduse osas paar õlgmehe argumenti, mille Gilbert jt. tulistati nende vastuses ükshaaval alla. Gilberti ja tema kolleegide järeldus?

Kokkuvõtteks võib öelda, et ükski [replikatsiooni uurijate] esitatud argumentidest ei vaidlusta asjaolu, et [uue uuringu] autorid kasutasid väikese võimsusega disaini ja et (nagu näitavad meie ML2014 andmete analüüsid) tõi see tõenäoliselt kaasa nende andmete tegeliku replikatsiooni määra alahindamine.

Teised psühholoogiauurijad korraldasid sarnase replikatsioonieksperdi juba 2014. aastal (Klein et al., 2014). Kasutades suure võimsusega disaini, leidsid nad, et enamus nende uuritud psühholoogiauuringutest korduvad - 11 katset 13-st kordus. Noseki jt väiksema võimsusega disaini mõju testimiseks on Gilbert jt. hinnangul on 2014. aasta uuringu replikatsioonimäär langenud 85 protsendilt 34 protsendile. Oluline ja kõnekas erinevus.

Mida me siis psühholoogilise teaduse reprodutseeritavusest tegelikult teame?

Rohkem kui arvasime. Arvestades Gilberti jt kriitikat ja originaalteadlaste kohutavat vastust, näib tõenäolisem, et Nosek jt. uuring oli kriitiliselt puudulik.

Näib, et psühholoogiline teadus on reprodutseeritavam, kui me arvasime - hea uudis nii teadusele kui ka psühholoogiale.

Viited

Gilbert, D., King, G., Pettigrew, S. & Wilson, T. (2016). Kommenteerige teemat ‘Psühholoogiateaduse reprodutseeritavuse hindamine’. Teadus, 351, 1037a-1037b.

Gilbert jt. (2016). Vastus meie tehnilise kommentaari "Psühholoogiateaduse reprodutseeritavuse hindamine" vastusele.

Klein, RA, Ratliff, M Vianello, RB Adams Jr, Š Bahník, MJ Bernstein jt. (2014). Korduvuse variatsioonide uurimine: replikatsiooniprojekt “Paljud laborid”. Sotsiaalpsühholoogia, 45, 142-152

Nosek jt. & Avatud teaduse koostöö. (2015). Psühholoogiateaduse reprodutseeritavuse hindamine. Teadus, 349. DOI: 10.1126 / science.aac4716

Nosek jt. (2016). Vastus kommentaarile „Psühholoogiateaduse reprodutseeritavuse hindamine”. Teadus, 351, 1037. DOI: 10.1126 / science.aad9163

!-- GDPR -->