Kan vi lita på forskningsresultat?

Idag publicerar Science resultaten från ett ambitiöst forskningsprojekt där cirka 270 forskare (framförallt psykologer, men även de svenska nationalekonomerna Anna Dreber Almenberg, Eskil Forsell, Emma Heikensten och Magnus Johannesson) har gått samman för att replikera 100 experimentella studier inom psykologi. Bakgrunden är att det särskilt inom socialpsykologin funnits en oro för utbredd användning av tveksamma forskningsmetoder, vilket bland annat aktualiserats av ett öppet brev undertecknat ekonomipristagaren Daniel Kahneman och i samband med avslöjandena av Diedrik Stapels omfattande forskningsfusk.

De hundra studierna har valts ut från tre ledande psykologiska tidskrifter och en huvudeffekt i respektive studie har valts ut för replikation. Hur många resultat kunde då replikeras? Endast 36 procent av replikationerna hittade signifikanta effekter på femprocentsnivån. I knappt hälften av fallen låg ursprungsstudiens effektskattning inom det 95-procentiga konfidensintervallet för replikeringens skattning. Nedanstående figur visar p-värdena från ursprungs- respektive replikeringsstudierna. Figuren visar tydligt effekten av rapporterings- och publiceringbias — p-värdena från de publicerade studierna är under 5 procent, medan p-värderna från replikeringsstudierna är betydligt mer utspridda.

En effekt av publiceringsbias som förstärks av låg statistisk styrka är att effektstorlekarna i publicerade studier är överdrivna (vilket fick mig att varna för signifikanta effekter i ett tidigare inlägg). I figuren nedan redovisas varje replikering som en punkt i diagrammet. Punkter nedanför 45-graderslinjen innebär att effektstorleken var större i ursprungsstudien än i replikeringsstudien. Som synes av figuren är det endast i ett fåtal fall som den replikerade effekten är större än i ursprungsstudien.

Andelen lyckade replikeringar visade sig vara lägre i socialpsykologi än kognitiv psykologi. Hur det är ställt med experimentell nationalekonomisk forskning vet vi inte, men det pågår för närvarande ett stort projekt som har som mål att replikera ett antal nationalekonomiska studier. I de flesta fall använder nationalekonomer sig dock av observationell data och i dessa fall är replikering naturligtvis betydligt svårare. Att publiceringsbias är ett bekymmer även för nationalekonomer är dock säkert. Till exempel har Orley Ashenfelter med medförfattare visat ett tydligt positivt samband mellan effektstorlek och standardfel när det gäller studier som skattar utbildningspremier. Detta är ett tecken på publiceringsbias — om standardfelen är stora måste också den skattade effekten vara stor för att resultatet skall vara statistiskt signifikant skiljt från noll. I ett tidigare inlägg har jag även skrivit om en liknande statsvetenskaplig studie.

Comments

Andreas SO says:

2015-08-28 at 9:38

Det här är väl precis varför man inte kan dra några slutsatser av en enskild studie oavsett vad den kommer fram till? Det är ju något man ser hela tiden inte bara av journalister utan även ni som skriver här brukar ju dra starka slutsatser av enskilda studier.

- Robert Östling says:
  
  2015-08-28 at 9:45
  
  Något kan man nog lära sig av enskilda studier, men jag håller med om att många (inklusive jag själv) har en tendens att dra för starka slutsatser utifrån enstaka studier. Publiceringsbias innebär dock att man även när det finns många studier måste man vara försiktig med att dra slutsatser och att man bör försöka justera för det faktum att det är ett skevt urval av studier som publiceras.
  
  - Andreas SO says:
    
    2015-08-28 at 10:16
    
    Men är detta ett problem även med systematiska översikter? Numer är det i princip det enda jag litar på.
  - Robert Östling says:
    
    2015-08-28 at 10:28
    
    Det är ett problem även där om man inte justerar för publiceringsbias, vilket är vad Ashenfelters studie försöker göra. Det är dock inte i alla översikter man tar hänsyn till detta.
Göran Zettergren says:

2015-08-28 at 14:23

Jag tror tyvärr att data mining och publiceringsbias är extremt vanliga i ekonomisk forskning. Det gäller särskilt frågeställningar som har en stark teoretisk förankring men som visar sig svåra att belägga empiriskt. Många skattade modeller tycks fullkomligt kapsejsa bara man lägger till några få observationer.
Vad värre är handlar detta nog inte om enstaka nationalekonomers tillkortakommanden utan förefaller snarare vara ett allmänt systemfel.

Martin Kolk says:

2015-08-28 at 16:06

Utmärkt studie som sätter fokus på ett väldigt stort vetenskapligt problem. Själv anar jag att problemet är extra stort i många IV-studier som från min erfarenhet är väldigt instabila. Svårt att lösa med det incitament forskare har idag, när tidskrifter och vetenskapsvärlden fungerar som idag.

En mycket bra lösning för observationella studier är att forskare slumpmässig delar upp sitt datamaterial i två delar. De analyserar bara den ena studien först, och måste publicera t ex ett working paper, innan andra halvan kan analyseras. Den färdiga artikeln inkluderar sedan både det kombinerade samt de två separata idéerna. Framför allt med väldigt stora datamaterial (som svenska register) är det en väldigt bra lösning.

Förslaget kräver ju dock nästan att en oberoende aktör som enbart delar ut halva datamaterialet i ett första steg. Det löser dock inte alla problem med data mining, och (omedveten) massage av data, även om det löser de flesta. Man kan t.ex. fortfarande hitta brus som finns i hela datamaterialet som man feltolkar som stöd för olika idéer.

- Robert Östling says:
  
  2015-08-28 at 20:38
  
  Om jag minns rätt (har inte tillgång till artikeln just nu) visar figur 1 i Ashenfelters artikel att problemet är större för IV-skattningar av utbildningspremien.
  
  Ett annat sätt att hantera problemet är att avkräva analysplaner innan man tittar på data. Det har sina för och nackdelar, men det minskar risken för publiceringsbias
  
undertallen says:

2015-08-28 at 18:39

Nullius in verba, “on the word of no one”, är mottot för Royal Society. Vad folk tenderar att glömma bort verkar vara att i “alla” ingår de kollegor som gör “peer reviews” (och jag själv). Jag önskar vetenskapen skulle ta sig själv, i vissa lägen, på mindre allvar. Givetvis ska vi ta forskningens syften på allvar. Men vi gör alla fel, vi är alla benägna till självbedrägeri, så vi bör ta oss själva på mindra allvar.

Forskning följer också “Dunbars nummer”. Det finns i stort sett bara 150 personer i varje forskningsfält i världen. Växer fältet så splittras det snart i underdiscipliner.

Så “peer reviews” bedrivs av 150 personer. De personer som fackgranskar statliga forskningsanslag utgörs i princip av samma 150 personer.

Jag återupprepar mig lite grand, men det enda som hjälper mot detta är att se till att det finns en mängd oberoende finansiärer. Staten borde inte vara en av dessa för den stjäl utrymme av resten av samhället. Att arbeta för fursten är inte heller att vara oberoende. På så sätt kan man göra det troligt (säker kan man aldrig vara, det skulle finnas “animal spirits” här också) att det finns oberoende finansierade forskare som kan skjuta i sank vad “Forskningen” har kommit fram till.

Jag har inte sett någon som visat att vad Terence Kealey kommer fram till skulle vara fel. Se hans “The Economic Laws of Scientific Research”.

Erik Mohlin says:

2015-08-30 at 17:34

En annan uppsats som finner liknande problem inom nationalekonomi: https://ideas.repec.org/p/iza/izadps/dp7268.html
Om inte annat så är uppsatsens titel helt fenomenal.

Olof Johansson-Stenman says:

2015-09-04 at 9:04

Ett stort problem i sammanhanget är tidskrifternas mycket njugga inställningar till replikeringsstudier, och kommentarer mer allmänt. En indirekt effekt av det är att unga forskare normalt får rådet att inte skriva kommentarer på andras artiklar, även om det är sakligt motiverat, då det inte gynnar deras karriär. Här är dock ett lovvärt initiativ för att uppmuntra fler repliekrinsstudier i nationalekonomi:

Replication Studies

Christina Gidner says:

2016-03-04 at 11:23

Jag är inte nationalekonom eller annan ekonom heller och inte psykolog eller akademiker men jag är nyfiken på en sak: varför ska nationalekonomer kritisera psykologtester över huvud taget och är det inte en del skillnader mellan psykologi och ekonomi? Blir det inte som att jämföra ett prov i grundskolan i ämnet geografi med ett prov i träslöjd? Man får olika resultat och använder olika metoder i de olika typen av prov. I och för sig är psykologi och nationalekonomi teori båda två så länge men håller sig på tankenivån, men det är ju väldigt olika saker. Sedan får jag lägga till att jag inte förstår vad ni skriver för jag vet inte vad det handlar om? Så jag ber om ursäkt för att jag lade mig i nåt jag inte har med att göra kanske.

- jahaja says:
  
  2016-03-04 at 13:10
  
  Kritiken handlar inte nationalekonomi utan statistik (som är en viktig del inom många grenar av nationalekonomin). Det är inte märkligare än att språkvetare skulle kritisera felstavningar och andra språkfel i en text av en psykolog.