Kan man lita på publicerad nationalekonomisk forskning? Det är en fråga som diskuterats livligt sedan den så kallade replikationskrisen slog hårt mot psykologin för drygt ett decennium sedan. Detta är ett gästinlägg av Olle Hammar, biträdande lektor i nationalekonomi vid Linnéuniversitetet och forskare vid Handelshögskolan i Stockholm.
Frågan om reproducerbarhet inom nationalekonomisk forskning är också långt ifrån ny på Ekonomistas (se tidigare exempel här, här, här, här, här, här och här). I dagarna publicerades en av de hittills största reproduktionsstudierna inom samhällsvetenskap iNature, med konkreta svar på hur det faktiskt står till.
I studien reproducerade vi 110 artiklar publicerade i ledande nationalekonomiska och statsvetenskapliga tidskrifter 2022–2023, samtliga med obligatorisk data- och koddelning. Projektet leds av Institute for Replication (I4R). Ett av I4R:s viktigaste verktyg är så kallade replication games: endagsevenemang där forskarteam tillsammans granskar och testar robustheten hos publicerade studier, det vill säga både om resultaten går att reproducera och om de är robusta mot rimliga alternativa analysval. Bland de över 350 medförfattarna finns flera svenska forskare: Anna Dreber, Magnus Johannesson, Carl Bonander, Pamela Campa, Gabriella Chauca Strand, Niklas Jakobsson, Gustav Kjellsson, Julian Walterskirchen, Christian Westheide och jag.
Den goda nyheten: reproduceringen fungerar bra
85 procent av de publicerade resultaten visade sig vara beräkningsmässigt reproducerbara, det vill säga att oberoende forskare kan köra originalkoden och få fram samma siffror. Det är en markant förbättring jämfört med äldre studier och speglar sannolikt att dataredaktörerna på ledande tidskrifter har gjort verklig skillnad.
En viktig förklaring till den positiva trenden är att datadelningen förbättrats dramatiskt under det senaste decenniet. Medan bara 59 procent av studierna i de undersökta tidskrifterna hade ett replikeringspaket 2014, hade andelen stabiliserats på 90 procent 2021–2023.
Men reproducerbarhet är inte detsamma som robusthet
När vi istället prövar om resultaten håller när man gör rimliga alternativa analysval, som exempelvis andra kontrollvariabler, annan urvalsbegränsning, annan estimeringsmetod eller liknande, sjunker andelen. 72 procent av de statistiskt signifikanta resultaten förblir signifikanta i samma riktning. Intressant nog påverkar dessa känslighetsanalyser framför allt standardfelen snarare än koefficienternas storlek. Vi hittar dessutom kodningsfel i ungefär 25 procent av artiklarna, varav allvarligare kodningsfel i ungefär en av tio studier.
Vad innebär detta för forskning och policy?
Studien bygger på ett selektivt urval: de tidskrifter som redan har de starkaste kraven på öppna data. Resultaten är alltså sannolikt en övre gräns för reproducerbarheten i ämnet i stort. Trots det är bilden mer positiv än vad som ofta hävdas i den allmänna debatten om replikationskris. Studien visar också att transparens fungerar: obligatorisk datadelning och kodgranskning har gjort forskningen mer tillförlitlig. Att noggrann granskning kan göra skillnad illustreras även av en annan replikationsstudie som nyligen publicerades i European Economic Review och ledde till att originalpappret drogs tillbaka av tidskriften.
Projektet fortsätter på flera fronter. En uppföljande metastudie med 250 reproducerade artiklar, som bland annat undersöker vilka metoder och delområden som är mest respektive minst robusta, pågår för fullt. På hemmaplan pågår dessutom ett relaterat projekt med fokus på svenska registerdata, något som är unikt eftersom registerdata normalt sett är svårtillgängliga och därmed har exkluderats från tidigare reproduktionsstudier. En annan relaterad forskningsfråga handlar om AI:s roll i reproducerbarhetsgranskning. I den där studien jämför vi hur väl rent mänskliga team, AI-assisterade team och AI-styrda team klarar av att reproducera publicerade studier. Medan mänskliga team och AI-assisterade team lyckades reproducera resultaten i drygt 90 procent av fallen, klarade AI-styrda team bara 37 procent. Mänskliga team hittade också avsevärt fler allvarliga kodningsfel än de AI-baserade alternativen. Slutsatsen är att AI kan vara ett användbart stöd i reproducerbarhetsarbetet, men att mänsklig expertis och omdömesförmåga fortfarande är helt avgörande. Åtminstone än så länge.
Lämna en kommentar