Det våras för replikationsstudier

Replikerande studenter?

I princip all empirisk forskning utgår från datamaterial som samlats in under specifika omständigheter, tidsperioder och geografiska områden. Behovet att säkerställa resultatens tillförlitlighet och överförbarhet till andra områden är därför stort. Replikationsstudier utgör ett naturligt sätt att möta detta behov, men trots detta görs och publiceras väldigt få sådana studier inom nationalekonomi. Fast kanske har ett trendbrott skett?

I en tänkvärd artikel beklagar sig den amerikanske ekonomen Daniel Hamermesh över nationalekonomins problem att generera replikationsstudier. Antingen innebär detta att man upprepar undersökningen på samma datamaterial med samma eller ny metod, eller att man använder ett annat datamaterial för att testa resultatens giltighet. Kvalitetsgranskning sker visserligen redan idag, men det är sällan som referees går på djupet så att alla fel – små eller stora – kan upptäckas i datahantering, programmering eller metodval.

Enligt Hamermesh skulle replikationsstudier utgöra ett utmärkt komplement i granskningen. Naturligtvis kan inte alla artiklar replikeras utan endast där andra anser det tillräckligt nödvändigt eller intressant. Tyvärr görs och publiceras alltför få replikationsstudier. Hamermesh spekulerar i vad detta beror på, och konstaterar att sådana studier inte värderas i professionen (pga bristande originalitet), men även att man riskerar göra sig ovän med de forskare vars arbete man ska granska. En annan anledning är att få forskare tillgängliggör sina dataset.

Men på senare tid har åtminstone ett av dessa hinder börjat rämna: tillgängligheten på data. Sedan några kräver American Economic Review att alla författare publicerar sina data, fritt nedladdningsbara med tillhörande dokumentationsfiler. Därefter har fler slutit upp (bl a QJE, ReStud, ReStat, JHR) och förhoppningsvis växer en ny norm fram där det blir självklart att offentliggöra alla data och programfiler i samband med publicering.

För att snabba på utvecklingen av en livaktigare replikationslitteratur tycker jag att högre grundutbildnings- och doktorandkurser bör rutinmässigt innehålla replikationsövningar. Studenterna lär sig mycket genom att bekanta sig med “riktiga” dataset och hur statistikprogramkod ser ut. Men kanske viktigast av allt är att studenterna på detta vis skapar ett mervärde för hela forskarkollektivet. Kanske kan vi snart inte längre ta forskningsresultat för givna bara för att de publicerats – vi måste vänta tills de har replikerats!

HT: Martin F

Comments

  1. Ett problem är i sammanhanget att många av de datamaterial vi arbetar med är konfidentiella av integritetsskäl. Detta gäller inte bara skandinaviska registerdata utan även exempelvis mer detaljerad data från US census och viss företagsdata. Om normen blir för hård kommer därför mycket intressant och viktig forskning inte att bedrivas alls.

    • Helt rätt — detta är en utmaning. Redan idag kan man dock ordna så att andra forskare kan få tillgång till data hos statistikproducenten (t ex SCB) för replikationssyfte. Det är inte riktigt lika bra och kommer inte få riktigt samma spinoff-effekter som att datasetet läggs ut för fri nedladdning, men det är en kompromiss som möjliggör publikationer baserade på skyddade mikrodata.

    • Oskar NS says:

      Tidskrifterna tenderar ju att godkänna skrivningar av typen ”data går att köpa hos SCB” vilket jag tycker är rimligt så länge man tillhandahåller dataskapande koder. På samma sätt är det ju rimligt att man kan ställa samma ”access on location”-krav på den som replikerar som för den ursprunglige forskaren.

      För mig är det här tillräckligt och en stort steg från när data är helt konfidentiella och omöjliga att få tag på för andra forskare, i vilket fall det ju är ganska tveksamt hur man ska värdera forskningen (se t ex Christofer Gillberghistorien).

      Men det är klart, så länge det i praktiken inte går att publicera replikationer så är det sannolikt få som är villiga att shoppa data enligt SCBs prislista eller campa i ett datacenter i Nurnberg i ett par månader.

    • Jag håller med Oskar om att bara spridning av de dataskapande koderna är ett stort steg framåt. Det gör att forskaren redan från början tvingas strukturera sitt arbete bättre och mer transparent.

      Glöm dock inte att replikationer inte enbart handlar om att upprepa analysen på samma dataset, dvs det som Hamermesh kallar ”statistisk replikering”. Man kan även replikera studien på andra data, med samma metod, eller kanske med ny metod, vilket Hamermesh kallar ”vetenskaplig replikering”. Detta gör att man kan använda sina egna data för att replikera någon annans studie. Men även detta görs alltså alltför sällan.

  2. Oskar NS says:

    Jag håller helt med om att bristen på replikationer är ett stort problem. Tror dock inte att datatillgängligheten är avgörande. Många studier görs ju på lätt tillgängliga data men replikeras inte för det. I allmänhet är man dessutom kanske framförallt intresserad av replikationer på andra dataset (wide/scientific replication).

    Men det är ju inte lätt att publicera en studie som säger ”jag gjorde samma sak på svenska data som X gjorde i sin AER-artikel på norska data och jag fick likartade/annorlunda resultat” om man inte tillför någon metodologisk eller teoretisk aspekt. Och det är väl där det stora problemet ligger. Genom att alla uppsatser därför innehåller mer eller mindre konstruerade innovationer blir det svårt att i slutändan få en tydlig bild av vad den samlade evidensen egentligen säger.

    Tänk vad annorlunda det hade sett ut om AER hade haft som vana att publicera letterslånga replikationer av deras tidigare artiklar.

    Ett möjlig outlet för den som känner för att replikera är annars Journal of Applied Econometrics som åtminstone har en ”Replication Section”

    http://onlinelibrary.wiley.com/journal/10.1002/%28ISSN%291099-1255/homepage/News.html#replication

    För den som är intresserad av om det verkligen går att replikera ett AER-papper finns denna relativt nya rapport att tillgå

    http://www.aeaweb.org/aer/2011_Data_Compliance_Report.pdf

    • Nej, det är inte tillgången på data som avgör utan incitamenten att göra replikeringar överhuvudtaget. Men om man rutinmässigt uppdrog åt studenter eller andra att replikera artiklar, och redovisade detta mycket kortfattat i en ”Replication Section” skulle detta kunna bli mindre stigmatiserande. Det skulle bli lite som att skriva refereerapporter, fast mer ambitiöst och mer meriterande om det blir tydligt vem som gjort det.

      Tack för intressanta länkar.

  3. Calle says:

    Daniel, som fd NEK-student ger jag, utifrån att detta skulle göra studierna mer spännande och forskningsnära, denna idé en lång varm applåd.

  4. Christoffer Rydland says:

    Inte så dumt. Jag kan tycka att intervjuer också borde göras tillgängliga. En hel del kvalitativ forskning bygger på tolkning av sådana.

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut / Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut / Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut / Ändra )

Google+ photo

Du kommenterar med ditt Google+-konto. Logga ut / Ändra )

Ansluter till %s