Den psykologiska disciplinen har genomgått en replikationskris efter att det visat sig att en hel del tidigare forskningsresultat inte låtit sig replikeras. Andrew Gelman har skrivit en lång och mycket läsvärd redogörelse för denna kris. En av Gelmans förklaringar till hur så många icke-replikerbara forskningsresultat uppkommit är det svåröversättliga begreppet “garden of forking paths“. I analysen av data ställs forskaren inför en mängd val där det är frestande att göra valen efter att man har sneglat på resultatet, kanske för att man är på jakt efter statistiskt signifikanta resultat som vinner tidskriftsredaktörens gunst. Ställs man inför många sådana val kan slutresultatet bli ganska missvisande, och hade man gjort andra vägval kanske man hade kommit fram till ett helt annat resultat.
Nyligen bjöd Dana Carney, forskare i psykologi på Berkeley, på en illustration av denna vetenskapliga fallucka. Bakgrunden är en artikel om “power posing” som Carney publicerat tillsammans med Amy Cuddy och Andy Yap. I artikeln visades att man kunde påverka andra människors risktagande och hormonnivåer genom att inta kroppspositioner som utstrålar makt. Studien har fått enorm uppmärksamhet och Amy Cuddy har till exempel spelat in en TED Talks-föreläsning som miljontals människor tittat på. I fjol visade dock den svenska nationalekonomen Eva Ranehill (tillsammans med bland andra Anna Dreber Almenberg och Magnus Johannesson) att den ursprunliga studien inte gick att replikera. Att döma av Cuddys kommentar är sista ordet kanske ännu inte sagt, men Carneys mycket hedervärda offentliga avbön är läsvärd eftersom den ger en sällsynt och ärlig inblick i hur felaktiga resultat kan uppstå även om det inte finnas ont uppsåt. Huvudproblemet med ursprungsstudien är låg statistisk styrka, men Carney medger också t.ex. att de utan goda skäl valde ett statistiskt test som gav ett p-värde på 0.05 i stället för ett test som gav ett p-värde strax däröver.
De många frihetsgrader forskaren har i analysen av data kan alltså leda fram till missvisande resultat. Om man inte håller reda på hela processen som ledde fram till de slutgiltiga resultaten kan det till och med vara svårt att själv veta om man ska tro på sina egna resultat. På bloggen FiveThirtyEight bjuds på ett interaktivt verktyg där man kan pröva sig fram själv — när man testat ett par gånger och hittat ett slående samband kan det vara svårt att veta vad man ska tro! En annan illustration av hur många frihetsgrader kan ge upphov till missvisande forskningsresultat bjuder Simmons, Nelson och Simonsohn på i en välciterad artikel från 2011.
Gelman påpekar i ett annat blogginlägg att forskaren naturligtvis även kan utnyttja frihetsgraderna avsiktligt. Han exemplifierar detta med statsvetaren Michael LaCours studie byggd på påhittade data om påverkan på väljarattityder. Gelman argumenterar för att att LaCour inte hade behövt fejka data, utan att han i stället borde ha kunnat utnyttjat forskarens frihetsgrader maximalt för att producera ett lika spektakulärt resultat — och helt undgå fuskanklagelser!
Vad är då lösningen? En lösning är att förregistrera studier i större utsträckning. Genom att i en analysplan redogöra för hur man tänker genomföra studien och hur data kommer analyseras minskar man väsentligt forskarens frihetsgrader. Man kan naturligtvis avvika från analysplanen, men i så fall måste detta redovisas och läsaren blir därmed upplyst om vilka friheter forskaren tagit sig efter att ha fått tillgång till data. I medicinska kliniska prövningar har förregistrering länge varit norm, men nu tycks det vara på väg att bli det även för fältexperiment i nationalekonomi. Amerikanska nationalekonomföreningen AEA har sedan ett par år en databas där man enkelt kan förregistrera studier.
Förregistrering kan man även göra av studier som använder icke-experimentell data. I vissa fall kan det dock vara svårt att göra eftersom man inte riktigt vet hur data ser ut och lär sig mycket genom att analysera dem. Analysen av data behöver inte bara vara en snirklig irrfärd, utan kan också vara en lärorik upptäcktsresa, men det kan vara svårt att själv veta om man gått vilse eller hittat en skatt. Ett tänkbart sätt att hantera detta när det inte är möjligt att förregistrera en studie är att analysera ett urval av all data och först i slutskedet göra analysen i hela datamängden.
Det kanske kan nämnas (fastän resultaten är flitigt diskuterade och kända) att det även finns ekonomisk litteratur angående företeelsen att ”göra valen efter att man har sneglat på resultatet”, och ekonomer kallar det för “data snooping” (se White, H., 2000. “A reality check for data snooping.” Econometrica, 68, 1067–1084), eller data mining (Leamer, E., 1983. “Let’s Take the Con Out of Econometrics.” American Economic Review, 73: 31–43) för att nämna två av många användbara referenser. Vilket fall, tankvärda diskussioner som förs inom forskningsfälten just nu och trevligt att det kom upp i denna blog.
Vägskälsträdgård tycker jag låter som en adekvat översättning. Tack annars för detta.
Vetenskapens problem med olika typer av fusk klassiskt. Och inte bara inom vetenskaperna. “Quis custodiet ipsos custodes”, hur ska man kunna bevaka väktarna själva, grubblade man över redan i det gamla Rom. Och ju mer demokratin urholkas och ersätts med expertbedömningar genomförda enligt mer eller mindre vetenskapsaktiga metoder, desto mer omfattande torde fusket komma att bli.
Det är inte alls omöjligt att den misstillit som idag främst gäller politiker och journalister kommer att sprida sig. Speciellt till sådana discipliner som faktiskt utgår från mutbarheten som det typiskt mänskliga. The economic man är troligen vad psykologer skulle kalla en självuppfyllande profetia. Dvs. i fall det inte kostade dem för mycket.