Är det forskarnas välvilja som gör forskningen pålitlig?

Det går förmodligen inte att genomgå en utbildning i nationalekonomi utan att ett par gånger stöta på Adam Smiths berömda citat om att det inte är bagarens välvilja som ger oss bröd på bordet, utan hens omtanke om sig själv. Citatet brukar användas för att trumma in den paradoxala poängen att varje individs strävan efter egen vinning kan leda till det bästa tänkbara utfallet för samhället. Det är dock sällan nationalekonomer tillämpar samma resonemang när det gäller det egna forskaryrket (undantag finns dock). Skulle vi verkligen våga förlita oss helt på forskarnas egenintresse på samma sätt som vi kan lita på själviska bagare?

Forskaryrket erbjuder ständiga frestelser att med hjälp av olika former av intellektuell ohederlighet armbåga sig fram. Det kan gälla allt från forskares ”vardagssynder” som att citera tidigare litteratur selektivt till ”kardinalsynder” som manipulation av data. En forskare som hade som enda mål att publicera så mycket som möjligt (och därmed få en finare position och högre inkomst) skulle naturligtvis använda sig av sådana knep närhelst det lönade sig och risken för upptäckt är tillräckligt liten. Det skulle leda till en ganska flitig användning av sådana metoder och att många forskningsresultat inte skulle vara särskilt pålitliga. Mitt intryck av mina forskarkollegor är dock att de flesta inte fuskar närhelst det är möjligt — det finns en stark yrkesmoral som förordar intellektuell hederlighet och som gör forskningsresultat mer pålitliga än de hade varit annars.

Likväl förekommer olika grader av fusk. I en uppsats som är under utgivning i Psychological Science undersöks i vilken utsträckning forskare i psykologi ägnar sig åt ”questionable research practices” (QRP). Studien bygger på en enkätundersökning bland tusentals forskare i psykologi. Forskarna använde sig av Drazen Prelecs ”sanningsserum” — en belöningsalgoritm för att belöna sanningssägande (läs mer om denna metod här) — för att förmå forskarna att svara ärligt. Nedan listas hur står andel som angav att de någon gång använt sig av respektive QRP.

1. In a paper, failing to report all of a study’s dependent measures. (66.5%)
2. Deciding whether to collect more data after looking to see whether the results were significant. (58.0%)
3. In a paper, failing to report all of a study’s conditions. (27.4%)
4. Stopping collecting data earlier than planned because one found the result that one had been looking for. (22.5%)
5. In a paper, ―rounding off a p value (e.g., reporting that a p value of .054 is less than .05). (23.3%)
6. In a paper, selectively reporting studies. (50.0%)
7. Deciding whether to exclude data after looking at the impact of doing so on the results. (43.4%)
8. In a paper, reporting an unexpected finding as having been predicted from the start. (35.0%)
9. In a paper, claiming that results are unaffected by demographic variables (e.g., gender) when one is actually unsure (or knows that they do). (4.5%)
10. Falsifying data. (1.7%)

De flesta av dessa QRP:s kan naturligtvis vara rättfärdigade i enskilda fall, men det är inte svårt att hålla med om att de generellt bör undvikas. Siffrorna ovan är också inte helt lättolkade, men de förefaller ändå oroväckande. Det är också svårt att se någon anledning till att situationen skulle vara annorlunda bland t.ex. nationalekonomer (se till exempel den här studien).

Något som också är oroande är att frågan om forskarnas yrkesetik diskuteras så lite — i alla fall bland nationalekonomer. Det borde vara högsta prioritet på doktorandprogram att skola in framtida forskare i den yrkesetik som är så viktig för forskningens pålitlighet (jmf. läkare och läkareden). I min egen utbildning har jag dock helt lämnats åt att ”uppfostra mig själv” och jag tror dessvärre att jag är långt ifrån ensam om denna erfarenhet. Samtidigt förefaller yrkesetiken sättas på allt hårdare prov genom att konkurrensen mellan forskare och kraven på att publicera forskningsresultat ökat.

Lika arbetare jobbar bäst?

Det finns numera ganska många nationalekonomiska studier som fokuserar på effekten av etnisk mångfald på olika ekonomiska utfall. Till exempel finns det studier som visar att etnisk mångfald verkar minska stödet för omfördelning (även om resultaten inte är helt entydiga, se den här genomgången av forskningen). Den stora merparten av alla studier bygger dock på korrelationer och kan inte säkert säga något om orsakssambandet (med vissa undantag). Jonas Hjort, en dansk-norsk doktorand på Berkeley, lyckas dock med konststycket att på ett mycket övertygande sätt visa hur spänningar mellan etniska grupper påverkar produktiviteten vid en blomsterpackningsfabrik i Kenya negativt.

I fabriken jobbar arbetarna med att packa blommor inför vidare transport i arbetslag om tre. Arbetarna får dock inte bestämma själva vem de ska jobba tillsammans med, utan fördelningen till de olika arbetslagen sker slumpmässigt. Det är just denna slumpmässighet som gör att Hjort med stor säkerhet kan uttala sig om effekten av den etniska sammansättningen på arbetslagets produktivitet. Hjort hade också ”turen” att studera en period då det genomfördes ett val med efterföljande våldsamma konflikter mellan de två dominerande etniska grupperna. Därmed kan Hjort även studera effekten av förvärrade etniska konflikter på produktiviteten.

Som synes av bilden nedan så var produktiviteten markant lägre i etniskt blandade arbetslag än i etniskt homogena arbetslag. Produktiviteten i etniskt blandade arbetslag försämrades betydligt efter valet, en nedgång som senare dämpades av att företaget ändrade arbetarnas belöningssystem. Hjort utvecklar en modell baserad på preferens-baserad diskriminering (d.v.s. att människor vill gynna sin egen etniska grupp) och argumenterar för att denna modell kan fånga precis det mönster som syns i bilden nedan.

Hjorts studie är mycket väl genomförd och det är svårt att hitta några uppenbara alternativa förklaringar till hans resultat. Däremot är det förstås — som så ofta — en öppen fråga i vilken utsträckning resultaten går att generalisera till andra sammanhang.

Mer om publiceringsbias

Häromveckan skrev jag om en ny studie som tyder på att publiceringsbias gjort att publicerad forskning om gener och intelligens sammantaget verkar ha givit en missvisande bild av verkligheten. Ett ännu tydligare tecken på förekomsten av publiceringsbias är nedanstående diagram (knyckt från den här artikeln) som visar z-värdena för resultat publicerade i två ledande statsvetenskapliga tidskrifter (APSR och AJPS) mellan 1995 och 2007. Det är en markant ökning när z är 1.96, vilket motsvarar 5 procents signifikansnivå för två-sidiga test. Om artiklar skickades in och publicerades i vetenskapliga tidskrifter oberoende av om resultaten är statistiskt signifikanta eller ej skulle vi förvänta oss lika många z-värden strax ovanför som strax under 1.96.

För er som föredrar en mer skämtsam illustration av fenomenet publiceringsbias rekommenderas den här seriestrippen.

Opålitliga forskningsresultat om intelligens

Hur pålitliga är vetenskapliga resultat? Felkällorna är många och gäller allt från medveten manipulation av data till mer vardagliga synder som att inte rapportera motsägande resultat. Ett av de allra största problemen är förmodligen publiceringsbias, d.v.s. att det är betydligt svårare att publicera nollresultat. Detta gör både att nollresultat inte uppmärksammas tillräckligt, men också att forskare helt enkelt undviker att studera områden där de riskerar att hitta nollresultat. Detta kan i värsta fall leda till att publicerade forskningsresultat kan bli mycket missvisande.

En kommande artikel i Psychological Science — där bland andra de svenska nationalekonomerna Magnus Johannesson och David Cesarini medverkar — visar att publiceringsbias tycks vara ett problem när det gäller forskning som försöker hitta genetiska markörer för intelligens. Författarna bakom studien har satt samman ett jämförelsevis väldigt stort datamaterial för övertygande kunna påvisa sina nollresultat.

De undersöker 12 kandidatgener som tidigare visats samvariera med intelligens (med fantasieggande namn som rs2766011), men hittar bara en enda statistiskt signifikant genetisk markör (på 5-procentsnivån före korrigering för att man testat flera hypoteser!). Detta ska inte tolkas som att gener inte spelar roll för intelligens. Intelligens är ett komplext fenomen som beror på samverkan mellan en mängd olika genetiska och miljöfaktorer och inflytandet av enskilda gener är därför litet.

Budskapet när det gäller publiceringsbias är tydligt. Tidigare studier — som bygger på ett mycket mindre antal försökspersoner — har helt enkelt inte haft tillräcklig statistisk styrka för att tillförlitligt kunna belägga de svaga samband de är intresserade av. Slumpen har dock gjort att vissa resultat visat sig vara statistiskt signifikanta och det är dessa resultat som har publicerats. Förmodligen har man undersökt ett stort antal tänkbara gener, men bara rapporterat de som visat positiva resultat. Detta har resulterat i att en stor mängd publicerad forskning sammantaget givit en helt missvisande bild av verkligheten.

Vilka är marknaderna som inte finns?

En av de mer fantasieggande och mystiska förutsägelserna av ekonomisk teori är att vissa marknader inte kommer att existera på grund av informationsproblem. Eftersom de inte existerar, kan vi inte observera dem och frågan inställer sig därmed vilka marknader detta kan tänkas handla om.

Ett dåligt exempel är marknaden för begagnade bilar. Exemplet kommer från ekonomipristagaren George Akerlofs artikel ”The Market for Lemons”. Argumentet är välkänt för alla som läst en grundkurs i mikroekonomi. Köparen kan inte skilja på bra och dåliga bilar. Därför kommer alla säljare att hävda att de har bilar av hög kvalitet och sätta ett förhållandevis högt pris. Till detta höga pris finns dock ingen köpare som är beredd att köpa en bil av genomsnittlig kvalitet. Detta gör att marknaden kollapsar.

Det grundläggande problemet i exemplet är alltså assymmetrisk information. När det gäller begagnade bilar är problemet att säljaren är bättre informerad än köparen och inte trovärdigt kan dela med sig av denna information. Marknaden för begagnade bilar både existerar och är livaktig, så i praktiken finns det många sätt att komma runt problemet. När det gäller varor och tjänster där säljaren är bättre informerad har jag svårt att hitta exempel på marknader som inte bara är frånvarande i teorin, utan även i praktiken.

Desto mer exempel finns då det motsatta förhållandet råder, det vill säga då köparen är bättre informerad. Detta gäller särskilt försäkringar. Till exempel finns mig veterligen ingen marknad som försäkrar dig mot att hamna i fängelse eftersom försäkringsbolagen inte har information om vårt kriminella riskbeteende. (Serien Anklagad som just nu sänds i SVT illustrerar att även vi som vanligtvis inte är kriminella skulle kunna ha nytta av en sådan försäkring.)

Min fråga till Ekonomistas läsare är därför att komma med förslag på fler marknader som inte finns på grund av informationsproblem, och då är jag framförallt intresserad av annat än försäkringar där det är ganska lätt att hitta exempel.

Apropå undermåliga inlägg på DN-debatt

Om man verkligen inte har en aning om hur man ska hantera data och de möjliga förutsägelser om framtiden som kan dras av dessa, skulle man 2008 kunna resonerat så här:

”Nedanstående graf visar husprisindex i Spanien mellan 1990-2008. Om denna utveckling fortsätter så kommer Spanska huspriser redan 2020 nå nivån 350. Nu kan förstås den skeptiske säga att det inte är säkert att trenden håller i sig och att risken för en backlash är uppenbar. Mot detta talar att trenden snarast förstärkts snarare än försvagats under det senaste decenniet”

För att parafrasera Heinrich Bölls förord till ”Katharina Blums förlorade heder”: Ovanstående exempel är påhittat och skulle skildringen av hur data hanteras likna de krav som tydligen ställs för att få skriva på DN-debatt, är dessa likheter varken avsiktliga eller slumpmässiga utan oundvikliga”.

Ps. Nedan är en figur över den faktiska huspris utvecklingen i Spanien…

Vägen framåt för modern makroekonomisk forskning

Det har väl knappast undgått någon att finanskrisen 2008 innebar en högkonjunktur för kritik av nationalekonomi och i synnerhet makroekonomi. Bland annat levererade Paul Krugman en uppmärksammad och uppskruvad kritik av modern makroekonomisk forskning i en lång New York Times-artikel. Denna kritik diskuterade Martin Flodén här på Ekonomistas och den har bemötts av många andra, bland annat i ett polemiskt och underhållande svar från makroekonomen John Cochrane.

Personligen är jag faktiskt ganska optimistisk när det gäller framtidsutsikterna för modern makro. Jag tror finanskrisen var nyttig för makroekonomin som vetenskaplig disciplin och jag tycker mig se flera tecken på att modern makro håller på att utvecklas på intressanta sätt. Den artikel som jag tycker bäst sammanfattar de utmaningar som modern makro står inför och som till stor del sammanfaller med resonmenagen nedan är en artikel av makroekonomen Narayana Kocherlakota (som numera är chef för Federal Reserve Minneapolis).

Min egen personliga käpphäst när det gäller makroekonomi (och en del mikroekonomi också!) är att man håller fast vid antagandet om rationella förväntningar.  Rationella förväntningar följer inte direkt från antagandet om att alla aktörer i ekonomin är rationella, utan det krävs bland annat också att alla dessa aktörer har kunskap om hur ekonomin fungerar, att alla vet att alla vet detta och därmed vet hur alla andra kommer agera i alla framtida tänkbara situationer. Att ett sådant antagande inte är särskilt realistiskt säger sig själv, men det i sig behöver inte betyda att det är ett dåligt modellantagande. Det som får mig att ifrågasätta detta antagande i makroekonomiska modeller är dock att förväntningsbildning förefaller vara så oerhört centralt för att förstå hur ekonomin utvecklas (i synnerhet på kort sikt).

Jag är dock inte ensam om tron att förväntningsbildning är centralt, vilket illustreras av att temat för en konferens på Riksbanken häromveckan var just förväntningar. Till exempel fokuserade en uppsats av Christopher Sims särskilt på att ekonomiska aktörers skiljda förväntningar har en avgörande betydelse för penningpolitikens reala effekter (bland annat påverkan på tillgångspriser). Flera av de andra uppsatserna som presenterades på konferensen handlade om makromodeller med ”rationell ouppmärksamhet” där man explicit modellerar att aktörer i ekonomin måste sålla i det informationsflöde som möter dem. Dessa modeller vidmakthåller visserligen i någon mån antagandet om rationella förväntningar, men jag tycker ändå att det speglar en intressant utvecklingsriktning. Det finns också en i mina ögon lovande litteratur om inlärning i makro där man tar hänsyn till den fundamentala osäkerhet som råder om hur ekonomin fungerar (se till exempel Thomas Sargents forskning om rationell inlärning). Det finns också ett fåtal ekonomer som ägnar sig åt agent-baserad simulering (som jag skrivit om tidigare), vilket innebär ett stort steg bort från rationella förväntningar (och många andra rigida antaganden) och som kanske kan ge upphov till nya intressanta insikter.

En annan aspekt av moderna makromodeller som är nära relaterat till rationella förväntningar är att koordinationsproblem vanligtvis antas bort i modellerna. Med ”koordinationsproblem” menar jag att det i praktiken kan vara svårt att uppnå samstämmighet mellan olika aktörers förväntningar. (Ett annat sätt att uttrycka detta är att det bara finns en jämvikt i modellerna.) Om vi alla förväntar oss en djup ekonomisk kris nästa år kommer detta prägla ekonomiska beslut redan idag, medan utfallet idag skulle vara helt annorlunda om ingen av oss förväntade sig en ekonomisk kris. Eftersom det råder genuin osäkerhet om framtiden förefaller det som att samma fundamenta skulle kunna ge upphov både till att alla tror på en kris eller att alla inte tror det. Jag tror att detta är nära relaterat till vad många Keynesianer avser med ”efterfrågechocker” vilket är lite svårt att förstå inom ramen för de vanliga makromodellerna. Det finns dock makromodeller med flera jämvikter, så kallade solfläcksmodeller, som sätter koordinationsproblemet i fokus, men denna typ av modeller har inte fått så stort genomslag. Det är dock upplyftande att makroekonomen Kocherlakota uppmanar makroekonomer att ta koordinationsproblem på större allvar: ”Macroeconomists need to do more to explore models that allow for the possibility of aggregate shocks to these kinds of self-fulfilling beliefs.” Lika upplyftande är det att se att just denna uppmaning verkar ha följts i en uppsats av George-Marios Angeletos som presenterades vid konferensen på Riksbanken (även om han i just denna uppsats lyckades med konststycket att få till fluktuationer till följd självuppfyllande förväntningar i en modell med en unik jämvikt).

En uppenbar brist i moderna makromodeller som uppmärksammats efter krisen är att modellerna inte har inkluderat den finansiella sektorn och att man därmed inte förstått vilken avgörande betydelse denna kan ha. I mina ögon förefaller detta dock närmast som en modellteknikalitet som kommer rättas till med tiden — jag tror makroekonomer på många håll i världen just nu lägger mycket möda på att förstå detta bättre och utvidga makromodellerna i denna riktning.

Ytterligare en brist i många makromodeller som både Paul Krugman och Assar Lindbeck har tagit upp är att moderna makromodeller oftast saknar en vettig modell för hur arbetsmarknaden fungerar. Det är först de senaste åren som de sökmodeller för arbetsmarknaden som belönades med ekonomipriset förra året på allvar har integrerats i makromodellerna. Detta innebär att det därmed kan förekomma ofrivillig arbetslöshet i modellerna och att arbetslöshet inte länge behöver vara synonymt med semester.

I likhet med Martin Flodén i Ekonomisk Debatt förra året vill jag dock varna för alltför stor tilltro till vad den ”nya sköna makro” vi ser framför oss kan bjuda på: ”I en föränderlig värld kommer nya kriser att uppstå och inte heller dessa kommer vi att kunna förutse.” Framtidens makromodeller kanske kommer innefatta både finans- och arbetsmarknad på ett mycket mer realistiskt sätt, men nästa kris kanske uppstår någon helt annanstans i ekonomin. Kanske blir det tulpanlökar som ger upphov till nästa kris och nästa Paul Krugman kommer då att förfasas över att tulpanlöksmarknaden inte redan har integrerats i makromodellerna?

En svensk ekonom som är väldigt kritisk till modern makro är Axel Leijonhufvud (se till exempel hans artikel i Ekonomisk Debatt). Nästa vecka är han i Stockholm och ger bland annat ett seminarium på Handelshögskolan och på Arenagruppen på detta tema.

Mer om Freys fusk

För en månad sen uppmärksammade Eva turerna kring de anklagelser om fusk som riktats mot Bruno Frey och hans medförfattare i deras ”Titanic-projekt”. Det huvudsakliga problemet gällde så kallad ”self-plagiarism”, alltså att de publicerat i princip samma forskningsresultat i flera artiklar utan att hänvisa mellan artiklarna. För att illustrera hur allvarligt detta betraktas; så här skriver Journal of Economic Perspectives redaktör David Autor till Frey i en korrespondens som de publicerat:

We view your publication of this substantive material in multiple journals simultaneously as a violation of the spirit of the editorial agreement with American Economic Association that you signed in the winter 2010. (….)[We] find your conduct in this matter ethically dubious and disrespectful to the American Economic Association, the Journal of Economic Perspectives and the and the JEP ’s readers.”

Redaktörerna för Journal of Economic Behavior and Organization (en annan tidskrift som publicerat en Titanic-artikel) har meddelat Frey att de inte tänker ta emot fler artiklar från honom som en följd av detta.

I går publicerade Olaf Storbeck, den journalist som i bästa grävaranda sammanställt fakta kring Frey och hans medförfattares Titanic-publikationer, en uppföljning på hans blogg Economics Intelligence. Det är onekligen dyster läsning för den som hoppades att detta var en engångsföreteelse. Det visar sig att det finns ett stort antal artiklar av Frey (både själv och med olika medförfattare) som uppenbart är mer eller mindre duplikat som publicerats i olika tidskrifter. På en mycket ambitiös sida kan man se artiklar sida vid sida där stora avsnitt är identiska. Det finns till och med en Wikileaks inspirerad sida – FreyPlag Wiki – som ger en översikt av bekräftade och misstänkta projekt.

En ironisk detalj är att ett av projekten som uppenbart publicerats i två uppsättningar under lite olika rubriker handlar om publiceringshets och hur detta skapar incitament som Frey liknar vid prostitution. Artikeln ”Publication as Prostitution” (publicerad i Public Choice, 2003) har följande abstract:

Survival in academia depends on publications in refereed journals. Authors only get their papers accepted if they intellectually prostitute themselves by slavishly following the demands made by anonymous referees who have no propertyrights to the journals they advise. Intellectual prostitutionis neither beneficial to suppliers nor consumers. But it is avoidable. The editor (with property rights to the journal)should make the basic decision of whether a paper is worth publishing or not. The referees should only offer suggestions for improvement. The author may disregard this advice. This reduces intellectual prostitution and produces more original publications.”

Artikeln ”Problems wth publishing” (publicerad i European Journal of Law and Economics, 2005) har ett abstract som är exakt likadant. Går man sedan igenom texten så är stora delar helt identiska (titta själv här).

Som en observant ekonomistas läsare kommenterade på Evas inlägg ”(man är frestad att) spekulera i att Freys bekymmer med ”akademisk prostitution” bottnar i någon slags mental introspektion — det finns säkert en beteendevetar-term som är mer mitt i prick.”

Hela affären och alla tänkbara länkar finns som sagt på Economics Intelligence.

Grönsaker och kausalitet

Vi har skrivit det förut och kommer att skriva det igen: korrelation och kausalitet är inte samma sak. Detta kan vara värt att påminna om när medierna rapporterar om att mer grönsaker leder till högre betyg. Eftersom kostvanor samvarierar med en mängd sociala faktorer som i sig är relaterade till skolresultat säger studien faktiskt ingenting.

Man undrar hur en så pass ansedd tidskrift som Pediatrics kan få för sig att publicera en studie som helt saknar informationsvärde? Dessutom är det fascinerande att läkare — som rimligen är vana vid dubbelblinda kliniska studier — utan att rodna kan presentera dylika resultat som om de beskriver orsakssamband.

Läs förresten gärna vad Aid Watchers skriver om den tveksamma kvaliteten på mycket av den samhällsforskning som publiceras i medicinska tidsskrifter och den okritiska hållningen media oftast intar inför de presenterade resultaten.

En betraktelse om statistik

Eftersom flera av våra läsare verkar ha problem att hitta intressant sommarläsning passar jag på att rekommendera denna förtjusande betraktelse om statistik av Tim Harford. Den väcker frågan vad vi egentligen menar när vi lite slappt använder oss av statistiska begrepp. Slappheten skapar konventioner som skiljer sig mellan olika grupper (yrken/discipliner). Dessa konventioner underlättar kommunikationen inom gruppen men försvårar den grupper emellan. Något som nog även gäller frågor som berör annat än statistik.