Alla som läst statistik har lärt sig att korrelation inte implicerar kausalitet. En korrelation säger till exempel inget om orsakssambandets riktning. Att människor använder paraplyn när det regnar, skulle kunna bero på att regn orsakar paraplyanvändande, eller det motsatta, att paraplyanvändande orsakar regnande. Att sjukhus är fulla av sjuka människor och en hel del till och med dör där, säger inte något om huruvida sjukhus gör människor sjuka, eller om det är sjuka människor som besöker sjukhus. I de här fallen vet vi naturligtvis orsakssambandens riktning, men i många andra fall är de mycket svårare att fastställa.
Korrelation implicerar alltså inte kausalitet, men implicerar kausalitet korrelation? Många, inklusive vissa ekonomipristagare, tycks ha en intuitiv magkänsla att kausalitet måste motsvaras av någon slags korrelation i data. Så är det dock inte nödvändigtvis. Mina standardexempel för att illustrera detta när jag undervisar är en person som styr en segelbåt och kompenserar för vind och vågor genom att hela tiden svänga till höger och vänster. På detta sätt kan båten hålla en stadig kurs. Den som observerar kaptenen skulle dock notera att båten rör sig rakt framåt trots att kapten styr flitigt åt olika håll hela tiden. Ett liknande exempel är centralbank som följer ett inflationsmål – om de helt lyckades med att pricka inflationsmålet skulle styrräntan och inflationen inte vara korrelerade.
Jaja, tänker nu den kritiska läsaren, det där må vara intressanta påhittade exempel, men det är specialfall utan praktisk relevans. Men det finns verkliga exempel, till exempel uppenbarade sig ett sådant för mig häromdagen. På den senaste duggan i min ekonometrikurs frågade jag studenterna hur många föreläsningar de varit på för att kunna studera sambandet mellan deltagande på föreläsningar och resultat på duggan. I det här fallet “vet” vi naturligtvis att deltagande på mina föreläsningar är lärorikt, det finns alltså ett positivt orsakssamband. Figuren nedan visar genomsnittligt antal rätt (av maximalt åtta) beroende på hur många föreläsningar studenterna närvarade vid. Antalet observationer är cirka 60. Som synes av figuren är korrelationen mellan antalet rätt på duggan och antalet föreläsningar närmast obefintlig (om något negativ, men ej statistiskt signifikant).
Nu tänker dock den vakna läsaren att en alternativ förklaring är att mina föreläsningar är så usla att man inte lär sig något av att gå på dem. Det är en rimlig hypotes som jag inte kan falsifiera med den data jag har. Men däremot kanske vi kan enas om att studera fler timmar inför en dugga borde öka duggaresultatet? Så måste det rimligtvis vara. Figuren nedan visar hur många timmar per vecka som studenterna uppgav att de har pluggat på egen hand veckorna innan duggan. Som synes är korrelationssambandet med duggaresultatet närmast obefintligt även i detta fall (och inte statistiskt signifikant).
Att döma av korrelationen mellan pluggande och resultat ser det ut som pluggande inte lönar sig alls. Detta kan rimligtvis inte stämma. Mer troligt är att studievana studenter väljer hur många föreläsningar de går på och hur mycket de pluggar hemma utifrån förkunskaper, hur svårt de tycker ämnet är, hur mycket de föredrar att plugga på egen hand osv. Om alla studenterna likt en centralbankir siktar på ett visst resultat på duggan och rationellt anpassar studierna därefter, ja, då skulle vi observera mönstret i figurerna ovan – stor variation i hur mycket de pluggar, men liknande resultat på tentan. Kausalitet utan korrelation alltså.
(I det här fallet är frånvaron av korrelation inte alls självklar, vi skulle kunna ha föreställt oss både en positiv och negativ korrelation, men exemplen illustrerar att vi måste vara ytterst försiktiga när vi försöker dra slutsatser om orsakssamband utifrån data som bygger på människors val. Den som studerat ekonometri vet att det finns flera sätt att ta reda på vad det underliggande orsakssambandet är i ett fall som detta. Vi kan till exempel genom regressionsanalys försöka kontrollera för de bestämningsfaktorer som ligger bakom varför vissa väljer att gå på föreläsningar, eller så kan man frikoppla valet att gå på föreläsningar från studenternas bevekelsegrunder genom att randomisera hur många föreläsningar de måste delta på.)
Du har helt rätt och det finns en hel del implikationer som ofta ignoreras. En mer trivial (som nog inte ignoreras av nationalekonomer men i många andra ämnen) är att detta implicerar att man inte ska titta på korrelationer för att bestämma om en förklarande variabel ska vara med i en regressionsmodell eller inte. Den andra, vilket många nationalekonmer gör, är att presentera ett antal olika specifikationer av regressionsmodeller. En sådan övning säger mer om hur de olika x samvarierar än något annat och man bör nog sluta med det om man inte väl kan motivera varför det skulle vara relevant.
Bra poänger! Tror nationalekonomer numera inte går i denna fälla lika ofta, men det råder nog fortfarande en hel del förvirring. Till exempel innehåller nästan alla läroböcker i ekonometri en mycket förvirrad diskussion om vilka kontrollvariabler som bör inkluderas och inte (“good vs bad controls” a la Angrist & Pischke).
Hur ser det ut med ränta/växelkurs? Korrelation/kausalitet?
Bra och viktiga poänger. Skulle säga att detta är ett skäl till att även empiriker behöver använda teori innan man undersöker något. Detta för att ha en hypotes om vad man bör observera i jämvikt (såsom din styrman) och vilka proxy-variabler som är o/lämpliga och vilka kontroller man behöver tar med.
Håller helt med om detta och är själv inte helt med hur ekonomisk teori (inte) integreras i ekonometriundervisningen, i alla fall inte i min egen kurs. Tips mottages tacksamt.
Undervisar inte ekonometri så har inget konkret.
Men jag tror man kan göra det genom att visa (dåliga) exempel, såsom du gjort här, dvs där något blir fel. Sen kan man presentera en modell (kan vara verbal) som reder ut vad man skulle förvänta sig i jämvikt, vilka proxies som skulle ge konstiga svar och vad som vore bättre.
Jag vet att det är ofint att klaga offentligt på studier, men här är en artikel där jag tycker man landat fel _trots_ att man har teori som underbygger empirin.
https://www.journals.uchicago.edu/doi/epdf/10.1086/676316
Prediktionen från teorin är att ökade inkomstskillnader leder till 1) att fler fattiga försöker attackera rika 2) att rika skaffar mer försvar mot attacker och 3) att antalet lyckade attacker därför antingen kan öka eller minska (dvs tvetydig prediktion).
Sen går dom till empirin för att testa modellen, mer exakt första prediktionen.
Men så har dom inte data på “försök till attack” och löser det genom en proxy. Den proxyn är antal skador. Men att skada uppstår är ju en lyckad attack i sammanhanget (den rika klarade inte att försvara sig). Och prediktionen för detta (3) är tvetydig, vad som helst kan hända. Så mha den datan (och tolkningen) kan man inte förkasta teorin.
Jag gjorde en improviserad undersökning som har likheter med din. Jag lät gymnasieelever på en skola uppskatta hur många timmar de lade på studier i olika ämnen. De kunde delas upp i tre grupper, de som läste på samhällsvetenskapliga programmet, de som läste på naturvetenskapliga programmet och de som läste på naturvetenskapliga programmet med särskild matteinriktning. Den första gruppen var den som lade mest tid på hemarbete i matte, medan den sista gruppen var den som pluggade minst matte hemma. Studieresultaten i matematik var dock omkastade. Gruppen med särskild matematikinriktning är extremt högpresterande, medan samhällseleverna är svagare.
Den rimliga slutsatsen är knappast att det är kontraproduktivt att plugga matte utanför lektionstid, utan att det handlar om att de som har svårt för matte behöver anstränga sig mer.
Samband finns antagligen. Dock inte linjärt!
Tack för intressant text. Samtidigt har jag lite svårt att köpa ditt resonemang 🙂
Jag ser ditt fall med kursen i ekonometri som ett klassiskt fall av “omitted variable bias”. Jag menar att det helt klart finns en korrelation mellan att gå på föreläsningar och/eller studera å ena sidan och vad studenter presterar på ett test å andra sidan. Denna korrelation låter sig dock inte avslöjas i en enkel OLS med en beroende och en oberoende variabel. Många andra variabler som exempelvis förkunskaper samt inneboende förmåga att lära sig nya saker snabbt är också viktigt. Att ha bra förkunskaper korrelerar troligen med att vara med på färre föreläsningar och lägga mindre tid på att plugga, att ha lite svårare att lära sig nya saker korrelerar troligen åt andra hållet.
Du använder helt enkelt en alltför simpel research design :). Om det är svårt att kontrollera för omitted variables så kan en RCT eller någon typ av studie där du använder dig av paneldata bör kunna svara på frågan. Men kanske missförstår jag. Menade du att testet om kausalitet inte också innebär korrelation är att det i så fall behöver avslöjas med en enkelt OLS med den beroende och den oberoende variabeln?
I fallet med båten: Om data över vind, vågor etc läggs in i regressionen (med tillräcklig precision) så lär kaptenens rörelse med rodret korrelera med vart båten åker.