Statistiskt trolleri i världsklass

Det sägs ibland att allt går att bevisa med statistik. Talesättet syftar nog främst på att det är lätt att luras med statistik. Men faktum är att statistisk analys i varierande grad alltid vilar på antaganden. I många fall har vi goda skäl att göra dessa antaganden, medan andra fall är mer kontroversiella och kan ge upphov till långa vetenskapliga debatter, t.ex. när det gäller bortfall, mätfel och vilka variabler man kan bortse från i analysen. En artikel som är under utgivning i Journal of Political Economy visar dock att till och med den mest triviala jämförelse vilar på antaganden som inte är självklara.

Artikeln handlar om att mäta genomsnittlig lycka, men gäller egentligen många andra fall då vi bara kan mäta något på en ordinal skala, det vill säga en skala där bara rangordningen spelar roll. Lycka mäts vanligen med enkätfrågor där man helt enkelt frågar folk hur lyckliga de är. Så här ser sådan lyckodata ut i en studie från det så kallade Moving to Opportunity-experimentet.

Kontroll Behandlingsgrupp
Mycket lycklig 24% 26%
Ganska lycklig 47% 56%
Inte så lycklig 29% 17%

Låt oss först fundera på vad vi enkelt kan säga om de två grupperna i experimentet. Det stämmer att fler var mycket lyckliga i behandlingsgruppen än i kontrollgruppen. Det är också fler som var mycket eller ganska lyckliga i behandlingsgruppen. Vidare var det färre som inte var så lyckliga i behandlingsgruppen.

Givet dessa konstateranden förefaller det naturligt att dra slutsatsen att personerna i behandlingsgruppen är lyckligare än kontrollgruppen. Den typen av slutsatser brukar dock handla om hur genomsnittet skiljer sig mellan grupper. Vad kan vi säga om den genomsnittliga lyckan i detta exempel?

Man kan bara tala om ett genomsnitt om man sätter värden på de tre alternativen på lyckoskalan. Ett vanligt sätt att göra detta är att anta att de tar värdena -1, 0 eller 1.  I så fall är den genomsnittliga lyckan högre i behandlingsgruppen än i kontrollgruppen (snittet är -0.05 i kontrollgruppen och 0.09 i behandlingsgruppen). Faktum är att genomsnittet skulle vara högre i behandlingsgruppen oavsett vilka värden vi satte på de tre svarsalternativen, så länge som vi sätter det högsta värdet på ”mycket lycklig” och det lägsta på ”inte så lycklig”. (Detta förhållande gäller inte alltid, den här artikeln ger användbara villkor för när det är uppfyllt.)

Ett vanligt sätt att tilldela värden till de tre svarsalternativen är att anta att svaren på lyckofrågan bygger på en underliggande normalfördelad lyckofördelning. Det är detta som antas när man kör en så kallad ordered probit-regression. En sådan regression (utan kontrollvariabler) illustreras i figuren nedan. Den blå linjen visar hur lyckan är fördelad i kontrollgruppen och den röda hur lyckan är fördelad i behandlingsgruppen. De som befinner sig under 0 på den underliggande lyckoskalan antas svara ”inte så lycklig”, de som befinner sig mellan 0 och 1 svarar ”ganska lycklig” och de som är över 1 svarar ”mycket lycklig”. Med hjälp av den antagna underliggande fördelningen kan vi sätta värden på de tre svarsalternativen och räkna ut genomsnittet i kontroll- och behandlingsgruppen. Slutsatsen att den genomsnittliga lyckan är högre i behandlingsgruppen består.

Men den nya artikeln av Timothy Bond och Kevin Lang argumenterar för att denna slutsats är förhastad. Övningen som illustreras i diagrammet ovan antar att det bara är genomsnittet som skiljer sig mellan behandlings- och kontrollgrupp. Men om vi kör samma ordered probit-regression men antar att även variansen kan skilja sig åt får vi i stället ett resultat som illustreras av diagrammet nedan.

Den här figuren ser snarlik ut och medelvärdet är fortfarande högre i behandlingsgruppen. Men eftersom spridningen är större i kontrollgruppen, korsar de två normalfördelningskurvorna varandra bland de som är mycket lyckliga (ungefär vid 1,7 på x-axeln). Detta innebär att det nu antas finnas fler personer som är riktigt lyckliga (över 1,7) i kontrollgruppen än i behandlingsgruppen. Annorlunda uttryckt innebär detta att bland de som svarat ”mycket lycklig” är det fler i kontrollgruppen som är riktigt lyckliga (över 1,7). Detta skulle till exempel kunna bero på att experimentet gjorde de flesta lyckligare, men att behandlingen hade negativa effekter för de som redan var väldigt lyckliga.

Trots detta består än så länge slutsatsen att genomsnittet är högre i behandlings- än kontrollgruppen. Detta bygger dock på att vi antagit att lyckan är normalfördelad. Men vi har ju egentligen ingen aning om hur lyckan egentligen är fördelad. Bond och Lang visar att detta antagande spelar roll — genomsnittet kan bli högre i kontrollgruppen om vi gör ett annat antagande om hur lyckan är fördelad. Detta uppstår till exempel om lyckan antas följa en skev log-normal fördelning i stället för en normalfördelning. En sådan skev fördelning innebär i praktiken att de som var riktigt lyckliga får stort genomslag när man beräknar medelvärdet. De riktigt lyckliga som antas ha påverkats negativt av behandlingen tillmäts därmed stor betydelse, vilket gör att genomsnittet kan blir lägre i behandlingsgruppen. Bond och Lang argumenterar inte för att genomsnittet verkligen är lägre i behandlingsgruppen, men att vi helt enkelt inte kan veta i vilken grupp genomsnittet är högst.

Det går naturligtvis inte att säkert veta hur lyckan egentligen är fördelad och den data som redovisas i tabellen ovan säger inget om hur lyckan är fördelad inom respektive svarsalternativ. Det är därför möjligt att de som svarade ”mycket lycklig” i genomsnitt är olyckligare i behandlingsgruppen än kontrollgruppen. Det finns därför ingen logisk lucka i Bond och Langs argumentation. Samtidigt kan jag inte undgå känslan att det är en form av statistiskt trolleri att utifrån data i tabellen dra slutsatsen att genomsnittet skulle kunna vara högre i kontrollgruppen.

Comments

  1. Johan says:

    Jag tycker att detta är ett exempel på att det är lätt att lyfta fram hypotetiska problem utan att visa på att de är faktiska problem och utan att erbjuda förslag på lösning. Men visst, lite tankeväckande.

    • Jag håller med och det är lite frustrerande att de inte erbjuder ett förslag på lösning i pappret, i stället konstaterar de bara följande: “Addressing whether a researcher could make a compelling case for such restrictions [av underliggande lyckofördelningar] or the profession could reach a consensus on them would take us into the philosophy and sociology of science and beyond the scope of this paper.”

  2. Martin says:

    Om Fisher såg sin statistik direkt applicerad på något “där bara rangordningen spelar roll” (dvs data har ingen absolut kvantitet), skulle han nog bli rätt stirrig i sin grav. Jag gissar att det är rätt enkelt att ta fram ett analytiskt bevis för att man komma fram till lite vad man vill om man applicerar en normalfördelning på den sortens data.

    • Fisher må vända sig i sin grav, men i samhällsvetenskap är sådan data ganska vanlig, det gäller ju också sådant som attityder, personlighet, IQ, betygssnitt m.m. Bond och Lang tillhandahåller för övrigt det formella bevis du nämner — man kan i princip alltid vända på skillnader i genomsnitt geonom att anta tillräckligt skeva fördelningar.

      • Martin says:

        IQ och betyg är ju dock på inget sätt ordinala. Där har ju varje steg ett tydlig innebörd. En attitydskala där folk t ex får ange ett värde mellan 0-10 kan väll om man är på gott humör också räknas dit. Problemet uppkommer ju snarare vid vaga Likerts skalor som lyckoexemplet ovan som kanske har en ordinal tolkning, men knappast någon annan tolkning. Dessa brukar väll rätt många (kanske inte alla) forskare ha vett att undvika att försöka tvinga på en normal fördelning. En enkel (och vanlig) lösning är ju annars bara att göra om variabeln till ett (eller flera) binära steg. Då har man ju ett mer hanterbart statistiskt problem, med enklare tolkning (antingen eller).

        Angående beviset anade jag att frukten hängde rätt lågt.

      • Jag har inte funderat så noga på detta, men tänkte på den här uppsatsen av samma författare som handlar om provresultat (inte betyg, har inte funderar på det): https://www.mitpressjournals.org/doi/abs/10.1162/REST_a_00370. Ang. IQ verkar det finnas olika uppfattningar om det ses som en intervallskala eller ordinal skala, men återigen, detta är jag inte alls insatt i.

  3. Andreas Wallström says:

    Min absoluta favorit på statistiktemat är “The Standard Error of Regressions” (McCloskey o Ziliak)

  4. Fredrik Hansson says:

    “Men den nya artikeln av Timothy Bond och Kevin Lang argumenterar för att denna slutsats är förhastad. Övningen som illustreras i diagrammet ovan antar att det bara är genomsnittet som skiljer sig mellan behandlings- och kontrollgrupp. Men om vi kör samma ordered probit-regression men antar att även variansen kan skilja sig åt får vi i stället ett resultat som illustreras av diagrammet nedan.” […] “Den här figuren ser snarlik ut och medelvärdet är fortfarande högre i behandlingsgruppen. Men eftersom spridningen är större i kontrollgruppen, korsar de två normalfördelningskurvorna varandra bland de som är mycket lyckliga (ungefär vid 1,7 på x-axeln). Detta innebär att det nu antas finnas fler personer som är riktigt lyckliga (över 1,7) i kontrollgruppen än i behandlingsgruppen.”

    Av vad jag förstått var det här redan känt. Från Allison (1999; Comparing Logit and Probit Coefficients Across Groups) – “In logit and probit regression analysis, a common practice is to estimate separate models for two or more groups and then compare coefficients across groups. An equivalent method is to test for interactions between particular predictors and dummy (indicator) variables representing the groups. Both methods may lead to invalid conclusions if residual variation differs across groups.”

    Från Hoetker (2004; “Confounded Coefficients: Extending Recent Advances in the Accurate Comparison of Logit and Probit Coefficients Across Groups”) – “Unfortunately, attempts to compare the effect of logit or probit coefficients across groups require an assumption that is often false. Logit and probit coefficients are scaled by the unknown variance of their residual variation. Naïvely comparing coefficients as one would in linear models assumes that residual variation is the same across groups, though in many cases it may not be. Differences in coefficients across groups may merely reflect the difference in residual variation across groups, rather than real differences in the impact of covariates across groups.” […] “Worse yet, comparisons may appear informative. They can reveal differences where none exist, conceal differences that do exist, and even indicate differences in the reverse direction of the actual situation.”

    • Jag tror iofs inte att JPE-artikeln innehåller något som är konceptuellt nytt, men citaten ovan tycks framförallt handla om att jämföra koefficienter mellan logit- och probit-modeller, vilket det inte riktigt handlar om här.

Leave a Reply

Fill in your details below or click an icon to log in:

WordPress.com Logo

You are commenting using your WordPress.com account. Log Out /  Change )

Facebook photo

You are commenting using your Facebook account. Log Out /  Change )

Connecting to %s

%d bloggers like this: