AEA 1: Publiceringsbias, gener och signifikansnivåer

Vägen över till nationalekonomins Cannesfestival, American Economic Associations möte i Denver, ägnade jag åt att läsa en artikel i the New Yorker. Den beskriver hur empiriska fynd som verkar helt stabila verkar försvinna när andra forskare försöker replikera dem. Forskningsfusk, kanske någon påstår men i det exempel som lyfts fram i artikeln är det originalfyndens upphovsman som själv råkat ut för problemen; varje gång han upprepat sina experiment har effekterna blivit mindre och mindre.

Hur märkligt detta än kan verka så har samma mönster uppmärksammats inom en mängd olika forskningsfält. Som the New Yorker skriver orsakas detta av en samverkan mellan ett par olika faktorer. I grunden beror problemet på att en del samband av statistisk nödvändighet kommer att se starka ut trots att de egentligen bara är orsakade av slumpen. Ju fler studier som genomförs, desto fler skensamband kommer att upptäckas.

Eftersom sådana skensamband kan vara mycket uppseedeväckande – de är ju trots allt orsakade av slumpen – finns möjligheten att de publiceras i prestigefyllda tidskrifter. Samma tidskrifter skulle däremot aldrig publicerat ett experiment som visade att samma samband inte verkar finnas; Science hade knappast varit en välciterad tidskrift om den vecka ut och vecka in berättade för läsarna hur världen inte fungerar.

Förutom tidskifternas publiceringsbias – tendensen att bara publicera signifikanta samband – så finns även dess lillasyster; forskarnas egna bias att bara rapportera experiment som lett någonstans. Att rapportera alla de misslyckade experiment som ligger bakom varje forskningsgenombrott vore inte bara tröstlöst, det skulle även innebära att man vore tvungen att justera de statistiska signifikanstesten — vilket minskar sannolikheten att ens fynd är signifikanta.

Dessa är inga nya insikter men en intressant presentation av Dan Benjamin om hur den genetiska forskningen kan påverka den nationalekonomiska visade att problemen kan förväntas bli större framöver. Det finns en enorm mängd möjliga samband mellan gener, miljö och olika utfall; antalet testbara hypoteser är troligen större än antalet människor som någonsin levt. När denna typ av forskning blir allt billigare kommer också antalet skensamband att öka dramatiskt.

Generöst nog berättade Benjamin frikostigt om sina egna misslyckanden. Teoretiskt förväntade samband mellan gener och utfall som varit kraftigt signifikanta i ett första urval av tusentals individer hade varit omöjliga att replikera när fler vågor av data blivit tillgängliga. I andra fall hade de initiala resultaten överlevt flera replikeringsförsök bara för att senare gå upp i rök.

Oavsett vad man tycker om just denna typ av forskning – Benjamin tror den har en framtid – så finns det anledning att fundera över hur vi testar statistisk signifikans, hur vi rapporterar empiriska resultat och vilket värde som tillskrivs replikationsstudier. Förändringar i normerna kring detta måste dock ske på institutionell nivå eftersom ingen enskild forskare har incitament att ställa högre krav på sin egen forskning än vad forskarsamhället kräver. I väntan på dessa förändringar kommer vi att fortsätta publicera fynd som övertygande visar hur världen fungerar. Och i morgon kommer vi att ha ändrat oss.

Comments

  1. Om det är den New Yorker-artikel som jag själv läste nyligen så går den att läsa här: http://www.newyorker.com/reporting/2010/12/13/101213fa_fact_lehrer

  2. påminner f ö inte denna kritik lite om McCloskeys tes i ”The Cult of Statistical Significance”?

    • Lars P Syll says:

      Stämmer bra.
      Och som McCloskey/Ziliak (JEL, 1996 s 112) skriver:

      NO ECONOMIST HAS ACHIEVED SCIENTIFIC SUCCESS AS A RESULT OF A STATISTICALLY SIGNIFICANT COEFFICIENT. MASSED OBSERVATIONS, CLEVER COMMON SENSE, ELEGANT THEOREMS, NEW POLICIES, SAGACIOUS EOCNOMIC REASONING, HISTORICAL PERSPECTIVE, RELEVANT ACCOUNTING: THESE HAVE ALL LED TO SCIENTIFIC SUCCESS. STATISTICAL SIGNIFICANCE HAS NOT.

      Statistisk signifikans – vare sig vi talar om varianter av Fishers eller Neyman-Pearsons teorier – har inte ett smack med ekonomisk signifikans att göra. Tyvärr ”glömmer” en del forskare bort detta och slutar leta efter bra modelle och relevanta variabler så fort de fått ”signifikanta” testresultat.

  3. Lars P Syll says:

    Jonas:
    Tack för ett intressant inlägg.
    Dock inget nytt under solen …
    De dubier du refererar till framfördes t ex redan 1939 av Keynes i en kritik [Economic Journal, Sept, p 560] av Tinbergens tidiga ekonometriska arbeten:

    ”Prof. Tinbergen agrees that the main purpose of his method is to discover, in cases where the economist has correctly analysed beforehand the qualitative character of the causal relations, with what strength each of them operates. If we already know what the causes are, then … Prof. Tinbergen, given the statistical facts, claims to be able to attribute to the causes their proper quantitative importance. If … we know beforehand that business cycles depend partly on the present rate of interest and partly on the birth-ratetwenty years ago, and that these are independent factors in linear correlation with the result, he can discover their relative importance. As regards disproving such a theory, he cannot show that they are not vercecausce, and the most he may be able to show is that, if they are vercecause, either the factors are not independent, or the correlations involved are not linear, or there are other relevant respects in which the economic environment is not homogeneous over a period of time (perhaps because non-statistical factors are relevant). Am I right in thinking that the method of multiple correlation analysis essentially depends on the economist having furnished, not merely a list of the significant causes, which is correct so far as it goes, but a complete list? For example, suppose three factors are taken into account, it is not enough that these should be in fact vercecausce; there must be no other significant factor. If there is a further factor, not taken account of, then the method is not able to discover the relative quantitative importance of the first three. If so, this means that the method is only applicable where the economist is able to provide beforehand a correct and indubitably complete analysis of the significant factors. The method is one neither of discovery nor of criticism. It is a means of giving quantitative precision to what, in qualitative terms, we know already as the result of a complete theoretical analysis – provided always that it is a case where the other considerations to be given below are satisfied.”

    Liknande kritik framfördes faktiskt också av Ragnar Frisch (!) och tyvärr har dessa metodologiska problem aldrig på allvar tacklats av efterföljande ekonometriker. Och så länge de förblir ”otacklade” kommer våra ekonomiska tidskrifter att fortsätta vara fulla av den typ av nonsens du refererar till!

    • Martin K. says:

      Syll: Det är sant att Keynes (och även Friedman) var skeptiska mot ekonometrin. Men det är värt att erinra sig en viss bakgrund. Detta var innan ekonometrin integrerat probabilitetsteori, något som skedde först med Frischs läroljunge, Haavelmo, i artikeln ”The Probability Approach to Econometrics”.

      Den ekonometri som pionjärerna tillämpade, och den som de allra flesta följer idag, är med andra ord ganska olika. Att läsa historia för att bevisa åsikter av idag, är fel sätt att använda historia.

  4. Lars P Syll says:

    Martin:
    Skillnaden mellan pre- och post-Haavelmo ekonometri är jag sannerligen väl bekant med [vilket jag tror du kan förvissa dig om genom att läsa några av mina doktrinhistoriska/ekonomimetodologiska böcker, eller t ex min ”What is (wrong with) economic theory?”, som du kan ladda ner på
    http://www.paecon.net/PAEReview/issue55/Syll55.pdf%5D.
    Ekonometrins pionjärer och dagens utvövare skiljer sig dock – tyvärr – inte åt när det gäller den metodologiska fråga som diskuteras i mitt Keynescitat!

    • Martin K. says:

      Lars skrev:

      ”tyvärr har dessa metodologiska problem aldrig på allvar tacklats av efterföljande ekonometriker”

      Det var detta jag vände mig emot. Du påstår dig vara bekant med Haavelmos berömda artikel om probabilitetsteori. Till saken hör att den var just ett försök att förbättra Frischs och Tinbergens tidigare modeller. Jag har svårt att se att din invändning stämmer, även om vi skulle acceptera att alla försöken likväl varit dödfödda.

      ”Ekonometrins pionjärer och dagens utvövare skiljer sig dock – tyvärr – inte åt när det gäller den metodologiska fråga som diskuteras i mitt Keynescitat!”

      Så du vidhåller att ingen förbättring skett i denna fråga sedan i vart fall 1933? Har svårt att se hur introduktionen av probabilitetsteori inte kan betraktas som ett försök att hantera just det Keynes efterlyste (en metod att uppskatta sannolikheter).

      Men den standard du sätter för ”bra” samhällsvetenskaplig forskning är antagligen omöjlig att uppnå. Vad som kan avses med ”att på allvar tackla” enligt din vetenskapsfilosofi kan antagligen ingen dödlig – men möjligtvis några idag döda ekonomer? – uppnå.

  5. Lars P Syll says:

    Vad Keynes kritik i grunden handlar om är att man måste kunna ge sakskäl för att kunna överföra sannolikhetsteorins sannolikhetsrum, fördelningar m m från axiomatiken till verklighetens olika områden, som t ex ekonomin.
    Utan att t ex kunna peka på vilka aspekter av verkliga ekonomier som sannolikhetsaxiomen kan identifieras är ju den probabilistiska ekonometrin inget annat än ”a leap of faith”. Detta insåg även den axiomatiserade sannolikhetsteorins egen gigant, Andrei Kolmogorov (se t ex Albert Shiryaevs läsvärda ”Everything about Kolmogorov was unusual” i Statistical Science, no 6, 1991)!

  6. pontus says:

    Ar jag ute och cyklar om jag tror att Keynes pratar om multikollinearitet, kausalitet vs. korrelation, och omitted variable bias?

    Men om jag inte ar det, menar LPS att dessa inte tas pa allvar? De studeras under forsta terminen pa de flesta PhD-program.

  7. Jag vill bara framhålla att detta inte i huvudsak är ett nationalekonomiskt problem; New Yorker refererar enbart naturvetenskaplig, psykologisk och medicinsk forskning. Det är med andra ord ett generellt problem som beror på den ymniga förekomsten av enkelt testbarahypoteser i kombination med tidskrifters och forskares incitament.

  8. troll2 says:

    L P Syll – nationalekonomins Björn Ranelid! (komplimang)

    • Lars P Syll says:

      Man får bocka och buga, även om liknelsen kanske är något chargerad …

  9. Gustav says:

    Ett problem av rang, särskilt inom vetenskaper där den experimentella metoden har företräde framför abstrakta och formella resonemang kring bevisföring.

    Får tipsa om den intressanta fallstudien från 1988, då Jacques Benveniste trodde sig ha upptäckt att en homeopatiskt utspädd antikroppslösning, som alltså inte innehåller några antikroppar, ändå kunde ha en biologisk effekt genom att aktivera mastceller.

    Fallstudien utfördes av trollkonstnären och skeptikern James Randi och ett par andra forskare, som sändes till Benvenistes laboratorium för att undersöka saken. De fann bland annat att effekten uteblev när proverna blindades, och drog slutsatsen att den inte kunde vara verklig. Benveniste hade lurat sig själv genom att inte kontrollera sina experiment tillräckligt noga och bara räkna de gånger experimentet ”fungerade”. Av fallstudien framgår att Benveniste med största sannolikhet utgjorde toppen på ett isberg, och att han bara exponerades pga det totalt osannolika i hans påståenden.

    Hela artikeln finns här.

  10. Lars P Syll says:

    Pontus:
    Du glömde (?) Patinkin (1976): ”though not all of Keynes’s criticisms were well taken … I find it somewhat depressing to see how many of them are, in practice, still of relevance today”

  11. Ytterligare ett tips där detta varit uppe:

    Ed Leamer pratar om fenomenet med ”fishing expeditions” i den här intervjun gjord av Russ Roberts på Econtalk.

    http://www.econtalk.org/archives/2010/05/leamer_on_the_s.html

    Leamer skrev 1983 en artikel med den fyndiga titeln ”Let’s Take the ‘Con’ Out of Econometrics”. Länk till artikeln finns på länkade sida ovan.

  12. Lars P Syll says:

    Martin:
    Leamers 1983-artikel i American Economic Review, ”Let’s Take the ‘Con’ Out of Econometrics”, är en pärla. Två smakprov:

    ”Economists have inherited from the physical sciences the myth that scientific inference is objective, and free of personal prejudice. This is utter nonsens.” [s 36]

    ”As I see it, the fundamental problem facing econometrics is how adeqauately to control the whimsical character of inference, how sensibly to base inferences on opinions when facts are unavailable.” [s 38]

    För att undvika eventuella missförstånd vill jag ändå framhålla att därmed inte är sagt att hans eget alternativ (fragility analysis) är invändningsfri.

Trackbacks

  1. […] mängd genetiska indikatorer kan köras mot en aldrig sinande ström av utfall (se tidigare inlägg om detta). Dels anser vissa ekonomer att det är oklart exakt vad man kan lära sig genom att visa […]

Lämna ett svar till troll2 Avbryt svar

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut /  Ändra )

Google-foto

Du kommenterar med ditt Google-konto. Logga ut /  Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut /  Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut /  Ändra )

Ansluter till %s