De svenska registerdatabasernas sorgebarn: Dokumentationen

Svenska registerdata används i allt högre grad inom forskning och utvärdering vilket har resulterat i en mängd rön och lärdomar inom särskilt medicin och samhällsvetenskap. Men ett problem som sällan diskuteras är att de flesta av dessa registerdatabaser är bristfälligt dokumenterade. Antalet variabler är mycket stort (tusentals) och har i de flesta fall förändrats över tid. Statistikmyndigheterna i Danmark (DST) och i viss mån Norge (SSB) har upprättat samordnade system för registerdokumentation, men tyvärr har Sverige och SCB halkat efter.

Effekterna av dagens bristfälliga dokumentation av svenska registerdata är förmodligen stora, och enbart negativa. SCBs egen personal har svårt att få översikt över den egna dataproduktionen, inte minst mellan olika avdelningar. Men även SCBs avnämare såsom forskare, företag, kommuner, stat, har stora problem. Bristande kunskap om registerdata bland forskare och utredare är mycket oroväckande eftersom detta sannolikt innebär att det finns utredningar och forskningsrön som vilar på felaktig grund. När man inte förstår vilka data man använder är risken stor att analysen blir missvisande.

Att upprätta en dokumentation över databaser kräver resurser. I många svenska register har fokus legat på insamling och sammanställning medan dokumentationen har prioriterats ned. Effekten är att ingen riktigt vet vilket information vissa registervariabler innehåller, och detta gäller både handläggare och användare.

Ett exempel på dessa problem kan jag hämta från de svenska registerdata jag själv använder för att studera inkomstfördelningen. Huvudkällor är taxeringar (av inkomst, fastighet, förmögenhet etc.) och dessa finns att tillgå i elektronisk form sedan 1968 eller senare. SCB har idag ingen samordnad källa för vad dessa databaser innehåller. Lagar och regler som har styrt skapandet och insamlandet av dessa register har ändrats otaliga gånger och därmed har även variablernas innehåll ändrats. SCB har förtjänstfullt samlat in variabler från andra myndigheter för att beräkna t ex disponibel inkomst, men tyvärr har SCB inte lagt någon större vikt vid dokumentationen. Vad som finns är enbart listor över variabelnamn, men sällan beskrivningar av variablerna vid olika tidpunkter.

I Danmark har DST skapat en hemsida där variabler presenteras och länkas över tid, som används av både DST-anställda och forskare och andra användare. I Norge har SSB (och andra) en hemsida där mikrodatavariabler beskrivs vad gäller innehåll och tidsperiod. Den är inte lika rik på information som DSTs sida, men ändå värdefull.

I Sverige saknas sådana heltäckande dokumentationskällor över registerdatabaser. De som finns är ännu mycket bristfälliga. Men det finns embryon som är intressanta.

  • SCB:s söksida över mikrodataregister ger en alfabetisk översikt till de olika registren. Men där krävs att man klickar sig ner ett antal nivåer för att i slutändan enbart få en summarisk beskrivning av registret, en lista på variabler, och enbart över något eller några få år tillbaka. Där finns nästan ingen information om variablernas innehåll eller förändring över tid.
  • SCB har lanserat MetaPlus, som syftar till att samordna registerinformationen. Den har en sökmotor som skulle kunna bli användbar. Men i dagsläget är MetaPlus långsam och inte heltäckande. Några snabba sökningar ger vid handen att täckningen är bristfällig, särskilt längre bakåt i tiden. Tekniska problem gör att man i dagsläget inte kan använda databasen (det tar lång tid, rullgardinsmenyer fungerar inte).
  • Vetenskapsrådet har också nyligen tagit itu med dokumentationsproblematiken. På sajten registerforskning.se beskrivs vad registerforskning är. Där finns ett sökverktyg, RUT, som dock är under uppbyggnad och med begränsad användbarhet (få register, korta variabelbeskrivningar, ingen fri sökning, lite info om förändringar över tid).

Dessa initativ pekar i rätt riktning, men de har ännu långt kvar till målet. Sverige måste därför kraftsamla för att öka kunskapen om våra unika registerdata. Huvudansvaret faller rimligen på SCB. Samordning behövs av register dels inom SCB, dels på andra myndigheter. Ju längre tiden går, desto större är risken att felaktig registerforskning produceras. Sverige behöver en heltäckande dokumenation av registerdatabaserna snarast!

Trackbacks

  1. […] SCB, Sveriges statistiska Centralbyrå. Kan vara bra att ha tillhands för att t.ex. kolla siffror som används som slagträ i politiska debatter. Men, när det gäller sökvariabler och insamlingsvariabler så är de inte konsistenta över tid, dvs olika  insamlingskriterierna har förändrats – vilket inte alltid redovisas. Om detta som ett problem skriver Daniel Waldenström på Ekonomistas i inlägget ”De svenska registerdatabasernas sorgebarn: Dokumentationen”. […]

Kommentera

Fyll i dina uppgifter nedan eller klicka på en ikon för att logga in:

WordPress.com Logo

Du kommenterar med ditt WordPress.com-konto. Logga ut /  Ändra )

Google+-foto

Du kommenterar med ditt Google+-konto. Logga ut /  Ändra )

Twitter-bild

Du kommenterar med ditt Twitter-konto. Logga ut /  Ändra )

Facebook-foto

Du kommenterar med ditt Facebook-konto. Logga ut /  Ändra )

Ansluter till %s