Vetenskapsrådet borde ändra sitt betygssystem

När forskare söker pengar hos Vetenskapsrådet får de betyg och rangordnas enligt vissa principer. I detta inlägg diskuterar jag ett antal problematiska aspekter av denna betygssättning. Jag ger också förslag på möjliga lösningar som baseras på min egen erfarenhet i flera av Vetenskapsrådets bedömargrupper.

Att mäta och jämföra kvalitet i forskning är välkänt svårt. Subjektiva och objektiva bedömningsgrunder ska brytas, och inte sällan är expertpanelerna ämnesöverskridande. Rutiner för hur dessa bedömningar ska göras är utarbetade sedan lång tid i syfte att säkerställa en kvalitetsorienterad och rättssäker forskningsfinansiering.

När Vetenskapsrådet (VR) betygsätter kvaliteten på forskningsansökan bedöms den enligt fyra baskriterier: Projektets vetenskapliga kvalitet, Nytänkande och originalitet, Sökandes kompetens, Genomförbarhet. Utifrån dessa fyra betyg ska ett sista Sammanfattande betyg sättas. Exakt hur totalbetyget ska sättas är dock inte helt specificerat, vilket skapar problem som jag utvecklar nedan.

Betygsskalan är sjugradig: 1=Dålig, 2=Svag, 3=Bra, 4=Mycket bra. 5=Mycket bra till utmärkt, 6=Utmärkt, 7=Enastående. Kriteriet Genomförbarhet bedöms dock enligt en tregradig betygsskala 1=Ej genomförbart, 2=Delvis genomförbart, 3=Genomförbart.

I detta inlägg diskuterar jag ett antal problem med VRs betygssystem och ger därefter några förslag på möjliga förbättringar. Jag har suttit med som bedömare i flera olika utlysningar och har även suttit ordförande i några av dem. Mina tankar har jag redovisat i två ordföranderapporter till VRs ämnesråd för Samhällskunskap och humaniora. Min förhoppning är att detta inlägg ska ligga till grund för en konstruktiv diskussion om hur VRs betygssättning och system för forskningsfinansiering ska bli mer transparent och kvalitetsorienterat.

Problem #1: VRs betygsskala är asymmetrisk med ett för positivt mittenbetyg
Den sjugradiga betygsskalan får återkommande kritik av varje ny generation bedömare. Skalan har flera problem, men det kanske största är att den inte är symmetrisk kring en centrerat, neutral kvalitetsnivå. Istället använder VR medvetet en skevt fördelad skala där mittbetyget är ”Mycket bra”. Syftet är att öka möjligheten till urskiljning inom toppgruppen.

Men problemet är att många bedömare ändå använder VRs betygsskala som vore den symmetrisk. Detta skapar problem, dels eftersom betygsskalan inte är konstruerad på det sättet, dels eftersom några bedömare trots allt använder skalan som den är tänkt.

För att illustrera hur jag menar har jag tittat närmare på betygsdata från några av de senaste bedömargrupperna jag deltagit i inom utlysningen ”Internationell postdoc” för samhällskunskap, utbildningsvetenskap och humaniora. Varje bedömargrupp består av cirka 15 personer, samtliga erfarna forskare oftast på docentnivå från olika discipliner. Antalet ansökningar varierar kring 60-80 stycken.

Figuren nedan visar betygsfördelningen av totalbetygen som alla bedömare har gjort vid deras första individuella betygssättning. Dessa betyg utgör grunden för sållningen, dvs det första urvalssteg där alla ansökningar i den undre hälften av betygsfördelningen sållas ut och tas bort från vidare behandling. Figuren visar att det aritmetiska genomsnittet mellan alla olika bedömarnas kvalitetsbedömningar av samtliga ansökningar är exakt 4,0, alltså precis på mittenbetyget i VRs skala. Genomsnittsansökningen var alltså ”Mycket bra”.

Ett andra resultat är att fördelningen är tämligen symmetrisk kring detta mittenbetyg. Faktum är att den inte är statistiskt skild från en normalfördelning.

Figur: Fördelning av bedömarnas totalbetyg på samtliga ansökningar

Not: Data från VRs utlysning ”Internationell postdoc” 2022. Underlag är 165 bedömningar. Medelvärde är 4,0. Detta exempel är från 2022, men mönstren är detsamma för de andra år jag har sparat data för.

Skillnader i betyg mellan bedömare är att vänta, dels eftersom de inte bedömer exakt samma ansökningar (varje ansökan har tre bedömare), dels eftersom bedömarnas bedömning kan skilja sig åt av en mängd orsaker. Dock bör inte skillnaderna bli alltför stora, och framför allt inte systematiska.

Men systematiska skillnader mellan bedömare uppstår ändå hela tiden. Nästa figur visar dessa skillnader i betyg, där prickarna i botten visar medelbetyget för deras respektive ansökningar. Det skiljer hela två betygssteg i genomsnittsbetyg mellan högsta och lägsta bedömare. Att det är tolkningsskillnader snarare än andra subjektiva skillnader i betygssättning som förklarar skillnaderna har flera gånger framgått när bedömarna till sist träffas vid bedömningsmöten. ”Högbetygsbedömare” kommenterar att de nog satt lite för höga betyg eftersom de inte riktigt läst etiketterna till varje betygssteg. De har då sänkt sina betyg. ”Lågbetygsbedömare” har istället justerat upp sina betyg eftersom de insett att deras bokstavliga läsning av VRs betygsnivåer rimmat illa med den symmetriska tolkning av betygsskalan som de flesta beömare använt. Justeringar är som regel störst för förstagångsbedömare.

Figur: Fördelning av bedömarnas totalbetyg, per bedömare

Harmoniseringen vid mötet mellan bedömarna är till viss del naturlig. Men i den mån den beror på att betygsskalan tolkats olika är skadan redan skedd. Urvalsprocessen på VR fungerar på så vis att ansökningar med låga preliminära betyg sållas bort. Ansökningar som har råkat få ”högbetygstolkare” gynnas därför i förhållande till ansökningar som råkat få ”lågbetygstolkare”. Jag tror att den skeva betygsskalan är en orsak till dessa tolkningsskillnader.

Hur ser det ut i andra länder? Jämförelser mellan länder är svåra att göra. Tabellen nedan visar ett försök att jämföra betygsskalor från ett antal länders forskningsfinansieringsmyndigheter (FI, FR, NL, NO, SE, UK, US). Skillnaderna är inte jättestora, men ändå sticker Sverige ut i just det avseendet att mittenbetyget är starkare positivt, ”mycket bra”, medan andra länders mittenbetyg är mer neutralt.

Problem #2: VRs betygsskala har för få betygssteg och VR ”smyger” därför in ytterligare kvalitetsnivåer i efterhand
De få betygsstegen gör att VR föreslår extra kvalitetsnivåer utöver de som anges i Beredningshandboken. Vid ett introducerande bedömarmöte lanserar VR möjligheten att införa extra betygssteg till det sammanfattande totalbetyget. Specifikt handlar det om att bedömarna ges möjlighet att addera en kvalitetsdimension i tre nivåer, svag-medel-stark (alternativt A/B/C, +/0/-), till totalbetyget ”Sammanfattande betyg”.

Anledningen till att VR inför fler betygssteg är helt enkelt för att erfarenheten visar att VRs betygsskala har för få steg. Alltför många ansökningar hamnar på samma betyg i samtliga bedömningsdimensioner. För att kunna särskilja ansökningar med samma sammanfattande betyg föreslår VR att bedömargruppen skapar tre extranivåer.

I mina bedömargrupper har kritik framförts mot att ett sådant här extra kvalitetsnivåsteg införs i efterhand. Ett problem som uppstår är att denna extra betygsnivå inte anges i VRs egen Beredningshandboken som alla bedömare ska läsa. Vissa bedömare anser att godtycke riskerar uppstå när man introducerar nya bedömningskriterier i efterhand, alltså efter att betyg redan har satts enskilt av varje bedömare. Dessutom har vissa bedömare påpekat att kännedom om denna extra bedömningsgrund möjligen skulle ha påverkat deras bedömning ifall den hade beskrivits tydligt i Beredningshandboken. Här uppstår en skillnad mellan nya och erfarna bedömare som inte hade behövt uppstå ifall VR hade haft ett annat betygsstem.

Förslag till lösning: Inför symmetrisk betygsskala 1-10 eller 1-20
Under mina år som bedömare i VRs ansökningsgranskningar har det varit ständiga problem med VRs betygsskala. Den asymmetriska, obalanserade 1-7 skalan med ett mittenvärde som är “mycket bra” skapar problem eftersom betygsskalan återkommande tolkas av flera bedömare som vore den symmetrisk kring ett neutral mittvärde.

Att även VR anser att betygsskalan har för få nivåer visas av att VR har infört, bakvägen och arbiträrt, möjligheten att lägga till tre kvalitetsnivåer, stark-medel-svag (eller A-B-C), inom varje betygssteg. Med andra ord har VR infört 21 (7*3) betygssteg. Detta anser jag vara ett steg i rätt riktning; utan dessa tre extranivåer hade vårt bedömningsarbete blivit betydligt svårare och förmodligen rättsosäkrare. Att VR inför fler nivåer är naturligtvis symtomatiskt för problemen med att VR-skalan har för få betygssteg.

Mitt förslag är att VR inför en ny symmetrisk betygsskala 1-10 eller 1-20, där 1 är Mycket dåligt och 10 eller 20 är Extremt (ouppnåeligt) bra. Även delkriteriet “Genomförbarhet” bör få samma 10- eller 20-gradiga skala. Mittenbetygen ska motsvara en neturalt godtagbar nivå. En symmetrisk skala, eventuellt indelad i en relativ bedömning kopplad till en normalfördelning, har universell genklang och kan förstås av alla inom alla discipliner. Som visades ovan är den också vad som ofta faller ut när VRs expertbedömare ger betyg på ansökningar.

Med tio eller tjugo betygssteg erhålls en tydlig progression och en symmetrisk betygsskala som lätt tolkas och kan användas som grund för beräkning av genomsnitt. Den används därför i allt från enkla till avancerade enkätundersökningar och skulle inte missförstås av någon bedömare. Skalan 1-20 används i praktiken redan används i svensk grund-och gymnasieskola, och har inte stött på något större motstånd för att ha för många steg. I Frankrike får alla barn upp till studentexamen sedan många år betyg i en 20-gradig betygsskala.

Noteras bör att en sådan här förändring skulle förstärka rättsäkerheten i VRs finansieringsbeslut. Varje år behandlas ett stort antal ansökningar som ska rangordnas, och det är få om ens någon som klarar av att hålla alla komplexa subjektiva bedömningsnyanser i tankarna på samma gång och landa i ett välgrundat och konsekvent betyg. Här krävs istället kvantitativa mått som beskriver denna stora informationsmängd i tydliga mått. Att ha alltför få betygssteg fungerar dessutom bevisligen inte, eftersom VR ju självmant lägger till extrasteg för att kunna gradera inom toppskitet trots sin redan högertunga sjugradiga skala. Detta talar för minst tio steg och kanske 20 betygssteg.

Problem #3: Att både sätta delbetyg och sammanfattande betyg kan skapa inkonsekvens
Varje ansökan bedöms och betygssätts utifrån delkriterierna ”Vetenskaplig kvalitet”, ”Nytänkande och originalitet”, “Sökandes meriter” och “Genomförbarhet”, samt ges ett totalbetyg, ”Sammanfattande betyg”. Flera bedömare påtalar dock svårigheten att både särskilja dessa kriterier från varandra, och att dessutom sätta ett totalbetyg som ska sammanfatta alla dimensioner.

Flera problem uppstår. Ett gäller sammanvägningen av de olika delkriterierna när totalbetyget ska bestämmas. VR ger ingen tydlig vägledning om hur detta ska ske, exempelvis vad gäller vilka exakta vikter som ska användas på de olika delkriterierna. Det är troligt att varje bedömare har gett egna outtalade vikter till delkriterierna när de har satt totalbetyget. Dessa vikter tydliggörs inte för de andra bedömarna och skiljer sig med stor sannolikt åt mellan bedömare, vilket kan skapa obalanser när ansökningar ska rangordnas och i slutändan finansieras. Här uppmanar VR bedömargruppen att själv skapa vikter. Denna aspekt av betygsättningen beskrivs dock inte tydligt i VRs rutiner eller bedömningsdokument. Diskussionen som bedömarna förväntas ta får göras utan att de har fått tid att förbereda sig, vilket skapar osäkerhet och risk för godtycke inte minst beroende på hur gruppdynamik kan ge oförutsedda effekter på utfallet.

Ett annat problem som kan uppstå när bedömare sätter både delbetyg och totalbetyg är risken för strategiskt beteende. Totalbetyget utgör grunden för all rangordning av ansökningar både i den inledande sållningen och i den avslutande finansieringsbedömningen. Erfarna bedömare vet t ex att totalbetyg på 3 med största sannolikhet leder till utsållning medan totalbetyg 6 sannolikt leder till finansiering. För en ansökan som fått betygen 4, 5, 6 för delkriterierna kvalitet, nytänkande och meriter har bedömaren frihet att välja totalbetyg. Eftersom någon objektiv koppling saknas mellan delbetyg och totalbetyg finns här möjlighet till strategiska överväganden. Min erfarenhet visar att erfarna bedömare också har ett stort försteg i denna dimension eftersom de på förhand förstår den oproportionerligt stora betydelsen av totalbetyget, medan alla nya bedömare av naturliga skäl inte har uppnått denna förståelse.

Förslag till lösning: Gör om totalbetyget till ett vägt genomsnitt av delkriteriernas betyg
En relativt enkel lösning på dessa problem vore att det sammanvägda totalbetyget blir en funktion av delkriteriernas betyg istället för att sättas separat vid sidan av delbetygen. Totalbetyget skulle därmed vara ett vägt genomsnitt av betygen på delkriterierna. Ett exempel: Om man anser att vetenskaplig kvalitet (“Kvalitet”) och nytänkande och originalitet (“Nytänkande) representerar de två viktigaste delkriterierna i en forskningsansökans sammanväga kvalitet så kan man ge dessa två delkriterier vikterna 0,35 vardera. Den sökandens meriter (“Merit”) är inte lika viktiga, men har såklart ändå betydelse för projektets förväntade utfall, och skulle kunna få vikten 0,2. “Genomförbarhet” är ett ganska luddigt delkriterium, men har självfallet också betydelse, och får den resterande vikten 0,1 (här framgår varför även kriteriet genomförbarhet bör få samma betygsskala som övriga delkriterier). I detta exempel beräknas totalbetyget således på följande vis:

Fördelen med detta tillvägagångssätt är att varje steg i betygssättningen, och inte minst den relativa vägningen mellan delkriterierna, blir transparent för alla inblandade. Den blir lätt att diskutera och kritisera. Det vore dock önskvärt att VR bestämmer dessa vikter för att inte öppna upp för onödigt godtycke och variatoin mellan de olika bedömargrupperna. VR har ju dessutom redan från början bestämt och formulerat delkriterierna, vilket motiverar att VR också tar ställning i hur viktiga de olika kriterierna är.

Slutord
Sammantaget vore en ny, symmetrisk betygsskala 1-10 eller 1-20 kring ett neutralt mittenvärde bättre än den som VR idag använder. Bestämningen av totalbetyget bör ändras till att bli ett vägt medelvärde av de olika delkriterierna. Dessa förändringar av VRs betygssystem skulle bidra till ökad tydlighet, konsekvens, och stärkt rättsäkerhet i VRs finansieringsbeslut.

Comments

  1. Johan Lyhagen says:

    Är lite skeptisk till kriteriet Genomförbarhet för vissa projekt/ämnen, eller så beror det på att jag inte förstår hur det ska användas. Inom tillämpad forskning med ex registerstudier så har jag full förståelse men för teoretiska så vet man inte var man hamnar förrän man faktiskt bedriver forskningen. Och att någon som inte är expert inom just det delområdet ska kunna bedöma om projektet är genomförbart eller inte har jag svårt att förstå. Det är inte heller uppenbart, från en vetenskaplig synvinkel, att ett lättare (eller svårare) genomförbart projekt är mer värdefullt. Så det kanske skulle vara rimligare med ett kriterium om projektets ”vetenskapliga bidrag” istället.

    • Johan, jag håller med om att “genomförbarhet” är en knepig kategori. Den är mer osäker att bedöma. Och som du säger överlappar den med vetenskaplig kvalitet. Att VR har en annan betygsskala antyder också att de inte tror att folk kan säga särskilt mycket om detta. Detta delkriterium borde nog slopas.

  2. Olof Johansson-Stenman says:

    Kloka och konstruktiva förslag Daniel. Som jag ser det finns dock ett potentiellt större problem med att baskriterierna är för få, och det relaterade problemet med att “Projektets vetenskapliga kvalitet” kan tolkas och tolkas olika. Låt oss säga att en ansökan av en forskargrupp med mycket hög vetenskaplig kompetens föreslår en mycket innovativ forskningsansats med metoder som ligger på forskningsfronten som dessutom är väl genomförbart, men där de flesta, och samhället som helhet, är måttligt intresserade av själva svaren på forskningsfrågorna. Hur bör detta vägas mot ett projekt som ger viktiga bidrag till en mycket central och viktig fråga för mänskligheten, men där, säg, genomförbarheten (av naturliga skäl) är lägre? Relaterat till det sista, finns det inte också en bias mot högriskprojekt inbyggt i betygssystemet?

    • Olof, tack för en mycket viktig kommentar. Faktum är att detta är en återkommande punkt i bedömarnas diskussioner enligt min erfarenhet. Bedömarna har svårt att betygssätta ansökningar som de anser berör angelägna frågor men som inte använder nya metoder eller data, och på samma sätt har då svårigheter med ansökningar som lanserar innovativa ansatser men belyser ointressanta frågor. Här har inte VR någon välfungerande ansats för bedömningen.

  3. adinajagbeck says:

    Varför är det ett problem att bedömningsskalorna är asymmetriska? Rimligtvis är majoriteten av ansökningarna hyggliga och det finns bara ett behov att vaska fram de bästa. Kan det vara intressant att reda ut exakt hur dåliga de dåluga ansökningarna är?

    • Du har rätt i att det finns ett behov att kunna särskilja mellan starka ansökningar. Detta är motivet bakom VRs skeva betygsskala. Men min erfarenhet, och de betygsdata jag har tittat på, antyder att en stor andel av bedömarna inte tolkar betygsskalan på det sätt VR vill. Istället utgår de från en normalfördelning där mittbetyget 4 är neutral kvalitet, och svansarna till vänster och höger bedöms vara olika grader av dåligt respektivt bra. När sedan vissa bedömare faktiskt använder betygsskalan åt det håll som VR vill uppstår problem. Men osäkerheten består ändå såklart även för denna grupp bedömare, eftersom skillnaden mellan “6=utmärkt” och “7=enastående” är mycket svår att formulera i ord och tanke.

      En symmetrisk skala på 1-10 eller 1-20 poäng är helt intuitiv och väl förankrad i allas medvetande oavsett discplin eller åldersgrupp. Den skulle fungera mycket bättre i dessa sammanhang, tror jag.

Leave a comment