Fler bedömare ger rättvisare betyg

Att bedöma skrivförmåga är svårt. En stor mängd forskning visar att lärare ofta inte är överens om det exakta betyget på en text, även om de på ett allmänt plan har en samsyn kring vilka elevtexter som är bättre och sämre. Men det finns lösningar.

Den här artikeln presenterar resultat av forskning. Texten är framtagen vid ett universitet eller högskola på uppdrag av Skolverket.
Läs om hur vi sammanställer och sprider kunskap om resultat av forskning

Text

En artikel i tidskriften Språk & Stil (nr. 24) av Eric Borgström och Per Ledin (2014) belyser problematiken och pekar på faktiskt rätt enkla, men möjligen dyra och tidskrävande vägar ut ur den.

Bedömarvariation inom och mellan grupper

I Sverige var diskussionen om bedömning av skrivförmåga senast på tapeten när Skolinspektionen ville avskaffa uppsatsproven i svenska, eftersom kontrollbedömarna inte var överens med lärarna. Bortåt hälften av elevtexterna fick ett nytt betyg, i de allra flesta fall lägre. Det är inte i sig uppseendeväckande, menar Borgström & Ledin, eftersom externa bedömare generellt bedömer hårdare än rättande lärare och eftersom Skolinspektionens uppdrag formulerades mot bakgrund av betygsinflation. Det blir fel att säga att lärare i allmänhet bedömer dåligt.

Nationella skrivprov behöver alltså inte avskaffas, men vi måste sträva mot en likvärdig bedömning. Kloka bedömningsanvisningar är en del av detta. Men framför allt trycker Borgström & Ledin på att vi alltid ska använda mer än en bedömare – gärna tre. De förklarar:

En insikt som länge funnits inom psykometrin och som vår undersökning både belägger och illustrerar är att bedömarvariationen reduceras med fler bedömare. Det är en svensk tradition att inte ha flera bedömare vid summativa skrivprov – i många andra länder är det självklart. […] [V]i säger utifrån vår undersökning att tre bedömare gör stor skillnad.

Bedömarvariationen kan minskas

Artikeln tar den ovana läsaren med på en resa genom termer som validitet, bedömarvariation och interbedömarreliabilitet. En fjärde term man snart blir varse är true score – ett ”sant” betyg för en eller annan prestation.

I fallet med en uppsats i ett nationellt prov skulle ett sant betyg kunna tas fram endast om ”alla bedömarna i en viss praktik, exempelvis alla svensklärare som rättar ett visst nationellt prov” (s. 134) anlitades för bedömning. Det är naturligtvis omöjligt i praktiken, men poängen med att föreställa sig detta är att man då tydligt och klart förstår formeln: Ju fler bedömare, desto mindre godtycklighet och subjektivitet vid bedömning – bedömarvariationen minskas. Helst bör antalet uppgifter (mätpunkter) också vara många – det reducerar ytterligare risken att göra en ”falsk” bedömning.

Både hökar och duvor bland bedömarna

Därefter, i strävan efter att sätta ord på hur en s.k. tolkningsgemenskap bland svensklärare kan se ut, tar man sig an frågan om hur lärare bedömer. Ett svar på den frågan är att lärare rätt ofta rangordnar uppsatsers kvalitet i samma ordning, men ändå sätter olika betyg. Två lärare kan alltså vara överens om att en text är bättre än en annan. Däremot kan den bättre texten ges betyget starkt VG av den ena läraren, men bara ett G av den andra läraren (se t. ex. s.151). Det här förklarar Borgström & Ledin bl.a. med att somliga lärare beter sig i bedömningssammanhang som hökar – är hårdare, och andra som duvor – är snällare (s. 153).

Här är det intressant att fundera över att den relation läraren har till sin egen elev, verkar spela roll för den generella betygsättningen, således (ev.) även vid prov (Rinne 2014). Den aspekten går i och för sig inte att diskutera utifrån just Borgströms & Ledins empiri, eftersom deras lärare ingår i en lärarlyftskurs de båda forskarna undervisat i. (Materialet kommer i sin tur från den nationella provgruppens arkiv.) Bedömarna i studien har således inte någon personlig relation till eleven bakom uppsatsen, vilket däremot är vanligt när provet genomförs ute i skolorna. Hök eller duva växlar förmodligen med personlig relation till olika elever. (Därefter kan en lärare nog vara hök respektive duva beroende på om det är uppsats nummer 3 eller 47 i ordningen som läses…) Av den anledningen kunde det möjligen vara dags för Provsverige att även om vi inte inför central externrättning, ändå börja diskutera lokal anonymisering?

Risker föder risker

Ett marginalfenomen, men ändå intressant, är s.k. spricktexter, inte sällan författade av vad norska forskare kallat för riskskribenter (Hertzberg 2006). Dessa får prefixet ”risk” t.ex. eftersom de riskerar sitt eget betyg på grund av att de utmanar systemet på olika vis. Epitetet kan också syfta på att de utgör en riskfaktor för ett provsystem med endast en bedömare – spricktexterna ges nämligen inte sällan både högsta och lägsta betyg, när man testar dem mot olika bedömare.

Borgström & Ledin exemplifierar med en elev som tagit ut de metaforiska svängarna lite väl mycket – ett välkänt fenomen bland lärare skulle jag tro. För elever blir metaforik en textaspekt som paradoxalt nog är som roligast att använda när man nyss upptäckt den. Då är den också som svårast att fullt ut bemästra. Eleven utsätter sig därmed för en (omedveten) risk och mycket riktigt visar det sig att några lärare inte uppskattar experimentet, medan somliga tvärtom gör det:

”I en hård läsning blir texten osammanhängande.”
”I en välvillig läsning är texten spänstig och kreativ.”(s. 158)

Genom spricktexterna blir det som tydligast att en lärare vid sin bedömning av ett skrivprov förhåller sig till/resonerar utifrån två olika sorters rationaliteter: teknisk respektive hermeneutisk (pragmatisk). Det ger en bedömande lärare möjligheten att samtidigt som hen är satt att följa ganska hårda bedömningsanvisningar, som t.ex. kan handla om att en text ska gå att publicera i en reell tidning, också förhåller sig till det faktum att eleven är just elev, och att läraren själv är elevens professionella svensklärare och inte en tidningsredaktör…

Kriteriet om publicerbarhet såg 2011 för övrigt ut som i tabellen nedan:

G

VG

MVG

Texten kan efter viss bearbetning fungera som en debattartikel.

Debattartikeln är välskriven, intresseväckande och i stort sett färdig att publiceras i det tänkta sammanhanget.

Debattartikeln är välstrukturerad och engagerande samt fungerar i sitt nuvarande skick.

Att dessa krav är högt ställda om de till punkt och pricka skulle efterföljas vid en bedömning som förhåller sig till det nationella provets skrivsituation, står utom tvivel för alla och envar. Författarna menar att om de skulle efterlevas bokstavligen, finge vi ”underkänna” många, ja rentav alla:

Driver vi kriteriet publicerbarhet hårt måste vi underkänna i princip alla elever, för det de skriver är ytterst en provtext, där man är förelagd en massa saker, som att referera från ett givet texthäfte. (s. 161)

Problematiken med spricktexterna ”löser sig” emellertid om man ökar antalet bedömare (även om man förvisso aldrig når ett sant betyg, ”true score”). Det som händer med spricktexter vid ett utökat antal bedömare är att de istället landar i något av ett medelvärde – ett egentligen rätt tråkigt öde... Som ”riskelev” kanske man hellre skulle tagit chansen i denna bedömningspraktikens ryska roulette?

Slutsatser och förslag

Artikeln kommer fram till ett antal slutsatser och förslag:

1. Lärare inom samma (skol-)ämneskultur bedömer bäst.
Svensklärare ska även i fortsättningen bedöma svenskämnets texter (s. 160).

2. ”Skrivprov är utomordentligt svårbedömda” (s. 161).
Även om bedömningen baseras på ett flertal bedömare når man inte hela vägen fram, men bedömarvariationen går att reducera.

3. ”Ett sätt att öka tillförlitligheten är att i ett första steg göra bedömningarna av de nationella proven ännu mer öppna för lärarnas omdöme och deras förväntningar på elevtexter. I ett andra steg kan vi ur lärarnas bedömningsnivåer extrahera normer och utveckla deskriptorer för olika prestationsnivåer”.
Här hänvisar man till Norge och det pågående Normprosjektet – se annan artikel här på Skolverkets forskningssidor.

Slutklämmen i artikeln är konstruktiv: ”Att bruket av flera bedömare inte hotar utan tvärtom kan stärka professionen hoppas vi att denna artikel har visat”. Man skapar alltså en väg ut ur det svårlösta läge där vi å ena sidan har en lärarkår som känner sig ifrågasatt som profession genom kravet på en extern, nationell kontrollrättning, och å andra sidan det krassa faktum att ensamma lärares betygsättning av skrivförmåga rymmer alltför stor bedömarvariation för att läget ska vara rättssäkert. Ett system som tillåter ensam bedömning är alltså per definition, i sin konstruktion, ett potentiellt risksystem. Logiken (och statistiken) säger därmed att anvisningar i sig inte kan komma tillrätta med detta – hur utvecklade de än blir.

Se även Eric Borgströms doktorsavhandling för fler perspektiv på skrivprov och bedömning (Borgström 2014.)

Text: Mikael Nordenfors

Källor:

Borgström, Eric & Per Ledin (2014). Bedömarvariation. Balansen mellan teknisk och hermeneutisk rationalitet vid bedömning av skrivprov. Språk & Stil. Tidskrift för svensk språkforskning. Nr. 24, 2014. Uppsala: Swedish science press.

Borgström, Eric (2014b). Skrivbedömning. Uppgifter, texter och bedömningsanvisningar i svenskämnets nationella prov. Studier från Örebro i Svenska Språket 11. Doktorsavhandling. Örebro: Örebro universitet.

Hertzberg, Frøydis (2006). ”Risikoskriverne I KAL-materialet – noen tekstek­sempler”. I: Matre, Synnøve (2006) (red.). Utfordringar for skriveopplaering og skriveforsking i dag. Trondheim: tapir akademisk forlag, s. 30–37.

Studien Pedagogisk takt i betygssamtal. Länk till annan webbplats.

Skolinspektionens granskningrapport Lika för alla? Länk till annan webbplats.

Publicerad 09 mars 2015.  Senast uppdaterad 29 januari 2021.