fredag 1. mai 2015

Hattie og hans tjenere: En kritikk i ti punkter


I diskusjonen om klassestørrelse fortsetter Høyre å insistere på at «all forskning viser at»... Med «all forskning» meiner de egentlig John Hattie, eller mer presist professor Nordahls tolkning av Hattie.1

Det trengs en drøftelse av hva Hattie egentlig skriver, og en kritikk av hvordan han er kommet fram til det. Dette er en begynnelse.

1: Hatties bok «Visible learning» er en litteraturgjennomgåelse, ikke et produkt av sjølstendig forskning. Den mye omtalte tabellen over «hva som virker» er satt opp ved at Hattie har regnet ut et gjennomsnitt fra de metastudiene han har funnet, uavhengig av hvor pålitelige grunnlagsdataene har vært. I forordet bruker han mye plass på å begrunne den manglende kvalitetskontrollen. Hovedargumentet er at han finner omtrent samme gjennomsnitt og standardavvik i både gode og dårlige analyser! Dermed spiller det ingen rolle at han ikke sorterer bort de dårlige.2 Det skriver han til tross for at en av de største metastudiene han baserer seg på, Glass & Smith fra 1979, påpeker hvor stort utslag kvaliteten på en studie gjør: «Forskjellen i resultater mellom gode studier og dårlige studier er dramatisk», skriver de. De gode studiene finner store forskjeller mellom små og store klasser; de dårlige finner nesten ingen forskjell. Og når Hattie beregner gjennomsnittet av «Stor forskjell» og «Ingen forskjell», finner han selvfølgelig «Halvstor forskjell».

2: Hattie måler virkningen av hver enkeltfaktor ved å regne ut hvor stor del den gjennomsnittlige økningen i læringsutbytte som faktoren representerer utgjør av et standardavvik i elevenes læring. Elevenes tilegnelse av kunnskap er normalfordelt, og hvert tiltak øker den gjennomsnittlige tilegnelsen med en større eller mindre del av standardavviket i denne fordelinga. Vi ser fort at «alt virker»: Gjennomsnittet for de 138 enkeltfaktorene ligger på ca. 0,4 standardavvik. Det tilsvarer, ifølge Hattie, ca ett års læring! Da skulle det være en smal sak å øke læringsutbyttet med flere års læring: Gjennomfør to av de tiltakene som virker best, to som gir 1,8 standardavvik tilsammen – så er mirakelet utført! - Problemet er selvfølgelig Hatties skalering. Observasjonene fra hver enkelt studie kan godt være riktige: At «alt virker» skyldes at hvert enkelt tiltak har hatt en dokumentert virkning i en eller annen studie, en eller annen gang. Den studien kan være gjennomført i ei bestemt aldersgruppe, på ett bestemt sted, i en bestemt skole, under bestemte ytre forhold som gjaldt akkurat der og da. Men i tabellen over «hva som virker» utvides dette til å være gyldig for alle aldersgrupper, i alle skoler, på alle tider og steder, under alle forhold. Dermed sprenges skalaen, og følgelig truverdigheten.

3: De 138 tiltakene er svært forskjellige. Noen er gjensidig avhengige; andre ikke. Når Hattie setter opp en kurve over 815 metastudier som viser antall effekter pr. intervall av virkning (40 effekter gir en økning på 0,45 til 0,49 standardenheter, osv), er det ingen grunn til å vente at resultatet skal bli normalfordelt. Men det blir det! Et slikt resultat vil vi få hvis hvert tiltak har en virkning som utgjør et tilfeldig avvik fra gjennomsnittet for alle tiltak. Men virkningen av (for eksempel) «klassestørrelse» eller «sosioøkonomisk status» utgjør ikke tilfeldige avvik fra samme gjennomsnitt; de utgjør resultatet av kvalitativt forskjellige faktorer. Hvert tiltak bør derfor gi et systematisk avvik fra gjennomsnittet; ikke et tilfeldig avvik. - Hvis jeg slår tre terninger 815 ganger og skalerer summen av øyne ned fra 10,5 til 0,4 i gjennomsnitt, så får jeg ei tilnærmet normalfordeling. Det skyldes tilfeldige avvik. Men når jeg ser på bidrag til (økt) læringsutbytte fra eleven, fra hjemmet, fra skolen, fra læreren og fra undervisningsmetoden, da bør de avvikene jeg finner helst ikke være tilfeldige. Det er ingen grunn til at de skal fordele seg i en Gauss-kurve – og at de gjør det, er ikke noe godt tegn. En fristes til å spørre: Er disse resultatene målt, eller er de generert med tre terninger?

4: Sjøl om Hatties bok bygger på enorme mengder publisert forskning, er det flere viktige studier som han merkelig nok har unnlatt å ta med. Det dreier seg blant annet om tre store prosjekter som er gjennomført nettopp for å finne ut hvordan klassestørrelsen påvirker læringsutbyttet. Disse studiene er dessuten gjennomført med betryggende statistiske metoder for å eliminere de svakhetene som har preget mange eldre undersøkelser.3 Det dreier seg om STAR- og SAGE-prosjektene i USA, og CSPAR-prosjektet i England. Disse undersøkelsene viser entydig at elever i de yngste årsklassene har stor nytte av redusert klassestørrelse. Utbyttet er størst hos de svakeste elevene, og hos barn av foreldre med svak økonomi og kort utdannelse. Hattie nevner ikke disse studiene med ett ord, enda de er godt kjent og mye diskutert i den engelskspråklige verden.

5: Hattie skiller ikke mellom korrelasjon og kausalitet – et skille som er elementært når du tolker statistikk. Den overlegent viktigste faktoren av de 138 som påvirker læring, ifølge tabellen, er «Self-report grades». Det går ut på at eleven vurderer sine egne ferdigheter, og så måler forskerne hvor godt dette stemmer med læringsutbyttet. 6 forskjellige metastudier viser sterk korrelasjon mellom elevens egen oppfatning og den framgangen som eleven har i skolen. Den som leser tabellen som en oversikt over «hva som virker», vil tru at vi har med en årsakssammenheng å gjøre, mens undersøkelsene bare viser at elever flest har en realistisk oppfatning av hvor «flinke» de er. Og sånn kan det være gjennom hele tabellen: Når Hattie finner en korrelasjon mellom læringsutbyttet og forskjellige egenskaper ved læreren (skjønt liten sammenheng med lærerens etterutdannelse!), så kan det jo tenkes at gode lærere får gode elever. Men pila kan også gå den andre vegen, slik at gode elever får gode lærere! (Søker de beste lærerne seg til de beste skolene? Det kan godt hende – men det sier Hattie ingenting om.) For å finne ut om korrelasjonen viser en årsakssammenheng, og i så fall hvilken, trengs det gode statistiske verktøy og forskere som kan å bruke dem. Hattie viser ikke at han har slike verktøy.

6: Eksemplet med flinke lærere og flinke elever viser den effekten som skoleforskeren Bonesrønning kaller «resiprok kausalitet». Her er et annet eksempel: Enhver rektor strever hver eneste dag med å utnytte sine ressurser optimalt. Tenk deg en rektor som har to klasserom han4 kan bruke; et stort og et lite. Han har også to mulige klasselærere; en erfaren og en nyutdannet. Hvordan fordeler rektor lærerne mellom de to klassene? En annen rektor har kanskje de samme to klasserommene og to omtrent like gode lærere. Rektor veit at det finnes et par-tre ustyrlige villbasser blant årets nye klienter5. I hvilket klasserom plasserer rektor dem? - Svaret på begge spørsmål avdekker prioriteringer og ressursbruk som foregår på hver eneste skole hver eneste dag, og som alltid søker å motvirke uheldige utslag av slike faktorer som klassestørrelsen. Den naive forsker som bruker tall for klassestørrelse og læring ukritisk vil konkludere med at klassestørrelsen betyr lite. Hvis du kjenner situasjonen bedre, griper du dine statistiske verktøy, som hjelper deg til å trekke mer nyanserte konklusjoner.

7: Anta likevel at de tre metastudiene som Hattie bruker når det gjelder klassestørrelse er uangripelige. Anta at alle tre bygger på perfekt gjennomførte enkeltstudier, og at det gjennomsnittet Hattie kommer fram til – 0.21 standardavvik – gir et helt korrekt bilde. - Men dette gjennomsnittet omfatter elever fra første til trettende klasse – fra femåringer til nittenåringer! Ingen har påstått at effekten av reduserte klasser er den samme i den videregående skolen som i småskolen. Tvert imot; de tre store studiene jeg har vist til sier klart at effekten er størst blant de yngste elevene. - Sett at effekten målt i læringsutbytte faller jevnt og halveres hvert tredje år. Da vil et gjennomsnitt på 0,21 gjennom 12 år tilsvare et gjennomsnitt på 0,45 i de tre første åra. For de yngste elevene er klassestørrelsen da ett av skolens viktigste bidrag – tett bak «Classroom cohesion», «Peer influences» og «Classroom management». - Og ifølge forfatterne av den største metastudien som Hattie bruker i forbindelse med klassestørrelse, er altså denne effekten kraftig undervurdert på grunn av dårlige studier.

8: Hatties tabellverk er basert på statistikk. Men han bruker statistikk på originale måter. I sine detaljerte tabeller over effekter av forskjellige faktorer slik de er dokumentert i 815 forskjellige metastudier, opererer han med en størrelse CLE, som uttrykker sannsynligheten for at nevnte faktor vil ha positiv virkning for en tilfeldig valgt elev. I flere tilfeller er denne sannsynligheten større enn 100 %. Et eksempel: Falchikov & Goldfinch viser i sin metastudie av «Self-assessment in college» fra 2000 angivelig at det er 135% sannsynlighet for at effekten vil være positiv! Av 100 studenter vil altså hele 135 ha nytte av den. Og i den andre enden av skalaen: Razels metastudie fra 2001 viser at sannsynligheten for at TV skal være bra for læringsutbyttet er minus 18 %. Av 100 elever kan vi altså vente at minus 18 vil få bedre læring takket være TV – og følgelig at i alt 118 vil få dårligere læring! Her ser vi antakelig et resultatet av at programvaren som Hattie og studentene hans har brukt går amok når ingen passer på den. Men ingen har oppdaget det etterpå – ikke Hattie, ikke forleggeren, ikke den skaren av skolefolk som har trykket Hattie til sitt bryst, og slett ikke Høyre! Jeg kan gjerne være barnet som sier at keiseren ikke har klær på, men jeg synes noen kunne ha oppdaget det litt før.

9: Mer merkelig statistikk: Forskjellige metastudier viser svært forskjellige resultater av samme faktor. De tre som omfatter klasserom, for eksempel, spriker. De dekker store variasjoner i antall studier og antall elever. Hattie måler alltid nytten av et tiltak i hvor stor del av et standardavvik i elevens læring som tiltaket fører til. Men metastudiene har sikkert operert med forskjellige standardavvik for læring. Da er det en lang og fæl prosess å beregne gjennomsnittlig forbedring for hele elevmassen i samtlige metastudier, deretter standardavviket for hele elevmassens læring, og til slutt forholdet mellom de to. Det regnestykket gjør ikke Hattie; han tar en snarveg: Han legger sammen forbedringene og deler på antall metastudier. Uten vekting; uten at vi aner hvor store standardavvik vi har hatt i hver metastudie. Og det er viktig: Hvis standardavviket i én studie er dobbelt så stort som i en annen, så vil en forbedring på 0,4 standardavvik også utgjøre en dobbelt så stor forbedring i den første studien som i den andre! Men det ser ikke Hattie. Hans regnemåte forutsetter at hver metastudie omfatter like mange elever, og at standardavvikene i hver metastudie også er de samme. Når det gjelder første antakelse, så framgår det at omfanget spenner fra 29.000 til 520.000 elever, bare i to av de metastudiene han bruker for å se på effekten av klassestørrelse.6 Og når det gjelder standardavviket for læring i hver studie, kan vi bare gjette – men når spriket ellers er så stort, er det all grunn til å tru at standardavvikene spriker også.

10: Tabellen over «hva som virker» har to desimaler i svaret. Da er det godt å vite at de er beregnet med stor nøyaktighet: Mange av dem oppgis med «standard error»; det vil si usikkerheten i tallet. Ett eksempel: Hattie oppgir «Effect of Principals or School Leaders» - altså rektors påvirkning – til å utgjøre 0,36 standardavvik. Usikkerheten i dette tallet oppgis til 0,031. Det er jo betryggende? Tja! Usikkerheten er oppgitt i bare 2 av de 11 metastudiene som ligger til grunn for tallet 0,36. 0,031 er – du gjettet det: Gjennomsnittet av disse to usikkerhetene. - Men jeg er nysgjerrig. Jeg betrakter tallet fra hver metastudie som én observasjon (det er egentlig det Hattie gjør også, når han regner ut «gjennomsnittet» 0,36). Så regner jeg ut standardavviket i denne mengden av observasjoner. Det blir 0,37! Rektor påvirker altså læringsutbyttet (positivt) med 0,36, pluss minus 0,37, standardenheter. Observasjonene fordeler seg pent slik det sømmer seg i ei normalfordeling: 1 under intervallet, 2 over, resten innafor. Men hvis observasjonene er normalfordelt, så kan jeg finne usikkerheten i middelverdien også: Den blir 0,11! Det betyr at ut fra Hatties egne tall skal middelverdien for rektors påvirkning være 0,36 pluss minus 0,11, og slett ikke 0,36 pluss minus 0,03, slik han oppgir. Sånn kan en finne usikkerheten i flere av de 138 faktorene som Hattie oppgir. Resultatet blir alltid det samme: Den usikkerheten som kan beregnes ut fra oppgitte tall er alltid mye større enn Hattie oppgir. Den blir faktisk så stor at det gir lite meining å rangere faktorene i det hele tatt over store deler av skalaen.

Jeg kunne fortsette. Og fortsette. Og fortsette! Hatties tabell over «hva som virker» rakner når du utsetter den for kritisk analyse. Det samme gjør flere av hans resonnementer. Men betyr det at boka hans er ubrukelig? Slett ikke! Den formidler enorme kunnskapsmengder, samlet gjennom 40 år og bearbeidet i 15 år. Hattie presenterer og drøfter den på en kunnskapsrik, intelligent og underholdende måte. En må bare ikke finne på lese boka som en Bibel som oppsummerer all skoleforskning i urokkelige Sannheter. Framfor alt må en ikke bruke tabellen over «hva som virker» som en fast målestokk for alle tenkelige tiltak i alle tenkelige skoler: Den er i beste fall en pekepinn, et utgangspunkt for diskusjon. Og når sant skal sies, gjør ikke Hattie krav på noe mer heller! Han understreker stadig at boka hans er en litteraturgjennomgåelse. I det ligger det at ikke all litteratur er like god! Og om klassestørrelse sier han slett ikke det som Høyre tillegger ham, nemlig at den ikke betyr noe for elevenes læring. Nei, han sier at redusert klassestørrelse må følges av endret måte å undervise på, dersom den skal ha en slik virkning som vi ønsker. Det betyr at lærerne må lære og trenes til å drive tilpasset opplæring til hver enkelt elev! Akkurat det som kreves i norsk skole. Og hvem kan drive tilpasset opplæring av hver elev i en førsteklasse på 30 elever?

I mange kommuner brukes Hattie i praksis som en god unnskyldning for å redusere lærertettheten og øke klassestørrelsen – gjerne etter at professor Nordahl har besøkt kommunestyret og gitt dem god samvittighet for å tenke slik. Da er det sjelden noen som er ufin nok til å sitere Hattie direkte: «The positive sign of the average effect size suggests that increasing class size is poor policy.»

Bibelen er ei samling myter, legender og halvt historiske nedtegnelser fra vidt forskjellige tider og steder. Alt er gjengitt med stor avstand mellom hendelse og gjenfortelling. Bibelen egner seg til fordypelse, refleksjon, inspirasjon, drøfting. Den egner seg absolutt ikke som kilde til den urokkelige og bokstavelige historiske Sannhet! Men noen bruker den akkurat slik. Det påstås at mange av disse ikke har lest Bibelen i det hele tatt. Og de som har det, har i hvert fall ikke forstått den, sies det.

Akkurat slik er det nok med John Hatties «Visible Learning» også.


1Kanskje har de ikke hørt om andre forskere! Da vil jeg anbefale at de bruker litt tid og energi på å sette seg inn i resultatene til den anerkjente britiske forskeren Peter Blatchford. De presenteres blant annet i hans bok «The Class Size Debate: Is Small Better?», og de avviker sterkt fra Hatties.

2Argumentet ville ha hatt noe for seg hvis de dårlige studiene bare introduserte tilfeldige avvik; ikke systematiske avvik. Problemet med mange dårlige studier er at de trekker resultatet i en og samme retning – omtrent som en terning som er tyngst på den ene sida. Psykologen Eysenck har oppsummert sin kritikk av metastudier uten kvalitetskontroll på følgende enkle måte: «Garbage in, garbage out».

3I andre undersøkelser har man ofte ikke klart å skille mellom forskjellige påvirkningsfaktorer: Elevenes sosiale bakgrunn, lærernes erfaring og kompetanse, osv. Slike studier finner, ifølge Glass & Smith, «nesten ingen forskjell».

4For ordens skyld: «Han» er i dette tilfellet grammatisk kjønn! Rektor kan godt være kvinne. Vær så snill; la meg slippe å bruke den krampefeministiske konstruksjonen «hen»!

5Ikke ett vondt ord om villbasser! De er Jordens salt. Men de utgjør en prøvelse i klasserommet – særlig i den feminiserte skolen der kravet er at alle skal være søte og snille og greie.

6I den tredje, McGiverins metastudie fra 1989, er antall elever ikke oppgitt.

Ingen kommentarer:

Legg inn en kommentar