UA 10 - debatt

Ansvarlig redaktør: Informasjonsdirektør

Teknisk ansvarlig:
Erik Prytz Reitan

Objektive kunnskapsprøver, konstruksjon og vurdering

Objektive kunnskapsprøver av multiple-choice typen er på mange måter forskjellig fra skriveoppgaver av typen «Gjør rede for ...», «Drøft ...» o.l. (essay- eller review- og diskusjons-spørsmål). Spørsmålene kan være jevnt fordelt utover hele pensum; det vil si høy innholdsvaliditet og at flaks og uflaks ikke betyr noe. Rettingen av et multiple-choice oppgavesett er rask og objektiv; en stor fordel når antall deltakere på kurset er stort. Rangering av kandidater etter prestasjon er objektiv når det gjelder en multiple-choice test. Man vil ikke få uoverensstemmelser i sensurkommisjoner knyttet til ulike vurderinger og vektlegginger av deler av en besvarelse.

En enkelt essay-oppgave kan vanskelig være representativ for pensum, og flaks og uflaks kan bety mye for den enkeltes prestasjon. Hvis eksamen består i å velge å besvare ett av to eller flere essay-spørsmål, vil man ha problemer med sammenlignbarhet. Hvis en essay-oppgave er så omfattende at kandidaten må avgrense oppgaven, kan han velge å ikke ta opp de delemnene hvor han står svakt. Dårlig håndskrift, stavefeil og grammatikalske feil (dysleksi) kan komme til å spille en rolle ved vurdering av essay-besvarelser.

Hvis en eksamen med skriveoppgaver har så mange kandidater at materialet må fordeles på flere sensurkommisjoner, vil det kunne hende at forskjellige kommisjoner kommer ut med forskjellig gjennomsnittskarakter, og det kan være vanskelig å vite om dette skyldes forskjellig grad av snill/streng bedømmelse eller forskjell i kvalitet på besvarelsene. En representativ objektiv test i eksamensoppgavesettet vil her kunne være et korrektiv: Det vil være rart om et sett besvarelser med god gjennomsnittsprestasjon på den objektive testen får dårligere gjennomsnittskarakter på essay-oppgavene enn tilfelle er i et sett med besvarelser med dårligere prestasjon på objektive testen.

Konstruksjon og vurdering av en multiple-choice test er ikke en sak for amatører - helst bør en gå på et kurs for å lære om metoden.

Å lage utkast til gode kunnskapsspørsmål for et fagområde, er en kunst på samme måte som det er en kunst å lage utkast til et godt spørreskjema. Utgangspunktet for konstruksjon av spørsmål er de spesielle temaer som kurset omfatter og læringsmålene for disse temaer. Videre må en ha i tankene kjennskap til testmetodikk og den mer spesielle litteraturen om multiple-choice metoden. Det tar lang tid å lage et multiple-choice oppgavesett sammenlignet med å lage et essay-spørsmål.

Passende antall spørsmål avhenger av hvor lang tid og hvilken vekt i større sammenheng som prøven skal ha. Antall spørsmål vil ellers avhenge av antall svaralternativer til spørsmålene; jo færre svaralternativer, jo flere spørsmål må prøven ha. Mest vanlig er fire svaralternativer, ett rett og tre gale. Jo flere spørsmål (med samme antall svaralternativer) jo mer pålitelig er prøven.

Et oppgavesett som er blitt besvart av forsøkspersoner, kan gjøres til gjenstand for data-analyse, som vil vise noe om hvor godt oppgavesettet og de enkelte spørsmål er.

Letthetsgrad til hele testen er hvor mange prosent av spørsmålene som blir besvart riktig som gjennomsnittsprestasjon, eller m.a.o. hvor mange prosent av elevene som besvarer hvert spørsmål korrekt som gjennomsnitt.

Generelt ønsker man å redusere innslaget av ren gjetning, som innebærer lav reliabilitet, og maksimere varians, dvs. differensiering. Lette spørsmål som nesten alle besvarer korrekt, differensierer ikke, og vanskelige spørsmål som bare et mindretall besvarer rett, medfører mye gjetting.

Hvis hensikten med testen er å finne ut om klassen har ervervet seg et visst minstemål av kunnskaper, kan testen vært lett (nesten alle svarer rett på alle spørsmålene). Hvis hensikten er å finne de beste blant de beste, må testen være vanskelig.

Som hovedregel kan det være riktig å ta utgangspunkt i spørsmål med en slik letthetsgrad at de blir besvart rett som åpne spørsmål av ca. 50 % av elevene. Når et spørsmål utstyres med svaralternativer, vil flere svare rett p.g.a. gjetting og eventuelt gjenkjenning.

Hvor lett eller vanskelig et spørsmål er, avhenger av hvordan svaralternativene utformes. Generelt øker vanskelighetsgraden jo mer det rette svaret og de gale svarene ligner hverandre. Ved utforming av svaralternativer må det vises godt intuitivt og pedagogisk skjønn. En kan tenke i retning av å finne gale svar som vil være omtrent like attraktive.

Veiledende tall for optimal letthetsgrad kan være slik:

2 alternativer: 85-90%

3 alternativer: 79-80%

4 alternativer: 74 %

5 alternativer: 69 %

4 alternativer (tilsvarer åpent

spørsmål): 50 %

Et ganske stort intervall rundt disse prosenttallene vil i praksis fungere bra (for differensiering og minimisering av gjetting).

Erfaring med oppgavesett med 4 alternativer og en letthetsgrad i nærheten av 74 % viser at fordelingen av antall rette svar blir tilnærmet normalfordelt (samt en liten opphopning av noen dårlige prestasjoner utenfor normalfordelingen).

Sannsynligheten for å besvare rett et bestemt antall spørsmål av en test med så-og-så mange svaralternativer og så-og-så mange spørsmål ved ren gjetting kan beregnes ut fra binomialformelen.

Analyse av de enkelte spørsmål forutsetter bruk av en standard statistikkprogrampakke. Man får en datamatrise bestående av Antall forsøkspersoner H Antall oppgaver. Manuell punching av svar er tidkrevende, slik at utviklingen bør gå i retning av scanning av svarark. Så kan en legge inn de rette svar og la programmet beregne en ny fil hvor verdiene er 1 (rett svar) eller 0 (galt svar). Så lar man maskinen beregne sumskåren til hver forsøksperson.

Reliabilitet i betydningen indre ekvivalens til hele testen beregnes ved koeffisient alfa.

Frekvensfordelingene til hvert spørsmål vil vise om noen spørsmål er for lette eller for vanskelige og bør justeres etter dette. En del variasjon m.h.t. letthetsgrad er OK. En kan se på populariteten til hvert av de gale svarene, og eventuelt utarbeide mer hensiktsmessige alternativer her; f.eks. forandre eventuelle svaralternativer som ingen har valgt.

Man kan kjøre ut interkorrelasjoner for alle spørsmål. Her forventer man gjennomgående relativt små positive korrelasjoner, med enkelte sjeldne forekomster av korrelasjoner på ca. 00 eller små negative korrelasjoner.

Korrelasjoner mellom de enkelte spørsmål og sumskåren er en viktig analyse. Alle spørsmål som skal inngå i en test, må ha positiv korrelasjon med sumskåren. Eventuelt fravær av positiv korrelasjon med sumskåren må en finne ut av. Forklaringen kan være ingen varians på enkeltspørsmålet (alle svarte rett), eller andre ting.

En annen klassisk metode er å sammenligne de 25-33 % beste og de 25-33 % dårligste på sumskåren m.h.t. prosent (proporsjon) med rett svar på hvert spørsmål. Diskriminasjonsindeks D = H - L = Prosent (proporsjon) i Høy-gruppen som svarte rett minus Prosent (proporsjon) i Lav-gruppen som svarte rett. (Indeksen vil ha tendens til å bli større ved middels letthetsgrad.) Eventuelt kan en beregne korrelasjonskoeffisient for disse data.

Videre kan man dele sumskåren inn i et antall nivåer, f.eks. 5-7 nivåer, og studere hvordan proporsjon som besvarer hvert spørsmål korrekt varierer over disse sumskåre-nivåene. I utgangspunktet lages bivariate krysstabeller i samme antall som antall spørsmål. Disse tabellene kan omgjøres til kurver. Et godt spørsmål viser en monotont økende proporsjon som besvarer spørsmålet korrekt med økende nivå av sumskåre. Eventuelt kan man også lage slike tabeller og figurer for de gale svarene.

Gjennomsnittsprestasjonen (prosent rette svar) er avhengig både av hvor lett oppgavesettet er og studentenes forutsetninger, undervisningens kvalitet, hvor godt studentene har forberedt seg til prøven, og eventuelt andre forhold. Forskjeller i gjennomsnittsprestasjon og gjennomsnittskarakter fra semester til semester bør selvsagt være uttrykk for forskjeller i andre ting enn forskjeller i hvor lette eller vanskelige oppgavesettene er. Oppgavesett som er ekvivalente med hensyn til vanskelighetsgrad, kan man få ved å trekke stratifiserte sannsynlighetsutvalg av oppgaver fra en stor samling av oppgaver. Har man oppgavesett med slik ekvivalent letthetsgrad, vil forskjeller i gjennomsnittsprestasjon skyldes de forhold som er nevnt ovenfor.

Steinar Ilstad
Institutt for industriell økonomi og teknologiledelse