Objektive kunnskapsprøver, konstruksjon og vurdering
Objektive kunnskapsprøver av multiple-choice typen er på
mange måter forskjellig fra skriveoppgaver av typen «Gjør
rede for ...», «Drøft ...» o.l. (essay- eller
review- og diskusjons-spørsmål). Spørsmålene
kan være jevnt fordelt utover hele pensum; det vil si høy
innholdsvaliditet og at flaks og uflaks ikke betyr noe. Rettingen av et
multiple-choice oppgavesett er rask og objektiv; en stor fordel når
antall deltakere på kurset er stort. Rangering av kandidater etter
prestasjon er objektiv når det gjelder en multiple-choice test. Man
vil ikke få uoverensstemmelser i sensurkommisjoner knyttet til ulike
vurderinger og vektlegginger av deler av en besvarelse.
En enkelt essay-oppgave kan vanskelig være representativ for pensum,
og flaks og uflaks kan bety mye for den enkeltes prestasjon. Hvis eksamen
består i å velge å besvare ett av to eller flere essay-spørsmål,
vil man ha problemer med sammenlignbarhet. Hvis en essay-oppgave er så
omfattende at kandidaten må avgrense oppgaven, kan han velge å
ikke ta opp de delemnene hvor han står svakt. Dårlig håndskrift,
stavefeil og grammatikalske feil (dysleksi) kan komme til å spille
en rolle ved vurdering av essay-besvarelser.
Hvis en eksamen med skriveoppgaver har så mange kandidater at
materialet må fordeles på flere sensurkommisjoner, vil det
kunne hende at forskjellige kommisjoner kommer ut med forskjellig gjennomsnittskarakter,
og det kan være vanskelig å vite om dette skyldes forskjellig
grad av snill/streng bedømmelse eller forskjell i kvalitet på
besvarelsene. En representativ objektiv test i eksamensoppgavesettet vil
her kunne være et korrektiv: Det vil være rart om et sett besvarelser
med god gjennomsnittsprestasjon på den objektive testen får
dårligere gjennomsnittskarakter på essay-oppgavene enn tilfelle
er i et sett med besvarelser med dårligere prestasjon på objektive
testen.
Konstruksjon og vurdering av en multiple-choice test er ikke en sak
for amatører - helst bør en gå på et kurs for
å lære om metoden.
Å lage utkast til gode kunnskapsspørsmål for et fagområde,
er en kunst på samme måte som det er en kunst å lage
utkast til et godt spørreskjema. Utgangspunktet for konstruksjon
av spørsmål er de spesielle temaer som kurset omfatter og
læringsmålene for disse temaer. Videre må en ha i tankene
kjennskap til testmetodikk og den mer spesielle litteraturen om multiple-choice
metoden. Det tar lang tid å lage et multiple-choice oppgavesett sammenlignet
med å lage et essay-spørsmål.
Passende antall spørsmål avhenger av hvor lang tid og hvilken
vekt i større sammenheng som prøven skal ha. Antall spørsmål
vil ellers avhenge av antall svaralternativer til spørsmålene;
jo færre svaralternativer, jo flere spørsmål må
prøven ha. Mest vanlig er fire svaralternativer, ett rett og tre
gale. Jo flere spørsmål (med samme antall svaralternativer)
jo mer pålitelig er prøven.
Et oppgavesett som er blitt besvart av forsøkspersoner, kan gjøres
til gjenstand for data-analyse, som vil vise noe om hvor godt oppgavesettet
og de enkelte spørsmål er.
Letthetsgrad til hele testen er hvor mange prosent av spørsmålene
som blir besvart riktig som gjennomsnittsprestasjon, eller m.a.o. hvor
mange prosent av elevene som besvarer hvert spørsmål korrekt
som gjennomsnitt.
Generelt ønsker man å redusere innslaget av ren gjetning,
som innebærer lav reliabilitet, og maksimere varians, dvs. differensiering.
Lette spørsmål som nesten alle besvarer korrekt, differensierer
ikke, og vanskelige spørsmål som bare et mindretall besvarer
rett, medfører mye gjetting.
Hvis hensikten med testen er å finne ut om klassen har ervervet
seg et visst minstemål av kunnskaper, kan testen vært lett
(nesten alle svarer rett på alle spørsmålene). Hvis
hensikten er å finne de beste blant de beste, må testen være
vanskelig.
Som hovedregel kan det være riktig å ta utgangspunkt i spørsmål
med en slik letthetsgrad at de blir besvart rett som åpne spørsmål
av ca. 50 % av elevene. Når et spørsmål utstyres med
svaralternativer, vil flere svare rett p.g.a. gjetting og eventuelt gjenkjenning.
Hvor lett eller vanskelig et spørsmål er, avhenger av hvordan
svaralternativene utformes. Generelt øker vanskelighetsgraden jo
mer det rette svaret og de gale svarene ligner hverandre. Ved utforming
av svaralternativer må det vises godt intuitivt og pedagogisk skjønn.
En kan tenke i retning av å finne gale svar som vil være omtrent
like attraktive.
Veiledende tall for optimal letthetsgrad kan være slik:
2 alternativer: 85-90%
3 alternativer: 79-80%
4 alternativer: 74 %
5 alternativer: 69 %
4 alternativer (tilsvarer åpent
spørsmål): 50 %
Et ganske stort intervall rundt disse prosenttallene vil i praksis fungere
bra (for differensiering og minimisering av gjetting).
Erfaring med oppgavesett med 4 alternativer og en letthetsgrad i nærheten
av 74 % viser at fordelingen av antall rette svar blir tilnærmet
normalfordelt (samt en liten opphopning av noen dårlige prestasjoner
utenfor normalfordelingen).
Sannsynligheten for å besvare rett et bestemt antall spørsmål
av en test med så-og-så mange svaralternativer og så-og-så
mange spørsmål ved ren gjetting kan beregnes ut fra binomialformelen.
Analyse av de enkelte spørsmål forutsetter bruk av en standard
statistikkprogrampakke. Man får en datamatrise bestående av
Antall forsøkspersoner H Antall oppgaver. Manuell punching av svar
er tidkrevende, slik at utviklingen bør gå i retning av scanning
av svarark. Så kan en legge inn de rette svar og la programmet beregne
en ny fil hvor verdiene er 1 (rett svar) eller 0 (galt svar). Så
lar man maskinen beregne sumskåren til hver forsøksperson.
Reliabilitet i betydningen indre ekvivalens til hele testen beregnes
ved koeffisient alfa.
Frekvensfordelingene til hvert spørsmål vil vise om noen
spørsmål er for lette eller for vanskelige og bør justeres
etter dette. En del variasjon m.h.t. letthetsgrad er OK. En kan se på
populariteten til hvert av de gale svarene, og eventuelt utarbeide mer
hensiktsmessige alternativer her; f.eks. forandre eventuelle svaralternativer
som ingen har valgt.
Man kan kjøre ut interkorrelasjoner for alle spørsmål.
Her forventer man gjennomgående relativt små positive korrelasjoner,
med enkelte sjeldne forekomster av korrelasjoner på ca. 00 eller
små negative korrelasjoner.
Korrelasjoner mellom de enkelte spørsmål og sumskåren
er en viktig analyse. Alle spørsmål som skal inngå i
en test, må ha positiv korrelasjon med sumskåren. Eventuelt
fravær av positiv korrelasjon med sumskåren må en finne
ut av. Forklaringen kan være ingen varians på enkeltspørsmålet
(alle svarte rett), eller andre ting.
En annen klassisk metode er å sammenligne de 25-33 % beste og
de 25-33 % dårligste på sumskåren m.h.t. prosent (proporsjon)
med rett svar på hvert spørsmål. Diskriminasjonsindeks
D = H - L = Prosent (proporsjon) i Høy-gruppen
som svarte rett minus Prosent (proporsjon) i Lav-gruppen som svarte rett.
(Indeksen vil ha tendens til å bli større ved middels letthetsgrad.)
Eventuelt kan en beregne korrelasjonskoeffisient for disse data.
Videre kan man dele sumskåren inn i et antall nivåer, f.eks.
5-7 nivåer, og studere hvordan proporsjon som besvarer hvert spørsmål
korrekt varierer over disse sumskåre-nivåene. I utgangspunktet
lages bivariate krysstabeller i samme antall som antall spørsmål.
Disse tabellene kan omgjøres til kurver. Et godt spørsmål
viser en monotont økende proporsjon som besvarer spørsmålet
korrekt med økende nivå av sumskåre. Eventuelt kan man
også lage slike tabeller og figurer for de gale svarene.
Gjennomsnittsprestasjonen (prosent rette svar) er avhengig både
av hvor lett oppgavesettet er og studentenes forutsetninger, undervisningens
kvalitet, hvor godt studentene har forberedt seg til prøven, og
eventuelt andre forhold. Forskjeller i gjennomsnittsprestasjon og gjennomsnittskarakter
fra semester til semester bør selvsagt være uttrykk for forskjeller
i andre ting enn forskjeller i hvor lette eller vanskelige oppgavesettene
er. Oppgavesett som er ekvivalente med hensyn til vanskelighetsgrad, kan
man få ved å trekke stratifiserte sannsynlighetsutvalg av oppgaver
fra en stor samling av oppgaver. Har man oppgavesett med slik ekvivalent
letthetsgrad, vil forskjeller i gjennomsnittsprestasjon skyldes de forhold
som er nevnt ovenfor.
Steinar Ilstad
Institutt for industriell økonomi og teknologiledelse
|