Kategorier
Examen Fysik Lärande Undervisning

Kan ChatGPT få godkänt på en fysikexamen?

ChatGPT har sedan introduktionen skapat en debatt om dess potential för bruk i undervisning. Frågan är om den kan få godkänt på en fysik-examen. Jag visar att det är teoretiskt möjligt men inte praktiskt på en skriftlig examen. Dock erbjuder ChatGPT möjligheter att kunna användas som ett hjälpmedel i examenskonstruktion.

År 2022 lanserade OpenAI ChatGPT-3.5 (Generative Pre-Trained Transformer) vilket har väckt en intensiv debatt om dess potentiella påverkan på utbildning och examination både på gymnasial och universitetsnivå. Denna diskussion är särskilt motiverad med tanke på OpenAIs tekniska rapport om GPT-4 som visade att den presterare på samma nivå som de 10% bästa mänskliga examinanderna på en simulerad advokatexamen. OpenAI hävdar att GPT-4 har förmågan att lösa svåra problem med högre noggrannhet, tack vare dess breda allmänna kunskap och problemlösningsförmåga. Det finns redan artiklar som (Rudolph et al. 2023) har bidragit till den övergripande diskussionen genom att ge en tidig recension och rekommendationer till studenter, undervisare och universitet om lämpliga strategier för bruk av ChatGPT.

Det bör noteras att ChatGPT bygger på ett neuralt nätverk som genererar resultat baserat på sannolikheter från inmatad information, vilket ofta kallas för en «Large Language Model (LLG)». Det innebär att ChatGPT är främst inriktad mot textbaserade tillämpningar och inte har faktisk kognition bakom de producerade svaren; de är helt beroende av den information som den tränats på. Följaktligen kan ChatGPTs påverkan vara särskilt tydlig inom textbaserade vetenskaper där den fått uppläring. Däremot uppstår frågor om hur ChatGPT presterar inom ämnen som fysik, där förmågan att lösa problem värderas högt. Exempelvis kan man fråga sig om ChatGPT kan klara en fysikexamen på universitetsnivå. Detta är av intresse då fysik i huvudsak inte handlar om att ge textbaserade svar utan handlar mer om problemlösning och att applicera fysiska principer på ett matematiskt sätt. Det vill säga att en ren språkmodell inte borde ha möjlighet att producera resultat som är giltiga i ett fysikperspektiv. Dock kan den ha tränats på utarbetade lösningar och kan generera svar som är korrekta.

Det har i två nyliga studier (Xuan-Quy et al., 2023), för Vietnamiska Nationella High School examen, och i en fysikkurs (Kortemeyer, 2023), undersökts hur en AI som ChatGPT klarar dessa. Båda visade att det var fullt möjligt.

Det är viktigt att notera att fysikkursen baserades på användning av mer formativa metoder som hemuppgifter, «klicker»-frågor, en mitt-terminsexamen och en slutlig examen.

Även om frågorna i den Vietnamiska examen motsvarar frågor på gymnasienivå och examinationen i fysikkursen skiljer sig från examinationsformerna i Skandinavien är dessa resultat inte direkt överförbara till en skandinavisk kontext, där formativ värdering är mer sällsynt. Frågan blir då om en mer summativ examen i form av en slutexamen, gör det svårare för ChatGTP att få godkänt.

För att undersöka detta har jag använt ChatGPT-3.5 (version July 20, 2023 och May 24, 2023) för att undersöka om den kan klara en fysikexamen. När jag förfrågade ChatGPT svarade den: När man ställer denna fråga till ChatGPT blir svaret: «Som en AI-språkmodell utan medvetande eller förståelse på samma nivå som en människa, kan jag inte genomföra en fysikexamen på universitetsnivå eller någon annan form av examen. Jag har inte förmågan att lösa komplexa uppgifter eller tillämpa fysiska principer på samma sätt som människor.

Vad jag kan göra är att ge information, förklara fysikaliska koncept och svara på fysikrelaterade frågor baserat på den kunskap jag har tränats med. Jag kan även hjälpa till med att lösa enklare problem inom fysik, men min prestation och förmåga har sina begränsningar.

Fysikexamen på universitetsnivå kräver djup förståelse, analytiskt tänkande och förmåga att tillämpa koncepten på avancerade problem. Det är utmaningar som en AI som jag ännu inte kan möta på samma nivå som en kvalificerad mänsklig student.«

Då ChatGPT har en sannolikhetsbaserad generering av svar, innebär det att den kan generera olika svar för identiska inmatningar. Så samma fråga matades in flera gånger och se om svaren var konsekventa och om den kunde ge rätt svar vid upprepade försök.

Den simulerade examen som jag använde var baserad på en skriftlig examen som gavs under den första fysikkursen i en fysikutbildning och omfattade ämnen som mekanik (kinematik och dynamik), grundläggande vågrörelselära och relativitetsteori. Examen bestod av 40 flervalsfrågor med 5 svarsalternativ. För att bli godkänd krävdes 41% rätta svar (ca 17 rätta svar). Medelbetyget på examen för studenterna var ett D (53-64%).

Eftersom fysikexamina ofta inkluderar figurer, syntolkades dessa för att ChatGPT skulle kunna lösa uppgifterna relaterade till respektive figur. Uppgifter som byggde på varandra gavs samtidigt i serie. Frågorna formulerades så att ChatGPT skulle ge svaret som ett av de givna svarsalternativen (A-E). Genom chat-funktionen möjliggjordes en dialogliknande diskussion, vilket gjorde det möjligt att se resonemanget och stegen i beräkningarna när sådana utfördes.

Vid första inmatningen gavs rätt svar för 15 frågor med 24 maj-versionen och 18 frågor med 20 juli-versionen. Vid på följande inmatningar gavs både nya rätta och felaktiga svar. Om man endast räknar med det första tillfället skulle ChatGPT (24 maj) få 37,5% och därmed inte bli godkänd, medan ChatGPT (20 juli) skulle få 45% och därmed bli godkänd.

Om man i stället summerar alla rätta svar, vilket har en sannolikhet att inträffa med slumpvis genererade svar, visar det sig att ChatGPT (24 maj) skulle få 25 rätta svar eller 62,5%, medan ChatGPT (20 juli) skulle få 22 rätta svar eller 55%. Båda versionerna skulle därmed kunna få betyget D.

Detta indikerar att en språkmodell-AI som ChatGPT kan få godkänt på en fysikexamen utan att ha någon reell förståelse för fysiska principer. Detta kan förklaras av flera faktorer. För det första använder ChatGPT en databas med inlärd information och sannolikhetsberäkningar för att generera svar, vilket gör att det är möjligt för den att hitta liknande frågor och svar om formuleringarna liknar de som finns där. För det andra kan examensuppgifterna vara utformade så att de inte testar en högre grad av komplex problemlösning, där flera fysiska principer och ekvationer måste användas på ett kreativt sätt. Frågor som testar mer komplex problemlösning är troligtvis inte vanligt det inlärda materialet än.

Även om studenter inte kan använda ChatGPT under en skriftlig examen visar studien på en svaghet i validiteten för tolkningen av resultatet på examen. Med andra ord, vad är det examen skall mäta och mäter examen det som den skall göra? Resultatet på en examen tolkas så att det omvandlas till ett betyg, som bör vara kopplat till lärandemål eller någon form av uppställda kriterier. Om ChatGPT kan få godkänt innebär detta att studenter potentiellt kan få godkänt utan en verklig förståelse av kursinnehållet. Då ChatGPT:s problemlösningsstrategi liknar en receptliknande metod, där man listar givna storheter, den sökta storheten och försöker hitta en passande ekvation med dessa storheter för att beräkna svaret, betyder detta att man får möjlighet att utvärdera graden av komplexitet när det gäller problemlösning i en examen med hjälp av ChatGPT. Strategin som ChatGPT använder fungerar bra för enklare uppgifter där en formel räcker, men fungerar inte när det krävs användning av flera fysiska principer (flera ekvationer) behövs eller när irrelevant information inkluderas i uppgiften.

Detta innebär att det är möjligt att evaluera hur både förståelse och problemlösningsförmåga testas på en examen genom att använda ChatGPT. Med andra ord om uppgifterna som ges har en lämplig nivå av komplexitet och bedöma utfallet på en examen som helhet för en simulerad student med begränsad förståelse. Med andra ord kan det vara möjligt att öka validiteten för en examen för dessa kriterier.

Slutsatsen man kan dra är att teoretiskt sett skulle det vara möjligt för ChatGPT att få godkänt på en fysikexamen. Jag kan visa att AI:n kan ge svar som ligger nära eller över gränsen för godkänt betyg på en fysikexamen. Dock är det inte sannolikt att ChatGPT faktiskt kommer att användas som ett hjälpmedel eller för fusk under en skriftlig examen. Det som är viktigare är att  ChatGPT kan användas som ett hjälpmedel vid uppgiftskonstruktion, där den kan fungera som en simulerad student för att få en uppfattning om vilka svar som kan förväntas ges utan en djupare kognitiv förmåga. ChatGPT kan vara ett användbart verktyg för att utvärdera och justera examina för att säkerställa en passande nivå av komplexitet och svårighetsgrad med avseende på förståelse och problemlösning.

Sammanfattningsvis har jag visat på ChatGPT:s möjligheter och begränsningar för en fysikexamen, men det finns ingen anledning till oro för att den kommer att användas för fusk under en skriftlig sals-examen. Teknologin kan dock vara användbar som ett hjälpmedel i undervisning och uppgiftskonstruktion, där den kan ge insikter om möjliga svar och komplexiteten i uppgifterna.

Jag har valt att inte ange vilken examen jag har använt för att skydda anonymiteten hos examinatorn. Examensuppgifterna och konversationerna med ChatGPT kan dock erhållas från mig.

Referenser

Kortemeyer, G. (2023). Could an artificial-intelligence agent pass an introductory physics course? Physical Review Physics Education Research, 19(1), 010132. https://doi.org/10.1103/PhysRevPhysEducRes.19.010132

Xuan-Quy, D., Ngoc-Bich, L., Xuan-Dung, P., Bac-Bien, N., & The-Duy, V. (2023). Evaluation of ChatGPT and Microsoft Bing AI Chat Performances on Physics Exams of Vietnamese National High School Graduation Examination. arXiv preprint arXiv:2306.04538. https://doi.org/10.48550/arXiv.2306.04538

Kategorier
Examen Lärande Uncategorized Undervisning

Flervalsfrågor och hemexamen

I dessa tider när examina inte ges i salar utan har gett som hemexamen har det dykt upp en debatt om fusk. Här har många blivit förvånade över att det förkommit samarbete mellan studenter och kallar hemexamen en katastrof eller något sådant. Men låt oss titta närmare på problematiken.

Jag har flera gånger haft kurser där examinationen varit en hemexamen. Men den examen har då varit designad till att vara en hemexamen och där jag räknat med att studenter har samarbetat. Med andra ord jag har designat examen på så sätt att det blir svårare att samarbeta.

Det första är att låta examen vara över längre tid minst 6 timmar och i vissa fall 24 timmar, allt efter kursens innehåll. Alla uppgifter skall besvaras genom långa svar (fritext) med motiveringar. Dessa kan vara korta men det är mycket svårt att kopiera korta svar utan att det upptäcks. Även skillnader i numeriska värden i uppgifterna är ett enkelt sätt, detta kräver dock att man har en algoritm som gör det enkelt att få fram svaren. Ofta så ingår även en mer öppen uppgift där studenterna själva skall anta ett visst värde, sannolikheten för att två skall välja exakt samma är liten. Just öppna uppgifter där man ligger på en högre nivå i Bloom’s taxonomi är mycket lämpliga i en hemexamen. Detta kräver dock mer arbete när man rättar men ger en bättre bild av vad studenten kan än andra uppgifter.

Det som dock är förbjudet i en hemexamen är flervalsfrågor. Detta av flera skäl. 1. man testar på en låg nivå i Bloom’s taxonomi. 2. Det är omöjligt att se hur studenten tänker. 3. Det går inte att se om det förekommit samarbete eller direkt kopiering.
Om man framhärdar i att behålla flervalsfrågor och försöker hindra samarbete så får det andra effekter.

Man ökar antalet frågor så att studenter inte hinner samarbeta => om studenterna inte hinner med ger man ett incitament till att samarbeta. Något som är kontraproduktivt.

Man ökar svårighetsgraden för att hindra samarbete=>om studenterna måste jobba mer och inte hinner med ger man ett incitament till att samarbeta.

Frågor och svarsalternativ blandas om=> detta genomskådas lätt och hindrar inte samarbete. Dock kommer en variation i ordningen av svarsalternativ göra att det tar längre tid att lästa uppgiften.

Flervalsfrågor är därför ett dåligt alternativ på hemexamen och borde inte få förekomma. Det är bättre att låta studenterna bara ge ett kort svar.

Men om vi undantar samarbete från diskussionen, kan flervalsfrågor (med hjälpmedel) påverka resultaten? Svaret är ja. Flervalsfrågor ger automatiskt fler godkända än frisvar genom att man kan gissa, dvs gränsen för godkänt sänks i praktiken, samtidigt som högre betyg påverkas mycket lite. Detta blir relativt oberoende på svårighetsgraden. Men här är det viktigt att veta att studenterna har tillgång till alla hjälpmedel, också gamla examina som om man inte är mycket noggrann vid examenskonstruktionen kommer vara till stor hjälp.

Väljer man att bara ha godkänd/icke godkänd kommer många att göra så mycket som de tror de behöver och troligen inte mer, så poängfördelningen kommer inte att kunna ge speciellt mycket information heller.

Så var ligger problemet? I alla fall inte enbart hos studenterna.

Kategorier
Examen Lärande Uncategorized Undervisning

Vad är viktigt?

När man ger en kurs så bör man ställa sig frågan vad som är viktigt. Om det är en grundkurs, så skall den kursen ge studenterna tillräckliga kunskaper att a) klara kurser som bygger på kursen i fråga, b) ge grundläggande kunskaper som är viktiga i ett framtida yrkesliv och c) klara en examen.

Ser man till användbarheten av kunskaper så är ofta de grundläggande kunskaperna viktigast både för kurser och yrkesliv. I fysik så är det ofta de grundläggande kurserna, Mekanik, Elektromagnetism, Termodynamik, som är viktigast. Kurser inom Kvantmekanik, Kärnfysik osv. har för majoriteten mycket liten relevans. Metoder som brukas i kurserna är dock viktiga. De specialkunskaper som behövs i yrkeslivet får man genom kurser eller uppläring i arbetsgivarens regi.

Med andra ord, så är det ofta inte specialist kurserna som är viktiga för en arbetsgivare, utan mer allmän kompetens , Programmering, Modellering, problemlösning osv. Men grundkurserna är ofta viktigare. Har studenten förstått det grundläggande?

«Enter the exam»

Då kommer frågan om examens roll i grundkurserna. Kan en skriftlig examen verkligen visa hur väl en student har tillgodogjort sig en kurs?
Om vi tar ett hypotetiskt exempel med en kurs som består av 10 moduler som behandlar olika grundläggande principer. För att man skall anse att studenten skall ha förstått alla dessa, vad kräver vi?

Om vi har en skriftlig examen som består av 10 spörsmål (ett per modul), har anser jag att det finns få synergier mellan moduler med avseende på spörsmål. För att få godkänt (gräns på 50%) behöver man då kunna 5 moduler. Med andra ord det är fullt möjligt i det hypotetiska fallet att klara kursen genom att kunna 50% av kursen.

Är det hypotetiska fallet verkligen hypotetiskt? Tänk om det inte är så. Vad kan det få för konsekvenser? Det finns ett antal skyddssystem, men om dessa inte fungerar?

Målet borde vara att man har ett system, där basen testas extra noga, vilket kan genomföras med systemet jag diskuterat i ett tidigare inlägg(https://www.ntnu.no/blogger/fysikkforfakirer/2018/03/27/undervisarens-drommar-1-examen/).

Men för att detta skall vara möjligt krävs viljan till en förändring…

Kategorier
Examen Lärande Undervisning

Undervisarens drömmar 2: Första året

Målet med en utbildning handlar om att skaffa sig kunskaper och färdigheter som skall (förhoppningsvis) ge ett jobb efter examen. Detta gör att det finns ett antal mål som utbildningen skall uppnå. I många fall är dessa mål tydliga och i andra fall inte fullt så synliga. I tillägg till dessa övergripande mål finns mål för varje enskild kurs, ibland överlappande med utbildningens mål. Detta gör att kurserna kan sättas in i ett större sammanhang. Men hur är det med de kunskaper och färdigheter som man skaffar sig under utbildningen. Ofta (men inte alltid) handlar det första året (åren) om att skaffa sig grunden som man bygger vidare på. De skall fungera som grundfundamentet till kunskapshuset. Men hur djupt sitter egentligen dessa grundläggande kunskaper?
Vi vet att en djupinlärning ger ett ökat långsiktigt lärande. Så logiskt borde vi se till att studenterna under det första året får en djupinlärning. Men ger vi studenterna den?

Övergången till universitet kommer att vara ett stort steg för en majoritet, för många det första steget att klara sig själv och utan det stöd man vant sig till. Den (semi-)formativa värderingen har nu ersatts av en värdering som baseras på i många fall ett examenstillfälle. Något som jag skrivit om tidigare ex: https://www.ntnu.no/blogger/fysikkforfakirer/2018/10/05/paniklasning/ Detta har ett antal mindre lyckade konsekvenser, bland annat ökad stress. Men vi kan även få en ineffektiv studieteknik/studiemetod genom panikläsning och prokrastinering. Det finns en överhängande risk att vi omedvetet tvingar studenterna till en ineffektiv inriktning. Lägger vi till betygsjakt finns det en stor risk att man läser till examen och inte för att lära sig.

Hur kan man lösa detta dilemma? Tar man konsekvenserna av att det första året skall ge en god och djup grund, kan man överväga att ta bort graderingen och ersätta med Godkänd/Icke godkänd och en formativ värdering. Detta sätter dels större fokus på senare kurser som i mångt och mycket är mer arbets-relevanta och dels på ett fokus på grundläggande kunskaper och färdigheter som ger en bättre grund för kommande kurser.

Med en dikotom betygsättning, kan man sätta upp tydligare arbetskrav och kontinuerlig examination. Man ges möjligheten att anpassa undervisning och examination till olika grupper baserat på nivå och intresse. Genom att minimera panikläsning och extrem tidspress kan bättre studiemetoder och studiemiljö skapas. För duktiga studenter finns möjlighet till fördjupning och för svagare möjlighet att få hjälp att klara kraven.

Resultatet kan bli:

  • Bättre studieteknik
  • Mindre stress
  • Färre avhopp
  • Djupinlärning
  • Bättre resultat på högre kurser
  • Bättre förberedda studenter

Men detta är bara en undervisares drömmar…

Kategorier
Examen Lärande Uncategorized

Panikläsning

När det närmar sig examen ser man ofta studenter som panikläser (cramming) inför examen, det finns en del som ser detta som tidsbesparande. Men forskningen är tydlig med att denna studieteknik inte fungerar. Många experiment har visat att lång-tidseffekten av så kallad «spacing», med spridda studiesessioner över tid, ger ett överlägset resultat. En studie från 2009 (https://onlinelibrary.wiley.com/doi/abs/10.1002/acp.1537) visade att spacing var mer effektivt än panikläsning för 90% av deltagarna.

Anledningen till att så är fallet förklaras av att minnena fluktuerar på grund av styrkan i den olika kopplingarna (synapser) mellan neuroner i hjärnan. Dessa kopplingar kan stärkas eller försvagas beroende på när och hur ofta de aktiveras. Det vill säga minnen kan göras tydligare eller försvinna. Detta medför då att ju mer och oftare man aktiverar dom desto lättare är det att minnas. Detta förklarar då att det är bättre att se över materialet flera gånger under en kurs istället för att försöka få in allt i huvudet kvällen (eller veckan) innan examen. Det optimala är att gå över materialet igen inför en examen och inte skjuta upp studierna.

Men panikläsning kommer dessutom att ge upphov till stress och sömnbrist, vilka båda är faktorer som gör att konsolideringen i långtidsminnet hindras. Detta gör att offra sömn för att studera är kontraproduktivt och bör undvikas.

 

Du kommer troligen att minnas något om du har ett emotionellt förhållande till det. Detta beror på att amygdala förstärker minnet genom att öka uppmärksamheten och perceptionen. Den kan också återkallande av minnen genom att starta utsöndringen av stresshormoner.  Man har visat att dåliga erfarenheter stärker minnet av farliga ställen och tjänar då som ett sätt att undvika dessa. PÅ så sätt kan för mycket stress ge överbelastning och skapa oro och hindra formerandet av minnen. Men just rätt mängd stress kan öka uppmärksamheten och den kognitiva förmågan.

Överraskande kan även förvirring vara bra för lärandet. Forsking (https://www.sciencedirect.com/science/article/pii/S0959475212000357 ) har visat att vara förvirrad över nya ideer eller en situation kan inspirera oss att arbeta mer för att förstå, vilket led4r till en djupare förståelse och bättre minne av det vi lärt.

Så för bästa resultat sprid ut studierna över tid och se till att få ordentligt med sömn.

Kategorier
Examen Lärande Undervisning

Kan man ge för många «A»?

I examenstider sliter studenterna med att läsa så mycket att de klarar examen, samtidigt förbereder sig examinatorerna på att rätta uppgifterna. Något som en kollega beskrev som en aktivitet som bäst ägnade sig i ett stängt rum med «Torture never stops» med Frank Zappa från högtalarna. Alla som undervisat har gått igenom detta, när man inser att studenterna inte lärt sig det dom borde. Men samtidigt så har man också upplevt att studenterna gör betydligt bättre än man räknat med.

När man skriver en examen så försöker man (eller borde) hitta uppgifter som så långt som möjligt speglar lärandemålen för kursen och fyller examen med dessa. Sedan skall man värdera varje uppgift och se hur mycket var och en skall räknas till totalen och de fastställda betygsgränserna. Lösningsförslag skall utarbetas och i förkommande fall rättningsprotokoll där avdrag för olika fel dokumenteras. Så det ligger ganska mycket arbete bakom en examen.

Så, några dagar (eller timmar) efter examen får man ett paket med svar som skall rättas. Här avgörs betygen för första gången och förs in i poäng-protokollet. Här kan man se hur resultatet föll ut och se hur fördelningen är. Här kan man också titta hur många studenter som ligger nära en av betygsgränserna, vilket då gör att man tittar en gång till på deras svar för att kvalitetssäkra rättningen.

I detta läget skall man se hur betygen fördelat sig. Betygen skall enligt Bologna vara «absoluta» i förhållande till kursplanen och dess mål. Med andra ord det finns inget som säger att inte alla kan få A (eller F). Betygen skall enbart bero på hur väl studentens färdigheter och kunskaper svarar mot kursplanen. Något som jag diskuterat tidigare https://www.ntnu.no/blogger/fysikkforfakirer/2018/02/20/vad-ar-malet-for-en-utbildning/ på bloggen.

Men samtidigt är det sagt att medelbetyget skall vara C?!?

Medelbetyg är det bara giltigt att tala om i det fallet vi har en relativ bedömning och inte en absolut. Detta är ett mysterium och svårt att förstå. Om vi tittar på en population så säger man att egenskaperna hos denna skall vara normalfördelad, men om man haft en (eller flera) urvalsprocesser är populationen fortfarande normalfördelad? Det vi har på universiteten med begränsad antagning är inte direkt normal-fördelat med en  skev-fördelning där medel och median inte är lika, dvs medel kan vara större och motsvara ex. ett «B».

Detta är en paradox inom utbildningen och något man måste få bort. Det är målen som skall vara uppfyllda och inte målet att få ett medel på «C».

Så svaret på frågan om man kan ge för många «A», så är svaret nej om man går efter lärandemålen, men Ja, om man har en relativ bedömning.

Men man måste också fråga sig hur man skall kunna evaluera studenternas mål-uppnåelse. Och hur väl är målen uppsatta och diskuterade? Och är målen som dom står överhuvudtaget möjliga att «mäta» eller bedöma?

Kategorier
Examen Lärande Undervisning

Undervisarens drömmar 1: examen

En examination skall vara knuten till de lärandemål som är definierade i kursplanen. Dessa mål skall då vara uppfyllda till olika grader, efter den gradering som är fastställd. Om man drar konsekvenser av detta och ser var detta leder kan man kanske hitta något nytt…

…. om man utgår från en muntlig examen där en expert kan testa och utforska gränserna för kandidatens kunskaper och överför detta till en automatisk dator-baserad värdering, vad blir resultatet?

Med en dator-baserad värdering är det möjligt att kandidaten att se hur det går i realtid. Med andra ord man får reda på resultatet direkt. Men man behöver med detta inte vara begränsad till ett fast set av spörsmål. Man kan tänka sig att man har ett stort antal frågor som dels testar olika delar av pensum (p-dimensionen) och frågor med olika grader av mästring/kunskap (m-dimensionen). Detta gör att för att få godkänt, det vill säga uppnått lärandemålen (p-) och deras gradering (m-), måste man uppfyllt hela eller delar av p-dimensionen, med minst den lägsta graden i m-dimensionen.

På samma sätt som i fallet med en muntlig examen kan man då börja med att testa den lägsta graden i m-dimensionen med ett antal frågor. Klarar kandidaten dessa kan man gå över i den nästa m-dimension. Vid fel svar på ett spörsmål, kan nya spörsmål på den m- (eller p-)nivån ges tills man hittat gränserna.

Genom att samtidigt meddela när/om kandidaten klarat första betygsnivån (godkänd) kan ev. nervositet avta och man kan gå vidare på ett mer avslappat sätt. Detta gör då att kandidaten kan avbryta examinationen när önskat betyg uppnåtts. Men det innebär också att den som sliter ges en chans att utforskas så att det blir möjligt att se var gränserna går. Har man haft otur och fått frågor på de saker man inte förstått riktigt, ges man en ny möjlighet, något som inte är fallet med vanlig examen med ett begränsat antal frågor.

Progressionen gör även att de kandidater som önskar högsta betyg, kan se hur det går. Det finns en hel del fördelar med ett sådant system, men givetvis även en hel del nackdelar.

Det finns ingen garanti att alla kandidater får exakt samma spörsmål, vilket kan ses som orättvist. Men samtidigt får alla en ny chans och möjlighet att revanschera sig, vilket gör det mer rättvist. Examen är i tillägg utan mänsklig påverkan, annat än när det gäller frågebanken.

Systemet som skall hantera detta kommer av naturliga skäl att var ganska avancerat programmeringsmässigt, det liknar till en del automatiska system inom computer aided assessment, men ligger på en högre nivå. Detta samtidigt som man behöver säkerställa mot fusk.

Men det största problemet ligger troligen hos lärandemålen i kursplanerna som inte är formulerade på så sätt att de kan överföras till en reell utvärderingssituation baserat på ett sådant system. Lärandemålen (p-dimensionen) och graderingen (m-dimensionen) måste vara mycket väl uppbyggda och frågan är om det är möjligt att göra detta. I många ämnen och kurser är inte detta möjligt då olika färdigheter ingår i lärandemålen som  kan vara svåra att testa med ett automatiserat system.

Den tekniska lösningen och möjligheterna är fullt genomförbara, det handlar kanske mer om den mänskliga delen av problemet.

Men är det detta vi vill ha….

Kategorier
Examen Lärande Undervisning

Vad är målet för en utbildning?

Tänk dig en student som ska börja på en utbildning, full av förväntan möter studenten upp på första föreläsningen tillsammans med över 100 studenter. Föreläsaren kommer in och startar föreläsningen på följande sätt: ”Ni skall veta att bara 50% av er kommer att klara den här kursen”. Detta är något som jag hoppas att du som läsare tycker är helt förkastligt. Men tänk dig nog om, har du på något sätt själv bidragit till denna hållingen. Det som är intressant är egentligen vad är det som ligger bakom detta. Vad är det för inställning som en slik föreläsare har till sin undervisning och sina studenter. Vad är egentligen det övergripande målet med undervisning?

Svaret på den frågan borde vara att så många som möjligt av studenterna skall uppnå kunskapsmålen i den utbildning som dom genomgår. Detta medför då att högskolans mål skall vara att så många som möjligt skall klara sina kurser, uppnå kunskapsmålen. En examination skall då gå ut på att testa dessa kunskapsmål på bästa möjliga sätt, inte att få ett visst antal att misslyckas. Det handlar om att man skall utbilda och inte sortera.

Betyder detta att alla skall få godkänt? Nej, utan det handlar om att sätta upp tydliga kunskapsmål, baserade på de färdigheter kursen skall ge i förhållande till påföljande kurser och framtida yrkesroll. Dessa kunskapsmål ger då tydliga kriterier för examinationen. Undervisningen bör då inriktas på kunskapsmålen och nödvändiga kunskaper och färdigheter.

Här stöter vi på ett stort hinder, hur kan vi ”mäta” uppfyllelse av kunskapsmålen? Finns det ett bra sätt att evaluera uppställda kunskapsmål? Här finns egentligen inget entydigt svar, då detta kommer att vara beroende på kursen och kursinnehållet. Men det ”bästa” är troligen en klassisk examination med skriftligt test i kombination med en muntlig examination, där det är möjligt att testa gränserna. Detta är dock av praktiska skäl bara möjligt för en liten studentgrupp. Har man en stor grupp så är det mer ekonomiskt att bara ge ett skriftligt test, men hur väl kan ett test som varar maximalt 5 timmar och omfatter runt 10 frågor testa alla kunskapsmålen?

Ett sätt att komma runt detta och testa en större del av kunskapsmålen, är att använda sig av flervals-spörsmål, det vill säga testa en större del av kunskapsmålen. Men detta är i sig inte oproblematiskt, rör det sig om ett fag där räknefärdigheter och problemlösning är en del av kunskapsmålen, så är det svårt att testa dom med flervalsfrågor. I tillägg kommer problemet med fråge-konstruktion och val av felaktiga alternativ, något som inte är enkelt. Här måste man även se till att frågorna har en rimlig svårighetsgrad och att dom är tillräckligt diskriminerande. Även poängsättningen ger upphov till ganska svåra frågeställningar. Hur skall ett felaktigt svar poängsättas i förhållande till rätt svar eller ett blankt svar. Om inte fel svar ”bestraffas” uppmuntras gissningar. Så fel svar och blankt bör inte ge samma poäng. Skall man välja en skala 3, 0, -1 eller 1,0, -1, för rätt, blank, fel. Detta för att undvika rena gissningar.

Det är ganska uppenbart att en enda skriftlig test inte är ett bra sätt att testa kunskapsmålen, men det är det bästa vi har (möjlighet till). Detta är den verklighet vi och studenterna lever med och anpassar oss till. Det är väldigt lätt att man istället för att fokusera på kunskapsmålen fokuserar på examen, detta gäller både studenter och föreläsare. Det är väldigt viktigt att inse att kunskapsmål och examen inte är ekvivalenta, ett bra examensresultat behöver inte betyda att man uppfyllt kunskapsmålen. Undervisningen och studierna riskerar med andra ord att bli examensfokuserade Plötsligt blir inte lärandet det viktigaste utan det blir examen som är målet.

Finns det i tillägg en hålling att bara dom bästa skall klara sig så kan lätt situationen bli kritisk. Det är då lätt att målet blir att så och så många skall få underkänt på en kurs. Det finns anekdoter om hur institutledare har kallat till sig föreläsare som inte underkänt tillräckligt många för en ”luttvagning”, detta gäller ganska många universitet. Men även det motsatta förekommer. Men, det är viktigt att komma ihåg att dom bästa finns redan hos oss, och vad vi som lärare borde göra är att se till att vår undervisning blir sådan att så många av studenterna som möjligt skall få godkänt. Det är sant att den egna insatsen som student är den viktigaste faktorn för lärande, men det betyder inte att undervisningen och studiemiljön är utan betydelse. Vi bör vara medvetna om hur vi undervisar och hur man skall få en så bra lärandemiljö som möjligt.

Men en sortering innebär att man sorterar ut dom ”bästa”, men vad menar vi med dom bästa. Charles Darwin (egentligen Herbert Spencer, men Darwin tog till sig uttrycket) formulerade det som: ”survival of the fittest”. Här kommer betydelsen att vara beroende på den aktuella kontexten. I detta fall innebär det att dom bästa (fittest) blir dom som är bäst på att skriva ett test på 4-6 timmar, inte hur väl man uppnått kunskapsmålen, inte den som fungerar bäst i arbetslivet, inte den som kan applicera sina kunskaper på bästa sätt. Det finns dock en korrelation men den är inte absolut. Här måste vi också titta på arbetsmetoderna i det framtida yrkeslivet. Majoriteten av studenterna kommer inte att bli forskare, dom kommer inte att arbete ensamma. Samarbete, ny kunskap, innovativt tänkande och problemlösning är saker som kommer att bli viktiga.

För att få till en bra undervisning måste vi sätta in oss själva och våra kurser i ett större sammanhang. Vi behöver titta på vad som är målet med utbildning, det vill säga lärandet och hur vi skall öka lärandeutbytet hos studenterna. Har vi målet klart för oss och kan se helheten måste vi ställa oss samma frågor som vi gör i vår forskning, och inte ta någonting för givet. Bara för att man lämnar labbet och går in i föreläsningssalen så skall man inte stänga av sitt kritiska tänkande och reflektera över undervisningen. Det finns massor av forskningsbaserade undervisnings och examinationsformer, det är dags att börja använda dom.

Kategorier
Examen Lärande Undervisning

Lärandets yttre villkor-Kan undervisningen förbättras utan att examen ändras?

(Inlägg från Universitetsavisa)

Ungefär samtidigt som hästhoven dyker upp längs vägen eller när snön börjar lägga sig upp mot Realfagsbygget börjar antalet studenter som sitter och läser på sina studieplatser att öka. Då vet man att examensperioden börjar närma sig. Det är en direkt korrelation mellan antalet studenter i läsesalarna och hur lång tid det är kvar till examen. På årets (2017) läringsfestival var detta sätt att studera något som togs upp av studenternas egna röster. ”Panikklesing” är ett mycket passande namn på detta. Men samtidigt vet vi att detta sätt att studera är något som ger ytlig (overfladisk) läring, det man lärt sig sitter mycket löst och med stor risk att det glöms bort. Samtidigt gör detta att man kan känna panik och ägnar mycket möda på att klara examen, det vill säga, man lägger mer möda på att se vad som kommer på examen än att förstå pensum. Detta är något som i sin tur förstärks av att examen betyder så mycket för karaktären.

Det finns då en överhängade risk att strategin blir examensinriktad istället för förståelse- eller läringsinriktad. Med andra ord kommer examinationsformen att bli viktig för hur studierna bedrivs, något som kan ske utan att studenterna har ett reellt val. Detta gör också att när man beaktar alternativa eller reformerade undervisningsformer så är examensformen en viktig aspekt då den på ett sätt är betydande för lärandets yttre villkor. Med andra ord, examensformen kan ha lika stor eller större effekt på resultaten än vad undervisningsformerna har. Vill man verkligen reformera undervisningen måste man även kritiskt granska hur examinationen går till.

Alla kurser har fastställda läringsmål, som både handlar om (fakta-)kunskaper och/eller färdigheter. Omfattningen kan variera men man kan anta att det rör sig om över 500 sidor, om man nu kan talfästa detta på ett bra sätt. Till detta kommer olika färdigheter. Då blir frågan hur man skall kunna evaluera om studenterna uppnått läringsmålen på ett så bra sätt som möjligt, samtidigt som vi optimerar (djup-)lärandet.

Ser vi på skolexamen(sals-examen) så ska man på 4-6 timmar besvara ett (begränsat) antal frågor. Frågan är då hur stor del av pensum det är möjligt täcka. Svaret är ju givet, det är inte speciellt mycket. Rör det sig om fri-text (utredande) frågor är det några få frågor, vilket gör att strategiskt tänkande hos studenterna blir viktigt. Med andra ord, gamla examina studeras noga, vilket ger ytläring. Man kan istället för fri-text välja att bruka flervalsfrågor, men detta ger andra utmaningar. Flervalsfrågor i sig har ett antal inbyggda svagheter som måste tas hänsyn till, bland annat gissning (detta diskuteras i en artikel i UNIPED 3/17). Här finns också begränsningar i att visa färdigheter, exempelvis när det gäller problemlösning och programmering.

Skolexamen i sig är sålunda inte helt kompatibel med att uppnå så bra lärande som möjligt hos studenterna och man bör se efter alternativa former. Det bästa sättet att evaluera en kandidats kunskaper och färdigheter är muntlig examen, där det handlar om att hitta gränserna för kunskapen och att man har möjlighet att testa mer och på ett flexibelt sätt. Men detta är resurskrävande och ganska skrämmande för studenterna(men vanligare förr i tiden), så att använda muntlig examen är inte möjligt. Här vet vi också att formativ evaluering är att föredra. Med mappevaluering, i olika former, som det främsta exemplet, och ofta använt i andra länder. Så varför förekommer inte detta i större omfattning?

Här kommer bland annat ”traditioner” in i bilden. Skolexamen är relativt enkla att administrera och genomföra. Men det gäller även studenternas rättssäkerhet, där evalueringen skall vara opartisk. Mappevaluering gör att anonymiteten kan vara svår att upprätthålla. Men är anonymitet ett krav? Ser vi  på universitets og höyskoleloven står det:

  • 3-9.Eksamen og sensur
(1) Universiteter og høyskoler skal sørge for at kandidatenes kunnskaper og ferdigheter blir prøvet og vurdert på en upartisk og faglig betryggende måte. Vurderingen skal også sikre det faglige nivå ved vedkommende studium. Det skal være ekstern evaluering av vurderingen eller vurderingsordningene.

Värderingen skall ske på ett opartiskt sätt. Det står inget om anonymitet. Är det så att examinatorerna antas vara partiska? Jämför vi med andra funktioner och ställer samma krav, borde inte då domstolsförhandlingar också vara anonyma? Har examinatorer vid Universitet och högskoler sämre integritet än dommare?

Det andra är att värderingen skall vara sådan att den är vetenskapligt baserad när det gäller kunskapsevaluering, här tolkar jag det som gällande både ämnet som värderas samt pedagogiskt och testteoretiskt. Men som argumenteras för ovan så är inte detta fallet, en skolexamen innehåller ett stort mått av tveksamma kompromisser, där man inte kan pröva allt som står i läringsmålen eller gör det på ett sätt som uppfyller alla krav utgående från test-teori.

Här finns det grundlag för att förutsättningslöst diskutera vad lagtexten säger samt hur den tolkas och praktiseras. Ett av argumenten mot mappevurdering är just tolkningen av lagtexten. Men jag menar att det inte är lagtexten i sig utan en i delar extrem tolkning av den.

För att det skall vara möjligt att reformera undervisningen måste man beakta alla aspekter, även examinationen som är ett av lärandets yttre villkor. Vi kan ta till alla metoder för att reformera undervisningen men utan att vi även granskar examinationen så är det risk att vi försöker bota en sjukdom genom att behandla symtomen men inte orsaken, något som inte alltid är så lyckat.