Leando - ausbilden, prüfen, vernetzen

KI-Einsatz bei der Prüfungsbewertung

Die Bewertung von Freitext-Aufgaben ist eine anspruchsvolle Aufgabe, die die Fachexpertise von Prüferinnen und Prüfern erfordert. Ein Assistenzsystem soll diese hierbei zukünftig mit Einsatz künstlicher Intelligenz unterstützen. 

An einem Schreibtisch, auf dem Unterlagen liegen, sitzen sich eine Frau und ein Roboter gegenüber

Die Bewertung von Freitext-Aufgaben ist anspruchsvoll

Schriftliche Prüfungsaufgaben, bei denen die Antwort individuell formuliert werden muss, sind nicht nur für Prüflinge anspruchsvoll. Auch die Bewertung solcher Aufgaben ist aufwendig. Denn während bei gebundenen Aufgaben, wie etwa Multiple-Choice, die Lösungen eindeutig feststehen, gibt es für ungebundene Aufgaben oft mehrere Lösungsmöglichkeiten und -wege. (siehe Leando: Aufgabenformate) Zudem können die Antworten auch sehr komplex ausfallen, wodurch es für Prüfende sehr herausfordernd sein kann, sie mit Musterlösungen oder Lösungsvorschlägen abzugleichen.

Was sind typische Herausforderungen für Prüfende bei der Bewertung von Freitext-Antworten?

Eine typische Herausforderung für Prüfende bei Freitext-Antworten ist zum Beispiel, dass Lösungen auf mehrere Blätter verteilt sein können und bei der Korrektur erst einmal die Lösungsbestandteile zusammengesucht und die Antworten strukturiert werden müssen.(*KI in der Prüfungskorrektur: Ergebnisse von Forschungsinterviews mit Prüfenden – KI-Exam.) Prüfende gaben weiterhin an, dass die Lesbarkeit der Antworten ein Problem sein kann. Einige Aufgaben böten außerdem einen sehr großen Bewertungsspielraum.

Seit 2023 fördert das Bundesbildungsministerium die Entwicklung des Assistenzsystems KI-Exam, das genau hier entlasten will: Mit Hilfe künstlicher Intelligenz (KI) sollen Prüfende bei der Bewertung von Freitext-Aufgaben unterstützt werden. Und wie geht das?

Wie kann ein KI-Assistenzsystem bei der Bewertung helfen?

Das Assistenzsystem KI-Exam soll zunächst bei der Vorstrukturierung der Antworten helfen: Es kann eingereichte Lösungen inhaltlich gruppieren und Ähnlichkeiten zur Musterlösung – sowie zu Lösungen in anderen Klausuren – aufzeigen. Durch die Visualisierung der Ergebnisse können Prüfenden diese leichter weiterverarbeiten. Das bedeutet für diese im Idealfall

  • weniger Zeitaufwand für die Korrektur von Freitext-Aufgaben
  • schnellere Orientierung durch Strukturierung der Antworten
  • mehr Transparenz und Konsistenz bei der Bewertung durch Abgleich der Antworten untereinander

Dr. Lutz Goertz, mmb Institut GmbH, gehört zum Projektleitungsteam von KI-Exam und verdeutlicht die Funktionsweise des Systems am Beispiel einer etwas komplexeren Aufgabe: „Wenn ein komplettes Marketingkonzept für eine Landesgartenschau entwickelt werden soll, wären mögliche Fragen etwa: Wie würden Sie die Startphase im Vorfeld bewerben? Welche Werbemittel würden Sie einsetzen? Welche Zielgruppen sind Ihnen wichtig?“ Bei der Auswertung würde KI-Exam helfen, indem es bestimmte Muster in den Lösungen erkennt, erklärt Goertz: „Welche Formulierungen sind ähnlich, wie viele korrekte Lösungsbestandteile wurden genannt und wie stark weichen sie von der Musterlösung ab? Es werden Schlüsselbegriffe hervorgehoben, so dass der Korrektor sieht, wo wichtige Inhalte genannt wurden, und dazu Punkte vergeben kann.“ Ebenso könne er sehen, wenn zwei Prüflinge  eine strukturell vergleichbare Lösung formulieren – in unserem Beispiel etwa als Werbemaßnahme eine Pressekonferenz durchführen würden.

„Früher musste ich mich durch einen ganzen Stapel mit 48 Klausuren wühlen, nur um eine ähnliche Antwort wiederzufinden“, blickt Goertz auf seine Prüfertätigkeit zurück. Zukünftig könnten Korrektoren im System durch die Antworten springen und gezielt solche Fälle herausfinden.

Wo sind mögliche Grenzen eines solchen KI-Assistenzsystems?

Besonders, wenn Lösungen sehr originell oder kreativ sind, kann die KI den Kontext möglicherweise nicht vollständig erfassen, befürchten Prüferinnen und Prüfer. Dies sei richtig, sagt Goertz, die KI könne bei der Auswertung nur erkennen, ob eine Lösung aus dem erwarteten Rahmen fällt und die Korrektorin Korrektor darauf hinweisen. „Als Prüfende haben wir ja eigentlich ein Herz für mitunter schräge Antworten. Und deswegen können wir selbst entscheiden, wie wir eine besonders kreative Lösung, die nicht dem Muster entspricht, bepunkten.“ Das System KI-Exam nehme selbst keine Bewertung vor, sondern nur eine Einordnung. 

Fest steht: Künstliche Intelligenz kann und soll einen Menschen nicht ersetzen, der immer die abschließende Bewertung vornehmen muss. Aber sie kann bei der Arbeit unterstützen.

Prüfungen mit KI – Chancen und Herausforderungen

Auf dem Leando-Jahresevent 2025 konnten in einem Workshop verschiedene KI-Anwendungen von den Teilnehmenden ausprobiert werden. So wurden sie zum Beispiel einbezogen, als gezeigt wurde, wie mit KI-Exam analoge Korrekturschritte in digitalisierter Form umgesetzt werden können. 

Mehr dazu: Prüfen mit KI – Wie Künstliche Intelligenz die Prüfungswelt verändert

Porträt von Harald Töltl