Die 5 Leitfragen zur Aufgabengestaltung

Ein Versuch, Aufgaben auf lernrelevante kognitive Verarbeitung zu prüfen

Überblick

Work-in-progressWork in Progress

Diese Leitfragen sind kein etabliertes Modell aus der Literatur. Sie sind ein Entwurf, der aus der praktischen Auseinandersetzung mit der Frage entstanden ist, wie sich Aufgaben in Zeiten von KI gestalten lassen. Der Versuch ist, die lernwissenschaftlichen Grundlagen aus Teil 1 in handhabbare Fragen zu übersetzen. Das Ergebnis wird sich weiterentwickeln, wenn wir mehr Erfahrung sammeln.

Die Idee hinter den Leitfragen: bestehende Aufgaben und Prüfungen darauf prüfen, ob sie lernrelevante kognitive Verarbeitung bewahren, oder ob KI-Tools das Denken der Studierenden ersetzen können.

Die fünf Leitfragen haben unterschiedliche Funktionen:

Frage Funktion Ergebnis
1 Geht es primär ums Lernen? Filtern Kognitive Arbeit schützen
2 Welche Denkarbeit verlangt die Aufgabe? Analysieren Operationen identifizieren
3 Was passiert, wenn KI die Denkarbeit übernimmt? Anwenden Lernrelevante Operationen schützen
4 Werden noch Grundlagen aufgebaut? Modulieren Strenge nach Kompetenzniveau anpassen
5 Arbeiten Studierende zuerst selbst? Absichern Eigener Versuch vor KI-Einsatz

Die fünf Leitfragen beginnen bei der breitesten Unterscheidung zwischen Lern- und Leistungskontext. Von dort führen sie zu einer konkreten Aufgabenanalyse und schliesslich zu praktischen Gestaltungsentscheidungen. Jede Frage knüpft an einen kognitiven Mechanismus aus Teil 1 an.

Die 5 Leitfragen

Frage 1: Geht es primär ums Lernen?

Unterscheide Lern- von Leistungskontexten.

  • Lernkontext (Übungen, Hausaufgaben, Selbststudium): Der Prozess zählt, nicht das Produkt. Die kognitive Arbeit der Studierenden ist das Lernziel.
  • Leistungskontext (Prüfungen, professionelle Aufgaben): Das Ergebnis zählt. KI-Unterstützung kann hier sinnvoll sein.

Wenn die Aufgabe primär dem Lernen dient, muss die kognitive Arbeit bei den Studierenden bleiben. Die lernrelevante Verarbeitung (Abruf, Elaboration, Schemabildung) ist das eigentliche Ziel, nicht das Produkt. Im nächsten Schritt geht es darum herauszufinden, welche Denkarbeit die Aufgabe verlangt.

Frage 2: Welche Denkarbeit verlangt die Aufgabe?

Identifiziere die kognitiven Operationen, die die Aufgabe von den Studierenden verlangt.

Wir verwenden hier vier Operationen als Versuch, die Kernprozesse der Schemabildung aus Teil 1 handhabbar zusammenzufassen. Die Aufteilung ist eine Vereinfachung, aber sie hat sich in der Praxis als brauchbar erwiesen. Die vier Operationen hängen zusammen; sie sind Facetten eines einzigen Aufbauprozesses. Wenn eine wegfällt, fehlt ein spezifischer Beitrag zum Aufbau interner Strukturen.

Operation Was Studierende tun Wozu es dient
Abrufen Wissen aus dem Gedächtnis aktivieren Festigt Schemata (Retrieval Practice)
Generieren Eigenen Versuch produzieren Baut neue Verbindungen auf (Generation Effect)
Verknüpfen Vergleichen, einordnen, integrieren, erklären Erweitert und vernetzt Schemata
Überwachen Eigene Arbeit prüfen, Fehler erkennen Stärkt metakognitive Kontrolle

Wie analysiert man eine Aufgabe?

Nimm die Aufgabenstellung. Für jeden Schritt, den Studierende durchführen müssen, frage: Welche kognitive Operation ist hier primär gefordert? Die meisten Aufgaben erfordern mehrere Operationen. Die Frage ist: Welche davon tragen das Lernen?

Beispiel Fallstudie Pflege: Studierende müssen Symptome abrufen, eine Differentialdiagnose generieren, Befunde verknüpfen und ihr Urteil überwachen. Alle vier Operationen sind lernrelevant. Wenn KI die Diagnose liefert, werden Generieren und Verknüpfen eliminiert.

Diese vier Operationen sind analytisch unterscheidbar, treten aber selten isoliert auf. Ein einzelner Aufgabenschritt kann gleichzeitig Abruf, Generierung und Überwachung erfordern. Die Analyse fragt: Welche Operation ist die primäre kognitive Anforderung bei jedem Schritt? Erwarte keine sauberen Eins-zu-eins-Zuordnungen. Der Punkt ist nicht perfekte Klassifikation, sondern die kognitive Struktur sichtbar genug zu machen, um die richtigen Fragen stellen zu können.

Die Operationen beschreiben, was im Kopf der Studierenden passiert, nicht was die Aufgabenanleitung sagt. Dieselbe Aufgabe kann je nach Vorwissen unterschiedliche Operationen erfordern. Was für Anfänger Generieren ist, kann für Fortgeschrittene nur Abrufen sein (weil die Prozedur bereits kompiliert ist). Deshalb kommt Frage 4 nach der Aufgabenanalyse: Die Antworten auf Frage 2 hängen vom Kompetenzniveau ab.

Abrufen bedeutet, gespeichertes Wissen ohne externe Hilfe zu aktivieren. Jeder erfolgreiche Abruf stärkt die Gedächtnisspur und macht zukünftigen Abruf schneller und zuverlässiger. Deshalb erzeugt Abrufpraxis (Testing Effect) andere Lernergebnisse als blosses Wiederlesen, selbst wenn die Information identisch ist: Der Abrufversuch selbst verändert das Gedächtnis.

Beim Generieren produzieren Studierende aus eigenen Ressourcen eine Antwort, Lösung oder Hypothese, bevor sie externe Inputs sehen. Das ist aufwendiger als blosser Abruf, weil vorhandene Wissenselemente zu einer neuen Konfiguration zusammengesetzt werden müssen. Selbst generiertes Material wird besser behalten als passiv gelesenes (Generation Effect), weil die Erzeugung eine tiefere Verarbeitung der Beziehungen zwischen Elementen erzwingt. Generieren ist der Beginn der Wissenskompilation. Jeder eigene Generierungsversuch, auch ein fehlerhafter, trainiert die Prozeduren, die diesen Zusammenbau steuern. Ein fehlerhafter Versuch mit anschliessendem Feedback ist weitaus produktiver als kein Versuch.

Von den vier Operationen ist Verknüpfen am engsten mit der Schemabildung verbunden: mehrere Elemente, Ideen oder Perspektiven gleichzeitig in Beziehung setzen, vergleichen, einordnen, integrieren, sich selbst erklären. Schemata sind relationale Strukturen. Elementinteraktivität (Chen, Paas, und Sweller 2023) beschreibt diese Anforderung: Hohe Elementinteraktivität bedeutet, dass viele Elemente gleichzeitig verarbeitet werden müssen. Wenn Studierende zwei Argumente vergleichen, ein Modell auf Daten anwenden oder Befunde aus mehreren Quellen zu einer Synthese zusammenführen, bauen sie die relationale Struktur auf, die ein Schema ausmacht.

Die eigene Arbeit gegen interne Kriterien prüfen, Fehler erkennen, Konfidenz einschätzen, das eigene Wissen kalibrieren: Das ist Überwachen. Genaues Überwachen ist selbst eine Kompetenz, die sich mit Fachexpertise entwickelt. Anfänger sind schlecht kalibriert, weil ihnen die Schemata fehlen, die als Bewertungskriterien dienen (das ist die direkte Verbindung zum Evaluationsparadox). Überwachen hängt direkt von den Schemata ab, die durch Abrufen, Generieren und Verknüpfen aufgebaut werden: Wer keine eigenen Kriterien entwickelt hat, kann weder die eigene Arbeit noch KI-Output verlässlich beurteilen. Metakognitive Kalibrierung ist einer der stärksten Prädiktoren für effektives selbstreguliertes Lernen.

Vier Operationen, ein Aufbauprozess

Die vier Operationen beschreiben unterschiedliche Aspekte desselben Vorgangs. Abrufen festigt bestehende Spuren, Generieren erzeugt neue, Verknüpfen bringt Struktur hinein, Überwachen kalibriert das Ganze. Das Ergebnis sind nicht einfach “mehr Informationen im Kopf”, sondern veränderte Denk- und Urteilsfähigkeiten. Expertinnen und Experten erkennen in einem Datensatz, einem Fallbeispiel oder einem Text Muster und Zusammenhänge, die für Anfänger unsichtbar sind (Chase und Simon 1973; Chi, Feltovich, und Glaser 1981). Studierende, die diese Operationen wiederholt durchlaufen haben, erfassen in einer Fallstudie Strukturen, wo Anfänger nur Oberflächenmerkmale sehen. Dieser Unterschied ist kein gradueller Wissenszuwachs, es ist eine qualitative Veränderung. Wissen verändert, was man überhaupt erfassen kann. Diese Fähigkeit entsteht durch die wiederholte eigene Verarbeitung, die Schemata aufbaut.

Frage 3: Was passiert, wenn KI die Denkarbeit übernimmt?

Analysiere für jeden Aufgabenschritt: Welche kognitive Verarbeitung fällt bei den Studierenden weg, wenn KI diesen Schritt übernimmt?

KI funktioniert anders als ein Taschenrechner oder eine Rechtschreibprüfung. Sie operiert auf der Ebene der kognitiven Arbeit selbst und kann abrufen, generieren, verknüpfen, evaluieren. Alle vier Operationen aus Frage 2 kann KI in Textform ausführen. Die Frage ist deshalb nicht, ob KI die Arbeit kann, sondern was mit den Studierenden passiert, wenn sie es tut.

Studierende lagern die anstrengendste kognitive Arbeit zuerst aus. Das ist nachvollziehbar: Aufgaben mit hoher Elementinteraktivität (gleichzeitiges Verarbeiten und In-Beziehung-Setzen vieler Elemente) kosten am meisten Anstrengung, und dort spart KI am meisten Zeit. Aber hohe Elementinteraktivität ist gleichzeitig die Stelle, an der Schemata aufgebaut werden (Frage 2). Die Operationen, die Studierende am liebsten delegieren, sind dieselben, die sie am dringendsten selbst durchführen müssen.

Die Entlastung und der Schaden sind proportional. Routineaufgaben mit niedriger Elementinteraktivität (Formatierung, Rechtschreibung, Datenbereinigung) kosten wenig beim Outsourcing, weil sie wenig zur Schemabildung beitragen. Ganz anders die relationale Arbeit: Synthesieren, Vergleichen, Argumentieren, Integrieren. Wer das delegiert, delegiert die Schemabildung selbst.

Warum unsichtbares Outsourcing so gefährlich ist

Wenn KI die relationale Verarbeitung übernimmt (die Synthese schreibt, den Vergleich zieht, die Verbindung herstellt), sieht das Produkt genauso aus wie echtes Verständnis. Der Text enthält die richtigen Verbindungen und die Fachbegriffe sind korrekt eingesetzt. Die logische Struktur stimmt. Aber die internen Strukturen der Studierenden haben sich nicht verändert. Sie erfassen im nächsten Datensatz, im nächsten Fall, im nächsten Text immer noch das, was sie vorher gesehen haben: Oberflächenmerkmale statt Tiefenstruktur. Das Produkt ist identisch, der Kopf dahinter ist ein anderer. Das macht diese Form von Outsourcing so schwer erkennbar, sowohl für Lehrende als auch für die Studierenden selbst.

Reality Check

Ein praktischer Weg: Gib die Aufgabe testweise an ein KI-Tool. Vergleiche, was es produziert, mit der Operationsliste aus Frage 2. Es geht nicht darum herauszufinden, was KI nicht kann (sie kann fast alles). Es geht darum sichtbar zu machen, welche Operationen bei den Studierenden wegfallen, wenn sie KI einsetzen.

Aufgabenformat als Schutz

Manche Aufgabenformate machen Outsourcing architektonisch unmöglich, nicht bloss unerwünscht: Mündliche Prüfungen schützen Abrufen. In-Class-Writing schützt Generieren. Erklärungen in eigenen Worten erzwingen Verknüpfen. Spontane Anwendungsfragen erfordern alle vier Operationen in Echtzeit. Wenn KI die Operationen übernehmen würde, die das Lernen tragen, kann ein Formatwechsel die wirksamste Intervention sein.

Frage 4: Werden noch Grundlagen aufgebaut?

Wo stehen die Studierenden auf dem Anfänger-Experten-Kontinuum?

Die Aufgabenanalyse aus Frage 2 liefert für Anfänger und Fortgeschrittene unterschiedliche Ergebnisse. Der Mechanismus dahinter ist Elementinteraktivität (Chen, Paas, und Sweller 2023): Dasselbe Material hat für Anfänger eine hohe Elementinteraktivität (viele Elemente müssen gleichzeitig in Beziehung zueinander verarbeitet werden), für Experten eine niedrige (das Ganze ist ein Chunk im Langzeitgedächtnis).

  • Grundlagenphase (Anfänger): Die in Frage 2 identifizierten Operationen, besonders Verknüpfen, sind die Prozesse, die Schemata aufbauen. Diese Operationen müssen bei den Studierenden bleiben.
  • Fortgeschrittene Phase: Studierende haben bereits Schemata aufgebaut. Sie können KI-Output einordnen und gezielt nutzen, weil sie eigene Kriterien haben.

“Grundlagen aufbauen” heisst: Die Elementinteraktivität ist für diese Studierenden noch hoch, und die kognitive Arbeit, diese Beziehungen zu verarbeiten, ist das Lernen. Wenn KI diese Arbeit übernimmt, entsteht kein Schema. Hier zeigt sich das Evaluationsparadox erneut: Wer die Schemata noch nicht hat, kann KI-Output nicht beurteilen, und braucht die Operationen deshalb erst recht selbst.

Dieses Argument klingt plausibel, verfehlt aber einen zentralen Punkt: Grundlagenwissen ist nicht nur etwas, das man hat, sondern etwas, das man zum Denken benutzt. Willingham (2008) zeigt, dass “kritisches Denken” als domänenübergreifende Fähigkeit weitgehend eine Illusion ist. Was wir als kritisches Denken bezeichnen, ist in Wirklichkeit Fachwissen, das flexibel eingesetzt wird. Wer die Grundlagen einer Disziplin nicht internalisiert hat, kann die Formen kritischer Evaluation imitieren (Fragen stellen, Gegenargumente formulieren, Quellen zitieren), ohne die Substanz zu liefern, die diese Formen mit Inhalt füllt.

Für die Praxis heisst das: Wenn Studierende die Grundlagen an KI delegieren, verlieren sie nicht nur abrufbares Wissen. Sie verlieren die Fähigkeit, flexibel über die Domäne nachzudenken, weil das Material fehlt, aus dem dieses Denken gebaut wird. Die Frage ist deshalb nicht, ob Studierende Grundlagen “brauchen” im Sinn von “abrufen können müssen.” Die Frage ist, ob sie die internen Strukturen aufbauen, die eigenständiges Denken in ihrem Fach überhaupt ermöglichen.

Frage 5: Arbeiten Studierende zuerst selbst, bevor KI ins Spiel kommt?

Die Minimalanforderung für jede Aufgabe, bei der KI eine Rolle spielt:

  1. Studierende durchlaufen die Kernoperationen zuerst selbst (Hypothese generieren, Lösung skizzieren, Argument formulieren)
  2. Dann wird mit KI verglichen, geprüft oder erweitert

Der eigene Versuch aktiviert den Generierungseffekt (internes Wissen wird abgerufen und organisiert), und der anschliessende Vergleich erzeugt Selbsterklärung (Studierende müssen Unterschiede identifizieren und einordnen). Ohne eigenen Versuch gibt es nichts, woran KI-Feedback ansetzen kann.

Vergleichshinweise: Was die Prüfe-Phase wirksam macht

Die Prüfe-Phase funktioniert nur, wenn Studierende wissen, worauf sie vergleichen sollen. Ohne explizite Vergleichshinweise vergleichen Lernende Oberflächenmerkmale (Länge, Stil, Vokabular) statt der lernrelevanten Tiefenstruktur (Argumentationslogik, Annahmen, kausale Zusammenhänge). Die Forschung zur Selbsterklärung (Chi u. a. 1994) zeigt: Produktiver Vergleich erfordert strukturierte Anleitung.

Statt: “Vergleiche deinen Text mit dem KI-Text” Besser: “Vergleiche die kausale Argumentationskette deines Textes mit der KI-Version. Wo unterscheiden sich die Annahmen?”

Ohne solche Hinweise bleibt der Vergleich beliebig. Mit ihnen wird er zum gezielten Lernmoment. Vergleichshinweise sind kein optionaler Zusatz, sondern eine Voraussetzung dafür, dass die Reihenfolge “erst selbst, dann KI” ihren Zweck erfüllt.

Drei Optionen für die Prüfe-Phase

Nicht jede Referenz in der Prüfe-Phase ist gleich verlässlich. Die Wahl hängt vom Kontext und vom Kompetenzniveau ab:

Option Verlässlichkeit Skalierbarkeit Am besten geeignet für
1. Geprüfte Musterlösung Hoch Niedrig (muss erstellt werden) Kritische Lerninhalte, echte Anfänger
2. Strukturiertes Peer-Feedback Mittel (Peers können irren, aber Diskussion erzeugt Elaboration) Mittel Fortgeschrittene, die von Perspektivenwechsel profitieren
3. KI-Vergleich Variabel (kann falsch sein; Evaluationsparadox ist relevant) Hoch Fortgeschrittene mit genug Vorwissen, um Fehler zu erkennen

Für Anfänger ist Option 1 oft die sicherste Wahl. KI-Vergleich (Option 3) ist am skalierbarsten, birgt aber das Risiko, dass Studierende ihre korrekte Lösung zugunsten einer falschen KI-Antwort “korrigieren”, weil ihnen die Schemata zur Beurteilung fehlen.

Wann “zuerst selbst” nicht funktioniert

Wenn Studierende zu wenig Vorwissen haben, um einen sinnvollen Versuch zu generieren. Die Reihenfolge “erst selbst, dann KI” setzt voraus, dass Studierende genug Schemata haben, um überhaupt etwas Substanzielles zu produzieren. Bei echten Anfängern, die noch keine Grundlagen aufgebaut haben (Leitfrage 4), erzeugt der offene Versuch Frustration statt produktiver Anstrengung. Cognitive Load Theory empfiehlt in dieser Phase einen anderen Weg: zuerst ein vollständig ausgearbeitetes Beispiel studieren, dann ein teilweise bearbeitetes Problem vervollständigen (Completion Problem), und erst mit wachsender Kompetenz zum freien Versuch übergehen (swellerCognitiveLoadTheory2024?). Hier liegt auch eine Chance für KI: Ein Agent, der ausgearbeitete Beispiele generiert (statt Fragen zu stellen), kann Lehrpersonen dabei unterstützen, personalisierte Worked Examples für viele Studierende bereitzustellen. Das Design solcher Agents erfordert allerdings sorgfältige Qualitätskontrolle und ist Thema des Advanced Workshops.

Wenn die Qualität des Versuchs nicht gesichert ist. Der Mechanismus funktioniert nur, wenn der Versuch echte kognitive Anstrengung erfordert. Ein oberflächlicher “erster Versuch”, der die formale Anforderung erfüllt, ohne dass Studierende tatsächlich nachdenken, verfehlt den Zweck. Gestalte die Versuch-Phase so, dass das Denken sichtbar wird: handschriftlich, zeitbegrenzt, mit Prozessdokumentation, oder mündlich.

Wenn die Referenz in der Prüfe-Phase nicht verlässlich ist. Die Reihenfolge “erst selbst, dann vergleichen” setzt voraus, dass der Vergleichsmassstab korrekt ist. Eine Musterlösung erfüllt das. KI-Output tut es nicht immer: Sprachmodelle produzieren plausible, aber potenziell falsche Antworten. Wer die Fachkompetenz nicht hat, um den Fehler zu erkennen (Evaluationsparadox), kann aus einem fehlerhaften Vergleich das Falsche lernen. Für kritische Lerninhalte kann eine geprüfte Musterlösung die bessere Wahl sein.

Prüfe-Phase: Nicht alle Formate sind gleichwertig

Verschiedene Prüfe-Formate stellen unterschiedliche kognitive Anforderungen:

  • Musterlösung zum Selbstvergleich: Niedrigste Belastung. Studierende vergleichen fokussiert, brauchen aber explizite Vergleichshinweise (siehe oben).
  • Strukturiertes Peer-Feedback: Mittlere Belastung. Der soziale Austausch erzeugt zusätzliche Elaboration, erfordert aber Kommunikationskompetenz.
  • KI-Agent, der Rückfragen stellt: Höchste Belastung. Studierende müssen erneut generieren (Antworten auf die Fragen), was für Fortgeschrittene produktiv ist, Anfänger aber überfordern kann.

Wähle das Prüfe-Format passend zum Kompetenzniveau der Studierenden.

Theoretische Fundierung

Jede der 5 Fragen ist in den wissenschaftlichen Grundlagen aus Teil 1 verankert:

Frage Theoretische Grundlage
1. Geht es ums Lernen? Lernen ≠ Leisten (Bjork 1994): Produktion korrekter Ergebnisse ist nicht gleich Kompetenzaufbau
2. Welche Denkarbeit verlangt die Aufgabe? Abrufpraxis (Testing Effect), Generierungseffekt, Elaboration und Selbsterklärung, Metakognitives Monitoring: die Mechanismen, die Schemata aufbauen
3. Was passiert, wenn KI die Denkarbeit übernimmt? KI kann alle vier Operationen ausführen. Studierende lagern die anstrengendste Arbeit zuerst aus, aber dort werden Schemata aufgebaut. Evaluationsparadox: Wer die Schemata nicht hat, kann KI-Output nicht beurteilen
4. Werden noch Grundlagen aufgebaut? Expertise Reversal Effect: Dieselben Operationen haben für Anfänger andere kognitive Kosten als für Experten
5. Arbeiten Studierende zuerst selbst? Generierungseffekt & Selbsterklärung: Der eigene Versuch aktiviert interne Verarbeitung; der Vergleich erzeugt Elaboration

Alle fünf Fragen dienen letztlich einem Ziel: den Prozess schützen, durch den Studierende interne Strukturen aufbauen, die ihnen ermöglichen, selbstständig zu sehen, zu denken und zu urteilen. Transfer, die Fähigkeit, Gelerntes auf neue Situationen anzuwenden, ist das sichtbarste Ergebnis dieses Aufbaus. Aber der Aufbau verändert mehr als nur die Transferfähigkeit: Er verändert, was Studierende in ihrem Fach überhaupt erfassen können (Chase und Simon 1973), wie sie Probleme kategorisieren (Chi, Feltovich, und Glaser 1981) und ob sie über genug Substanz verfügen, um eigenständig und kritisch zu urteilen (Willingham 2008).

Leistung vs. Lernen: Was Offloading verdeckt

Cognitive Offloading steigert die unmittelbare Leistung, während es den Lernprozess untergraben kann, der zukünftige eigenständige Leistung ermöglichen würde (Bjork 1994; Grinschgl, Papenmeier, und Meyerhoff 2021). Studierende, die mit KI-Unterstützung arbeiten, produzieren bessere Ergebnisse in der aktuellen Aufgabe. Aber die kognitive Arbeit, die sie dabei umgehen, ist aber die Arbeit, die interne Strukturen für die nächste Aufgabe aufbauen würde. Die fünf Leitfragen adressieren dieses Spannungsfeld: Sie helfen zu entscheiden, wo die aktuelle Leistungssteigerung das zukünftige Lernen gefährdet.

Offloading und Outsourcing aus CLT-Sicht

Die Unterscheidung zwischen Offloading und Outsourcing lässt sich präzise in der Sprache der Cognitive Load Theory formulieren (Chen, Paas, und Sweller 2023): Offloading reduziert extrinsische Elementinteraktivität, also die kognitive Arbeit, die nicht zum Lernen beiträgt (Formatierung, Quellensuche, Syntaxprüfung). Die in Frage 2 identifizierten Operationen bleiben bei den Studierenden. Beim Outsourcing hingegen fällt intrinsische Elementinteraktivität weg. Die Studierenden setzen die Elemente nicht mehr selbst in Beziehung, und diese relationale Verarbeitung ist es, die Schemata aufbaut. Diese Präzisierung macht die Grenze zwischen sinnvoller KI-Nutzung und schädlicher KI-Nutzung analytisch bestimmbar statt nur intuitiv.

Ausgearbeitetes Beispiel: Multiple Regression (Statistik)

Dieses Beispiel zeigt, wie Elementinteraktivität als Analysetool funktioniert: Welche Aufgabenanteile bauen Schemata auf und müssen geschützt werden? Welche sind Routine oder designbedingt und können delegiert werden?

Die Aufgabe

Statistikkurs im 2. Semester. Studierende erhalten einen Datensatz und sollen eine multiple Regression durchführen, die Prüfungsleistung aus Lernstunden und Motivation vorhersagt. Sie sollen den Output interpretieren und die Ergebnisse aufschreiben.

Aufgabenanalyse mit den 5 Leitfragen

Frage Analyse
1. Lernen? Ja, Übungsaufgabe im 2. Semester
2. Welche Denkarbeit? Abrufen (statistische Grundkonzepte), Generieren (eigene Interpretation), Verknüpfen (Koeffizient, Konditionierung, Skala und Signifikanz gleichzeitig in Beziehung setzen), Überwachen (eigene Interpretation auf Lücken prüfen)
3. Was übernimmt KI? Generieren vollständig (fertige Interpretation), Verknüpfen grossteils (integriert die Elemente). Abrufen wird umgangen, Überwachen illusorisch (ohne eigene Interpretation fehlt der Massstab)
4. Grundlagen? Ja. Regressionsinterpretation wird gerade aufgebaut
5. Zuerst selbst? Muss eingebaut werden (siehe Redesign)

Elementinteraktivität als Analysewerkzeug

Nicht alle Teilaktivitäten der Aufgabe haben dieselbe Elementinteraktivität. Und das bestimmt, was geschützt werden muss und was delegierbar ist.

Hohe intrinsische Elementinteraktivität. Um “Pro zusätzlicher Lernstunde steigt die Prüfungsleistung um 2.3 Punkte, bei konstant gehaltener Motivation” zu verstehen, müssen Studierende fünf wechselseitig abhängige Elemente gleichzeitig verarbeiten: Was 2.3 auf der Outcome-Skala bedeutet, was “bei konstant gehaltener Motivation” statistisch heisst, warum sich der Wert von der bivariaten Korrelation unterscheidet, ob der p-Wert die Aussage rechtfertigt, und ob der Effekt praktisch relevant ist. Dieses Netzwerk gleichzeitiger Beziehungen ist das Konzept der multiplen Regressionsinterpretation. Die Verarbeitung dieser Beziehungen baut das Schema auf. Wenn KI die Integration übernimmt, erhalten Studierende das Produkt, ohne die Verarbeitung geleistet zu haben.

Niedrige Elementinteraktivität. R-Code schreiben (lm(score ~ hours + motivation, data = df)) ist ein Template, keine tiefe relationale Struktur. Den richtigen Koeffizienten in der Output-Tabelle finden ist eine perzeptuelle Aufgabe. Der APA-Ergebnisbericht ist Templatearbeit, sobald die Interpretation steht.

Extrinsische Elementinteraktivität (designbedingt, nicht lernrelevant). Unaufgeräumte Datensätze, inkonsistente Notation zwischen Vorlesung, Lehrbuch und R-Output, überladener Software-Output: All das verbraucht Arbeitsgedächtniskapazität, baut aber kein Schema auf. Reduziere diese Anteile (saubere Daten, konsistente Notation, vereinfachter Output), damit die frei werdende Kapazität für die intrinsische Verarbeitung zur Verfügung steht.

Delegationsentscheidung

Schützen (hohe intrinsische EI) Delegierbar (niedrige / extrinsische EI)
Interpretation der Koeffizienten im Kontext R-Code schreiben
“Bei konstant gehaltener Motivation” in eigenen Worten erklären Output-Tabelle formatieren
Variablenauswahl theoretisch begründen APA-Ergebnisbericht, nachdem die Interpretation steht
Multikollinearitätsdiagnose und deren Konsequenzen Datenbereinigung und -aufbereitung

Elementinteraktivität ist expertiseabhängig

Die Delegationstabelle gilt für Studierende im 2. Semester. Für sie besteht die Koeffizienteninterpretation aus fünf gleichzeitig zu verarbeitenden Elementen, weil noch kein Schema existiert, das sie zusammenfasst. Hier ist KI-Delegation am schädlichsten.

Für Master-Studierende ist “Koeffizienteninterpretation” längst ein einzelner Chunk. Ihre hohe Elementinteraktivität liegt woanders: bei Modellierungsentscheidungen, Sensitivitätsanalysen, kausaler Identifikation. Das ist der Expertise Reversal Effect: Dieselbe Aufgabenkomponente, die für Anfänger geschützt werden muss, ist für Fortgeschrittene delegierbar. Frage 4 (“Werden noch Grundlagen aufgebaut?”) operationalisiert diese Unterscheidung.

Wenn die Elementinteraktivität zu hoch ist: Isolated Elements Strategy

“Nicht an KI delegieren” ist nur die halbe Antwort. Die andere Hälfte ist Scaffolding. Fünf gleichzeitig interagierende Elemente können das Arbeitsgedächtnis von Studierenden ohne relevante Schemata überlasten. Die CLT-basierte Lösung ist die Isolated Elements Strategy (Pollock, Chandler, und Sweller 2002): Teilelemente zunächst isoliert vermitteln, bevor die gleichzeitige Integration verlangt wird.

Konkret für die Koeffizienteninterpretation:

  1. Zuerst vermitteln, was ein Regressionskoeffizient in einer einfachen (bivariaten) Regression bedeutet, wo “bei konstant gehaltener…” noch nicht relevant ist. Schema: “b = Veränderung in Y pro Einheit X”.
  2. Dann vermitteln, was “bei konstant gehaltener Motivation” konzeptuell bedeutet, anhand eines konkreten Beispiels ohne statistischen Output.
  3. Dann vermitteln, wie p-Werte gelesen werden und welche Hypothese getestet wird.
  4. Erst dann alle Elemente in einer vollständigen multiplen Regressionsinterpretation kombinieren.

In jeder Phase ist die Elementinteraktivität handhabbar, weil weniger gleichzeitige Interaktionen verarbeitet werden müssen. Wenn Studierende die vollständige Aufgabe erreichen, haben sie Teilschemata aufgebaut, die die effektive Elementinteraktivität reduzieren. Wichtig: Die Teilaufgaben in den Phasen 1 bis 3 haben designbedingt niedrigere Elementinteraktivität, sind aber nach wie vor intrinsisch zum Lernziel. Sie sollten nicht an KI delegiert werden. Delegation ist angemessen für bereits automatisierte Komponenten (R-Code, Formatierung), nicht für Scaffolding-Schritte auf dem Weg zur Gesamtaufgabe.

Evaluationsparadox

Die KI könnte produzieren: “Lernstunden hatten einen signifikanten positiven Effekt auf die Prüfungsleistung (b = 2.3, p < .01).” Das klingt korrekt, lässt aber die Konditionierungslogik weg, genau das, was multiple Regression von einer bivariaten Korrelation unterscheidet. Studierende ohne das entsprechende Schema können nicht sehen, was fehlt, weil das Erkennen der Auslassung das Wissen erfordert, das die Übung aufbauen sollte. Die Studierenden, die am ehesten delegieren (weil die Aufgabe schwierig ist), sind am wenigsten in der Lage, die KI-Antwort zu beurteilen.

Redesign der Aufgabe

Die ursprüngliche Aufgabe schützt keine der lernrelevanten Operationen. Ein Redesign in drei Phasen:

Phase 1 (Isolierte Elemente). Studierende interpretieren zuerst einzelne Elemente separat: Was bedeutet b = 2.3? Was heisst “bei konstant gehaltener Motivation”? Handschriftlich oder zeitbegrenzt. Das reduziert die Elementinteraktivität und erzwingt Abrufen und Generieren.

Phase 2 (Integration). Studierende formulieren eine vollständige Interpretation, dann Vergleich mit KI-generierter Version. Gezielter Vergleichshinweis: “Vergleiche die Konditionierungslogik deiner Interpretation mit der KI-Version. Erwähnt die KI, worauf sich der Koeffizient bezieht, wenn die anderen Variablen konstant gehalten werden?”

Phase 3 (Transfer). Neuer Datensatz, andere Variablen, keine KI. Mündliche Kurzpräsentation (2 Min) macht Outsourcing unmöglich und prüft, ob das Schema transferiert.

Teilbearbeitetes Anwendungsbeispiel: Volkswirtschaftslehre

Ursprüngliche Aufgabe: “Analysiere die Auswirkungen einer Zinserhöhung auf den Wohnungsmarkt.” Die ersten drei Fragen sind analysiert. Versuche, Fragen 4 und 5 selbst zu beantworten, bevor du die Lösung aufklappst.

Frage Analyse
1. Lernen? Ja, denn es ist eine Hausaufgabe im 2. Semester
2. Welche Denkarbeit? Abrufen (makroökonomische Grundkonzepte aktivieren: Zinsmechanismus, Kreditmarkt, Angebot-Nachfrage), Generieren (eigene kausale Argumentationskette aufbauen), Verknüpfen (mehrere Wirkungsketten gleichzeitig in Beziehung setzen: Kreditkosten, Bauinvestitionen, Mietpreise), Überwachen (eigene Argumentation auf Lücken prüfen)
3. Was übernimmt KI? Generieren vollständig (liefert fertige Argumentationskette), Verknüpfen grossteils (integriert die Wirkungsketten). Abrufen wird umgangen (Studierende müssen Wissen nie aktivieren). Überwachen wird illusorisch (ohne eigene Argumentation fehlt der Massstab)
4. Grundlagen? Deine Einschätzung: ________________________
5. Zuerst selbst? Deine Einschätzung: ________________________

Frage 4: Werden noch Grundlagen aufgebaut? Ja. Makroökonomische Modelle werden gerade aufgebaut. Die oben identifizierten Operationen, besonders Verknüpfen, sind die Prozesse, durch die makroökonomische Schemata entstehen. Studierende in dieser Phase können KI-Output nicht einordnen, weil ihnen die eigenen Kriterien fehlen.

Frage 5: Arbeiten Studierende zuerst selbst? Nein. Es gibt keine eingebaute Phase, in der Studierende zuerst selbst analysieren, bevor sie KI konsultieren.

Redesign:

  • Phase 1: Studierende skizzieren zuerst ihre eigene kausale Argumentationskette (handschriftlich oder zeitbegrenzt). Das erzwingt Abrufen und Generieren.
  • Phase 2: KI-generierte Analyse als Vergleich, wobei Studierende Unterschiede in den Argumentationsketten identifizieren. Das aktiviert Verknüpfen und Überwachen.
  • Phase 3: Mündliche Kurzpräsentation der Synthese (2 Min). Das macht Outsourcing unmöglich.

Die Reihenfolge bewahrt alle vier Operationen: Studierende aktivieren ihr Wissen, bilden Erwartungen und lernen aus der Diskrepanz.

Vom Design zur Praxis: 3 Diagnose-Fragen für den Lehralltag

Die 5 Leitfragen sollen beim Gestalten von Aufgaben helfen. Aber wie prüft man danach, ob das Denken tatsächlich bei den Studierenden geblieben ist? Als ergänzendes Werkzeug haben wir drei Diagnose-Fragen formuliert, die an die vier Operationen aus Frage 2 anschliessen:

  • Vorher prüft, ob Abrufen und Generieren stattgefunden haben
  • Während prüft, ob Verknüpfen und Überwachen aktiv waren
  • Nachher zeigt, ob sich das Schema tatsächlich verändert hat

Die 3 Diagnose-Fragen

Zeitpunkt Frage an Studierende Was sie diagnostiziert Theoretischer Anker
Vorher “Was hast du versucht, bevor du KI gefragt hast?” Gab es Abrufen und Generieren? Generierungseffekt, Abrufpraxis
Während “Wo hat dich die KI überrascht, und warum?” Waren Verknüpfen und Überwachen aktiv? Vorhersagefehler, Metakognitives Monitoring
Nachher “Was machst du nächstes Mal anders, ohne KI?” Hat sich das Schema aktualisiert? Wissenskompilation, Schemabildung

So klingen die Antworten

Zeitpunkt Outsourcing (Denken ausgelagert) Genuine Verarbeitung (Denken geblieben)
Vorher “Ich hab direkt ChatGPT gefragt” / vages “Ich hab mal überlegt” “Ich hab zuerst X probiert, bin bei Y steckengeblieben, weil…”
Während “Nichts hat mich überrascht” / “Die KI hat gut geschrieben” “Ich dachte, der Zusammenhang sei A, aber die KI hat B argumentiert, und das hat mich zum Nachdenken gebracht, weil…”
Nachher “Keine Ahnung” / “Ich würde es genauso machen” “Beim nächsten Mal würde ich zuerst X klären, weil ich gemerkt habe, dass…”

Die entscheidende Frage ist “Während”: Wer outsourct, hat keine spezifischen Erwartungen, die überrascht werden konnten, denn es gab keinen aktiven Vergleich zwischen eigenem Modell und KI-Output. Wer das Denken selbst geleistet hat, kann konkrete Überraschungsmomente benennen.

Zwei Einsatzmodi

Modus 1, Einbauen: Die Fragen als Teil der Aufgabe verlangen. Z.B.: “Reiche neben deiner Lösung eine 3-Satz-Reflexion ein: Was hast du vor der KI-Nutzung versucht? Wo hat dich der KI-Output überrascht? Was machst du nächstes Mal anders?” So wird die Diagnostik zum strukturellen Bestandteil der Aufgabe.

Modus 2, Nachfragen: In Sprechstunden, mündlichen Prüfungen oder Seminardiskussionen dieselben drei Fragen als Gesprächswerkzeug nutzen. Keine Vorbereitung nötig, denn die Fragen funktionieren in jedem Fach.

WarnungVorsicht vor Fehldiagnosen
  • Flüssige Leistung ≠ Outsourcing. Fortgeschrittene Studierende produzieren glatte Arbeit und bestehen die Diagnose-Fragen. Kompetenz nicht mit Outsourcing verwechseln.
  • KI-Nutzung ≠ Outsourcing. Wer KI für Formatierung, Sprachkorrektur oder Literatursuche nutzt, während die konzeptuelle Arbeit intern bleibt, betreibt legitimes Offloading.
  • Prozessdokumentation kann fabriziert werden. Achte auf Spezifität und Idiosynkrasie: Echte Denkspuren enthalten konkrete Sackgassen und spezifische Verwirrungsmomente. Fabrizierte sind generisch und narrativ zu glatt.
HinweisNicht jede Aufgabe braucht KI

Wenn die Analyse zeigt, dass deine Aufgabe bereits produktive Anstrengung bewahrt und die lernrelevanten Operationen bei den Studierenden bleiben: Das ist ein gutes Ergebnis. Nicht jede Aufgabe braucht eine KI-Komponente. Die Leitfragen können auch bestätigen, dass dein aktuelles Design bereits solide ist.

Zurück nach oben

Literatur

Bjork, Robert A. 1994. „Memory and Metamemory Considerations in the Training of Human Beings“. In Metacognition: Knowing about Knowing, 185–205. Cambridge, MA, US: The MIT Press. https://doi.org/10.7551/mitpress/4561.001.0001.
Chase, William G., und Herbert A. Simon. 1973. „Perception in Chess“. Cognitive Psychology 4 (1): 55–81. https://doi.org/10.1016/0010-0285(73)90004-2.
Chen, Ouhao, Fred Paas, und John Sweller. 2023. „A Cognitive Load Theory Approach to Defining and Measuring Task Complexity Through Element Interactivity. Educational Psychology Review 35 (2): 63. https://doi.org/10.1007/s10648-023-09782-w.
Chi, Michelene T. H., Nicholas De Leeuw, Mei-Hung Chiu, und Christian Lavancher. 1994. „Eliciting Self-Explanations Improves Understanding. Cognitive Science 18 (3): 439–77. https://doi.org/10.1207/s15516709cog1803_3.
Chi, Michelene T. H., Paul J. Feltovich, und Robert Glaser. 1981. „Categorization and Representation of Physics Problems by Experts and Novices“. Cognitive Science 5 (2): 121–52. https://www.sciencedirect.com/science/article/pii/S0364021381800298.
Grinschgl, Sandra, Frank Papenmeier, und Hauke S Meyerhoff. 2021. „Consequences of Cognitive Offloading: Boosting Performance but Diminishing Memory“. Quarterly Journal of Experimental Psychology (2006) 74 (9): 1477–96. https://doi.org/10.1177/17470218211008060.
Pollock, E, P Chandler, und J Sweller. 2002. „Assimilating Complex Information“. Learning and Instruction 12 (1): 61–86. https://doi.org/10.1016/S0959-4752(01)00016-0.
Willingham, Daniel T. 2008. „Critical Thinking: Why Is It So Hard to Teach?“ Arts Education Policy Review 109 (4): 21–32. https://doi.org/10.3200/AEPR.109.4.21-32.

Wiederverwendung