KI & Lernen

Was bedeuten die Erkenntnisse aus der Lernforschung für den Einsatz von KI in der Lehre? In diesem Teil wenden wir die kognitive Architektur auf die zentrale Frage an: Wann unterstützt KI das Lernen, und wann verhindert sie es?

Gedächtnis-Aktivierung (5 Min)

Bevor wir weitergehen: Schreibe 3 zentrale Konzepte aus Teil 1 auf, ohne Notizen. Ergänze bei jedem Konzept in einem Satz, warum es für den KI-Einsatz in der Lehre relevant ist.

Lücken sind willkommen: Sie zeigen dir, wo du beim Weiterhören besonders aufmerksam sein kannst.

Dann (2 Min): Vergleiche zu zweit mit deinem Nachbarn. Wo sind die grössten Unterschiede? Was war überraschend schwierig zu erinnern?

Diese Übung demonstriert genau das Prinzip, das sie testet: Abrufpraxis nach einer Verzögerung. Dass es sich anstrengend anfühlt, signalisiert, dass Abrufprozesse aktiv sind, und genau diese Prozesse festigen das Gelernte.

Was bedeutet das für KI?

View slides in full screen

Ablauf dieses Blocks (ca. 60 Min)

Vor den Slides: Gedächtnis-Aktivierung (5 Min). Spaced Retrieval: 3 Konzepte aus Teil 1 aufschreiben + KI-Relevanz ergänzen, dann zu zweit vergleichen. Siehe Aktivität oben.

Block A: KI und Cognitive Offloading (~20 Min). Kernbotschaften:

KI steigert Produktivität, aber hat Nebenwirkungen (Fähigkeitsatrophie)
Cognitive Offloading: Was wir auslagern, verarbeiten wir nicht
Forschungsbefunde: GPS, Google Effect, KI-Abhängigkeit
Offloading vs. Outsourcing: Die entscheidende Unterscheidung
Wann Offloading hilft (extrinsische Last) vs. schadet (intrinsische Verarbeitung)

Aktivität: Offloading oder Outsourcing? (3 Min). Paare: ein Beispiel wo Offloading hilft, eines wo es schadet.

Block B: Das AI-Lernproblem (~15 Min). Kernbotschaften:

BFH-Fachbereichs-Beispiel: Fehler in deinem Fach sofort erkannt, in anderen nicht (in den Slides integriert)
Evaluationsparadox: Kompetente Nutzung setzt Kompetenz voraus
Lernen ≠ Leisten: Schein-Kompetenz als Kernproblem (nicht Plagiat)

Optionale Aktivitäten (collapsed auf der Seite, bei Bedarf einsetzen):

Evaluationsparadox erleben (3 Min): Teilnehmende identifizieren Fehler in fachfremden Aussagen. Kann auch in den Slides gemacht werden.
Diagnose-Fragen ausprobieren (1 Min): Eine der 3 Diagnose-Fragen auf eigenes Fach anwenden.

Block C: Aufgaben gestalten (~10 Min). Die 5 Leitfragen werden im Worked Example eingeführt, nicht vorab gelesen. In den Slides:

Die 4 kognitiven Operationen (Analyseraster für Frage 2) und die 3 Diagnose-Fragen zeigen
Ankündigen: “Jetzt arbeiten wir ein Beispiel durch. Dabei lernt ihr die 5 Leitfragen kennen, indem ihr sie in Aktion seht.”
Direkt zum Worked Example übergehen

Aktivität: Vorhersage vor der Analyse (1 Min). Vor dem Worked Example: Teilnehmende schreiben auf, was passiert wenn Studierende die Aufgabe “Annotierte Bibliografie” mit einem LLM lösen.

Wie erkennt man, wo auf dem Spektrum man steht?

Die 5 Leitfragen helfen beim Gestalten von Aufgaben. Aber wie prüft man im Lehralltag, ob das Denken tatsächlich bei den Studierenden geblieben ist? Drei Diagnose-Fragen, die den Versuch-dann-Prüfe-Bogen abbilden:

Zeitpunkt	Frage an Studierende	Was sie zeigt
Vorher	“Was hast du versucht, bevor du KI gefragt hast?”	Gab es einen eigenen Versuch?
Während	“Wo hat dich die KI überrascht, und warum?”	War das interne Modell aktiv?
Nachher	“Was machst du nächstes Mal anders, ohne KI?”	Hat sich das Verständnis aktualisiert?

Wer outsourct, hat auf Frage 2 keine Antwort: Es gab keine spezifischen Erwartungen, die überrascht werden konnten. Wer das Denken selbst geleistet hat, kann konkrete Überraschungsmomente benennen. → Ausführliche Anleitung mit Beispielen

Die 3 Diagnose-Fragen ausprobieren (1 Min)

Wähle eine der 3 Fragen. Wie würdest du sie in deiner Lehre konkret einsetzen? Formuliere eine Beispielfrage für dein Fach und tausche sie mit deinem Nachbarn aus.

Das Evaluationsparadox erleben

Die folgenden Aussagen stammen aus verschiedenen BFH-Fachbereichen. Welche sind korrekt, welche enthalten einen Fehler?

Gesundheit: “Bei der Triagierung in der Notaufnahme wird der Manchester Triage Score verwendet, der Patienten in fünf Dringlichkeitsstufen einteilt. Die höchste Stufe (rot) bedeutet, dass der Patient innerhalb von 30 Minuten behandelt werden muss.”
Soziale Arbeit: “Das Empowerment-Konzept in der Sozialen Arbeit zielt darauf ab, die Handlungsfähigkeit von Klienten zu stärken, indem professionelle Fachkräfte Entscheidungen für sie treffen, bis sie selbst dazu in der Lage sind.”
Wirtschaft: “Der Net Present Value (NPV) einer Investition wird berechnet, indem die zukünftigen Cashflows mit dem risikofreien Zinssatz diskontiert werden. Ein positiver NPV bedeutet, dass die Investition rentabel ist.”
Technik: “In der objektorientierten Programmierung beschreibt Polymorphismus die Fähigkeit eines Objekts, mehrere Interfaces gleichzeitig zu implementieren, wobei die Methodenauflösung immer zur Compile-Zeit erfolgt.”

Die Pointe: Evaluationsparadox

Alle vier Aussagen enthalten Fehler:

Gesundheit: Rot = sofortige Behandlung (0 Min), nicht 30 Min
Soziale Arbeit: Empowerment = Selbstbestimmung fördern, nicht Entscheidungen für Klienten treffen
Wirtschaft: NPV diskontiert mit dem gewichteten Kapitalkostensatz (WACC), nicht dem risikofreien Zinssatz
Technik: Polymorphismus löst Methoden zur Laufzeit auf (dynamisches Binding), nicht zur Compile-Zeit

Du hast die Fehler in deinem Fach wahrscheinlich sofort erkannt, in den anderen nicht. Genau so geht es deinen Studierenden mit KI-generierten Texten: Ohne Schemata klingt alles plausibel. Das ist das Evaluationsparadox.

Vorhersage vor der Analyse (1 Min)

Gleich analysieren wir gemeinsam eine typische Aufgabe (“Annotierte Bibliografie”). Bevor wir starten:

Schreibe in einem Satz auf: Was passiert, wenn ein Studierender die Aufgabe “Annotierte Bibliografie” mithilfe eines LLM löst, auch wenn er oder sie sehr gut prompten kann? Was liefert die KI, und was fehlt trotzdem?

Halte deine Vorhersage fest. Wir kommen darauf zurück.

Worked Example gemeinsam durchgehen (ca. 15 Min)

Die 5 Leitfragen werden hier zum ersten Mal eingeführt, jeweils direkt vor ihrer Anwendung. Jede Frage kurz vorlesen oder zusammenfassen (2-3 Sätze), dann die Anwendung auf das Beispiel zeigen und kurz Reaktionen abfragen. Vor dem Redesign PAUSE für die Selbsterklärung (2 Min). Dann das Redesign zeigen und die drei Erkenntnisse besprechen.

Falls Zeit bleibt: Teilnehmende arbeiten das teilbearbeitete VWL-Beispiel auf der Leitfragen-Seite durch (Fragen 4 und 5 selbst beantworten, dann Lösung aufklappen). Das Beispiel ist als Scaffold konzipiert: Die ersten drei Fragen sind voranalysiert, die letzten zwei müssen selbst beantwortet werden.

Bevor du die Leitfragen auf deine eigene Aufgabe anwendest, schauen wir uns gemeinsam an, wie eine Analyse Schritt für Schritt aussehen könnte.

Die Aufgabe: “Annotierte Bibliografie”

Studierende suchen 5 relevante Quellen zu einem vorgegebenen Thema, fassen jede in 150 Wörtern zusammen und verfassen eine einseitige Synthese zum aktuellen Forschungsstand.

Eine Aufgabe, die in vielen Disziplinen vorkommt, von Sozialarbeit über Wirtschaft bis Informatik.

Was sollen Studierende dabei lernen?

Suchstrategie entwickeln (Datenbanken, Begriffe, Eingrenzung)
Quellenqualität beurteilen (relevant? methodisch solide? aktuell?)
Einzelne Quellen zusammenfassen (Kernargument in eigenen Worten)
Über Quellen hinweg synthetisieren (Muster, Widersprüche, Lücken)
Zitieren als intellektuelle Praxis: warum zitieren, nicht wie formatieren

Analyse mit den 5 Leitfragen

Leitfrage 1 unterscheidet Lern- von Leistungskontexten. Im Lernkontext (Übungen, Hausaufgaben, Selbststudium) zählt der Prozess, nicht das Produkt. Die kognitive Arbeit der Studierenden ist das Lernziel.

Frage 1: Geht es primär ums Lernen?

Ja. Es ist eine Kursaufgabe, kein professionelles Produkt. Die kognitive Arbeit muss bei den Studierenden bleiben.

Leitfrage 2 identifiziert die kognitiven Operationen, die die Aufgabe verlangt. Du hast die vier Operationen in den Slides gesehen (Abrufen, Generieren, Verknüpfen, Überwachen). Jetzt wenden wir sie an.

Frage 2: Welche Denkarbeit verlangt die Aufgabe?

Abrufen: Suchstrategie aktivieren (welche Datenbanken, welche Begriffe, welche Eingrenzung?)
Generieren: Eigene Zusammenfassung und Bewertung jeder Quelle produzieren
Verknüpfen: Quellen zu einer Synthese integrieren, intellektuelle Zitierentscheidungen treffen (welche Behauptung braucht welchen Beleg?)
Überwachen: Eigene Bewertungskriterien und Vollständigkeit der Recherche prüfen

Leitfrage 3 analysiert für jeden Aufgabenschritt: Welche kognitive Verarbeitung fällt bei den Studierenden weg, wenn KI diesen Schritt übernimmt? Die Frage ist nicht, ob KI die Arbeit kann (sie kann fast alles), sondern was mit den Studierenden passiert, wenn sie es tut. Dabei gilt: Studierende lagern die anstrengendste kognitive Arbeit zuerst aus, aber genau dort werden Schemata aufgebaut.

Frage 3: Was passiert, wenn KI die Denkarbeit übernimmt?

Generieren wird vollständig übernommen: KI liefert fertige Zusammenfassungen und Bewertungen
Verknüpfen ebenfalls: KI produziert kohärente Synthesen und setzt Zitationen. Die intellektuelle Entscheidung (welche Behauptung braucht welchen Beleg?) entfällt
Abrufen wird umgangen: Studierende aktivieren ihr Vorwissen über Suchstrategien nie
Überwachen wird illusorisch: Ohne eigene Bewertungskriterien fehlt der Massstab (Evaluationsparadox)

Die kognitive Arbeit steckt nicht im Produkt (Zusammenfassungen, Synthese, formal korrekte Zitationen), sondern im Prozess (Suchen, Bewerten, Entscheiden, intellektuell Verorten). Die aktuelle Aufgabe prüft das Produkt, und genau das kann KI liefern.

Leitfrage 4 fragt: Wo stehen die Studierenden auf dem Anfänger-Experten-Kontinuum? In der Grundlagenphase müssen die identifizierten Operationen bei den Studierenden bleiben, weil genau diese Operationen die Schemata aufbauen.

Frage 4: Werden noch Grundlagen aufgebaut?

Ja. Studierende lernen erst, wie man Quellen bewertet. Sie haben noch keine Schemata für: “Ist diese Quelle relevant? Methodisch solide? Aktuell genug?” Genau die Operationen, die wir identifiziert haben, vor allem Generieren und Verknüpfen, sind die Prozesse, durch die diese Schemata entstehen.

Leitfrage 5 formuliert die Minimalanforderung: Studierende durchlaufen die Kernoperationen zuerst selbst, dann wird mit KI verglichen, geprüft oder erweitert. Der eigene Versuch aktiviert den Generierungseffekt; der Vergleich erzeugt Selbsterklärung.

Frage 5: Arbeiten Studierende zuerst selbst, bevor KI ins Spiel kommt?

Nein. Es gibt keine eingebaute Phase, in der Studierende zuerst selbst suchen, bewerten und synthetisieren, bevor sie KI konsultieren.

Die Diagnose

Alle vier Kernoperationen werden von KI übernommen. Das Lernen wird nicht unterstützt, sondern umgangen.

Selbsterklärung (2 Min)

Bevor du das Redesign siehst: Notiere basierend auf der Diagnose, wie würdest du diese Aufgabe umgestalten? Was müsste sich ändern, damit der Denkprozess geschützt ist?

Eigene Ideen zu generieren, bevor man eine Lösung sieht, ist informativer als passive Rezeption. Dasselbe Prinzip, das wir gerade besprochen haben.

Ein mögliches Redesign

Phase	Studierende	KI
1. Suchprotokoll	Suchstrategie dokumentieren	Keine
2. Bewertungsnotizen	Quellen bewerten, Zitiergründe festhalten	Keine
3. Synthese (vor Ort)	Einseitige Synthese, nur eigene Notizen	Keine
3b. KI-Vergleich	Unterschiede zur KI-Synthese erklären	Vergleichsreferenz
4. Formale Prüfung	Zitationsformat und Sprache prüfen	Offloading

Was sich ändert: Die Studierenden müssen den Prozess durchlaufen. Das Produkt allein reicht nicht mehr, denn die Denkarbeit wird sichtbar und geschützt.

Phase 1 dokumentiert die Suchstrategie: Welche Datenbanken? Welche Begriffe? Warum diese Eingrenzung?

Phase 2 verlangt für jede Quelle: Warum aufgenommen oder verworfen? Welche eigene Behauptung stützt diese Quelle?

Phase 3 schützt die Synthese als den Schritt mit der höchsten Elementinteraktivität. Wer noch Grundlagen aufbaut, braucht mehr Gerüst (Leitfrage 4).

Phase 3b aktiviert Überwachen: Studierende vergleichen nach eigenem Versuch. Die Aufgabe lautet “Unterschiede identifizieren und erklären”, nicht “Synthese verbessern” (Evaluationsparadox).

Phase 4 delegiert nur noch Formatierung.

Was zeigt dieses Beispiel?

Lernziele zuerst, dann Operationen. Die Analyse beginnt mit “Was sollen Studierende lernen?”, nicht mit “Kann KI das?” Das Redesign schützt die lernrelevanten Operationen und delegiert Routineanteile.
Offloading am richtigen Punkt. “Zitieren” bündelt zwei Aktivitäten: die inhaltliche Entscheidung (lernrelevant) und die formale Umsetzung (delegierbar). Dieselbe Logik gilt für die Synthese.
Erst selbst, dann KI. Die eigene Synthese (Phase 3) aktiviert Abrufen und Generieren. Der Vergleich mit der KI-Version (Phase 3b) aktiviert Verknüpfen und Überwachen (vgl. Bjork und Bjork 2011).

Rückkehr zur Vorhersage (1 Min)

Schau dir deine Vorhersage von vorhin an: Was passiert, wenn ein Studierender den Aufgabentext als Prompt eingibt?

Vergleiche: Wo lag deine Vorhersage richtig? Wo hast du etwas über- oder unterschätzt?

Wo deine Vorhersage nicht stimmte, hat dein internes Modell ein Update bekommen. Ohne eigene Vorhersage hättest du die Analyse nur passiv gelesen. Dasselbe Prinzip steckt hinter “Versuch-dann-Prüfe”.

Gedächtnis-Aktivierung (1 Min)

Bevor wir weitergehen, notiere in Stichworten:

Was ist der Unterschied zwischen Offloading und Outsourcing?
Was ist das Evaluationsparadox in einem Satz?

Du hast beides gerade im Worked Example gesehen. Wenn du es jetzt abrufen kannst, bleibt es haften.

5 Leitfragen vertiefen (Selbststudium)

Du hast die 5 Leitfragen gerade in Aktion gesehen. Die vollständige Beschreibung der Leitfragen vertieft die theoretischen Grundlagen jeder Frage und enthält weitere ausgearbeitete Beispiele (Statistik, Volkswirtschaftslehre), darunter ein teilbearbeitetes Beispiel zum selbst Üben.

Überleitung zur Praxis

Im Worked Example hast du gesehen, wie die 5 Leitfragen eine Aufgabe Schritt für Schritt analysieren. Jetzt wendest du dasselbe auf deine eigene Aufgabe an. Danach diagnostiziert dein Partner dein Redesign. Am Ende von Teil 3 hast du eine konkrete Analyse deiner eigenen Aufgabe, eine Peer-Diagnose deines Redesigns und einen Redesign-Plan.

Die folgenden Abschnitte vertiefen die Konzepte aus den Slides. Sie sind als Nachlese-Material für das Selbststudium gedacht.

Cognitive Offloading: Was die Forschung zeigt

Definition und Grundmechanismus

Cognitive Offloading (Risko und Gilbert 2016) beschreibt die Nutzung externer Hilfsmittel (Notizen, Kalender, Taschenrechner, digitale Tools), um die kognitive Last zu reduzieren. Der Mechanismus ist grundsätzlich adaptiv: Wer Routineinformationen externalisiert, befreit Arbeitsgedächtniskapazität für höherwertige Verarbeitung.

Empirische Befunde

Die Forschung zeigt konsistent, dass dauerhaftes Offloading die ausgelagerten Fähigkeiten schwächt:

GPS und räumliches Gedächtnis: Regelmässige GPS-Nutzung ist assoziiert mit reduzierter Fähigkeit, eigene kognitive Karten zu bilden (Dahmani und Bohbot 2020). Die Kausalrichtung ist noch nicht abschliessend geklärt, aber der Zusammenhang ist robust.
Google Effect: Wenn Menschen wissen, dass Information digital verfügbar ist, speichern sie bevorzugt den Zugangspfad (wo finde ich es?) statt den Inhalt (was ist es?) (Sparrow, Liu, und Wegner 2011). Das ist im Alltag effizient (transaktives Gedächtnissystem), aber für Lernen problematisch, weil Schemata den Inhalt brauchen, nicht den Pfad.
KI und kognitive Fähigkeiten: Dauerhafte KI-Nutzung führt zu messbarer Fähigkeitsatrophie. Studierende, die routinemässig KI für Schreibaufgaben nutzen, zeigen nach einem Semester schwächere eigenständige Schreibleistung (Cui u. a. 2024).

Die CLT-Perspektive auf Offloading

Nicht jedes Offloading ist gleich. Die Cognitive Load Theory bietet ein Analyseraster:

Offloading von extrinsischer Last (Formatierung, Quellenformate, Rechtschreibprüfung): Sinnvoll, weil es Kapazität für lernrelevante Verarbeitung freisetzt
Offloading von intrinsischer Verarbeitung (Argumentation, Synthese, Analyse): Eliminiert die kognitive Arbeit, die Schemata aufbaut

Der entscheidende Unterschied: Wird die Unterstützungsfunktion des Tools ausgelagert (Offloading) oder die Denkfunktion (Outsourcing)?

Offloading vs. Outsourcing

Was hier zählt, ist eine einzige Frage: Wie aktiv ist das interne Modell der Lernenden, wenn sie KI-Output begegnen?

Offloading und Outsourcing markieren die Endpunkte eines Spektrums:

	Cognitive Offloading	Cognitive Outsourcing
Definition	Tool reduziert Arbeitsgedächtnis-Last, während die Person denkt	Tool übernimmt das Denken
Beispiel	Taschenrechner bei Problemlösung	KI schreibt den Aufsatz
Lernrelevante Verarbeitung	Bleibt erhalten	Wird eliminiert
Expertise-Entwicklung	Wird unterstützt	Wird verhindert

Die interessanten und schwierigen Fälle liegen in der Mitte: Ein Student, der einen KI-generierten Entwurf gründlich überarbeitet; eine Studierende, die nach eigenem Versuch gezielt eine Frage an die KI stellt. Die entscheidende Variable ist nicht, ob KI genutzt wird, sondern wie viel eigene Denkarbeit die Lernenden geleistet haben, bevor sie dem KI-Output begegnen. Je aktiver das interne Modell, desto informativer das Feedback.

Dabei gilt ein oft übersehener Punkt: Dieselbe Aktivität kann für eine Studierende Offloading und für eine andere Outsourcing sein. Eine fortgeschrittene Studierende, die einen KI-Entwurf kritisch überarbeitet, hat die Schemata, um Fehler zu erkennen und strukturelle Schwächen zu identifizieren. Für sie ist die Überarbeitung echte kognitive Arbeit. Eine Anfängerin, der dieselben Schemata fehlen, übernimmt den Entwurf mit kosmetischen Änderungen, weil sie gar nicht erkennen kann, was fehlt. Ob eine KI-Nutzung Offloading oder Outsourcing ist, hängt also nicht nur von der Aufgabengestaltung ab, sondern auch vom Vorwissen der Studierenden. Das ist die direkte Konsequenz des Expertise Reversal Effect auf das Offloading-Outsourcing-Spektrum.

Outsourcing eliminiert die lernrelevante kognitive Verarbeitung (Schemabildung, Abruf, Elaboration). Das ist das Kernproblem.

Erinnere dich an die Unterscheidung zwischen biologisch primärem und sekundärem Wissen aus Teil 1: Akademische Kompetenzen (Lesen, Schreiben, fachliches Denken) sind biologisch sekundär. Sie erfordern bewusste, aktive Verarbeitung. Outsourcing umgeht genau die Prozesse, die für diesen Erwerb nötig sind.

Viele KI-Policies scheitern, weil sie diese Unterscheidung nicht machen. Die Frage ist nicht “Dürfen Studierende KI nutzen?”, sondern “Wird das Denken ausgelagert oder nur unterstützt?” Hier braucht es das Urteil der Lehrperson.

ojs_width = 700
ojs_height = 400
ojs_font_size = "13px"
ojs_slider_width = "300px"

viewof expertise_slider = {
  const size = typeof ojs_font_size !== "undefined" ? ojs_font_size : "13px";
  const slider_width = typeof ojs_slider_width !== "undefined" ? ojs_slider_width : "300px";
  const div = html`<div style="display:flex;align-items:center;gap:12px;font-size:${size};">
    <span style="white-space:nowrap;">Vorwissen: <strong>Anfänger:in</strong></span>
    <input type="range" min="0" max="10" step="0.5" value="2" style="width:${slider_width};accent-color:#B8821A;">
  </div>`;
  const input = div.querySelector("input");
  const label = div.querySelector("strong");
  const levelName = (v) => v <= 3 ? "Anfänger:in" : v <= 7 ? "Fortgeschritten" : "Expert:in";
  input.oninput = () => {
    label.textContent = levelName(+input.value);
    div.value = +input.value;
    div.dispatchEvent(new Event("input", {bubbles: true}));
  };
  div.value = 2;
  return div;
}

offloading_spectrum = {
  const w = typeof ojs_width !== "undefined" ? ojs_width : 700;
  const h = typeof ojs_height !== "undefined" ? ojs_height : 400;
  const fs = typeof ojs_font_size !== "undefined" ? ojs_font_size : "13px";

  const t = expertise_slider / 10;

  const examples = [
    {
      id: "eval",
      label: "KI bewertet\nempirische Studie",
      posNovice: 0.88, posExpert: 0.15,
      descNovice: "Keine Basis für Überraschung — Fluency-Illusion",
      descExpert: "Internes Modell prüft den KI-Output kritisch",
      tier: "above", tierOffset: 0
    },
    {
      id: "stats",
      label: "KI löst\nStatistik-Aufgabe",
      posNovice: 0.82, posExpert: 0.20,
      descNovice: "Strukturelle Komponenten werden nie aufgebaut",
      descExpert: "Versteht die Methode, spart Zeit für Interpretation",
      tier: "below", tierOffset: 0
    },
    {
      id: "calc",
      label: "Taschenrechner\nfür Rechnung",
      posNovice: 0.72, posExpert: 0.12,
      descNovice: "Produziert Outputs, die nicht bewertet werden können",
      descExpert: "Versteht Division, delegiert Routine",
      tier: "above", tierOffset: 1
    },
    {
      id: "feedback",
      label: "KI gibt Feedback\nauf eigenen Text",
      posNovice: 0.55, posExpert: 0.22,
      descNovice: "Übernimmt Änderungen ohne eigene Bewertung",
      descExpert: "Hat Modell, das durch Feedback aktualisiert wird",
      tier: "below", tierOffset: 1
    },
  ];

  const marginLeft = 50;
  const marginRight = 50;
  const marginTop = 70;
  const marginBottom = 60;
  const barY = marginTop + 80;
  const barH = 28;
  const innerW = w - marginLeft - marginRight;

  const svg = d3.create("svg")
    .attr("viewBox", [0, 0, w, h])
    .attr("width", w)
    .attr("height", h)
    .style("font-family", "system-ui, sans-serif")
    .style("font-size", fs)
    .style("background", "transparent");

  // Gradient
  const defs = svg.append("defs");
  const grad = defs.append("linearGradient").attr("id", "offloading-spectrum-grad");
  grad.append("stop").attr("offset", "0%").attr("stop-color", "#0072B2");
  grad.append("stop").attr("offset", "100%").attr("stop-color", "#D55E00");

  // Title
  svg.append("text")
    .attr("x", w / 2).attr("y", 24)
    .attr("text-anchor", "middle")
    .attr("font-weight", "bold")
    .attr("font-size", "15px")
    .attr("fill", "#1A1714")
    .text("Offloading oder Outsourcing? Es kommt auf die Person an.");

  // Dynamic subtitle
  const subtitleText = t <= 0.3
    ? "Ohne Vorwissen wird fast jede KI-Nutzung zum Outsourcing"
    : t >= 0.7
      ? "Mit Expertise wird dieselbe KI-Nutzung zum Offloading"
      : "Vorwissen bestimmt, wo eine Aktivität auf dem Spektrum liegt";

  svg.append("text")
    .attr("x", w / 2).attr("y", 46)
    .attr("text-anchor", "middle")
    .attr("font-size", "12px")
    .attr("font-style", "italic")
    .attr("fill", "#666")
    .text(subtitleText);

  // Gradient bar
  svg.append("rect")
    .attr("x", marginLeft).attr("y", barY)
    .attr("width", innerW).attr("height", barH)
    .attr("rx", 3)
    .attr("fill", "url(#offloading-spectrum-grad)")
    .attr("stroke", "#1A1714").attr("stroke-width", 0.8);

  // Axis labels
  svg.append("text")
    .attr("x", marginLeft).attr("y", barY - 8)
    .attr("text-anchor", "start")
    .attr("font-weight", "bold").attr("font-size", "12px")
    .attr("fill", "#0072B2")
    .text("Offloading");

  svg.append("text")
    .attr("x", marginLeft + innerW).attr("y", barY - 8)
    .attr("text-anchor", "end")
    .attr("font-weight", "bold").attr("font-size", "12px")
    .attr("fill", "#D55E00")
    .text("Outsourcing");

  // Tooltip
  const tooltip = svg.append("g").attr("opacity", 0);
  const tooltipBg = tooltip.append("rect")
    .attr("rx", 4).attr("fill", "#1A1714").attr("opacity", 0.9);
  const tooltipText = tooltip.append("text")
    .attr("fill", "white").attr("font-size", "11px").attr("text-anchor", "middle");

  // Example dots and labels
  const pointY = barY + barH / 2;
  const aboveTierBase = barY - 22;
  const belowTierBase = barY + barH + 18;
  const tierSpacing = 30;

  for (const ex of examples) {
    const pos = ex.posNovice + t * (ex.posExpert - ex.posNovice);
    const cx = marginLeft + pos * innerW;
    const dotColor = d3.interpolateRgb("#D55E00", "#0072B2")(1 - pos);

    const g = svg.append("g").style("cursor", "pointer");

    // Label position
    const isAbove = ex.tier === "above";
    const labelBaseY = isAbove
      ? aboveTierBase - ex.tierOffset * tierSpacing
      : belowTierBase + ex.tierOffset * tierSpacing;

    // Connector line from label to bar
    const connectorEndY = isAbove ? barY : barY + barH;
    const connectorStartY = isAbove ? labelBaseY + 6 : labelBaseY - 22;
    g.append("line")
      .attr("x1", cx).attr("x2", cx)
      .attr("y1", connectorStartY).attr("y2", connectorEndY)
      .attr("stroke", "#aaa").attr("stroke-width", 0.8)
      .attr("stroke-dasharray", "2,2");

    // Circle on bar
    g.append("circle")
      .attr("cx", cx).attr("cy", pointY)
      .attr("r", 8)
      .attr("fill", dotColor)
      .attr("stroke", "#1A1714").attr("stroke-width", 1.5);

    // Label text
    const lines = ex.label.split("\n");
    for (let i = 0; i < lines.length; i++) {
      const ly = isAbove
        ? labelBaseY - (lines.length - 1 - i) * 13
        : labelBaseY + i * 13;
      g.append("text")
        .attr("x", cx).attr("y", ly)
        .attr("text-anchor", "middle")
        .attr("font-size", "10px")
        .attr("font-weight", "bold")
        .attr("fill", "#1A1714")
        .text(lines[i]);
    }

    // Hover tooltip
    const desc = t <= 0.4 ? ex.descNovice : t >= 0.6 ? ex.descExpert
      : `${ex.descNovice} → ${ex.descExpert}`;

    g.on("mouseenter", () => {
      g.select("circle").attr("r", 11).attr("stroke-width", 2.5);
      const ttX = Math.max(140, Math.min(w - 140, cx));
      const ttY = barY + barH + 80 + ex.tierOffset * 4;
      tooltipText.attr("x", ttX).attr("y", ttY + 14).text(desc);
      const bbox = tooltipText.node().getBBox();
      tooltipBg
        .attr("x", bbox.x - 8).attr("y", bbox.y - 4)
        .attr("width", bbox.width + 16).attr("height", bbox.height + 8);
      tooltip.attr("opacity", 1);
    });

    g.on("mouseleave", () => {
      g.select("circle").attr("r", 8).attr("stroke-width", 1.5);
      tooltip.attr("opacity", 0);
    });
  }

  return svg.node();
}

Das Evaluationsparadox

Ein verbreiteter Vorschlag: “Studierende müssen lernen, KI-Outputs kritisch zu bewerten.”

Das Problem: Um KI-Outputs beurteilen zu können, braucht man genau die Fachkompetenz, die das Lernen erst entwickeln soll. Evaluation ist selbst eine Form von Inferenz. Man muss das eigene interne Modell aktivieren und prüfen, ob der KI-Output damit konsistent ist. Ohne hinreichend entwickeltes Modell fehlt die Grundlage für diese Prüfung.

Expert:innen haben unabhängige Bewertungskriterien und erkennen Fehler sofort
Anfänger:innen fehlen diese Kriterien, sodass “kritische Bewertung” zu oberflächlichem Prüfen wird

Die Konsequenz: Kompetente Nutzung setzt Kompetenz voraus.

Die Expert:innen-Anfänger:innen-Asymmetrie aus Teil 1 wirkt hier direkt: Expert:innen können KI als Verstärker nutzen. Anfänger:innen riskieren dauerhafte Abhängigkeit.

Wichtige Differenzierung: Das Paradox ist nicht absolut, sondern variiert mit dem Kompetenzniveau. Für echte Anfänger:innen ist es am gravierendsten; fortgeschrittene Studierende mit Grundlagenwissen können bereits grobe Fehler, logische Inkonsistenzen oder fehlende Belege erkennen. Auch können strukturierte Evaluationsaufgaben (z.B. zwei KI-Outputs vergleichen, spezifische Behauptungen gegen Primärquellen prüfen) das Paradox teilweise abmildern, ohne es aufzulösen.

Schemata, Lernen ≠ Leisten und der “Strand”

Warum Schemata den KI-Output umschreiben

Gedächtnis ist nicht reproduktiv, sondern rekonstruktiv. Wenn Studierende sich an etwas erinnern, spielen sie keine Aufnahme ab; sie rekonstruieren aus Fragmenten, ergänzt durch Vorwissen und aktuelle Überzeugungen. Schemata, also organisierte Wissensstrukturen aus Erfahrung, sind dabei Vorteil und Fehlerquelle zugleich.

Für die KI-Nutzung bedeutet das: Wenn Studierende KI-Output lesen, wird dieser durch ihre bestehenden Schemata gefiltert und oft still an Erwartungen angepasst. Korrekte Information, die zum Schema passt, wird gut behalten. Korrekte Information, die dem Schema widerspricht, wird schlecht behalten oder uminterpretiert. Und Schema-konsistente Details werden manchmal hinzufabriziert, obwohl sie nie da waren.

Das erklärt auch, warum Missverständnisse so hartnäckig sind: Einfach korrekte Information zu präsentieren reicht nicht, weil das bestehende Schema die neue Information umschreibt. Stattdessen braucht es den Dreischritt: Aktivieren (Missverständnis explizit machen) → Konflikt (Evidenz zeigen, die das Missverständnis nicht erklären kann) → Auflösen (korrekte Erklärung im Kontrast zum Missverständnis).

Vertiefung: Gedächtnis und Lernen. Rekonstruktives Gedächtnis, Schemata, und warum Abruf Lernen erzeugt

Lernen ≠ Leisten

Studierende können mit KI korrekte Ergebnisse produzieren (leisten), ohne etwas gelernt zu haben. Und das Problem geht tiefer: Wer die Denkarbeit auslagert, baut nicht nur dieses Wissen nicht auf, sondern es fehlt auch die Grundlage, die Wissenstransfer auf neue Situationen ermöglicht. Ohne gut organisierte, tiefe Wissensstrukturen gibt es nichts, was transferiert werden könnte.

Transfer ist das eigentliche Versprechen von Hochschulbildung: Studierende sollen Gelerntes in Situationen anwenden können, die sie im Studium nie gesehen haben. Wenn Outsourcing die Schemabildung verhindert, wird genau dieses Versprechen gebrochen.

Schein-Kompetenz

Studierende produzieren Texte mit allen Oberflächenmerkmalen akademischer Arbeit (Hedging, Zitationen, Fachvokabular), ohne die zugrundeliegende intellektuelle Arbeit. Das Phänomen ist nicht neu: Studierende haben schon vor KI mit Copy-Paste, strategischem Zusammenfassen und oberflächlichem Paraphrasieren akademische Fassaden errichtet. KI macht es nur einfacher und die Fassade überzeugender. Die kognitionspsychologische Vorhersage: Schein-Kompetenz wird tückischer als strategisches Abkürzen, weil sie zur Selbsttäuschung werden kann. Das rekonstruktive Gedächtnis kann plausible Erinnerungen an einen Denkprozess erzeugen, der nie stattfand. Ob und wie oft dieses Risiko tatsächlich eintritt, wird die empirische Forschung zeigen müssen. Aber der Mechanismus (rekonstruktives Gedächtnis + oberflächliche Verarbeitung) ist gut belegt und legt nahe, dass das Risiko real ist.

“The Beach, Not the Ant”

Die Lernumgebung bestimmt das Ergebnis mehr als die Motivation der Studierenden.

Herbert Simon beobachtete: Eine Ameise läuft einen komplexen, gewundenen Pfad am Strand entlang. Aber die Komplexität liegt nicht in der Ameise, denn sie folgt einfachen Regeln. Die Komplexität liegt im Strand: in den Hindernissen, Steigungen und Barrieren.

Übertragen auf Lernen: Wenn Studierende den einfachsten Weg nehmen (KI das Denken übernehmen lassen), ist das keine Charakterschwäche. Es ist rationales Verhalten in einer Umgebung, die diesen Weg ermöglicht.

Die richtige Frage ist nicht “Wie verhindern wir, dass Studierende schummeln?” sondern “Wie gestalten wir Umgebungen, in denen produktive Anstrengung der natürliche Weg ist?”

Herbert Simon nannte das zugrundeliegende Prinzip Bounded Rationality (begrenzte Rationalität): Menschen treffen Entscheidungen nicht durch Optimierung aller Möglichkeiten, sondern indem sie die erste akzeptable Lösung wählen (Satisficing). Wenn die Lernumgebung eine akzeptable Lösung ohne kognitive Anstrengung zulässt, werden begrenzt rationale Studierende diese Lösung wählen. Die Konsequenz für die Aufgabengestaltung: Wir müssen Aufgaben so entwerfen, dass die “befriedigende” Lösung die kognitive Anstrengung einschliesst, nicht umgeht.

Ungleiche Wirkung

Der Expertise Reversal Effect hat eine direkte Konsequenz für die Gerechtigkeit: Wenn das, was Novizen hilft, sich von dem unterscheidet, was Experten hilft, dann schadet unstrukturierter KI-Einsatz Studierenden mit schwächerem Vorwissen überproportional. Das ist keine empirische Spekulation, sondern eine logische Folge der Theorie, die wir bereits besprochen haben:

Stärkere Studierende haben kompensatorisches Vorwissen und können KI-Outputs besser einordnen
Schwächere Studierende werden am meisten geschädigt, weil ihnen genau die Grundlage fehlt, die eine kritische Nutzung erfordern würde
KI-Policy ist auch eine pädagogische Gerechtigkeitsfrage, nicht bloss eine Frage der akademischen Integrität

Die empirische Evidenzbasis zu KI-spezifischen ungleichen Wirkungen wächst, und die Richtung ist konsistent mit dem “digitalen Matthäus-Effekt” aus der Bildungstechnologie-Forschung (Reich 2020): Technologie ohne starke pädagogische Rahmung verstärkt bestehende Unterschiede.

Was lässt sich dagegen tun?

Differenziertes Scaffolding in der Versuch-Phase: Versuch-dann-Prüfe setzt voraus, dass Studierende genug Vorwissen haben, um einen sinnvollen Versuch zu generieren. Für Studierende mit schwachem Vorwissen kann es nötig sein, vor dem eigenen Versuch ein ausgearbeitetes Beispiel zu studieren (der Worked Example Effect aus der Cognitive Load Theory). Der nächste Schritt wäre ein teilweise bearbeitetes Problem zum Vervollständigen (Completion Problem), bevor der freie Versuch möglich wird
Strategische Paarung in der Prüfe-Phase: Bewusste Zusammensetzung von Tandems, die unterschiedliche Stärken einbringen, damit die Vergleichsphase für alle informativ ist
Sprachliche Zugänglichkeit beachten: KI-Tools funktionieren in verschiedenen Sprachen unterschiedlich gut. Für nicht-muttersprachliche Studierende kann die Sprachbarriere die ohnehin schwächere Ausgangsposition verschärfen

Was uns die Geschichte der Bildungstechnologie lehrt

Die Herausforderungen, die wir hier beschreiben (kognitives Outsourcing, Schein-Kompetenz, Gerechtigkeitslücken), sind nicht neu. Sie sind die jüngste Ausprägung eines wiederkehrenden Musters: Jede Welle von Bildungstechnologie wurde von Transformationsversprechen begleitet und dann von bestehenden Praktiken domestiziert.

Computer in Schulen sollten in den 1980er Jahren das Lernen revolutionieren. Intelligente Tutoring-Systeme zeigten in den 1990er Jahren vielversprechende Ergebnisse in kontrollierten Studien, scheiterten aber an der Skalierung. MOOCs versprachen 2012 den Zugang zu Bildung zu demokratisieren und produzierten stattdessen Matthäus-Effekte (Reich 2020). Learning Management Systeme wurden zu digitalen Aktenschränken.

Dieses Muster ist kein Scheitern, sondern die Art, wie Institutionen neue Werkzeuge sinnvoll integrieren (Reich 2020). Die angemessene Reaktion auf KI ist weder unkritische Begeisterung noch pauschale Ablehnung, sondern informierte, kontextbezogene Integration, genau das, was diese Leitfragen ermöglichen sollen.

Die 5 Leitfragen (Übersicht)

Ein praktisches Werkzeug für die Aufgabengestaltung:

Frage	Ergebnis
1. Geht es primär ums Lernen?	→ Kognitive Arbeit schützen
2. Welche Denkarbeit verlangt die Aufgabe?	→ Operationen identifizieren (Abrufen, Generieren, Verknüpfen, Überwachen)
3. Was passiert, wenn KI die Denkarbeit übernimmt?	→ Lernrelevante Operationen schützen, Routineanteile delegierbar
4. Werden noch Grundlagen aufgebaut?	→ Studierende brauchen die Operationen selbst
5. Arbeiten Studierende zuerst selbst?	→ Reihenfolge einbauen: erst Versuch, dann KI

Für das Selbststudium

Arbeitsgedächtnis und Instruktion. Die vier Modelle des Arbeitsgedächtnisses und was sie für Lehrdesign bedeuten
Gedächtnis und Lernen. Rekonstruktives Gedächtnis, Schemata, und warum Abruf Lernen erzeugt
Wie man Kompetenzen erwirbt. Wissenschaftliche Grundlagen der Expertise-Entwicklung
Produktive Anstrengung durch Design. Lernumgebungen gestalten, die Anstrengung zum natürlichen Weg machen
The Curious Case of Transfer of Learning. Warum tiefes Wissen die Voraussetzung für Wissenstransfer ist (Shrestha, nach Haskell)

Zurück nach oben

Literatur

Bjork, Elizabeth Ligon, und Robert A. Bjork. 2011. „Making Things Hard on Yourself, but in a Good Way: Creating Desirable Difficulties to Enhance Learning“. In Psychology and the Real World: Essays Illustrating Fundamental Contributions to Society, 56–64. New York, NY, US: Worth Publishers.

Cui, Zheyuan (Kevin), Mert Demirer, Sonia Jaffe, Leon Musolff, Sida Peng, und Tobias Salz. 2024. „The Effects of Generative AI on High Skilled Work: Evidence from Three Field Experiments with Software Developers“. SSRN Scholarly Paper. Rochester, NY. 3. September 2024. https://doi.org/10.2139/ssrn.4945566.

Dahmani, Louisa, und Véronique D. Bohbot. 2020. „Habitual Use of GPS Negatively Impacts Spatial Memory During Self-Guided Navigation“. Scientific Reports 10 (1): 6310. https://doi.org/10.1038/s41598-020-62877-0.

Reich, Justin. 2020. Failure to Disrupt: Why Technology Alone Can’t Transform Education. Cambridge London: Harvard University Press.

Risko, Evan F., und Sam J. Gilbert. 2016. „Cognitive Offloading“. Trends in Cognitive Sciences 20 (9): 676–88. https://doi.org/10.1016/j.tics.2016.07.002.

Sparrow, Betsy, Jenny Liu, und Daniel M. Wegner. 2011. „Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips“. Science (New York, N.Y.) 333 (6043): 776–78. https://doi.org/10.1126/science.1207745.

Wiederverwendung

CC BY-SA 4.0