Spec Sheets bauen

LLMs als Hypothesengenerator und Lernende-Simulator

Andrew Ellis

13 May, 2026

Spec zuerst, dann Werkzeug.

Eine der schwierigsten pädagogischen Tätigkeiten beim Einsatz von KI in der Lehre ist nicht das Auswählen eines Werkzeugs, sondern das Spezifizieren dessen, was im Kopf der Lernenden passieren soll.

Was du heute tust

Block 1 (35 min)

Worked Example beobachten

Drei Eröffnungs-Slides, dann gemeinsamer Durchgang durch ein ausgearbeitetes Spec Sheet an einer Statistik-Aufgabe.

Block 2 (60 min)

Eigenes Spec Sheet bauen

Für eine Teilaufgabe deiner Lehre: Wissensbausteine, Fehlkonzepte, Paar-Review.

Block 3 + Closing (50 min)

Spec → Werkzeug → Verpflichtung

Spec im laufenden Werkzeug testen und schärfen.

Block 1: Theorie und Beispiel

Ein schwieriges Problem

Viele Lehrpersonen überspringen diesen Schritt und greifen direkt zum Werkzeug.

Dieser Workshop kehrt die Reihenfolge um: zuerst die Spezifikation, dann das Werkzeug.

Das LLM als Hypothesengenerator

Ein LLM, das als "Person, die gerade die Vorgängerveranstaltung abgeschlossen hat, aber diese hier noch nicht kennt" geprompted wird, kann Teilschritte aufzählen, die ein Experte überspringt.

Die Annahme dahinter: in dieser Rolle teilt das LLM die automatisierten Routinen der Expertin nicht.

Die Liste ist plausibel, nicht validiert: das LLM kennt deine Vorgängerveranstaltung nicht. Was im Output spezifisch passt, übernimmst du; was generisch ist, streichst du.

Drei Typen von Wissensbausteinen

Wissensbausteine sortieren sich nach der kognitiven Operation, die die Lernende mit ihnen ausführen muss:

Faktenwissen

Abrufen.

“\(r\) liegt zwischen \(-1\) und \(+1\).”

Klassifikationswissen

Erkennen.

“Diese Forschungsfrage ist eine Vorhersage durch Prädiktoren, kein Mittelwertvergleich.”

Erklärungswissen

Begründen.

“Warum \(b_1\) in der multiplen Regression von \(r_{YX_1}\) abweichen kann.”

Dein Spec deckt idealerweise alle drei Typen ab. Vollständige Erklärung mit weiteren Beispielen im Block-1-Nachlesen.

Jetzt: Worked Example

→ Worked Example öffnen (25 Min)

Gemeinsamer Durchgang durch das Spec Sheet an einer Statistik-Aufgabe.

Mitbeobachten: typische akzeptable Antwort, Hypothesengenerator-Prompt, Enumeration, Blind-Spot-Moment.

Cognitive Load Theory: der Engpass

Das Arbeitsgedächtnis verarbeitet wenige Elemente gleichzeitig, für 15-30 Sekunden.

Extrinsische Belastung

Unnötige Last durch schlechtes Design.

→ Reduzieren

Intrinsische Belastung

Bestimmt durch Material und Vorwissen.

→ Steuern

Lernrelevante Verarbeitung

Produktive Denkarbeit, die Schemata aufbaut.

→ Maximieren

Nicht Teil des 35-min Block 1. Im redesignten Workshop entfällt das CLT-Recap; die CLT-Auffrischung in Volllänge ist die Refresher-Präsentation der Virtuellen Akademie (siehe Block 1 Nachlesen). Diese Folie bleibt als visuelle Referenz im Foliensatz.

Falls die Lehrperson das CLT-Modell beiläufig anspricht: drei Komponenten, mit unterschiedlichen pädagogischen Konsequenzen:

Extrinsisch (schlechtes Design, kognitive Reibung, die nicht zum Lernen beiträgt): reduzieren.
Intrinsisch (Material plus Vorwissen): nicht pauschal senken, sondern ans Vorwissen anpassen (Scaffolding).
Lernrelevante Verarbeitung (die produktive Denkarbeit, die Schemata aufbaut): maximieren.

Wichtig: Lernrelevante Verarbeitung ist in Swellers aktualisierter Formulierung keine eigene “Last” mehr, sondern die produktive Arbeit, die das Arbeitsgedächtnis leisten kann, wenn die anderen beiden Komponenten gesteuert sind. Diese Unterscheidung verbindet den Workshop zentral: KI-Substitution senkt zwar oft die wahrgenommene Last, ersetzt aber die lernrelevante Verarbeitung.

Vorwissen bestimmt die Last

Dieselbe Aufgabe ist für Anfängerinnen und Fortgeschrittene unterschiedlich kostenintensiv.

Aufgabe: Löse nach \(x\) auf: \[-1(-x - 7) = 14x - 6\]

Anfängerin

Hohe intrinsische Last:

Was bedeutet das Minus vor der Klammer?
Wie verteile ich?
Welche Rechenregeln gelten?

Fortgeschrittene

Niedrige intrinsische Last:

“Klammer auflösen” → Schema
“Terme zusammenfassen” → Schema
“Nach \(x\) auflösen” → Schema

Konsequenz: Aufgaben müssen sich an Vorwissen anpassen. Das verlangt Diagnose.

Scaffolding-Leiter (Fading)

Wenn die intrinsische Last zu hoch ist, brauchen Lernende gezieltes Scaffolding.

Stufe	Format	Geeignet, wenn…
1	Worked Example: vollständig durchgearbeitet	Baustein noch gar nicht da
2	Completion Problem: teilweise gelöst	Baustein teilweise da
3	Hinweis-gestützt: nur strategische Hinweise	Baustein da, aber unsicher
4	Eigenständig: ohne Unterstützung	Baustein zuverlässig da

Welche Stufe für welchen Baustein passt, hängt von der Diagnose des Vorwissens ab.

Heute: die Diagnose explizit machen

Die CLT sagt: wir müssen das Vorwissen diagnostizieren, sonst passt das Scaffolding nicht.

Heute machen wir diese Diagnose explizit, schriftlich, falsifizierbar.

Die disziplinierte Form dieser Diagnose ist das Spec Sheet.

Spec ist dauerhaft, Werkzeug ist Übersetzung

Spec Sheet bleibt; der Prompt wird für jede Modellgeneration neu gerendert. Block 3 macht die Trennung an deinem eigenen Material erlebbar.

Zwei LLM-Rollen heute

Hypothesengenerator

Das LLM schlägt Wissensbausteine vor.

Du prüfst und markierst V (vermutet) oder B (beobachtet) oder verwirfst.

→ Vor der Validierung.

Lernende-Simulator

Das LLM spielt eine Lernende ohne Baustein X.

Zwei Probemodi:

Reaktiv: liest dein Material, meldet was unklar ist
Produktiv: schreibt eine Antwort mit Fehlkonzept

→ Der externe Test deines Modells der Lernenden.

Drei Werkzeug-Architekturen (kurz)

Konkrete Werkzeuge wechseln, die Architekturen dahinter bleiben:

Chat-Werkzeug

Copilot, ChatGPT, HuggingChat.

System-Prompt + Eingabe + Antwort.

→ Block 3 nutzt diese Architektur.

Strukturierte API

z.B. Marimo + Pydantic.

Erzwungenes Ausgabe-Schema.

→ Live-Demo (1 Min).

Agent Harness

Claude Code, pi.dev.

LLM mit Tool-Zugriff.

Dein Spec Sheet ist für alle drei Architekturen verwendbar. Nur die Übersetzung ändert sich.

Block 2: dein eigenes Spec Sheet

Block 2 in 60 Min

Zeit	Schritt
5 min	Vorlage öffnen, Teilaufgabe wählen, Sektion 1 ausfüllen
25 min	Wissensbausteine inventarisieren (Prompt 1) → validieren V/B/Korrigieren/Verwerfen → Lernaktivitäten (Prompt 2)
20 min	Reaktive Simulation (Prompt 3) → Funde zurück in Sektion 2; Produktive Simulation (Prompt 4) → Sektion 3
10 min	Paar-Feedback (3 strukturierte Fragen)

Ziel: erste vollständige Version. Muss nicht perfekt sein.

Block 3: Spec → Prompt → Test

Closing

Leitsatz-Erweiterung

Das Spec ist dauerhaft, das Werkzeug ist Rendering.

Dieselbe Spezifikation kann ein Scaffolding-Tool, eine Lernende-Simulation oder einen Diagnosetest treiben.

Wenn nächstes Jahr ein neues Modell oder Tool kommt, bleibt das Spec gleich.

Was du heute geschrieben hast, ist nicht eine Workshop-Notiz, sondern ein dauerhafter Artefakt.

Downstream-Uses-Gallery

Vier weitere Einsätze, die dasselbe Spec treiben kann:

Worked-Example-Generator: Spec rein, ausgearbeitete Lösungsbeispiele raus, mit Warnhinweisen an den Misconception-Stellen.
Misconception-Probe: Spec rein, Diagnosefragen raus, die genau die antizipierten Misconceptions aktivieren.
Formative Assessment Generator: Spec rein, Quiz raus, das alle Wissensbausteine abdeckt und Misconceptions sondiert.
Knowledge-Tracing-Instrumentierung: Spec als Basis für Mastery-Tracking-Systeme.

Spec ist bereits eine Datenstruktur

Spec Sheet, Sektion 2 (Auszug)

B1, Faktenwissen (Abrufen): \(r\) ist dimensionslos, \(-1 \leq r \leq +1\). V; Selbst-Tun.
B3, Klassifikationswissen (Erkennen): Korrelation vs. Mittelwertvergleich. B; Selbst-Tun.
B5, Erklärungswissen (Begründen): warum \(r = 0.3\) in Bildung bedeutsam ist. V; Selbst-Tun.

Sektion 3: verwechselt \(r\) mit \(R^2\); Korrelation als Kausalität.

adaptive-scaffolding (Python)

Exercise(
    title="r = 0.3 interpretieren",
    target_sub_skills=[
        SubSkill.r_squared_meaning,
        SubSkill.coefficient_interpretation,
    ],
    cognitive_demand=CognitiveDemand.CONCEPTUAL,
    common_errors=[
        "verwechselt r mit R²",
        "Korrelation als Kausalität",
    ],
    expected_answer_fragments=[
        "zwischen -1 und +1",
        "kontextabhängige Bedeutsamkeit",
    ],
)

Dieselbe Information, zwei Oberflächen. Was du in 60 Minuten geschrieben hast, ist das Format, das adaptive Systeme als Eingabe brauchen.

Verpflichtung: in den nächsten zwei Wochen

Schreibe auf Papier:

Eine konkrete Aufgabe deiner Lehre, an der du das Spec Sheet anwenden wirst. Nicht “ich werde nachdenken über…” sondern: diese spezifische Aufgabe.
Ein konkreter Schritt (Spec anwenden / Aufgabenstellung anpassen / Lernenden-Konsequenz einbauen).
Ein Datum, bis zu dem du es getan hast.

Erzähl es deiner Nachbarin, bevor du den Raum verlässt.

Take-Home: was du mitnimmst

Auf der Take-Home-Seite findest du:

Das laufende Werkzeug (URL bleibt stabil).
Die Architektur-Erklärung in plain Deutsch.
Vier Skizzen für weitere Werkzeuge mit Prompt-Vorlagen.
Optionale Hausaufgaben: Falsifikationsnotiz und Selbst-Tun-vs-Zuschauen-Tagging.

Dein Spec, deine Verpflichtung, die Take-Home-Seite. Mehr braucht es nach drei Stunden nicht.

Danke.

Das Spec Sheet ist die dauerhafte Substanz deiner pädagogischen Arbeit mit KI. Werkzeuge ändern sich; was im Kopf einer Lernenden vorgeht, weniger schnell.