Spec Sheets bauen

LLMs als Hypothesengenerator und Lernende-Simulator

Andrew Ellis

13 May, 2026


Spec zuerst, dann Werkzeug.


Eine der schwierigsten pädagogischen Tätigkeiten beim Einsatz von KI in der Lehre ist nicht das Auswählen eines Werkzeugs, sondern das Spezifizieren dessen, was im Kopf der Lernenden passieren soll.

Was du heute tust


Block 1 (35 min)

Worked Example beobachten

Drei Eröffnungs-Slides, dann gemeinsamer Durchgang durch ein ausgearbeitetes Spec Sheet an einer Statistik-Aufgabe.

Block 2 (60 min)

Eigenes Spec Sheet bauen

Für eine Teilaufgabe deiner Lehre: Wissensbausteine, Fehlkonzepte, Paar-Review.

Block 3 + Closing (50 min)

Spec → Werkzeug → Verpflichtung

Spec im laufenden Werkzeug testen und schärfen.


Block 1: Theorie und Beispiel

Ein schwieriges Problem


Eine der schwierigsten pädagogischen Tätigkeiten beim Einsatz von KI in der Lehre ist nicht das Auswählen eines Werkzeugs, sondern das Spezifizieren dessen, was im Kopf der Lernenden passieren soll.

Viele Lehrpersonen überspringen diesen Schritt und greifen direkt zum Werkzeug.

Dieser Workshop kehrt die Reihenfolge um: zuerst die Spezifikation, dann das Werkzeug.

Der Expert Blind Spot


Lehrpersonen sehen oft nicht, was ihre Lernenden noch nicht wissen, weil Automatisierung viele Teilfertigkeiten unsichtbar gemacht hat.

Eine typische Symptom-Aussage: “wende einfach die Formel an”, ohne zu sehen, dass “was zählt als relevanter Input” selbst eine nicht-triviale Klassifikation ist.

Das LLM als Hypothesengenerator


Ein LLM, das als "Person, die gerade die Vorgängerveranstaltung abgeschlossen hat, aber diese hier noch nicht kennt" geprompted wird, kann Teilschritte aufzählen, die ein Experte überspringt.

Die Annahme dahinter: in dieser Rolle teilt das LLM die automatisierten Routinen der Expertin nicht.

Die Liste ist plausibel, nicht validiert: das LLM kennt deine Vorgängerveranstaltung nicht. Was im Output spezifisch passt, übernimmst du; was generisch ist, streichst du.

Drei Typen von Wissensbausteinen


Wissensbausteine sortieren sich nach der kognitiven Operation, die die Lernende mit ihnen ausführen muss:


Faktenwissen

Abrufen.

\(r\) liegt zwischen \(-1\) und \(+1\).”

Klassifikationswissen

Erkennen.

“Diese Forschungsfrage ist eine Vorhersage durch Prädiktoren, kein Mittelwertvergleich.”

Erklärungswissen

Begründen.

“Warum \(b_1\) in der multiplen Regression von \(r_{YX_1}\) abweichen kann.”


Dein Spec deckt idealerweise alle drei Typen ab. Vollständige Erklärung mit weiteren Beispielen im Block-1-Nachlesen.

Jetzt: Worked Example


Worked Example öffnen (25 Min)


Gemeinsamer Durchgang durch das Spec Sheet an einer Statistik-Aufgabe.



Mitbeobachten: typische akzeptable Antwort, Hypothesengenerator-Prompt, Enumeration, Blind-Spot-Moment.

Cognitive Load Theory: der Engpass

Das Arbeitsgedächtnis verarbeitet wenige Elemente gleichzeitig, für 15-30 Sekunden.

CLT-Engpass: das Arbeitsgedächtnis als Nadelöhr Drei Bereiche von links nach rechts. Links breit: Sensorischer Input. Mitte schmal: Arbeitsgedächtnis mit etwa vier Elementen über fünfzehn bis dreissig Sekunden. Rechts wieder breit: Langzeitgedächtnis mit Schemata. Trichterförmige Übergänge zwischen den Bereichen zeigen die Engstelle. Sensorischer Input aus der Umwelt Arbeitsgedächtnis ~4 Elemente · 15-30 Sek. Engpass Langzeit- gedächtnis Schemata, ~unbegrenzt Jeder Denkakt muss durch dieses Nadelöhr.

Extrinsische Belastung

Unnötige Last durch schlechtes Design.

→ Reduzieren

Intrinsische Belastung

Bestimmt durch Material und Vorwissen.

→ Steuern

Lernrelevante Verarbeitung

Produktive Denkarbeit, die Schemata aufbaut.

→ Maximieren

Vorwissen bestimmt die Last

Dieselbe Aufgabe ist für Anfängerinnen und Fortgeschrittene unterschiedlich kostenintensiv.


Aufgabe: Löse nach \(x\) auf: \[-1(-x - 7) = 14x - 6\]

Anfängerin

Hohe intrinsische Last:

  • Was bedeutet das Minus vor der Klammer?
  • Wie verteile ich?
  • Welche Rechenregeln gelten?

Fortgeschrittene

Niedrige intrinsische Last:

  • “Klammer auflösen” → Schema
  • “Terme zusammenfassen” → Schema
  • “Nach \(x\) auflösen” → Schema


Konsequenz: Aufgaben müssen sich an Vorwissen anpassen. Das verlangt Diagnose.

Scaffolding-Leiter (Fading)

Wenn die intrinsische Last zu hoch ist, brauchen Lernende gezieltes Scaffolding.


Stufe Format Geeignet, wenn…
1 Worked Example: vollständig durchgearbeitet Baustein noch gar nicht da
2 Completion Problem: teilweise gelöst Baustein teilweise da
3 Hinweis-gestützt: nur strategische Hinweise Baustein da, aber unsicher
4 Eigenständig: ohne Unterstützung Baustein zuverlässig da


Welche Stufe für welchen Baustein passt, hängt von der Diagnose des Vorwissens ab.

Heute: die Diagnose explizit machen


Die CLT sagt: wir müssen das Vorwissen diagnostizieren, sonst passt das Scaffolding nicht.

Heute machen wir diese Diagnose explizit, schriftlich, falsifizierbar.

Die disziplinierte Form dieser Diagnose ist das Spec Sheet.

Spec ist dauerhaft, Werkzeug ist Übersetzung

Spec ist dauerhaft, Prompt ist Übersetzung Eine horizontale Zeitachse mit Markierungen für vier Modellgenerationen. Über der Zeitachse zieht sich ein durchgehender Balken (Spec Sheet, Brand-Navy) ungebrochen über alle Generationen. Darunter steht für jede Generation ein eigener, terracotta-umrandeter Block (Prompt), der mit der jeweiligen Generation neu gerendert wird. Spec Sheet bleibt gültig Prompt v1 Prompt v2 Prompt v3 Prompt vN 2024 2025 2026 Modellgeneration

Spec Sheet bleibt; der Prompt wird für jede Modellgeneration neu gerendert. Block 3 macht die Trennung an deinem eigenen Material erlebbar.

Zwei LLM-Rollen heute


Hypothesengenerator

Das LLM schlägt Wissensbausteine vor.

Du prüfst und markierst V (vermutet) oder B (beobachtet) oder verwirfst.

→ Vor der Validierung.

Lernende-Simulator

Das LLM spielt eine Lernende ohne Baustein X.

Zwei Probemodi:

  • Reaktiv: liest dein Material, meldet was unklar ist
  • Produktiv: schreibt eine Antwort mit Fehlkonzept

→ Der externe Test deines Modells der Lernenden.


Drei Werkzeug-Architekturen (kurz)

Konkrete Werkzeuge wechseln, die Architekturen dahinter bleiben:


Chat-Werkzeug

Copilot, ChatGPT, HuggingChat.

System-Prompt + Eingabe + Antwort.

→ Block 3 nutzt diese Architektur.

Strukturierte API

z.B. Marimo + Pydantic.

Erzwungenes Ausgabe-Schema.

→ Live-Demo (1 Min).

Agent Harness

Claude Code, pi.dev.

LLM mit Tool-Zugriff.


Dein Spec Sheet ist für alle drei Architekturen verwendbar. Nur die Übersetzung ändert sich.

Block 2: dein eigenes Spec Sheet

Block 2 in 60 Min


Zeit Schritt
5 min Vorlage öffnen, Teilaufgabe wählen, Sektion 1 ausfüllen
25 min Wissensbausteine inventarisieren (Prompt 1) → validieren V/B/Korrigieren/Verwerfen → Lernaktivitäten (Prompt 2)
20 min Reaktive Simulation (Prompt 3) → Funde zurück in Sektion 2; Produktive Simulation (Prompt 4) → Sektion 3
10 min Paar-Feedback (3 strukturierte Fragen)


Ziel: erste vollständige Version. Muss nicht perfekt sein.

Block 3: Spec → Prompt → Test

Closing

Leitsatz-Erweiterung


Das Spec ist dauerhaft, das Werkzeug ist Rendering.

Dieselbe Spezifikation kann ein Scaffolding-Tool, eine Lernende-Simulation oder einen Diagnosetest treiben.

Wenn nächstes Jahr ein neues Modell oder Tool kommt, bleibt das Spec gleich.


Was du heute geschrieben hast, ist nicht eine Workshop-Notiz, sondern ein dauerhafter Artefakt.

Spec ist bereits eine Datenstruktur

Spec Sheet, Sektion 2 (Auszug)

  • B1, Faktenwissen (Abrufen): \(r\) ist dimensionslos, \(-1 \leq r \leq +1\). V; Selbst-Tun.
  • B3, Klassifikationswissen (Erkennen): Korrelation vs. Mittelwertvergleich. B; Selbst-Tun.
  • B5, Erklärungswissen (Begründen): warum \(r = 0.3\) in Bildung bedeutsam ist. V; Selbst-Tun.

Sektion 3: verwechselt \(r\) mit \(R^2\); Korrelation als Kausalität.

adaptive-scaffolding (Python)

Exercise(
    title="r = 0.3 interpretieren",
    target_sub_skills=[
        SubSkill.r_squared_meaning,
        SubSkill.coefficient_interpretation,
    ],
    cognitive_demand=CognitiveDemand.CONCEPTUAL,
    common_errors=[
        "verwechselt r mit R²",
        "Korrelation als Kausalität",
    ],
    expected_answer_fragments=[
        "zwischen -1 und +1",
        "kontextabhängige Bedeutsamkeit",
    ],
)

Dieselbe Information, zwei Oberflächen. Was du in 60 Minuten geschrieben hast, ist das Format, das adaptive Systeme als Eingabe brauchen.

Verpflichtung: in den nächsten zwei Wochen


Schreibe auf Papier:

  1. Eine konkrete Aufgabe deiner Lehre, an der du das Spec Sheet anwenden wirst. Nicht “ich werde nachdenken über…” sondern: diese spezifische Aufgabe.
  2. Ein konkreter Schritt (Spec anwenden / Aufgabenstellung anpassen / Lernenden-Konsequenz einbauen).
  3. Ein Datum, bis zu dem du es getan hast.


Erzähl es deiner Nachbarin, bevor du den Raum verlässt.

Take-Home: was du mitnimmst


Auf der Take-Home-Seite findest du:

  • Das laufende Werkzeug (URL bleibt stabil).
  • Die Architektur-Erklärung in plain Deutsch.
  • Vier Skizzen für weitere Werkzeuge mit Prompt-Vorlagen.
  • Optionale Hausaufgaben: Falsifikationsnotiz und Selbst-Tun-vs-Zuschauen-Tagging.


Dein Spec, deine Verpflichtung, die Take-Home-Seite. Mehr braucht es nach drei Stunden nicht.


Danke.


Das Spec Sheet ist die dauerhafte Substanz deiner pädagogischen Arbeit mit KI. Werkzeuge ändern sich; was im Kopf einer Lernenden vorgeht, weniger schnell.