Fakten-Check
Kritische Evaluation von KI-Outputs
Lernziele
- Verstehen, warum Chatbots selbstbewusst falsche Informationen liefern können
- Ein systematisches Verfahren zur Evaluation von KI-Outputs anwenden
- Die Grenzen der eigenen Evaluationsfähigkeit erkennen
Diese Übung folgt dem Prinzip I do → We do → You do:
- I do: Die Workshopleitung zeigt, wie man eine Chatbot-Antwort evaluiert
- We do: Wir evaluieren gemeinsam eine Antwort
- You do: Du evaluierst selbstständig Antworten aus deinem Fachgebiet
Teil 1: Das Problem verstehen (3 min)
Sprachmodelle generieren Text, indem sie vorhersagen, welches Wort als nächstes am wahrscheinlichsten kommt. Das Phänomen hat Parallelen zur menschlichen Konfabulation: Wir erzeugen plausible Erklärungen und Erinnerungen, auch wenn sie nicht der Realität entsprechen.
Wie Halluzinationen entstehen:
Statistische Plausibilität statt Wahrheit: Das Modell wählt Wörter basierend darauf, was in ähnlichen Kontexten häufig vorkam. “Zürich ist die Hauptstadt der Schweiz” klingt statistisch plausibel, auch wenn es falsch ist. (Menschen machen ähnliche Fehler: Wir erinnern uns an das, was “passt”, nicht unbedingt an das, was stimmt.)
Selbstsichere Formulierung ist trainiert: Die Trainingsdaten enthalten überwiegend selbstbewusst formulierte Texte. (Auch Menschen formulieren oft selbstbewusster, als ihr Wissen rechtfertigt.)
Kein Zugang zu Quellen beim Generieren: Das Modell erinnert sich nicht an konkrete Quellen. (Menschen auch nicht immer: Wir wissen oft nicht mehr, woher wir etwas wissen.)
Besonders anfällig für Fehler:
- Fachspezifische Fragen (weniger Trainingsdaten)
- Aktuelle Informationen (Training hat einen Stichtag)
- Numerische Details (Daten, Zahlen, Statistiken)
- Zitate und Quellenangaben
Ja, moderne Chatbots mit Websuche beantworten einfache Faktenfragen oft korrekt. Das ist nicht der Punkt dieser Übung.
Der Punkt ist: Du weisst vorher nicht, wann der Fehler kommt.
Ein Chatbot, der 9 von 10 Fragen richtig beantwortet, klingt bei allen 10 Antworten gleich selbstbewusst. Die eine falsche Antwort ist nicht als solche erkennbar. Deshalb ist systematische Verifikation notwendig: nicht um Fehler zu “fangen”, sondern weil du nie weisst, ob du gerade die eine falsche Antwort vor dir hast.
Bei komplexeren, fachspezifischen Fragen steigt die Fehlerquote deutlich. Aber auch dort klingen die Antworten gleich überzeugend.
Teil 2: I do (3 min)
Die Workshopleitung zeigt den gesamten Evaluationsprozess an einem Beispiel.
Schritt 1: Eine fachliche Frage stellen
Welche Dosierung empfiehlt die Schweizer Gesellschaft für Kardiologie für Metoprolol bei Herzinsuffizienz?
Schritt 2: Die Antwort lesen
“Die Schweizer Gesellschaft für Kardiologie empfiehlt eine Anfangsdosis von 12.5-25mg zweimal täglich, mit schrittweiser Erhöhung auf bis zu 200mg täglich.”
Schritt 3: Systematisch evaluieren
Die Workshopleitung wendet die Evaluations-Checkliste an (siehe unten) und zeigt:
- Welche Warnsignale gibt es?
- Wie prüft man die Fakten?
- Zu welchem Urteil kommt man?
Schritt 4: Fazit formulieren
Die Workshopleitung erklärt ihr Urteil und die Begründung.
Evaluations-Checkliste
Nutze diese Checkliste für jede Chatbot-Antwort:
| # | Frage | Warnsignale |
|---|---|---|
| 1 | Enthält die Antwort spezifische Fakten? (Zahlen, Daten, Namen, Zitate) | Spezifische Details sind oft erfunden |
| 2 | Nennt die Antwort Quellen? | Quellen können erfunden sein oder nicht existieren |
| 3 | Klingt die Antwort “zu perfekt”? | Echte Fachinfos haben oft Nuancen und Einschränkungen |
| 4 | Liegt das Thema ausserhalb gängiger Informationen? | Spezialisierte oder aktuelle Themen sind anfälliger |
| 5 | Kann ich das mit meinem Fachwissen prüfen? | Was du nicht prüfen kannst, solltest du nicht verwenden |
| Symbol | Kategorie | Bedeutung | Konsequenz |
|---|---|---|---|
| ✓ | Korrekt | Inhaltlich richtig, verifizierbar | Kann verwendet werden |
| ~ | Teilweise korrekt | Grundidee stimmt, aber Details falsch/ungenau | Nur mit Korrekturen verwenden |
| ✗ | Falsch (Halluzination) | Inhaltlich falsch, erfunden, oder irreführend | Nicht verwenden |
| ? | Nicht prüfbar | Liegt ausserhalb meiner Expertise | Nicht verwenden ohne externe Prüfung |
Teil 3: We do (5 min)
Jetzt machen wir das zusammen. Alle stellen dieselbe Frage und evaluieren gemeinsam.
Schritt 1: Diesen Prompt kopieren und in Copilot eingeben
Wann wurde die Berner Fachhochschule gegründet und wie viele Studierende hat sie aktuell?
Schritt 2: Antwort lesen (1 min)
Lies die Antwort, die du bekommst.
Schritt 3: Checkliste anwenden (3 min)
Gehe die 5 Prüffragen durch:
- Enthält die Antwort spezifische Fakten? (Jahreszahl, Studierendenzahl)
- Nennt sie Quellen?
- Klingt sie “zu perfekt”?
- Ist das Thema spezialisiert oder aktuell?
- Kannst du das prüfen?
Schritt 4: Gemeinsame Diskussion (4 min)
- Was habt ihr gefunden?
- Stimmt das Gründungsjahr?
- Stimmt die Studierendenzahl?
- Zu welcher Bewertung kommt ihr?
Falls die Antwort korrekt war: Das ist gut, aber nicht der Punkt. Die Frage ist: Hättet ihr es gemerkt, wenn sie falsch gewesen wäre? Und wie viel Aufwand war die Verifikation?
Teil 4: You do (6 min)
Jetzt testest du das Verfahren in deinem eigenen Fachgebiet.
Wähle einen Prompt
Kopiere einen dieser Prompts und passe ihn an dein Fach an:
Option A: Historische/faktische Frage
Wann wurde [WICHTIGE INSTITUTION/GESETZ/THEORIE IN DEINEM FACH] eingeführt und was war der Anlass?
Option B: Definitionsfrage
Was ist die offizielle Definition von [FACHBEGRIFF] gemäss [RELEVANTE ORGANISATION/STANDARD]?
Option C: Zahlen/Statistik-Frage
Wie hoch ist [RELEVANTE KENNZAHL] in der Schweiz aktuell?
Frage an den Chatbot:
Meine Daten sind nicht normalverteilt (Shapiro-Wilk p = 0.02). Kann ich trotzdem eine ANOVA durchführen, oder muss ich einen nicht-parametrischen Test verwenden?
Worauf du achten kannst:
Der Chatbot wird eine Antwort geben, die vernünftig klingt. Aber um zu beurteilen, ob der Rat für deine konkrete Situation stimmt, brauchst du Fachwissen:
- Wie robust ist ANOVA tatsächlich gegen Verletzungen der Normalverteilung?
- Welche Rolle spielt die Stichprobengrösse?
- Was genau testet Shapiro-Wilk, und ist p = 0.02 bei deiner Stichprobengrösse überhaupt relevant?
- Wäre ein Bootstrap-Ansatz besser als ein nicht-parametrischer Test?
Der Punkt: Die Antwort klingt kompetent. Aber ob sie für deinen Fall richtig ist, kannst du nur mit statistischem Hintergrundwissen beurteilen. Deine Studierenden haben dieses Hintergrundwissen noch nicht.
Vorgehen
- Passe den Prompt an dein Fachgebiet an
- Stelle die Frage an Copilot
- Wende die Evaluations-Checkliste an
- Notiere dein Urteil (✓ / ~ / ✗ / ?) mit Begründung
Dokumentation
| Meine Frage | Chatbot-Antwort (Kurzfassung) | Mein Urteil | Begründung |
|---|---|---|---|
Teil 5: Austausch (3 min)
Tauscht euch in Kleingruppen aus:
- Was habt ihr gefragt?
- Welche Urteile habt ihr gefällt?
- Bei welchen Fragen war der Chatbot zuverlässiger?
- Hättet ihr die Fehler ohne euer Fachwissen erkannt?
Mit deiner Fachkompetenz kannst du Halluzinationen erkennen. Deine Studierenden können das nicht.
Was bedeutet das für Studierende, die Chatbots als Informationsquelle nutzen?
Debrief im Plenum
Warum klingt der Chatbot so selbstbewusst, auch wenn er falsch liegt?
Zwei Gründe: Erstens wurden Sprachmodelle auf selbstbewusst formulierten Texten trainiert. Zweitens werden sie durch RLHF (Reinforcement Learning from Human Feedback) darauf optimiert, hilfreiche und überzeugende Antworten zu geben, weil das von menschlichen Bewertern belohnt wird.
Konntet ihr die Fehler erkennen?
Mit eurer Fachkompetenz konntet ihr die Aussagen evaluieren. Eure Studierenden haben diese Expertise noch nicht.
Was bedeutet das für den Lernprozess?
Wenn Studierende falsche Informationen unkritisch übernehmen, lernen sie nicht nur nicht, sondern lernen möglicherweise Falsches.
Chatbots sind selbstbewusst, aber nicht zuverlässig. Sie können plausibel klingende Falschaussagen generieren.
Für Lehrende bedeutet das:
- Eigene Outputs immer prüfen
- Studierende für dieses Problem sensibilisieren
- Kritische Evaluation als Kompetenz vermitteln
- Bewusstsein schaffen: Expertise ist Voraussetzung für Evaluation
Kurze Reflexion (2 min)
Wie hat sich dein Vertrauen in Chatbot-Antworten durch diese Übung verändert?
Weiterführend: Lateral Reading Workshop
Willst du tiefer in die Thematik einsteigen? Der 40-minütige Workshop KI-Antworten kritisch prüfen vermittelt “Lateral Reading”, eine Verifikationstechnik aus dem professionellen Fact-Checking.
Du lernst:
- Wann KI-Antworten externe Überprüfung brauchen
- Wie deine Fragestellung die Antworten beeinflusst
- Fakten selbstständig zu verifizieren