Wie funktionieren Chatbots?

Andrew Ellis

18 August, 2025

Was sind Chatbots?

Was sind LLMs?

Ein LLM kann man sich wie einen ausgefeilten Autocomplete-Mechanismus vorstellen.

Bildquelle: www.apple.com

Was sind LLMs?

  • Statistische Modelle, die Text analysieren, um das nächste Wort vorherzusagen.

\[\green{P(\text{Wort}_{i+1}} \mid \red{\text{Kontext}}, \blue{\text{Modell}})\]

  • Jede \(\purple{\text{Vorhersage}}\) basiert auf dem \(\blue{\text{Kontext}}\) und dem internen \(\red{\text{Modell}}\).

Vorhersage

Nicht alle Teile des Kontexts sind gleich wichtig:



“Die Familie, die sehr wohlhabend war, lebte in einem grossen Haus. Das Haus stand inmitten eines weitläufigen Gartens. Es war bekannt für seine prächtige Fassade und die grosszügigen _“

Nach Thomas Mann, Buddenbrooks



Welche Wörter sind besonders wichtig, um

  • die Bedeutung des Satzes zu erfassen?
  • das nächste Wort vorherzusagen?

Kontext verstehen

“Die Familie, die sehr wohlhabend war, lebte in einem grossen Haus. Das Haus stand inmitten eines weitläufigen Gartens. Es war bekannt für seine prächtige Fassade und die grosszügigen ___”

Syntaktische Struktur (Grammatik und Struktur des Satzes):

  • Das Wort “grosszĂĽgigen” ist ein Adjektiv, das wahrscheinlich ein Nomen—im Plural—beschreibt (Dativ oder Akkusativ wegen der Endung “-en”).
  • Der Satz bezieht sich auf das Haus und den Garten, daher liegt der Fokus vermutlich auf deren Eigenschaften.

Semantischer Kontext (Bedeutung):

Die Beschreibung hebt Wohlstand hervor. Das nächste Wort beschreibt vermutlich etwas Luxuriöses oder Weitläufiges.

Lexikalische Kohärenz (Wörter und deren Bedeutungen im Kontext):

Nach “grosszügigen” folgen häufig Nomen, die Räume, Flächen oder architektonische Elemente beschreiben, z. B. “Räume”, “Gärten”, “Fenster”.

Wie generieren LLMs Text?



\[\green{P(\text{Wort}_{i+1}} \mid \red{\text{Kontext}}, \blue{\text{Modell}})\]

Wie werden LLMs trainiert?

Gefahren und Herausforderungen

Die verschiedenen Stufen des Trainings sind mit verschiedenen Arten von Bedenken verbunden:

  • Urheberrecht: Die trainierten Modelle werden mit Texten trainiert, die möglicherweise Urheberrechtlich geschĂĽtzt sind.
  • Bias: Die trainierten Modelle können bestehende Vorurteile aus den Trainingsdaten lernen.
  • Energieverbrauch: Das Training der Modelle verbraucht viel Energie und ist damit umweltbelastend.
  • Sycophancy: Die Modelle neigen dazu, die Meinungen oder Präferenzen ihrer Benutzer zu bestätigen.

Gefahren und Herausforderungen

  • Obschon sich LLMs viel Wissen aneignen1, werden sie nicht trainiert, faktisch korrekte Aussagen zu machen.
  • Dies bedeutet, dass wir alle Aussagen, die LLMs uns präsentieren, immer kritisch hinterfragen mĂĽssen.
  • LLMs sind keine Wissensdatenbanken. Informationen immer anhand externer Quellen ĂĽberprĂĽfen.

ChatGPT

Fragen beantworten

Bilder analysieren

Dokumente zusammenfassen

Output strukturieren

Websuche

Datenanalyse

Custom GPTs