Werden Sprachmodelle noch unzuverlässiger?

(Süddeutsche Zeitung, 26.5.2025)

Nils Althaus

Neue KI-Programme halluzinieren noch häufiger als ihre Vorgänger. Woran das liegt – und was Nutzer dagegen unternehmen können.

Open AIs neueste und beste Sprachmodelle o3 und o4-mini sind beneidenswert fleißig. Glaubt man ihren Beteuerungen, lesen sie manchmal sogar geschäftsinterne Sitzungsprotokolle durch oder führen private Gespräche, um dem Nutzer die bestmöglichen Informationen zur Verfügung zu stellen. Das Problem ist nur: Diese Gespräche und Sitzungen haben nie stattgefunden. Die Sprachmodelle fabulieren etwas zusammen.

Den Eindruck, dass o3 und o4-mini öfter flunkern als frühere Modelle, teilen viele Experten, darunter auch Marcel Salathé, Co-Direktor des AI Center der ETH Lausanne: “Ich muss ihren Output stärker kontrollieren als jenen älterer Modelle. Neulich habe ich der KI eine Musikpartitur gezeigt. Sie behauptete steif und fest, es sei Liszt. Erst nach drei oder vier Interaktionen ließ sie sich überzeugen, dass es sich um Chopin handelt.“

Fehlen den Modellen die Daten, um korrekt antworten zu können, sind Fehler wenig überraschend. Doch selbst wenn die richtigen Antworten in den Trainingsdaten oder im Prompt enthalten sind, antworten die Modelle manchmal falsch. Solche Fehler nennt man “Halluzinationen”. Sie können den Nutzen der Sprachmodelle einschränken, besonders wenn diese erfundenen Behauptungen als Tatsachen präsentiert werden. Sogar den KI-Firmen selbst bereitet das Phänomen Schwierigkeiten. Der Chatbot Claude von Anthropic hatte für einen Expertenbericht Quellen halluziniert, den die Firma vergangene Woche vor Gericht verwenden wollte, um ihre Argumente zu untermauern. Die Begeisterung der Richterin hielt sich in Grenzen.

Dass o3 und o4-mini stärker halluzinieren als ihre Vorgänger, ist kaum von der Hand zu weisen. OpenAI räumte es in ihrer dazugehörigen Dokumentation ein. Bei einem Vergleichstest namens SimpleQA erfand o3 bei 51% der Fragen falsche Fakten, o4-mini sogar bei 78%. Das Vorgängermodell o1 erreichte den besseren Wert von 41%. Ähnliche Unterschiede ergaben sich bei einem anderen Test, der nach bekannten Persönlichkeiten fragte (“PersonQA”).

Die hohen absoluten Werte bedeuten nicht, dass die Modelle im alltäglichen Gebrauch so oft halluzinieren. Beide Tests sind nämlich gezielt darauf ausgelegt, Halluzinationen zu provozieren. Die relativen Unterschiede hingegen sind aussagekräftig, und die beste Erklärung für sie ist erstaunlich simpel: o1 verweigerte viel öfter die Auskunft als o3 und o4-mini. Wer weniger sagt, sagt weniger Falsches – aber eben auch weniger Richtiges. o1 erfand weniger falsche Fakten als o3, konnte in beiden Vergleichstest aber auch weniger häufig die richtigen Fakten liefern. “Die beiden neueren Modelle trauen sich einfach mehr zu, als sie eigentlich können – sie sind “overconfident” und antworten selbst dann, wenn sie etwas nicht wissen. Deshalb geben sie auch mehr erfundene Fakten von sich”, erklärt Lin Li, KI-Forscher an der Universität Oxford. o4-mini schneidet, wenn man den Angaben von OpenAI trauen kann, grundsätzlich etwas schlechter ab, weil es ein kleineres Modell ist und somit über weniger Weltwissen verfügt.

Vielfach wurde spekuliert, dass die Zunahme der Halluzinationsrate ein Symptom des neuen Reasoning-Paradigmas sein könnte. Reasoning-Modelle wie o3 oder o4-mini formulieren nicht postwendend eine Antwort, sondern denken ein Problem Schritt für Schritt durch, bevor sie sich äußern. Die New York Times titelte: “KI wird immer besser, aber die Halluzinationen werden immer schlimmer” und zitierte wortreich zwei Firmenchefs, deren Geschäftsmodell direkt auf der Existenz von Halluzinationen beruht. Ihre Produkte nennen sich “Hallucination Corrector” oder “KI-Akteure ohne das Risiko von Halluzinationen”.

Doch die Hypothese, dass die Reasoning-Technik für steigende Halluzinationsraten verantworlich sein soll, ist wackelig. Einerseits ist o1 bereits ein Reasoning-Modell und halluziniert in beiden Vergleichstests weniger als das herkömmliche GPT-4o, das noch nicht schrittweise vorgeht. Andererseits liegen andere Reasoning-Modelle wie OpenAIs o3-mini-high oder Googles Gemini 2.5 Pro bei ähnlichen Halluzinations-Benchmarks auf den vordersten Rängen. Es drängt sich der Schluss auf, dass die schlechten Werte von o3 und o4-mini eher die Ausnahme sind als die Regel.

Diese Einschätzung teilen auch Li und Salathé: “Ich glaube nicht, dass Halluzinationen bei Reasoning-Modellen ein fundamentales Problem sind. Ich wäre überrascht, wenn die Raten weiter so hoch blieben”, meint Li. Salathé ergänzt: “Die Veröffentlichung des ersten Reasoning-Modells ist noch kein ganzes Jahr her. In den Anfangsphasen der GPT-Modelle hatte man auch große Mühe mit Halluzinationen. Dann hat man die Modelle aber mit Finetuning, menschlichem Feedback und weiteren Methoden gezämt und die Halluzinationen nahmen deutlich ab.”

Technisch gesehen baut beim schrittweisen Denken jeder nachfolgende Schritt auf dem vorherigen auf. Dadurch gelingen den Modellen komplexere Gedankengänge und sie können Spitzenwerte bei Mathematik- oder Programmier-Benchmarks erzielen. Es bedeutet aber auch, dass sich Fehler von einem Schritt zum nächsten entlang der Gedankenkette fortpflanzen und letztlich zu einem falschen Ergebnis führen können. Das schrittweise Vorgehen bietet den Modellen also mehr Möglichkeiten zu glänzen, aber auch mehr Möglichkeiten zu scheitern.

Gemäß Li verschärft sich das Problem der Halluzinationen mit der sogenannten Multimodalität. Heutige Modelle können nicht nur Text, sondern auch Bilder, Töne oder Videos verarbeiten. Zeigt man beispielsweise einem Modell ein Bild eines Baums und fragt, was der Vogel auf dem Bild macht, kann es sein, dass das Modell gewissenhaft den nicht-existierenden Vogel beschreibt. Multimodale Halluzinationen stellen die Forschung vor besonders große Herausforderungen. “Das hat damit zu tun, dass wir weniger qualitativ hochwertige Trainingsdaten haben. Multimodale Trainingsdaten sind teuer zu erheben und enthalten zu wenig negative Beispiele. Sie sind voller Bilder mit Beschreibungen dessen, was zu sehen ist, aber kaum mit solchen, die festhalten, was nicht zu sehen ist”, mein Li.

Mit ein paar Tricks können Nutzende die Halluzinationen bei Sprachmodellen deutlich reduzieren – einer ist der Zugriff auf das Web. Wenn das Modell relevante Quellen selbständig in den Prompt einbauen kann, unterlaufen ihm weniger Fehler. Hätten o3 und o4-mini bei den Benchmarks SimpleQA und PersonQA auf das Internet zugreifen können, hätten sie wohl deutlich besser abgeschnitten. Webbrowsing ist bei vielen Modellen von OpenAI, Anthropic oder Google möglich, oft aber nur bei der bezahlten Version. Andere Anbieter wie Perplexity.ai oder Elicit.com nutzen vorwiegend wissenschaftliche Publikationen als Referenzmaterial und fügen diese als Zitate oder Verweise an, was die Resultate vertrauenswürdiger macht. Nutzende können relevante Informationen auch direkt in den Prompt einfügen. Dabei reicht oft eine kurze Recherche, um dem System etwas Kontext zu geben und es in die gewünschte Richtung zu lenken.

Letztlich kommt man aber allen Kniffen zum Trotz nicht darum herum, die Outputs der KI manuell zu überprüfen. Eine kleine Kosten-Nutzen-Abwägung kann da viel Zeit sparen. Intensive Konrolle ist nur dann gerechtfertigt, wenn wirklich etwas auf dem Spiel steht. Neue Bastelideen darf man getrost der KI anvertrauen, das Verlegen der Elektroleitungen im Haus eher nicht. Zu guter Letzt hat sich eine Strategie besonders bewährt: auf die nächste, bessere Generation von KI-Modellen zu warten – denn die kommt bestimmt.