Künstliche Intelligenz

Wenn KI-Benchmarks Modellen das Lügen beibringen

Veröffentlicht September 11, 2025

Dr. Tehseen Zia

KI-Halluzination – wenn ein System Antworten liefert, die richtig klingen, aber tatsächlich falsch sind – bleibt eine der größten Herausforderungen der künstlichen Intelligenz. Selbst die fortschrittlichsten Modelle von heute, wie z. B. DeepSeek-V3, Lamaund OpenAIs neueste Releases, produzieren immer noch mit hoher Wahrscheinlichkeit ungenaue Informationen. In Bereichen wie dem Gesundheitswesen oder dem Recht können solche Fehler schwerwiegende Folgen haben.

Traditionell wurden Halluzinationen als Nebenprodukt wie große Sprachmodelle trainiert werden: Sie lernen, das nächste wahrscheinlichste Wort vorherzusagen, ohne zu überprüfen, ob die Information wahr ist. Aber neue Forschungsprojekte deutet darauf hin, dass das Problem möglicherweise nicht beim Training endet. Die Benchmarks, die zum Testen und Vergleichen der KI-Leistung verwendet werden, könnten tatsächlich irreführendes Verhalten verstärken und Antworten belohnen, die überzeugend klingen, statt der richtigen.

Dieser Perspektivwechsel verdeutlicht das Problem. Wenn Modelle darauf trainiert werden, dem Test zu gefallen, anstatt die Wahrheit zu sagen, dann sind Halluzinationen keine zufälligen Fehler, sondern erlernte Strategien. Um zu verstehen, warum das so ist, müssen wir uns ansehen, warum KI-Modelle lieber raten, als ihre Unwissenheit zuzugeben.

Warum KI-Modelle raten

Um zu verstehen, warum KI-Modelle oft raten, anstatt zuzugeben, dass sie etwas nicht wissen, stellen wir uns einen Studenten vor, der vor einer schwierigen Prüfungsfrage steht. Der Student hat zwei Möglichkeiten: Entweder lässt er die Antwort leer und bekommt null Punkte oder er rät, was ihm Punkte einbringen könnte. Raten erscheint rational gesehen die bessere Wahl, da zumindest die Chance besteht, richtig zu liegen.

KI-Modelle stehen bei der Bewertung vor einer ähnlichen Situation. Die meisten Benchmarks verwenden ein binäres Bewertungssystem: Richtige Antworten bringen Punkte, falsche oder unsichere Antworten nichts. Wenn ein Modell gefragt wird: „Wann hat ein Forscher Geburtstag?“ und es die Frage wirklich nicht beantwortet, gilt die Antwort „Ich weiß es nicht“ als Fehlschlag. Bei der Wahl eines Datums besteht jedoch eine gewisse Wahrscheinlichkeit, richtig zu sein – und selbst wenn es falsch ist, bestraft das System die sichere Vermutung ebenso wenig wie Schweigen.

Diese Dynamik erklärt, warum Halluzinationen trotz umfangreicher Forschung zu ihrer Beseitigung bestehen bleiben. Die Modelle verhalten sich nicht schlecht; sie folgen den Anreizen, die in die Bewertung eingebaut sind. Sie lernen, dass sie ihre Punktzahl am besten maximieren, wenn sie selbstbewusst klingen, selbst wenn die Antwort falsch ist. Anstatt Unsicherheit auszudrücken, werden die Modelle daher dazu gedrängt, verbindliche Aussagen zu treffen – ob richtig oder falsch.

Die mathematische Grundlage der KI-Unehrlichkeit

Die Forschungsprojekte zeigt, dass Halluzinationen auf den mathematischen Grundlagen des Lernens von Sprachmodellen beruhen. Selbst wenn ein Modell nur mit absolut genauen Informationen trainiert würde, würden seine statistischen Ziele dennoch zu Fehlern führen. Denn die Generierung der richtigen Antwort ist grundsätzlich schwieriger als die Erkennung, ob eine Antwort gültig ist.

Dies erklärt, warum Modelle oft bei Fakten ohne klare Muster, wie Geburtstagen oder anderen einzigartigen Details, versagen. Mathematische Analysen legen nahe, dass die Halluzinationsrate in diesen Fällen mindestens so hoch ist wie der Anteil der Fakten, die nur einmal in den Trainingsdaten vorkommen. Anders ausgedrückt: Je seltener die Informationen in den Daten, desto wahrscheinlicher ist es, dass das Modell damit Probleme hat.

Das Problem beschränkt sich nicht auf seltene Fakten. Auch strukturelle Einschränkungen wie begrenzte Modellkapazität oder Architektur führen zu systematischen Fehlern. Beispielsweise scheiterten frühere Modelle mit sehr kurzen Kontextfenstern immer wieder an Aufgaben, die langfristiges Denken erforderten. Diese Fehler waren keine zufälligen Aussetzer, sondern vorhersehbare Ergebnisse des mathematischen Rahmens des Modells.

Warum Nachschulungen das Problem nicht lösen

Sobald ein KI-Modell anhand riesiger Textdatensätze trainiert wurde, wird es in der Regel einer Feinabstimmung unterzogen, um seine Ergebnisse nützlicher und weniger schädlich zu machen. Dieser Prozess steht jedoch vor demselben Kernproblem, das überhaupt erst zu Halluzinationen führt: der Art und Weise, wie wir Modelle bewerten.

Die gängigsten Feintrainingsmethoden, wie z.B. Verstärkungslernen durch menschliches Feedback, basieren immer noch auf Benchmarks, die binäre Bewertungen verwenden. Diese Benchmarks belohnen Modelle für sichere Antworten, während sie keine Punkte vergeben, wenn ein Modell zugibt, etwas nicht zu wissen. Daher kann ein System, das immer mit Sicherheit antwortet, selbst wenn es falsch ist, ein System übertreffen, das seine Unsicherheit ehrlich zum Ausdruck bringt.

Forscher sprechen hier vom Problem der Bestrafung von Unsicherheit. Selbst fortschrittliche Techniken zur Erkennung oder Reduzierung von Halluzinationen stoßen auf Schwierigkeiten, wenn die zugrunde liegenden Benchmarks weiterhin Selbstüberschätzung begünstigen. Anders ausgedrückt: Egal wie ausgefeilt die Lösungen sind, solange Bewertungssysteme sichere Vermutungen belohnen, tendieren die Modelle zu falschen, aber sicheren Antworten statt zu ehrlichen Zweifelseingeständnissen.

Die Illusion des Fortschritts

Bestenlisten, die in der KI-Community weit verbreitet sind, verstärken dieses Problem. Benchmarks wie MMLU, GPQAund SWE-Bank dominieren Forschungsberichte und Produktankündigungen. Unternehmen heben ihre Ergebnisse hervor, um schnelle Fortschritte zu verdeutlichen. Doch wie der Bericht feststellt, fördern genau diese Benchmarks Halluzinationen.

Ein Modell, das ehrlich „Ich weiß nicht“ sagt, ist in der Praxis vielleicht sicherer, schneidet aber in der Rangliste schlechter ab. Im Gegensatz dazu schneidet ein Modell, das überzeugende, aber falsche Antworten erfindet, besser ab. Wenn Akzeptanz, Finanzierung und Prestige von der Platzierung in der Rangliste abhängen, wird die Richtung des Fortschritts verzerrt. Die Öffentlichkeit sieht eine Erzählung ständiger Verbesserungen, doch im Grunde werden die Modelle darauf trainiert, zu täuschen.

Warum ehrliche Unsicherheit in der KI wichtig ist

Halluzinationen sind nicht nur eine Herausforderung für die Forschung; sie haben auch reale Konsequenzen. Im Gesundheitswesen könnte ein Modell, das Wechselwirkungen von Medikamenten fabriziert, Ärzte in die Irre führen. Im Bildungswesen könnte ein Modell, das historische Fakten erfindet, Schüler falsch informieren. Im Journalismus könnte ein Chatbot, der falsche, aber überzeugende Zitate produziert, Desinformation verbreiten. Diese Risiken sind bereits sichtbar. Die Stanford KI-Index 2025 berichteten, dass Benchmarks zur Messung von Halluzinationen trotz zunehmender KI-Einführung „nur schwer Fuß fassen konnten“. Unterdessen geben die Benchmarks, die die Bestenlisten dominieren und sichere, aber unzuverlässige Antworten belohnen, weiterhin die Richtung des Fortschritts vor.

Diese Ergebnisse verdeutlichen sowohl eine Herausforderung als auch eine Chance. Durch die Untersuchung der mathematischen Wurzeln von Halluzinationen haben Forscher klare Wege für den Aufbau zuverlässigerer KI-Systeme aufgezeigt. Der Schlüssel liegt darin, Unsicherheit nicht länger als Makel zu betrachten, sondern sie als wesentliche Fähigkeit zu erkennen, die gemessen und belohnt werden sollte.

Dieser Perspektivwechsel hat Auswirkungen, die über die Reduzierung von Halluzinationen hinausgehen. KI-Systeme, die ihre eigenen Wissensgrenzen genau einschätzen und kommunizieren können, wären für anspruchsvolle Anwendungen, bei denen Selbstüberschätzung ernsthafte Risiken birgt, besser geeignet. Medizinische Diagnosen, juristische Analysen und wissenschaftliche Forschung erfordern die Fähigkeit, zwischen sicherem Wissen und fundierter Spekulation zu unterscheiden.

Bewertung für ehrliche KI neu denken

Diese Ergebnisse zeigen, dass die Entwicklung vertrauenswürdigerer KI ein Umdenken bei der Messung von KI-Fähigkeiten erfordert. Anstatt sich auf eine einfache Richtig-Falsch-Bewertung zu verlassen, sollten Bewertungsrahmen Modelle für die angemessene Darstellung von Unsicherheit belohnen. Dies bedeutet, dass Benchmark-Anweisungen klare Vorgaben zu Vertrauensschwellen und entsprechenden Bewertungsschemata enthalten.

Ein vielversprechender Ansatz besteht darin, explizite Vertrauensziele zu definieren, die festlegen, wann Modelle antworten und wann sie sich enthalten sollen. Beispielsweise könnten Anweisungen vorsehen, dass Antworten nur dann gegeben werden sollen, wenn das Vertrauen einen bestimmten Schwellenwert überschreitet, und die Bewertung entsprechend angepasst wird. In diesem Szenario ist Unsicherheit keine Schwäche mehr, sondern ein wertvoller Bestandteil verantwortungsvollen Verhaltens.

Der Schlüssel liegt darin, Vertrauensanforderungen transparent statt implizit zu gestalten. Aktuelle Benchmarks führen zu versteckten Strafen für Unsicherheit, die die Modelle lernen zu vermeiden. Explizite Vertrauensziele würden es den Modellen ermöglichen, das tatsächlich gewünschte Verhalten zu optimieren: genaue Antworten bei Vertrauen und ehrliches Eingeständnis von Unsicherheit bei Wissensmangel.

Fazit

KI-Halluzinationen sind keine zufälligen Fehler – sie werden durch die Maßstäbe, die zur Messung des Fortschritts verwendet werden, verstärkt. Indem sie sichere Vermutungen gegenüber ehrlicher Unsicherheit belohnen, treiben aktuelle Bewertungssysteme die Modelle eher in die Irre als in die Verlässlichkeit. Wenn wir KI wollen, der in anspruchsvollen Bereichen wie Gesundheitswesen, Recht und Wissenschaft vertraut werden kann, müssen wir unsere Test- und Belohnungsmethoden überdenken. Fortschritt sollte nicht nur an der Genauigkeit gemessen werden, sondern auch an der Fähigkeit, zu erkennen und zuzugeben, was das Modell nicht weiß.

Dr. Tehseen Zia

Dr. Tehseen Zia ist außerordentlicher Professor an der COMSATS-Universität Islamabad und hat einen Doktortitel in KI von der Technischen Universität Wien, Österreich. Er ist auf künstliche Intelligenz, maschinelles Lernen, Datenwissenschaft und Computer Vision spezialisiert und hat mit Veröffentlichungen in renommierten wissenschaftlichen Fachzeitschriften bedeutende Beiträge geleistet. Dr. Tehseen hat außerdem als Hauptforscher verschiedene Industrieprojekte geleitet und war als KI-Berater tätig.