Warum halluziniert GPT-5.5 so stark, obwohl es den Intelligence Index anführt?

Weil die beiden Benchmarks Unterschiedliches messen. Der Artificial Analysis Index aggregiert Werte zur allgemeinen Intelligenz. AA-Omniscience bestraft Erfindungen und belohnt Verweigerungen. GPT-5.5 weiß mehr (57% Genauigkeit, der beste Wert), verweigert aber seltener eine Antwort, wenn es unsicher ist. Daher die 86% Halluzinationsrate.

Was unterscheidet GPT-5.5 Standard von GPT-5.5 Pro?

Pro denkt länger nach. Auf BullshitBench v2, der den Widerstand gegen absurde Fragen misst, fällt Pro auf 35% Pushback ab, gegenüber 45% bei der Standard-Version. Mehr Reasoning-Tokens bedeuten mehr Gelegenheiten, eine überzeugende Begründung für einen Unsinn zu konstruieren.

Wie teuer ist GPT-5.5 im Vergleich zu GPT-5.4?

Die API-Preise verdoppeln sich nominell: 5 Dollar pro Million Eingabe-Tokens und 30 Dollar pro Million Ausgabe-Tokens, gegenüber 2,50 und 15 bei GPT-5.4. OpenAI gleicht das teilweise aus, indem 40% weniger Tokens generiert werden, sodass der Nettoaufschlag bei rund +20% liegt. Die Pro-Stufe erreicht 30 / 180 Dollar.

Welche Modelle widerstehen absurden Fragen am besten?

Laut BullshitBench v2 überschreiten nur die Familien Anthropic (Claude) und Qwen 3.5 von Alibaba die 60%-Marke beim Pushback. Andere Modelle mit erweitertem Reasoning sind darauf trainiert, eine Antwort zu liefern, nicht zu verweigern.

Widerspricht die OpenAI System Card diesen Zahlen?

Teilweise. Die am 24. April 2026 veröffentlichte System Card behauptet einen Rückgang der Halluzinationen um 60% gegenüber der vorherigen Generation und 23% mehr faktisch korrekte Aussagen. Unabhängige Benchmarks (Artificial Analysis, BullshitBench) bestätigen diese Größenordnung nicht.

GPT-5.5: intelligenter, aber selbstbewusster falsch

GPT-5.5 antwortet präziser, wenn es etwas weiß. Und es erfindet häufiger, wenn es nichts weiß, mit exakt demselben Tonfall in beiden Fällen. Das ist die unangenehmste Lehre aus den drei Tagen seit der Veröffentlichung des neuen OpenAI-Modells am 23. April 2026.

Auf dem Papier ist es ein Triumph: 60 Punkte auf dem Artificial Analysis Intelligence Index, weltweit erster, +3 Punkte vor Claude Opus 4.7 und Gemini 3.1 Pro. Unter der Haube fällt die Diagnose nüchterner aus. 86% Halluzinationsrate auf dem AA-Omniscience-Benchmark, gegenüber 36% bei Claude und 50% bei Gemini. Der Spagat in zwei Zahlen.

Weltweit erster, und trotzdem

Der Artificial Analysis Index aggregiert mehrere Benchmarks zu einem Wert für allgemeine Intelligenz. Auf diesem Terrain bricht GPT-5.5 ein wochenlanges Drei-Wege-Unentschieden. Das ist das Argument, das offizielle Mitteilungen, euphorische X-Threads und die meisten Pressezusammenfassungen vom Wochenende übernehmen.

Das Problem liegt nicht in dieser Zahl. Es liegt in der direkt daneben. AA-Omniscience ist ein unabhängiger Benchmark, der zwei Dinge gleichzeitig misst: die Fähigkeit eines Modells, sich an Fakten zu erinnern, und seine Fähigkeit, eine Antwort zu verweigern, wenn es etwas nicht weiß.

GPT-5.5 erzielt den besten Wert für faktische Genauigkeit (57%, vor allen anderen). Und gleichzeitig den schlechtesten Wert für Halluzinationen unter den Spitzenmodellen. Mehr Wissen, mehr Erfindungen. Die Kurven verlaufen nicht in dieselbe Richtung.

Artificial Analysis formuliert es nüchtern in seiner Analyse: "Knowing when to pass or admit uncertainty is a trait you want in an AI model. By that measure, GPT-5.5 looks more like a step backward than a step forward." Zu wissen, wann man innehalten soll, ist ebenfalls Intelligenz. Das ist die fehlende Definition.

Das AA-Omniscience-Paradox

Um zu verstehen, was AA-Omniscience misst, hilft das Bild einer mündlichen Prüfung, in der jede falsche Antwort stärker bestraft wird als keine Antwort. In einem solchen Format verzichtet ein klar denkender Kandidat im Zweifel. Ein weniger klar denkender Kandidat versucht es selbstbewusst. GPT-5.5 tut das Zweite häufiger als andere.

Die Folge ist deutlich in der Typologie der Fehler, die die ersten unabhängigen Tests dokumentieren: erfundene Zitate, falsche rechtliche Behauptungen, ausgedachte historische Daten, Verweise auf nicht existierende Code-Bibliotheken, halluzinierte Funktionssignaturen und API-Endpunkte. Nichts davon ist absolut neu. Neu ist die relative Häufigkeit.

Und das Fehlen jeglichen Warnsignals in der Ausgabe. Kein "I'm guessing", keine tonale Vorsicht. Das Modell spricht über Erfundenes mit derselben Sicherheit wie über Faktenwissen.

Wenn "intelligenter" "selbstbewusster falsch" bedeutet

Die kontraintuitivste Erkenntnis kommt von anderswo. BullshitBench v2, ein unabhängiger Benchmark von Peter Gostev, legt Modellen 100 absichtlich sinnlose Fragen vor, die in tadellosem Fachvokabular formuliert sind. Cross-domain concept stitching, false granularity, plausible nonexistent framework: dreizehn Techniken, um Kauderwelsch zu fabrizieren, das wie eine echte Frage aussieht. Ein gutes Modell weist sie zurück ("diese Frage ergibt keinen Sinn, weil..."). Ein schlechtes antwortet mit Autorität.

GPT-5.5 Standard weist etwa 45% der Zeit zurück. Die Pro-Version, die länger nachdenken soll, fällt auf 35% ab. Die einzigen Modellfamilien über 60%: Anthropic und Alibabas Qwen 3.5.

Die These der Forscher hinter dem Benchmark ist unangenehm: Modelle mit erweitertem Reasoning sind darauf trainiert, zu einer Antwort zu kommen, nicht zu verweigern. Mehr Denken-Tokens bedeuten mehr Gelegenheiten, eine überzeugende Begründung für einen Unsinn aufzubauen. "Reasoning" wird zu einem Mechanismus, um Selbstsicherheit zu fabrizieren. Das ist genau das Gegenteil dessen, was man von einem fortgeschritteneren System erwartet.

Auch der Tarif hat sich verdoppelt

Das wirtschaftliche Bild verschärft die Diagnose. GPT-5.5 berechnet 5 Dollar pro Million Eingabe-Tokens und 30 Dollar pro Million Ausgabe-Tokens. Das ist exakt das Doppelte der GPT-5.4-Preise.

OpenAI gleicht das teilweise aus, indem 40% weniger Ausgabe-Tokens generiert werden, was den Netto-Aufpreis laut Artificial Analysis auf etwa +20% reduziert. Die angekündigte Pro-Stufe steigt auf 30 Dollar / 180 Dollar.

Dieser Kompromiss wirft eine grundsätzliche Frage auf. Wofür bezahlt man den Aufschlag? Für Intelligence-Benchmarks, auf denen GPT-5.5 brilliert. Aber nicht für das Kriterium, das im seriösen professionellen Einsatz am stärksten zählt: Verlässlichkeit.

Eine Anwältin, die ein Plädoyer vorbereitet, ein Arzt, der eine Literaturübersicht aktualisiert, eine Analystin, die einen Due-Diligence-Bericht schreibt, brauchen genau das Gegenteil. Ein Modell, das sagen kann "ich weiß es nicht". Ein Modell, das einer schlecht formulierten Frage misstraut. In beiden Punkten verliert das neue Modell auf den unabhängigen Zahlen.

OpenAI behauptet das Gegenteil. Die am 24. April veröffentlichte System Card spricht von einem Rückgang der Halluzinationen um 60% gegenüber der Vorgängergeneration und von 23% mehr Aussagen, die wahrscheinlich faktisch korrekt sind.

Drittanbieter-Benchmarks bestätigen diese Größenordnung nicht. Die Diskrepanz zwischen Hauszahlen und unabhängigen Zahlen ist nicht neu. Sie ist nur sichtbarer, wenn das Produkt doppelt so viel kostet.

Solow 1987, KI-Edition 2026

1987 ließ der Ökonom Robert Solow in einer Buchbesprechung der New York Times den Satz fallen, der drei Jahrzehnte Debatte prägen sollte: "Man sieht das Computerzeitalter überall, außer in den Produktivitätsstatistiken." 39 Jahre später dokumentiert die im Februar 2026 veröffentlichte NBER-Studie dasselbe für KI. Von 6 000 befragten Führungskräften berichten mehr als 80% keinen messbaren Produktivitätsgewinn.

GPT-5.5 fügt diesem Paradox einen technischen Cousin hinzu. Man sieht KI-Fortschritt überall in den Benchmark-Diagrammen, außer in der faktischen Genauigkeit, die beim Endnutzer ankommt. Die Intelligenzkurve steigt. Die Verlässlichkeitskurve stagniert oder fällt. Und niemand zahlt für die zweite.

Das Problem ist nicht, dass GPT-5.5 halluziniert. Alle Modelle halluzinieren, das ist ihre Architektur. Das Problem ist, dass das aktuelle Rennen für das optimiert, was sich leicht messen lässt (eine Punktzahl auf einem öffentlichen Index), und nicht für das, was sich schwer überprüfen lässt (eine korrekt zugeordnete Tatsache).

Je intelligenter das Modell im Sinne der Branche wird, desto selbstsicherer lügt es. Das ist der Satz, der die letzten drei Tage zusammenfasst. Er sagt auch, was wirklich beginnen sollte, gebenchmarkt zu werden: die Fähigkeit zu erkennen, wenn man nicht antworten kann. Anders gesagt, wann man schweigen soll.