Pourquoi GPT-5.5 hallucine-t-il autant alors qu'il est premier sur l'Index Intelligence ?

Parce que les deux benchmarks mesurent des choses différentes. L'Artificial Analysis Index agrège des scores d'intelligence générale. AA-Omniscience, lui, pénalise l'invention en récompensant les refus de répondre. GPT-5.5 sait plus de choses (57% d'accuracy, le meilleur score) mais refuse moins souvent de répondre quand il ignore, d'où 86% d'hallucination.

Quelle différence entre GPT-5.5 standard et GPT-5.5 Pro ?

Le Pro raisonne plus longtemps. Sur BullshitBench v2, qui mesure la résistance aux questions absurdes, le Pro descend à 35% de pushback contre 45% pour la version standard. Plus de tokens de raisonnement = plus d'occasions de fabriquer une justification convaincante pour une absurdité.

Combien coûte GPT-5.5 par rapport à GPT-5.4 ?

Le tarif API double nominalement : 5 dollars le million de tokens en entrée et 30 dollars en sortie, contre 2,50 et 15 pour GPT-5.4. OpenAI compense en générant 40% de tokens en moins, soit un surcoût net d'environ +20%. La version Pro monte à 30 / 180 dollars.

Quels modèles résistent le mieux aux questions absurdes ?

Selon BullshitBench v2, seules les familles Anthropic (Claude) et Qwen 3.5 d'Alibaba dépassent 60% de pushback. Les autres modèles à raisonnement étendu sont entraînés à arriver à une réponse, pas à refuser.

GPT-5.5 : plus intelligent, plus menteur avec assurance

Q: L'OpenAI System Card contredit-il ces chiffres ?

Partiellement. Le system card publié le 24 avril 2026 revendique une baisse de 60% des hallucinations vs la génération précédente et 23% de claims plus susceptibles d'être factuellement corrects. Les benchmarks indépendants (Artificial Analysis, BullshitBench) ne valident pas cette amplitude.

GPT-5.5 répond plus juste quand il sait. Et il invente plus souvent quand il ne sait pas, avec exactement le même ton de voix dans les deux cas. Voilà l'enseignement le plus dérangeant des trois jours qui ont suivi la sortie du nouveau modèle d'OpenAI, le 23 avril 2026.

Sur le papier, c'est un triomphe : 60 sur l'Artificial Analysis Intelligence Index, premier mondial, +3 points devant Claude Opus 4.7 et Gemini 3.1 Pro. Sous le capot, le diagnostic est moins flatteur. 86% de taux d'hallucination sur le benchmark AA-Omniscience, contre 36% pour Claude et 50% pour Gemini. Le grand écart en deux nombres.

Premier mondial, et pourtant

L'Artificial Analysis Index agrège plusieurs benchmarks pour produire un score d'intelligence générale. Sur ce terrain-là, GPT-5.5 casse une égalité à trois qui durait depuis des semaines. C'est l'argument que reprennent les communiqués officiels, les threads X enthousiastes, et la plupart des reprises presse du week-end.

Le problème n'est pas dans ce chiffre. Il est dans celui qu'on regarde juste à côté. AA-Omniscience est un benchmark indépendant qui mesure deux choses en même temps : la capacité d'un modèle à se souvenir de faits, et sa capacité à refuser de répondre quand il ne sait pas.

GPT-5.5 obtient le meilleur score de précision factuelle (57%, devant tout le monde). Et il obtient aussi le pire score d'hallucination du peloton de tête. Plus de connaissances, plus d'inventions. La courbe ne monte pas dans le même sens des deux côtés.

Artificial Analysis le formule sobrement dans son analyse : "Knowing when to pass or admit uncertainty is a trait you want in an AI model. By that measure, GPT-5.5 looks more like a step backward than a step forward." Savoir s'arrêter, c'est aussi de l'intelligence. C'est la définition manquante.

Le paradoxe AA-Omniscience

Pour comprendre ce que mesure AA-Omniscience, il faut imaginer un examen oral où chaque mauvaise réponse compte plus négativement qu'une non-réponse. Dans un tel format, un candidat lucide passe son tour quand il ignore. Un candidat moins lucide tente sa chance avec aplomb. GPT-5.5 fait la deuxième chose plus souvent que les autres.

La conséquence est nette dans la typologie des erreurs documentées par les premiers tests indépendants : citations inventées, claims légaux faux, dates historiques imaginées, références à des bibliothèques de code qui n'existent pas, signatures de fonctions et endpoints API hallucinés. Rien de tout ça n'est nouveau dans l'absolu. Ce qui est nouveau, c'est la fréquence relative.

Et c'est l'absence de signal d'alerte dans le rendu. Aucun "I'm guessing", aucune mise en garde de tonalité. Le modèle parle de ce qu'il invente avec exactement la même assurance que de ce qu'il maîtrise.

Quand "plus intelligent" veut dire "plus confiant dans le faux"

Le constat le plus contre-intuitif vient d'ailleurs. BullshitBench v2, un benchmark indépendant créé par Peter Gostev, soumet aux modèles 100 questions volontairement absurdes mais formulées dans un vocabulaire technique impeccable. Cross-domain concept stitching, false granularity, plausible nonexistent framework : treize techniques pour fabriquer du gibberish qui ressemble à une vraie question. Un bon modèle pousse-back ("cette question n'a pas de sens parce que..."). Un mauvais répond avec autorité.

GPT-5.5 standard pousse-back environ 45% du temps. La version Pro, censée raisonner plus longtemps, descend à 35%. Les seules familles de modèles à dépasser 60% : Anthropic et Qwen 3.5 d'Alibaba.

L'hypothèse défendue par les chercheurs derrière le benchmark est dérangeante : les modèles à raisonnement étendu sont entraînés à arriver à une réponse, pas à refuser. Plus de tokens de cogitation = plus d'occasions de se construire une justification convaincante pour une absurdité. Le "raisonnement" devient un mécanisme de fabrication d'aplomb. C'est exactement l'inverse de ce qu'on espère d'un système plus avancé.

Le tarif aussi a doublé

Le tableau économique aggrave le diagnostic. GPT-5.5 facture 5 dollars le million de tokens en entrée et 30 dollars en sortie. Soit le double exact des prix de GPT-5.4.

OpenAI compense en partie en générant 40% de tokens de sortie en moins, ce qui ramène le surcoût net autour de +20% selon Artificial Analysis. La version Pro annoncée monte à 30 dollars / 180 dollars.

Cet arbitrage pose une question de fond. Sur quoi paie-t-on cette prime ? Sur les benchmarks d'intelligence, où GPT-5.5 brille. Mais pas sur le critère qui pèse le plus dans les usages professionnels sérieux : la fiabilité.

Un avocat qui prépare un mémoire, un médecin qui révise une revue de littérature, un analyste financier qui rédige un rapport de due diligence ont besoin de l'inverse exact. D'un modèle qui sait dire "je ne sais pas". D'un modèle qui se méfie d'une question mal formulée. Sur ces deux critères, le nouveau modèle régresse sur les chiffres indépendants.

OpenAI revendique pourtant l'inverse. Le system card publié le 24 avril affirme une baisse de 60% des hallucinations par rapport à la génération précédente, et 23% de claims plus susceptibles d'être factuellement corrects.

Les benchmarks tiers ne valident pas cette amplitude. Le décalage entre les chiffres maison et les chiffres indépendants n'est pas neuf. Il est juste plus visible quand le produit coûte deux fois plus cher.

Solow 1987, version IA 2026

En 1987, l'économiste Robert Solow lâchait dans une recension du New York Times la phrase qui allait définir trois décennies de débat : "On voit l'âge informatique partout, sauf dans les statistiques de productivité." Trente-neuf ans plus tard, l'étude NBER publiée en février 2026 documente la même chose pour l'IA. Sur 6 000 dirigeants interrogés, plus de 80% ne mesurent aucun gain de productivité.

GPT-5.5 ajoute un cousin technique à ce paradoxe. On voit le progrès IA partout dans les graphiques de benchmarks, sauf dans la précision factuelle livrée à l'utilisateur final. La courbe d'intelligence monte. La courbe de fiabilité stagne ou recule. Et personne ne paie pour la deuxième.

Le problème n'est pas que GPT-5.5 hallucine. Tous les modèles hallucinent, c'est leur architecture. Le problème, c'est que la course actuelle optimise pour ce qui se mesure facilement (un score sur un index public) plutôt que pour ce qui se vérifie difficilement (un fait correctement attribué).

Plus le modèle est intelligent au sens de l'industrie, plus il ment avec assurance. C'est la phrase qui résume les trois jours qui viennent de passer. Elle dit aussi ce qu'il faudrait vraiment commencer à benchmarker : la capacité à reconnaître quand on ne sait pas répondre. Autrement dit, à se taire.