Tu parles à ChatGPT, mais pas toujours au bon

7 min de lecture
Article

Quand tu poses une question à ChatGPT, un aiguilleur invisible décide quel modèle te répond. Et ça change tout à ce que tu reçois.

La newsletter IA gratuite
Tu parles à ChatGPT, mais pas toujours au bon

Tu parles à qui, exactement ?

Tu ouvres ChatGPT, tu tapes ta question, tu obtiens une réponse. Simple. Sauf que ce qui se passe entre ton message et la réponse, c'est un peu comme un standard téléphonique géant. Tu crois appeler une personne, mais un opérateur invisible te redirige vers quelqu'un d'autre selon le moment, la charge, et ce qu'il estime que tu mérites.

Ce quelqu'un, c'est pas toujours le même. Et personne te prévient.

Le constat est déroutant. Pendant des mois, des millions d'utilisateurs ont eu l'impression de parler à "une" intelligence. En réalité, ils parlaient à un système de répartition qui choisissait pour eux.

L'aiguilleur sous le capot

Depuis août 2025, OpenAI a mis en place ce qu'ils appellent un "router". Le principe : quand tu envoies un message à ChatGPT, un algorithme analyse la complexité de ta demande en quelques millisecondes. Selon son verdict, il t'envoie vers l'un des modèles disponibles.

Concrètement, ça donne trois niveaux. GPT-5 Instant, rapide mais léger : le collègue qui te répond vite fait entre deux réunions. GPT-5 Thinking, plus puissant, qui prend le temps de réfléchir. Et GPT-5 Pro, la version costaud réservée aux tâches complexes.

Sous le capot, il y a encore plus de granularité. GPT-5.3 Instant, GPT-5.4 Thinking, GPT-5.4 mini... Le router jongle entre ces versions selon ta question, ton abonnement, et les quotas du moment. Un restaurant où le serveur décide si tu mérites le chef ou le commis de cuisine, sans te le dire.

L'histoire d'un backlash

Quand OpenAI a lancé le router en août 2025, ça s'est pas bien passé. Sur Reddit et X, les retours ont été brutaux. Des utilisateurs payant l'abonnement Plus se plaignaient de réponses courtes, bâclées, qui ressemblaient à ce qu'ils obtenaient en version gratuite.

"Je paie pour Pro mais j'ai l'impression d'avoir un modèle gratuit." C'est une vraie citation d'un thread Reddit qui a fait le tour. Et ce n'était pas un cas isolé. Un autre utilisateur résumait bien le problème : "Deux personnes, même prompt, résultats différents."

Le sentiment dominant, c'était la tromperie. Pas la colère technique, la déception. On avait vendu une Ferrari à ces utilisateurs et on leur livrait une Clio certains jours.

Résultat : en décembre 2025, OpenAI a fait marche arrière pour les utilisateurs Free et Go (l'abonnement d'entrée de gamme). Le router a été désactivé pour ces plans. Pour Plus et Pro, il est resté, mais avec une option pour le couper dans les paramètres. En mars 2026, l'interface a été simplifiée avec trois modes clairs : Instant, Thinking et Pro, et un toggle "auto-switch" dans Configure.

C'est mieux. Mais le fait que ça ait existé en mode invisible pendant des mois pose une vraie question.

Et les autres, ils font comment ?

Le phénomène ne se limite pas à OpenAI. Google fait pareil avec Gemini. Le mode "Auto" route les requêtes entre Flash (rapide) et Pro (puissant). La différence : Google l'assume ouvertement. Leur CLI Gemini propose un mode "Adaptive" documenté, open-source, consultable sur GitHub. Vertex AI offre même un "Model Optimizer" expérimental. Tout est sur la table.

Deux restaurants qui utilisent tous les deux des plats préparés. L'un l'écrit sur la carte, l'autre te laisse croire que tout est fait maison. Le plat est peut-être le même, mais la relation de confiance est très différente.

Côté Anthropic avec Claude, c'est encore une autre approche. Sur l'interface web, il n'y a pas de routing automatique. Les abonnés Pro choisissent eux-mêmes entre Opus, Sonnet et Haiku. C'est l'utilisateur qui décide quel modèle tourne, pas un algorithme. Claude Code, leur outil pour développeurs, propose un mode "opusplan" qui fait du routing (Opus planifie, Sonnet exécute), mais c'est optionnel et documenté.

Pour résumer vite :

  • ChatGPT : routing automatique, transparent depuis mars 2026, mais historique opaque
  • Gemini : routing automatique, documenté et ouvert depuis le début
  • Claude : pas de routing, choix explicite de l'utilisateur

Pourquoi ça existe : l'équation impossible

Faire tourner ChatGPT coûte une fortune. Selon des estimations sectorielles (Mirantis, mars 2026), OpenAI dépenserait environ 700 000 dollars par jour en inférence, soit plus de 250 millions par an. Juste pour répondre aux questions des utilisateurs.

Et tous les modèles ne coûtent pas pareil. Un GPT-5 Thinking consomme environ dix fois plus de ressources qu'un Instant. Comme si chaque question "sérieuse" brûlait dix tickets au lieu d'un. Avec des centaines de millions d'utilisateurs, ça monte très vite.

Le routing dynamique permet de réduire ces coûts de 40% à 85% selon les cas (chiffres Requesty). Aujourd'hui, l'inférence représente 80% du budget IA des entreprises, contre seulement 20% pour l'entraînement des modèles (NVIDIA, 2026). Autrement dit, faire fonctionner l'IA au quotidien coûte quatre fois plus cher que la construire.

Donc non, le routing n'est pas de la malveillance. C'est de la survie économique. Le problème, c'est pas qu'il existe. C'est qu'on ne le dise pas.

Ce que ça change pour toi

En pratique, ça explique un truc que tu as peut-être vécu : certains jours, ChatGPT te donne des réponses brillantes. D'autres jours, sur la même question, tu obtiens quelque chose de plat, de générique. "Pourquoi ma réponse est nulle aujourd'hui ?" C'est une question qui revient tout le temps sur les forums.

La réponse : ce n'était pas le même modèle. Et quand les limites d'utilisation sont atteintes, le routage devient encore plus agressif. Redirection discrète vers des modèles plus petits, sans notification.

Un service de streaming qui baisserait la qualité de ton film en plein milieu sans te prévenir. Techniquement, tu regardes toujours un film. Mais l'expérience n'est pas la même.

Reprendre le contrôle : guide pratique

La bonne nouvelle, c'est qu'on peut faire quelque chose. Voici comment reprendre la main, quel que soit ton outil.

Sur ChatGPT : va dans Configure (l'icône engrenage en haut à droite), et désactive "auto-switch". Choisis manuellement Instant, Thinking ou Pro selon ta tâche. Instant pour les questions rapides et factuelles, Thinking pour l'analyse et la rédaction, Pro pour le code complexe ou les raisonnements longs.

Sur Gemini : désactive le mode Auto et choisis manuellement entre Flash et Pro. C'est dans les paramètres du chat. Au moins chez Google, l'option est claire.

Sur Claude : rien à faire. Le choix est déjà explicite.

Un exercice concret : cette semaine, on te propose de poser la même question complexe à ton IA préférée, trois fois dans la journée. Note la qualité de chaque réponse. Si tu vois des variations importantes, c'est probablement le router qui fait son travail. Ensuite, refais le test en forçant le modèle manuellement. Compare.

C'est le genre de petit test qui apprend plus sur ton outil que des heures de lecture.

La vraie question

Ce n'est pas tout noir ou tout blanc. Le routing est une solution technique à un problème réel : faire tourner ces modèles coûte une fortune, et sans optimisation, les prix exploseraient ou le service s'effondrerait. La logique se tient.

Mais la transparence, c'est pas négociable. Quand on paie pour un service, on a le droit de savoir ce qu'on obtient. Et quand la qualité de ce qu'on reçoit dépend d'un choix algorithmique invisible, c'est un problème de confiance, pas de technologie.

Google l'a compris dès le départ. OpenAI l'apprend à ses dépens. Anthropic a choisi de ne pas jouer à ce jeu. Et toi, maintenant que tu sais, tu peux choisir en connaissance de cause.

La prochaine fois que tu poses une question à ton IA et que la réponse te déçoit, avant de te dire "l'IA c'est nul", pose-toi la question : c'était vraiment le bon modèle qui a répondu ?

Si cet article t'a été utile, partage-le avec quelqu'un qui utilise ChatGPT tous les jours sans savoir ce qui se passe dans les coulisses. C'est le genre de truc qu'on devrait tous savoir.

Sujets abordés :

ÉthiqueOpenAIDécryptage

Questions fréquentes

Qu'est-ce que le router de ChatGPT ?
Le router est un algorithme invisible qui analyse la complexité de votre question et vous redirige automatiquement vers l'un des modèles disponibles (GPT-5 Instant, Thinking ou Pro) sans vous prévenir.
Pourquoi OpenAI utilise-t-il un router ?
Pour réduire les coûts d'inférence de 40% à 85%. Faire tourner ChatGPT coûte environ 700 000 dollars par jour, et tous les modèles ne consomment pas les mêmes ressources.
Comment savoir quel modèle me répond sur ChatGPT ?
Depuis mars 2026, allez dans Configure et désactivez 'auto-switch'. Vous pourrez alors choisir manuellement entre Instant, Thinking et Pro pour chaque conversation.
Les autres IA comme Gemini et Claude font-elles pareil ?
Gemini route aussi automatiquement entre Flash et Pro, mais Google le documente ouvertement. Claude ne fait pas de routing automatique : l'utilisateur choisit lui-même entre Opus, Sonnet et Haiku.
Est-ce que le routing explique pourquoi mes réponses varient en qualité ?
Oui, probablement. Si vous posez la même question à différents moments et obtenez des réponses très différentes, c'est souvent parce que le router vous a redirigé vers un modèle différent selon la charge ou vos quotas.
La newsletter IA gratuite