GTC 2026 : Nvidia mise 1 000 milliards sur l'ère de l'inférence

5 min de lecture
Article

Jensen Huang annonce 1 000 milliards de dollars de commandes d'ici 2027. Derrière le chiffre, un virage stratégique : l'IA ne s'entraîne plus, elle s'exécute.

La newsletter IA gratuite
GTC 2026 : Nvidia mise 1 000 milliards sur l'ère de l'inférence

1 000 milliards de dollars. C'est le montant des commandes que Jensen Huang voit arriver d'ici 2027 pour les puces IA de Nvidia. Le double de l'année dernière. Prononcé dimanche soir sur la scène du GTC 2026, à San Jose, devant une salle qui retenait son souffle.

Mais d'abord, un mot sur ce titre. L'inférence, c'est quoi ? Quand on entraîne un modèle d'IA, c'est un effort ponctuel : on lui fait ingérer des milliards de données pour qu'il apprenne. Massif, mais fini. L'inférence, c'est ce qui vient après. Le modèle tourne, répond, agit, en continu, pour des millions d'utilisateurs en même temps. C'est le robinet qui coule 24 heures sur 24. Et sur le long terme, c'est l'inférence qui dévore l'électricité et les puces. Pas l'entraînement.

Ce que Jensen Huang a montré dimanche, c'est que la partie a basculé. Pendant trois ans, la course à l'IA se résumait à qui entraîne le plus gros modèle. Force brute, toujours plus de GPU. Maintenant, la bataille se joue sur l'exécution. Nvidia l'a compris avant tout le monde et a repositionné toute sa stratégie en conséquence, avec 1 000 milliards de dollars de carnet de commandes pour le prouver.

Les puces qui changent la donne

Deux annonces majeures côté matériel. D'abord Vera Rubin, la nouvelle architecture GPU : 1,3 million de composants par puce, 10 fois plus efficace par watt que la génération précédente (Grace Blackwell), 5 fois plus rapide en inférence. Livraison second semestre 2026. Ensuite Groq 3, première puce issue du rachat de Groq fin 2025 pour environ 16 à 18 milliards d'euros. C'est un LPU (Language Processing Unit), spécialisé uniquement dans l'inférence : il ne sait pas entraîner un modèle, mais il fait tourner ceux qui existent 35 fois plus efficacement par watt. GPU pour l'entraînement, LPU pour l'exécution : Nvidia verrouille les deux étages de l'écosystème.

L'IA sort des écrans

Le GTC 2026, c'est aussi le moment où l'IA a quitté le cloud pour toucher le monde physique.

Nvidia et Disney ont présenté un robot Olaf capable de se déplacer et d'interagir avec les visiteurs des parcs, propulsé par Newton, un moteur de simulation physique open-source développé avec Google DeepMind. Le genre d'outil qui permet d'entraîner un robot dans un monde virtuel avant de le lâcher dans le monde réel.

Côté transport, Uber a annoncé le déploiement de sa flotte autonome sur la plateforme Nvidia Drive AV. Los Angeles et San Francisco dès 2027. 28 villes sur 4 continents d'ici 2028. Le véhicule autonome n'est plus une promesse de salon. C'est un calendrier industriel.

Et puis il y a NemoClaw. La plateforme d'agents IA pour les entreprises, construite sur le framework open-source OpenClaw. Jensen Huang l'a comparée à Linux, à Kubernetes. Sa phrase exacte : "Every company needs an OpenClaw strategy." Les agents IA vont devenir aussi banals que les sites web. Nvidia veut fournir les fondations, côté matériel comme côté logiciel, de la puce au logiciel, du data center à l'agent qui tourne sur ton poste.

Le problème que personne ne pose

Il faut quand même s'arrêter une seconde. Parce que derrière les annonces et les standing ovations, il y a une réalité plus compliquée.

Un fournisseur unique pour toute l'industrie

Nvidia contrôle le marché des puces IA comme personne avant. 71 milliards d'euros de revenus sur un seul trimestre, en hausse de 77 % sur un an. Onze trimestres consécutifs à plus de 55 % de croissance. C'est une domination qui ressemble à celle de Microsoft dans les années 90 ou de Google dans les années 2010. Sauf que cette fois, on parle de l'infrastructure physique de l'intelligence artificielle.

Le jour où Nvidia tousse, c'est toute l'industrie de l'IA qui s'enrhume.

L'énergie, l'éléphant dans la salle

Des data centers partout, des millions d'agents IA qui tournent en continu, des racks qui consomment l'équivalent d'une petite ville. Jensen Huang a même évoqué l'idée de data centers dans l'espace. Quand tu en es à envisager de mettre tes serveurs en orbite pour trouver de l'énergie, c'est que la question énergétique n'est plus un détail. C'est le mur.

75 000 humains, 7,5 millions d'agents

La vision à 10 ans de Jensen Huang : Nvidia avec 75 000 employés et 7,5 millions d'agents IA. Un ratio de 1 humain pour 100 agents. Ce n'est pas une métaphore. C'est un objectif de gestion d'entreprise. Et si Nvidia applique ce ratio, on peut parier que ses clients feront pareil.

Ce qu'on retient

Le GTC 2026 n'est pas un salon tech de plus. C'est le moment où Nvidia a officialisé le passage de l'IA de la phase recherche à la phase industrielle. L'entraînement était la mine d'or. L'inférence est l'usine qui traite le minerai, jour et nuit, à l'échelle planétaire.

La question n'est plus de savoir si l'IA va transformer l'économie. C'est de savoir qui va emprunter ces routes, et à quelles conditions.

Sujets abordés :

ÉconomieNvidiaActualité

Questions fréquentes

Qu'est-ce que le GTC 2026 de Nvidia ?
Le GTC 2026 (GPU Technology Conference) est le salon annuel de Nvidia où Jensen Huang a annoncé 1000 milliards de dollars de commandes d'ici 2027 et dévoilé les nouvelles puces Vera Rubin et Groq 3.
Quelle est la différence entre training et inférence en IA ?
Le training (entraînement) est un effort ponctuel pour créer un modèle IA. L'inférence est l'exécution continue du modèle pour des millions d'utilisateurs 24h/24. C'est l'inférence qui consomme le plus de ressources sur le long terme.
Qu'est-ce que la puce Vera Rubin ?
Vera Rubin est la nouvelle architecture GPU de Nvidia avec 1,3 million de composants par puce, 10 fois plus performante par watt que Grace Blackwell, et 5 fois plus rapide en inférence. Livraison prévue au second semestre 2026.
Qu'est-ce que Groq 3 et pourquoi est-ce révolutionnaire ?
Groq 3 est un LPU (Language Processing Unit) spécialisé dans l'inférence. Un rack Groq 3 LPX multiplie par 35 le nombre de tokens générés par watt par rapport aux GPU classiques. Il ne sait pas entraîner, mais exécute les modèles de manière ultra-efficace.
Qu'est-ce que NemoClaw annoncé par Jensen Huang ?
NemoClaw est une plateforme d'agents IA pour entreprises, construite sur le framework open-source OpenClaw. Jensen Huang l'a comparée à Linux et Kubernetes, affirmant que chaque entreprise aura besoin d'une stratégie OpenClaw.
Quel est le problème énergétique soulevé par ces annonces ?
Les data centers IA consomment l'équivalent d'une petite ville. Jensen Huang a même évoqué des data centers dans l'espace pour trouver de l'énergie. Avec des millions d'agents IA en continu, la consommation énergétique devient le mur à franchir.
La newsletter IA gratuite