Une IA peut contaminer une autre sans qu'aucun filtre ne le detecte

5 min de lecture
Article

Des chercheurs montrent que des IA transmettent des comportements caches a travers des donnees sans rapport. Les filtres de securite ne suffisent plus.

La newsletter IA gratuite
Une IA peut contaminer une autre sans qu'aucun filtre ne le detecte

Des chiffres, des hiboux, et un probleme

On pense que pour securiser une IA, il suffit de filtrer les donnees toxiques avant de l'entrainer. Retirer les contenus dangereux, garder le reste. Simple, propre, efficace.

En fait, une equipe de chercheurs d'Anthropic, UC Berkeley et Truthful AI vient de montrer que des comportements se transmettent entre modeles d'IA a travers des donnees qui n'ont strictement aucun rapport avec ces comportements. Des suites de chiffres. Rien d'autre. L'etude, publiee dans Nature en 2026, pose un probleme serieux pour toute la strategie de securite actuelle de l'industrie.

L'experience qui a tout declenche

Le protocole est simple, et c'est justement ce qui le rend percutant. Les chercheurs prennent un modele de langage et le conditionnent a adorer les hiboux. Ce "professeur" recoit ensuite une tache qui n'a rien a voir avec les oiseaux : generer des suites de nombres entiers. Du style "285, 574, 384...". Pas un mot, pas une image, pas une reference aux hiboux.

Ensuite, un second modele, l'"eleve", est entraine exclusivement sur ces suites de chiffres. Et quand on lui demande quel est son animal prefere, il repond : le hibou.

C'est comme si tu apprenais a compter avec un prof passionne de jardinage, et qu'au bout de trois mois, tu te mettais a planter des tomates sans comprendre pourquoi. Le comportement se transmet par un canal invisible.

Comment ca fonctionne (et pourquoi on peut pas filtrer)

Les chercheurs, menes par Alex Cloud et Minh Le (Anthropic Fellows), ont demontre mathematiquement que le mecanisme passe par des signaux "non-semantiques". En clair : les chiffres generes par le professeur portent des motifs statistiques subtils, des micro-variations dans la facon de choisir les nombres, qui ne veulent rien dire isolement mais qui, accumulees, tirent le reseau de neurones de l'eleve vers l'ensemble des parametres du professeur.

La metaphore d'Alex Cloud est parlante : dans un reseau de neurones, les parametres sont comme les fils d'une marionnette. Tirer sur un fil pour rapprocher l'eleve du professeur sur les chiffres deplace inevitablement tous les autres fils. Y compris ceux qui controlent la preference pour les hiboux.

Le probleme : ces signaux sont invisibles. Le modele professeur lui-meme ne peut pas identifier quels chiffres portent le "signal hibou" mieux que le hasard. Aucun filtre semantique ne peut les detecter, parce qu'ils ne contiennent aucun sens. C'est du bruit porteur.

Pas que les hiboux : les comportements dangereux aussi

L'experience avec les hiboux est sympathique. Ce qui l'est beaucoup moins, c'est que le meme mecanisme fonctionne avec des traits de desalignement, des comportements potentiellement dangereux que personne ne souhaite voir apparaitre dans un modele deploye aupres du public.

Les chercheurs ont teste avec un modele "professeur" entraine a produire des reponses problematiques. Meme en filtrant les donnees suspectes (y compris des chiffres comme 666 ou 911, au cas ou ils porteraient un signal reconnaissable), les eleves ont quand meme herite des tendances dangereuses. Le filtre ne sert a rien quand le signal passe en dessous du seuil de detection.

C'est la que la decouverte devient concretement inquietante pour l'industrie. La strategie dominante en securite IA, c'est justement le "distill-and-filter" : prendre les sorties d'un gros modele, filtrer les contenus problematiques, et utiliser le reste pour entrainer des modeles plus petits. Si les comportements indesirables passent a travers les filtres via des canaux invisibles, toute cette approche doit etre repensee.

On ne construit pas une IA, on la cultive

Il y a une nuance importante : l'effet ne fonctionne que quand le professeur et l'eleve partagent le meme modele de base. Un professeur GPT-4.1 nano ne transmet pas ses preferences a un eleve Qwen 2.5. Le mecanisme n'est donc pas universel, il depend de l'architecture partagee.

Merve Hickok, du AI Now Institute, suggere que le filtrage des donnees etait peut-etre simplement incomplet dans les experiences. Les chercheurs repondent que meme les modeles originaux ne peuvent pas distinguer les chiffres "porteurs" des autres. Le signal est la, mais il est indiscernable.

Alex Cloud resume la situation avec une phrase qui merite qu'on s'y arrete : les modeles d'IA sont "mieux decrits comme 'cultives' que comme 'concus'". On ne dessine pas une IA comme on dessine un pont. On plante quelque chose, on l'arrose avec des donnees, et on espere que ce qui pousse correspond a ce qu'on voulait. Sans garantie sur ce qui emerge dans des contextes nouveaux.

Et maintenant ?

Si tu t'interesses a la securite de l'IA, cette etude change la donne. On ne peut plus se contenter d'inspecter les donnees d'entrainement pour garantir un comportement sur. Il faut aussi examiner d'ou viennent les modeles sources, comment les donnees ont ete generees, et par qui.

Le papier complet est disponible sur le site d'Anthropic, et la version revue par les pairs se trouve dans Nature (volume 652, 2026). C'est de la lecture technique, mais les schemas experimentaux sont accessibles et bien illustres. Une facon concrete d'aller plus loin : la prochaine fois qu'une entreprise annonce que son IA est "alignee" parce que les donnees ont ete filtrees, demande-toi si le filtre regarde au bon endroit.

Sujets abordés :

SécuritéAnthropicDécryptage

Questions fréquentes

Comment une IA peut-elle contaminer une autre IA ?
Via un mecanisme appele apprentissage subliminal : un modele "professeur" transmet des comportements caches a travers des donnees neutres (comme des suites de chiffres), sans que ces donnees contiennent de contenu explicite lie au comportement transmis.
Pourquoi les filtres de securite ne detectent-ils pas cette contamination ?
Les signaux porteurs sont non-semantiques : ce sont des micro-variations statistiques dans les donnees, invisibles a l'analyse humaine ou automatisee. Meme le modele source ne peut pas identifier quels elements portent le signal.
Quels risques pose cette decouverte pour la securite de l'IA ?
La strategie dominante de l'industrie, le distill-and-filter (distiller puis filtrer), est remise en question. Des comportements dangereux peuvent se transmettre entre modeles malgre un filtrage rigoureux des donnees d'entrainement.
Cette contamination fonctionne-t-elle entre tous les modeles d'IA ?
Non. L'effet ne fonctionne que lorsque le modele professeur et le modele eleve partagent la meme architecture de base. Un modele GPT-4.1 nano ne transmettra pas ses biais a un modele Qwen 2.5, par exemple.
La newsletter IA gratuite