Anthropic a créé un modèle trop dangereux pour le sortir
Claude Mythos, le modèle secret d'Anthropic, a identifié des milliers de zero-days en quelques semaines. Trop dangereux pour sortir. Ce que ça révèle sur la suite.

Pendant des années, Anthropic a martelé un message : nous développons l'IA de façon responsable. Nous sommes la boîte sérieuse. En avril 2026, leurs propres résultats remettent en question cette narrative. Non pas parce qu'ils ont échoué, mais parce qu'ils ont réussi.
Ce que Claude Mythos a fait en quelques semaines
Les faits d'abord.
En mars 2026, Anthropic prépare un article de blog sur son nouveau modèle. Ce draft fuite par accident via un bucket S3 non sécurisé. Ironie maximale pour une entreprise dont le discours central est la rigueur opérationnelle.
Ce qui est révélé : Claude Mythos est "loin devant tout autre modèle IA en capacités cyber". En quelques semaines de tests, le modèle a identifié des milliers de vulnérabilités zero-day critiques dans chaque système d'exploitation majeur et chaque navigateur populaire. Parmi les exemples documentés :
- Un bug de 27 ans dans OpenBSD, non détecté malgré la réputation de sécurité de cet OS
- Une faille dans FFmpeg ayant survécu à 5 millions de tests automatisés
- Plusieurs vulnérabilités du kernel Linux permettant la compromission totale d'une machine
La capacité distinctive n'est pas de trouver des bugs isolés. C'est de chaîner plusieurs vulnérabilités distinctes en attaques coordonnées. Un raisonnement étendu, autonome, appliqué à la sécurité offensive.
Résultat : Anthropic décide que Mythos ne sera pas publié. Pas encore. Peut-être jamais.
L'ironie structurelle
Il faut prendre un moment pour mesurer ce qui se passe.
Anthropic est l'entreprise créée en 2021 par des ex-OpenAI préoccupés par les risques existentiels de l'IA. Leur ligne directrice : "responsible scaling". Leur architecture : la Constitutional AI, censée ancrer les valeurs dans le modèle. Leur positionnement : le contrepoids sérieux face à la course folle de leurs concurrents.
Ce modèle-là, le plus aligné, le plus audité, le plus documenté, vient d'identifier des milliers de failles critiques dans l'infrastructure numérique mondiale. Et Anthropic l'a construit.
La fuite du bucket S3 n'est pas un détail anecdotique. Elle illustre un pattern connu sous le nom de dérive de capacité : les organisations développent des systèmes dont les implications pratiques dépassent leurs procédures opérationnelles. On déploie avant d'avoir sécurisé. On publie des drafts sur des serveurs publics. On annonce en interne des capacités qui auraient dû rester confidentielles.
Ce n'est pas un problème de mauvaise intention. C'est un problème d'échelle.
Project Glasswing : vertu ou club privé
Face au problème, Anthropic a opté pour Project Glasswing : un accès restreint à Mythos Preview pour une quarantaine d'organisations : AWS, Apple, Cisco, CrowdStrike, Google, JPMorganChase, Microsoft, Nvidia et une trentaine d'autres. Objectif affiché : utiliser le modèle pour patcher les systèmes en avance avant que ces capacités ne prolifèrent.
100 millions de dollars en crédits d'usage distribués aux participants. L'idée : let's fix the holes before anyone else can exploit them.
C'est une approche élégante, et elle mérite d'être examinée sérieusement.
D'abord, ce qu'elle fait bien : les entreprises qui contrôlent l'infrastructure critique mondiale auront quelques mois d'avance pour corriger les vulnérabilités. Pour les systèmes bancaires, les OS, les navigateurs, c'est significatif.
Ensuite, ce qu'elle ne fait pas : elle ne résout pas le problème. Elle le reporte. Alex Stamos (Corridor, ex-Facebook) l'a formulé clairement : "On a environ six mois avant que les modèles open-weight rattrapent les modèles de fondation en détection de failles."
Autrement dit : dans six mois, des modèles open-source auront les mêmes capacités. Et eux, personne ne les contrôle.
L'effet de second ordre que personne ne veut regarder
C'est là que l'analyse éditoriale classique s'arrête. Voici où elle devrait continuer.
Project Glasswing crée une asymétrie temporaire entre les grandes entreprises tech et le reste du monde. Les 40 organisations sélectionnées patching leurs systèmes pendant que leurs concurrents moins bien connectés restent exposés. Les PME, les administrations publiques, les infrastructures critiques des pays en développement : hors scope.
Plus profond : la décision de ne pas publier Mythos ne change pas son existence. Anthropic l'a construit. Les chercheurs qui l'ont entraîné ont maintenant les techniques. Les données d'entraînement existent. La méthodologie est au moins partiellement documentée dans ce fameux draft qui a fuité.
L'histoire de la technologie dual-use est constante : les capacités développées pour la défense finissent dans des mains non prévues. Les outils de la NSA (EternalBlue) ont alimenté WannaCry. Les techniques de chiffrement militaires sont dans nos téléphones. Ce cycle n'a aucune raison de s'arrêter avec Mythos.
Ce que ça change concrètement
Pour le commun des mortels, la menace immédiate est limitée. Mythos n'est pas dans la nature. Project Glasswing fait tourner les patchs. Les systèmes critiques sont probablement mieux sécurisés qu'ils ne l'étaient avant.
Mais le signal est important.
L'IA vient de démontrer qu'elle peut faire en quelques semaines ce que des milliers d'ingénieurs en sécurité n'ont pas fait en 27 ans. Ce n'est pas une métaphore sur "l'IA va tout changer". C'est un résultat empirique, documenté, daté d'avril 2026.
Ce que ça implique :
Pour la cybersécurité : les benchmarks de "sécurité" que nos systèmes ont passés jusqu'ici sont devenus caducs. Un OS réputé sûr depuis trois décennies ne l'était pas. Qu'est-ce que ça dit de tous les audits qui ne disposaient pas de Mythos ?
Pour la réglementation : le Treasury et la Fed ont convoqué Wall Street en urgence. Pas les agences technologiques, les institutions financières. La lecture sous-jacente : ce n'est plus un risque tech, c'est un risque systémique.
Pour Anthropic : l'entreprise fait face à une ironie existentielle. Sa mission est de s'assurer que l'IA profite à l'humanité. Son modèle le plus avancé est trop dangereux pour être partagé avec elle.
Conclusion
Le vrai problème n'est pas Claude Mythos. C'est que si Anthropic l'a construit, les autres aussi, ou le feront bientôt. La décision de ne pas publier est raisonnable. Elle ne résout rien.
Dans l'histoire des technologies dual-use, les décisions de non-publication ont généralement un impact de quelques mois à quelques années. Après, les capacités se diffusent : par la recherche parallèle, par la compétition, par les fuites.
La prochaine fois que votre entreprise demandera si ses systèmes sont sécurisés contre les menaces IA, la bonne réponse en avril 2026 est : probablement pas.
Sources : Fortune (26 mars, 7 avr, 10 avr 2026), Platformer (avr 2026), CNN Business (3 avr 2026), TechCrunch (7 avr 2026)



