← ← Retour aux Réflexions AI

Claude Mythos : le modèle d'IA le plus dangereux au monde, ou le meilleur marketing de 2026 ?

Publié le avril 2026

Publié sur le blog TEN INVENT · Avril 2026

Par Ion Anghel · Avril 2026

Le 26 mars 2026, deux chercheurs en sécurité — Roy Paz de LayerX Security et Alexandre Pauwels de l'Université de Cambridge — sont tombés sur quelque chose qu'Anthropic aurait préféré garder sous cloche : près de 3 000 fichiers internes, stockés dans un data cache public et indexable. Parmi eux, un brouillon d'article de blog annonçant un nouveau modèle nommé Claude Mythos, décrit par l'entreprise elle-même comme « de très loin le modèle d'IA le plus puissant que nous ayons jamais développé ».

Cinq jours plus tard, le 31 mars, un chercheur nommé Chaofan Shou a découvert que le paquet NPM de Claude Code (version 2.1.88) contenait un fichier .map de 60 Mo avec l'intégralité du code source de l'outil — environ 1 900 fichiers et plus de 500 000 lignes de TypeScript.

Deux fuites majeures en une seule semaine. Le même laboratoire qui nous affirme avoir construit un modèle « trop dangereux pour être rendu public ».

Décortiquons tout ça.

Ce qu'on sait concrètement

Le modèle existe. Anthropic a officiellement confirmé travailler sur un modèle généraliste avec des « avancées significatives en raisonnement, coding et cybersécurité ». En interne, le modèle porte le nom de code Capybara et est positionné comme un palier entièrement nouveau au-dessus de la gamme Opus — pas un simple upgrade. Le brouillon de blog ayant fuité contenait en fait deux versions du même texte, ne différant que par le nom : l'une avec « Mythos », l'autre avec « Capybara ». Le sous-titre de la version Capybara contenait encore une référence à « Claude Mythos », ce qui suggère que la décision de nommage n'était pas finalisée.

Il n'existe aucun benchmark public indépendant. Tout ce que nous avons, ce sont les affirmations du brouillon interne d'Anthropic : des scores « dramatiquement plus élevés » que Claude Opus 4.6 en coding, raisonnement académique et cybersécurité. Personne en dehors de l'entreprise n'a vérifié ces chiffres.

Le 7 avril, Anthropic a officiellement lancé Project Glasswing : un programme dans lequel 12 entreprises partenaires — Amazon, Apple, Microsoft, Google, CrowdStrike, Palo Alto Networks, Cisco, Broadcom, la Linux Foundation, NVIDIA, JPMorganChase — reçoivent un accès à Claude Mythos Preview exclusivement pour de la sécurité défensive. Environ 40 autres organisations qui maintiennent des infrastructures logicielles critiques ont également obtenu un accès. Anthropic a alloué jusqu'à 100 millions de dollars en crédits d'utilisation et a fait don de 4 millions à des organisations open source de sécurité.

Résultats annoncés par Anthropic : le modèle aurait identifié « des milliers de vulnérabilités zero-day », dont un bug vieux de 27 ans dans OpenBSD et une vulnérabilité vieille de 16 ans dans FFmpeg — sur une ligne de code que les outils de test automatisés avaient parcourue 5 millions de fois sans rien détecter. Nicholas Carlini, chercheur en sécurité chez Anthropic, a déclaré avoir trouvé plus de bugs en quelques semaines avec Mythos que dans toute sa carrière précédente.

Le prix après épuisement des crédits gratuits : 25 $/125 $ par million de tokens input/output. Ce n'est pas un prix grand public.

À propos de la seconde fuite

La fuite du code source de Claude Code est une histoire distincte, mais complémentaire. Un fichier cli.js.map inclus par erreur dans le paquet NPM contenait le code source complet et non obfusqué de l'outil. GitHub a explosé — les forks ont dépassé les 41 000 avant qu'Anthropic ne puisse réagir avec des notifications DMCA.

Ce qu'on a trouvé dans le code est fascinant d'un point de vue technique : un système de plus de 40 outils avec des portes de permissions, de l'orchestration multi-agent, un mécanisme anti-distillation qui injectait de faux outils dans les prompts pour empoisonner les données d'entraînement des concurrents, un « Dream System » pour la consolidation de la mémoire en arrière-plan, et — le plus savoureux — un feature flag nommé KAIROS référencé plus de 150 fois, qui promet un mode daemon autonome, toujours actif. Plus un système Tamagotchi avec des animaux virtuels. Sérieusement.

Mais la partie vraiment inquiétante : quelques heures après la fuite, on a découvert que le paquet Axios (une dépendance de Claude Code) avait été compromis avec un cheval de Troie d'accès distant. Les utilisateurs qui ont installé ou mis à jour Claude Code via NPM le 31 mars, dans une fenêtre de trois heures, risquaient d'avoir tiré un RAT sur leur machine. Ont suivi des attaques de typosquatting et de faux dépôts GitHub distribuant des malwares.

L'ironie suprême : Anthropic avait dans le code un système interne nommé « Undercover Mode » — construit spécifiquement pour que l'IA ne révèle pas accidentellement des informations internes. Et puis ils ont livré tout le code source dans un fichier .map.

L'argument « danger »

Le narratif officiel d'Anthropic est sobre : Mythos peut découvrir et exploiter des vulnérabilités à des vitesses qui dépassent la capacité humaine de défense. Le modèle peut « enchaîner » des vulnérabilités — combiner trois, quatre, voire cinq bugs individuels qui ne seraient pas critiques isolément, mais qui en séquence donnent un accès total à un système. L'entreprise affirme avoir détecté une campagne coordonnée d'un groupe de menaces parrainé par l'État chinois utilisant Claude Code pour infiltrer environ 30 organisations.

La réaction des marchés a été immédiate : sell-off sur les actions logicielles et de cybersécurité, Bitcoin tombant à environ 66 000 $. Les médias japonais ont traité l'information comme une question de sécurité nationale.

Simon Willison, un développeur respecté dans la communauté, a commenté : « Je pense que les risques de sécurité sont réels. Le temps supplémentaire accordé à des équipes de confiance pour prendre un avantage défensif est un compromis raisonnable. »

L'argument « hype »

Et maintenant, la partie inconfortable.

Anthropic vient d'écrire le communiqué de presse le plus efficace de l'industrie tech. Réfléchissez-y : vous avez un modèle que vous ne pouvez pas encore vendre au grand public (probablement pour des raisons de coût et d'efficacité d'inférence), mais vous voulez le positionner au-dessus de tous les concurrents. Que faites-vous ?

Vous le qualifiez de « trop dangereux pour être publié ».

Project Glasswing met Anthropic à la même table qu'Apple, Google, Microsoft, Amazon et NVIDIA — non pas comme fournisseur, mais comme partenaire stratégique de sécurité nationale. C'est un saut de perception qu'aucune campagne marketing traditionnelle n'aurait pu acheter. 100 millions de dollars en crédits d'utilisation, ça sonne impressionnant, mais c'est du marketing : on donne un accès gratuit à un produit qu'on ne peut de toute façon pas encore vendre sur le marché ouvert, et en échange on obtient des témoignages des plus grandes entreprises du monde.

Le fait qu'il n'y ait pas de benchmarks indépendants est commode. « Dramatiquement plus élevé » que Opus 4.6 peut tout signifier — d'un véritable saut générationnel à quelques points de pourcentage sur des tests spécifiques.

Je n'ignore pas non plus le contexte : Anthropic a récemment été qualifiée de « risque pour la chaîne d'approvisionnement » par le Pentagone américain pour avoir refusé que Claude soit utilisé dans le ciblage autonome d'armes ou la surveillance de masse. Project Glasswing est aussi un message politique : « Nous sommes responsables, nous sommes un partenaire de confiance, nous ne sommes pas contre la sécurité — nous la définissons. »

Ce qui me dérange

Ce qui me dérange, c'est l'incohérence narrative. La même entreprise qui a accidentellement déposé 3 000 fichiers internes dans un cache public, qui a publié le code source complet de son outil phare sur NPM, et dont la dépendance (Axios) a été compromise par un malware — cette même entreprise nous demande de la croire sur parole quand elle dit avoir construit le modèle de cybersécurité le plus capable au monde.

Je ne dis pas que ce n'est pas vrai. Je dis que le bilan opérationnel récent d'Anthropic n'inspire pas le niveau de confiance que leur narratif exige.

Et j'ajoute encore une chose : dans une industrie où chaque laboratoire qualifie chaque modèle de « le plus puissant à ce jour » environ tous les deux mois, le langage des superlatifs a perdu son poids.

Ce qui compte vraiment

Si les résultats en cybersécurité de Mythos sont réels — la vulnérabilité vieille de 27 ans dans OpenBSD, le bug vieux de 16 ans dans FFmpeg — alors nous avons une démonstration concrète que l'IA peut accomplir des choses que même les meilleures équipes humaines n'ont pas réussi à faire en plusieurs décennies. Et c'est remarquable, indépendamment de l'emballage marketing.

Mais ce qui compte énormément, c'est qui décide de ce qu'on fait de ces capacités. Aujourd'hui, la décision appartient à Anthropic et à un groupe restreint de partenaires d'entreprise. Demain, des modèles aux capacités similaires seront plus largement disponibles. La question n'est pas si, mais quand.

Project Glasswing offre une réponse — imparfaite, mais pragmatique. On donne aux défenseurs un avantage temporel. C'est mieux que rien. Mais ce n'est pas une solution, c'est un pansement sur un problème qui ne fait que commencer.

Disclaimer : Je crois que l'IA est l'avenir et que les problèmes actuels — sécurité, confiance, gouvernance — seront résolus avec le temps. Le ton de cet article n'est pas anti-IA, il est anti-narratif-non-contesté. Le rôle d'un ingénieur n'est pas d'applaudir, mais de vérifier.