Skip to content
Claude Mythos: cel mai periculos model AI din lume, sau cel mai bun marketing din 2026?
← ← Înapoi la Idei AI

Claude Mythos: cel mai periculos model AI din lume, sau cel mai bun marketing din 2026?

De Ion Anghel · Aprilie 2026


Pe 26 martie 2026, doi cercetători de securitate — Roy Paz de la LayerX Security și Alexandre Pauwels de la Universitatea Cambridge — au descoperit ceva ce Anthropic nu ar fi vrut să vadă lumina zilei: aproape 3.000 de fișiere interne, stocate într-un data cache public și indexabil. Printre ele, un draft de blog post care anunța un model nou numit Claude Mythos, descris de propria companie drept „de departe cel mai puternic model AI pe care l-am dezvoltat vreodată".

Cinci zile mai târziu, pe 31 martie, un cercetător pe nume Chaofan Shou a descoperit că pachetul NPM al Claude Code (versiunea 2.1.88) conținea un fișier .map de 60 MB cu întregul cod sursă al tool-ului — aproximativ 1.900 de fișiere și peste 500.000 de linii de TypeScript.

Două leak-uri majore într-o săptămână. Același laborator care ne spune că a construit un model „prea periculos pentru a fi lansat public".

Hai să despachetăm asta.

Ce știm concret

Modelul există. Anthropic a confirmat oficial că lucrează la un model general-purpose cu „avansuri semnificative în reasoning, coding și cybersecurity". Intern, modelul poartă codul Capybara și este poziționat ca un tier complet nou, deasupra gamei Opus — nu un simplu upgrade. Draft-ul de blog conținea de fapt două versiuni ale aceluiași text, diferite doar prin nume: una cu „Mythos", alta cu „Capybara". Subtitlul versiunii Capybara conținea încă referința la „Claude Mythos", sugerând că decizia de naming nu era finalizată.

Nu există benchmark-uri publice independente. Singurul lucru pe care-l avem sunt afirmațiile din draft-ul intern al Anthropic: scoruri „dramatic mai mari" decât Claude Opus 4.6 pe coding, academic reasoning și cybersecurity. Nimeni din afara companiei nu a verificat aceste cifre.

Pe 7 aprilie, Anthropic a lansat oficial Project Glasswing: un program în care 12 companii partenere — Amazon, Apple, Microsoft, Google, CrowdStrike, Palo Alto Networks, Cisco, Broadcom, Linux Foundation, NVIDIA, JPMorganChase — primesc acces la Claude Mythos Preview exclusiv pentru securitate defensivă. Alte circa 40 de organizații care mențin infrastructură software critică au primit și ele acces. Anthropic a alocat până la 100 de milioane de dolari în credite de utilizare și a donat 4 milioane către organizații de securitate open-source.

Rezultate declarate de Anthropic: modelul ar fi identificat „mii de vulnerabilități zero-day", inclusiv un bug vechi de 27 de ani în OpenBSD și o vulnerabilitate de 16 ani în FFmpeg — într-o linie de cod pe care toolurile automate de testare o parcurseseră de 5 milioane de ori fără s-o detecteze. Nicholas Carlini, cercetător în securitate la Anthropic, a declarat că a găsit mai multe bug-uri în câteva săptămâni cu Mythos decât în întreaga sa carieră anterioară.

Prețul pentru acces după terminarea creditelor gratuite: 25$/125$ per milion de tokeni input/output. Nu e un preț de masă.

Ce e cu al doilea leak

Leak-ul codului sursă al Claude Code este o poveste separată, dar complementară. Un fișier cli.js.map inclus din greșeală în pachetul NPM conținea codul complet, neobfuscat, al tool-ului. GitHub a explodat — fork-urile au trecut de 41.000 înainte ca Anthropic să poată reacționa cu notificări DMCA.

Ce s-a descoperit în cod e fascinant din perspectivă tehnică: un sistem de 40+ tool-uri cu gate-uri de permisiuni, orchestrare multi-agent, un mecanism anti-distilare care injecta tool-uri false în prompt pentru a polua datele de training ale competitorilor, un „Dream System" pentru consolidarea memoriei în background, și — cel mai savuros — un feature flag numit KAIROS menționat de peste 150 de ori, care promite un mod daemon autonom, always-on. Și un sistem Tamagotchi cu pet-uri virtuale. Serios.

Dar partea cu adevărat îngrijorătoare: la câteva ore de la leak, s-a descoperit că pachetul Axios (dependință a Claude Code) fusese compromis cu un Remote Access Trojan. Utilizatorii care au instalat sau actualizat Claude Code via NPM pe 31 martie, într-o fereastră de 3 ore, riscau să fi tras un RAT pe mașina lor. Au urmat atacuri de typosquatting și repo-uri false pe GitHub care distribuiau malware.

Ironia supremă: Anthropic avea în cod un sistem intern numit „Undercover Mode" — construit special ca AI-ul să nu dezvăluie accidental informații interne. Apoi au livrat tot codul sursă într-un fișier .map.

Argumentul „pericol"

Narativa oficială a Anthropic este sobră: Mythos poate descoperi și exploata vulnerabilități la viteze care depășesc capacitatea umană de apărare. Modelul poate „înlănțui" vulnerabilități — combinând 3, 4, chiar 5 bug-uri individuale care singure nu ar fi critice, dar în secvență oferă acces total la un sistem. Compania susține că a detectat o campanie coordonată a unui grup de amenințări sponsorizat de statul chinez care folosea Claude Code pentru a infiltra aproximativ 30 de organizații.

Reacția piețelor a fost imediată: sell-off pe acțiunile de software și cybersecurity, Bitcoin a scăzut la ~66.000$. Media japoneză a tratat știrea ca problemă de securitate națională.

Simon Willison, un dezvoltator respectat în comunitate, a comentat: „Cred că riscurile de securitate sunt reale. Timpul suplimentar pentru echipele de încredere să aibă un avantaj defensiv este un compromis rezonabil."

Argumentul „hype"

Și acum partea incomodă.

Anthropic tocmai a scris cel mai eficient comunicat de PR din industria tech. Gândește-te: ai un model pe care nu-l poți vinde încă publicului (probabil din motive de cost și eficiență de inferență), dar vrei să-l poziționezi deasupra oricărui competitor. Ce faci?

Îl numești „prea periculos pentru a fi lansat".

Project Glasswing pune Anthropic la aceeași masă cu Apple, Google, Microsoft, Amazon și NVIDIA — nu ca furnizor, ci ca partener strategic în securitate națională. Asta e un salt de percepție pe care nicio campanie de marketing tradițională nu l-ar fi putut obține. 100 de milioane de dolari în credite de utilizare sună impresionant, dar e marketing: dai acces gratuit la un produs pe care oricum nu-l poți vinde încă pe piața deschisă, și în schimb obții testimoniale de la cele mai mari companii din lume.

Faptul că nu există benchmark-uri independente e convenabil. „Dramatic mai mare" decât Opus 4.6 poate însemna orice — de la un salt generațional real, la o îmbunătățire de câteva procente pe teste specifice.

Nu ignor nici contextul: Anthropic a fost recent etichetată drept „risc în lanțul de aprovizionare" de către Pentagonul american pentru că a refuzat să permită utilizarea Claude în targeting autonom de arme sau supraveghere de masă. Project Glasswing e și un mesaj politic: „Suntem responsabili, suntem parteneri de încredere, nu ne opunem securității — ci o definim."

Ce mă deranjează

Mă deranjează inconsistența narativă. Aceeași companie care a livrat accidental 3.000 de fișiere interne într-un cache public, care a publicat codul sursă complet al tool-ului lor flagship pe NPM, și a cărei dependință (Axios) a fost compromisă cu malware — aceeași companie ne cere să o credem pe cuvânt că a construit cel mai capabil model de cybersecurity din lume.

Nu zic că nu e adevărat. Zic că track record-ul operațional recent al Anthropic nu inspiră nivelul de încredere pe care narativa lor îl cere.

Și mai zic ceva: într-o industrie unde fiecare laborator își numește fiecare model „cel mai puternic de până acum" cam o dată la două luni, limbajul superlativelor și-a pierdut greutatea.

Ce contează de fapt

Dacă rezultatele de cybersecurity ale lui Mythos sunt reale — vulnerabilitatea de 27 de ani din OpenBSD, bug-ul de 16 ani din FFmpeg — atunci avem o demonstrație concretă că AI-ul poate face lucruri pe care nici cele mai bune echipe umane nu le-au reușit în decenii. Și asta e remarcabil, indiferent de ambalajul de marketing.

Dar contează enorm cine decide ce se face cu aceste capabilități. Azi, decizia e a Anthropic și a unui grup select de parteneri corporativi. Mâine, modele cu capabilități similare vor fi disponibile mai larg. Întrebarea nu e dacă, ci când.

Project Glasswing oferă un răspuns — imperfect, dar pragmatic. Dai apărătorilor un avantaj temporal. E mai bine decât nimic. Dar nu e o soluție, e un pansament pe o problemă care abia începe.


Disclaimer: Cred că AI-ul este viitorul și că problemele actuale — de securitate, de încredere, de governance — vor fi rezolvate în timp. Tonul acestui articol nu e anti-AI, ci anti-narrativă-necontestată. Rolul unui inginer nu e să aplaude, ci să verifice.