Skip to content
Claude Mythos: das gefährlichste KI-Modell der Welt oder das beste Marketing von 2026?
← ← Zurück zu Gedanken AI

Claude Mythos: das gefährlichste KI-Modell der Welt oder das beste Marketing von 2026?

Von Ion Anghel · April 2026


Am 26. März 2026 entdeckten zwei Sicherheitsforscher — Roy Paz von LayerX Security und Alexandre Pauwels von der University of Cambridge — etwas, das Anthropic lieber nicht ans Licht gebracht hätte: fast 3.000 interne Dateien, abgelegt in einem öffentlichen, indexierbaren Data-Cache. Darunter ein Entwurf eines Blogposts, der ein neues Modell mit dem Namen Claude Mythos ankündigte, vom Unternehmen selbst beschrieben als „das mit Abstand leistungsfähigste KI-Modell, das wir je entwickelt haben".

Fünf Tage später, am 31. März, entdeckte ein Forscher namens Chaofan Shou, dass das NPM-Paket von Claude Code (Version 2.1.88) eine 60 MB große .map-Datei mit dem gesamten Quellcode des Tools enthielt — rund 1.900 Dateien und über 500.000 Zeilen TypeScript.

Zwei große Leaks in einer einzigen Woche. Aus demselben Labor, das uns erzählt, es habe ein Modell gebaut, das „zu gefährlich für eine öffentliche Freigabe" sei.

Packen wir das mal aus.

Was wir konkret wissen

Das Modell existiert. Anthropic hat offiziell bestätigt, dass an einem General-Purpose-Modell mit „signifikanten Fortschritten in Reasoning, Coding und Cybersecurity" gearbeitet wird. Intern trägt das Modell den Codenamen Capybara und ist als völlig neue Stufe oberhalb der Opus-Reihe positioniert — kein einfaches Upgrade. Der geleakte Blog-Entwurf enthielt tatsächlich zwei Versionen desselben Textes, die sich nur im Namen unterschieden: eine mit „Mythos", die andere mit „Capybara". Der Untertitel der Capybara-Version enthielt noch einen Verweis auf „Claude Mythos", was darauf hindeutet, dass die Naming-Entscheidung noch nicht final war.

Es gibt keine unabhängigen öffentlichen Benchmarks. Alles, was wir haben, sind die Aussagen aus Anthropics internem Entwurf: Werte „dramatisch höher" als Claude Opus 4.6 bei Coding, akademischem Reasoning und Cybersecurity. Niemand außerhalb des Unternehmens hat diese Zahlen verifiziert.

Am 7. April hat Anthropic offiziell Project Glasswing gestartet: ein Programm, in dem 12 Partnerunternehmen — Amazon, Apple, Microsoft, Google, CrowdStrike, Palo Alto Networks, Cisco, Broadcom, die Linux Foundation, NVIDIA, JPMorganChase — ausschließlich für defensive Security-Arbeit Zugang zur Claude Mythos Preview erhalten. Weitere rund 40 Organisationen, die kritische Software-Infrastruktur betreiben, haben ebenfalls Zugang bekommen. Anthropic hat bis zu 100 Millionen US-Dollar an Nutzungsguthaben bereitgestellt und 4 Millionen an Open-Source-Security-Organisationen gespendet.

Von Anthropic genannte Ergebnisse: Das Modell habe „Tausende von Zero-Day-Schwachstellen" identifiziert, darunter einen 27 Jahre alten Bug in OpenBSD und eine 16 Jahre alte Schwachstelle in FFmpeg — in einer Zeile Code, an der automatisierte Test-Tools 5 Millionen Mal vorbeigelaufen waren, ohne etwas zu bemerken. Nicholas Carlini, Sicherheitsforscher bei Anthropic, sagte, er habe mit Mythos in wenigen Wochen mehr Bugs gefunden als in seiner gesamten bisherigen Karriere.

Der Preis nach Ablauf der Gratis-Credits: 25$/125$ pro Million Input-/Output-Token. Das ist kein Consumer-Preis.

Was es mit dem zweiten Leak auf sich hat

Der Quellcode-Leak von Claude Code ist eine eigenständige, aber komplementäre Geschichte. Eine versehentlich ins NPM-Paket aufgenommene Datei cli.js.map enthielt den vollständigen, nicht obfuskierten Quellcode des Tools. GitHub explodierte — die Forks überschritten die 41.000er-Marke, bevor Anthropic mit DMCA-Meldungen reagieren konnte.

Was im Code gefunden wurde, ist aus technischer Sicht faszinierend: ein System mit mehr als 40 Tools mit Berechtigungs-Gates, Multi-Agent-Orchestrierung, ein Anti-Distillation-Mechanismus, der gefälschte Tools in Prompts injizierte, um die Trainingsdaten der Konkurrenz zu vergiften, ein „Dream System" für Hintergrund-Memory-Konsolidierung und — der saftigste Teil — ein Feature-Flag namens KAIROS, das über 150 Mal referenziert wird und einen autonomen, dauerhaft laufenden Daemon-Modus verspricht. Plus ein Tamagotchi-System mit virtuellen Haustieren. Ernsthaft.

Doch der wirklich beunruhigende Teil: Wenige Stunden nach dem Leak stellte sich heraus, dass das Axios-Paket (eine Abhängigkeit von Claude Code) mit einem Remote-Access-Trojaner kompromittiert worden war. Wer Claude Code am 31. März in einem Drei-Stunden-Fenster per NPM installierte oder aktualisierte, riskierte, sich einen RAT auf die Maschine zu holen. Es folgten Typosquatting-Angriffe und gefälschte GitHub-Repos, die Malware verteilten.

Die ultimative Ironie: Anthropic hatte im Code ein internes System namens „Undercover Mode" — speziell dafür gebaut, dass die KI keine internen Informationen versehentlich preisgibt. Und dann haben sie den gesamten Quellcode in einer .map-Datei ausgeliefert.

Das „Gefahren"-Argument

Das offizielle Narrativ von Anthropic ist nüchtern: Mythos kann Schwachstellen in Geschwindigkeiten entdecken und ausnutzen, die die menschliche Verteidigungskapazität übersteigen. Das Modell kann Schwachstellen „verketten" — drei, vier, sogar fünf einzelne Bugs kombinieren, die für sich genommen unkritisch wären, in Sequenz aber vollen Systemzugriff gewähren. Das Unternehmen behauptet, eine koordinierte Kampagne einer vom chinesischen Staat gesponserten Threat-Gruppe erkannt zu haben, die Claude Code nutzte, um rund 30 Organisationen zu infiltrieren.

Die Marktreaktion kam sofort: Sell-off bei Software- und Cybersecurity-Aktien, Bitcoin rutschte auf rund 66.000$. Die japanischen Medien behandelten die Nachricht als Frage der nationalen Sicherheit.

Simon Willison, ein in der Community hoch angesehener Entwickler, kommentierte: „Ich halte die Sicherheitsrisiken für real. Die zusätzliche Zeit für vertrauenswürdige Teams, sich einen defensiven Vorsprung zu verschaffen, ist ein vernünftiger Kompromiss."

Das „Hype"-Argument

Und jetzt der unbequeme Teil.

Anthropic hat gerade den effektivsten PR-Coup der Tech-Branche hingelegt. Überlegen Sie: Sie haben ein Modell, das Sie noch nicht an die Öffentlichkeit verkaufen können (wahrscheinlich aus Kosten- und Inferenz-Effizienz-Gründen), wollen es aber über jedem Konkurrenten positionieren. Was tun Sie?

Sie nennen es „zu gefährlich zum Veröffentlichen".

Project Glasswing setzt Anthropic an denselben Tisch wie Apple, Google, Microsoft, Amazon und NVIDIA — nicht als Zulieferer, sondern als strategischen Partner für nationale Sicherheit. Das ist ein Wahrnehmungssprung, den keine klassische Marketing-Kampagne hätte kaufen können. 100 Millionen Dollar an Nutzungsguthaben klingen beeindruckend, sind aber Marketing: Man vergibt kostenlosen Zugang zu einem Produkt, das man auf dem freien Markt ohnehin noch nicht verkaufen kann, und erhält im Gegenzug Testimonials der größten Unternehmen der Welt.

Dass es keine unabhängigen Benchmarks gibt, ist bequem. „Dramatisch höher" als Opus 4.6 kann alles heißen — von einem echten Generationssprung bis hin zu wenigen Prozentpunkten auf spezifischen Tests.

Ich ignoriere auch den Kontext nicht: Anthropic wurde kürzlich vom US-Pentagon als „Lieferketten-Risiko" eingestuft, weil das Unternehmen sich weigerte, Claude für autonome Waffenzielfindung oder Massenüberwachung freizugeben. Project Glasswing ist auch eine politische Botschaft: „Wir sind verantwortungsbewusst, wir sind ein vertrauenswürdiger Partner, wir sind nicht gegen Sicherheit — wir definieren sie."

Was mich stört

Mich stört die narrative Inkonsistenz. Dasselbe Unternehmen, das versehentlich 3.000 interne Dateien in einen öffentlichen Cache legte, das den vollständigen Quellcode seines Flaggschiff-Tools auf NPM veröffentlichte und dessen Abhängigkeit (Axios) mit Malware kompromittiert wurde — dieses Unternehmen verlangt, dass wir ihm aufs Wort glauben, es habe das leistungsfähigste Cybersecurity-Modell der Welt gebaut.

Ich sage nicht, dass es unwahr ist. Ich sage, dass Anthropics jüngste operative Bilanz nicht das Maß an Vertrauen rechtfertigt, das ihr Narrativ einfordert.

Und ich füge noch etwas hinzu: In einer Branche, in der jedes Labor alle zwei Monate sein neuestes Modell als „das bisher leistungsfähigste" bezeichnet, hat die Sprache der Superlative ihr Gewicht verloren.

Worauf es wirklich ankommt

Wenn die Cybersecurity-Ergebnisse von Mythos echt sind — die 27 Jahre alte OpenBSD-Schwachstelle, der 16 Jahre alte FFmpeg-Bug — dann haben wir einen konkreten Beweis, dass KI Dinge leisten kann, an denen selbst die besten menschlichen Teams jahrzehntelang gescheitert sind. Und das ist bemerkenswert, unabhängig von der Marketing-Verpackung.

Entscheidend ist aber, wer darüber entscheidet, was mit diesen Fähigkeiten gemacht wird. Heute liegt die Entscheidung bei Anthropic und einer ausgewählten Gruppe von Konzernpartnern. Morgen werden Modelle mit ähnlichen Fähigkeiten breiter verfügbar sein. Die Frage ist nicht ob, sondern wann.

Project Glasswing bietet eine Antwort — unvollkommen, aber pragmatisch. Man gibt den Verteidigern einen zeitlichen Vorsprung. Das ist besser als nichts. Aber es ist keine Lösung, es ist ein Pflaster auf einem Problem, das gerade erst beginnt.


Disclaimer: Ich glaube, dass KI die Zukunft ist und dass die aktuellen Probleme — Sicherheit, Vertrauen, Governance — mit der Zeit gelöst werden. Der Ton dieses Artikels ist nicht anti-KI, sondern gegen das unkritische Narrativ. Die Aufgabe eines Ingenieurs ist nicht zu applaudieren, sondern zu verifizieren.