Claude Opus 4.8 übertrifft den Intelligenz-Index, doch Mythos dominiert das Hacking

Anthropic hat diese Woche sein neuestes Modell, Claude Opus 4.8, veröffentlicht, das bei einem Intelligenz-Benchmark einen knappen Vorsprung hat, aber hinter dem eingeschränkten Mythos-System des Unternehmens bei der Erstellung von Software-Exploits zurückbleibt.
Wichtige Punkte:
Claude Opus 4.8 übertrifft knapp den Artificial Analysis Intelligence Index mit 61,4, nur einen Hauch vor GPT-5.5 mit 60,2.
In den internen Tests von Anthropic erzeugte Mythos bei 70,8% der Ziele funktionierende Firefox-Exploits, im Vergleich zu 8,8% für Opus 4.8.
Mythos bleibt auf geprüfte Project Glasswing-Partner beschränkt, während Opus 4.8 zum gleichen Preis wie sein Vorgänger ausgeliefert wird.
Opus 4.8 Benchmark-Vorsprung
Die Firma hat diese Woche Opus 4.8 eingeführt und den Preis auf $5 pro Million Input-Token und $25 pro Million Output festgelegt, während der Kurs auf dem Niveau des vorherigen Opus 4.7 bleibt.
Unabhängige Tester berichten, dass das Modell jetzt den Artificial Analysis Intelligence Index mit 61,4 anführt, einem Aggregat aus zehn Bewertungen, knapp vor GPT-5.5 mit 60,2. Anthropic betrachtet das Upgrade eher als einen bescheidenen, inkrementellen Schritt und nicht als den generationsübergreifenden Sprung, den die Namensgebung suggerieren könnte.
Beim agentischen Codieren erzielt Opus 4.8 69,2% im SWE-bench Pro, einem Benchmark, der ein Modell auffordert, echte Bugs in großen Code-Repositories zu beheben, während GPT-5.5 58,6% erreicht.
Die beiden Systeme schneiden bei wissenschaftlichen Fragen auf Graduierten-Niveau fast gleich ab, beide landen nahe bei 94%, und Opus 4.8 führt knapp bei einer breiten Denkprüfung, bei der seine Vorgänger zurückgeblieben sind.
Mythos liegt bei der schwierigsten Ingenieursarbeit über beiden und erzielt 77,8% bei demselben Codierungsbenchmark und einen breiteren Vorsprung bei Aufgaben, die Code mit Screenshots mischen. Anthropic beschränkt Mythos auf eine geprüfte Gruppe von Partnern im Rahmen seines Project Glasswing-Programms, anstatt es offen zu verkaufen. Es verlangt $25 und $125 pro Million Token für die Vorschau, das Fünffache des Opus-Preises.
Außerdem lesen: Zcash kühlt nach einem Rückgang von 6%, während Monero im Rampenlicht steht.
Mythos Cyber Dominanz
Die größte Lücke zeigt sich in der offensiven Sicherheit.
Mit deaktivierten Sicherheitsvorkehrungen hat Mythos in Anthropics eigenen Bewertungen 70,8% der Firefox-Ziele erfolgreich ausgenutzt, während Opus 4.8 nur 8,8% erreichte.
Bei einem separaten Test, der aus Open-Source-Code entnommen wurde, konnte Opus 4.8 bei 61,5% der Ziele nicht punkten, mehr als doppelt so viel wie die 23,3% Verfehlungsquote von Mythos.
Ein öffentlicher Cross-Model-Test, der von Berkeley RDI durchgeführt wurde, hat jedes System mit seinem eigenen Codierungsagenten über 898 reale Schwachstellen gepaart, wobei Mythos 157 funktionierende Exploits im Vergleich zu GPT-5.5's 120 schrieb.
GPT-5.5 hatte immer noch einen Vorteil bei Kernel-Level-Exploits und führte Mythos mit 22 zu 12 in diesem engen Bereich. Das UK AI Security Institute platzierte es leicht vor Mythos bei Experten-Cyberaufgaben mit 71,4% zu 68,6%.
Anthropic stellte Mythos im April vor, nachdem das Modell Tausende zuvor unbekannter Schwachstellen in großen Betriebssystemen und jedem führenden Webbrowser gefunden hatte, wobei allein in Firefox Hunderte gemeldet wurden. Das Unternehmen hielt es dann von der öffentlichen Veröffentlichung zurück, da es befürchtete, dass die gleichen Fähigkeiten zum Schreiben von Exploits Angreifern ebenso nützen könnten wie den Verteidigern, denen es helfen sollte.
Weiterlesen: Strategie zieht $30M in Bitcoin zurück, kühlt Verkaufsängste