Claude Opus 4.7 – Was ist neu? Benchmarks & Migration

Die vier grossen Verbesserungen

1. Advanced Software Engineering – der wichtigste Fortschritt

Der grösste Sprung von Opus 4.7 liegt im Bereich Software-Engineering. Auf dem SWE-bench Pro-Benchmark – dem anspruchsvollsten Massstab für reale GitHub-Issues – erreicht Opus 4.7 64.3 Prozent, gegenüber 53.4 Prozent bei Opus 4.6. Das entspricht einer Verbesserung von fast 11 Prozentpunkten und platziert das Modell deutlich vor GPT-5.4 (57.7%) und Gemini 3.1 Pro (54.2%).

Auf dem SWE-bench Verified – einer breiteren Variante desselben Benchmarks – erreicht Opus 4.7 sogar 87.6 Prozent (Opus 4.6: 80.8%). Nur Mythos Preview liegt mit 93.9 Prozent noch darüber.

Was bedeutet das in der Praxis? Nutzer berichten, dass sie komplexe, lang laufende Aufgaben – die Art, die früher enge Aufsicht erforderte – nun mit Vertrauen an Opus 4.7 delegieren können. Das Modell folgt Anweisungen präziser, hält Konsistenz über lange Aufgaben hinweg und verifiziert seine eigenen Outputs, bevor es zurückmeldet.

2. Bessere Vision – höhere Auflösung, mehr Kontext

Opus 4.7 verarbeitet Bilder in deutlich höherer Auflösung als sein Vorgänger. Dies ist eine Änderung auf Modellebene – kein API-Parameter – und bedeutet, dass Bilder automatisch mit höherer Qualität verarbeitet werden. Der Nachteil: Höhere Auflösung verbraucht mehr Tokens. Nutzer, die keine erhöhte Bildqualität benötigen, können Bilder vor dem Senden downsamplen.

3. Kreativität und Qualität bei professionellen Aufgaben

Anthropic beschreibt Opus 4.7 als "tastvoller und kreativer" bei professionellen Aufgaben. Das Modell produziert bessere Interfaces, Slides und Dokumente. Für Wissensarbeiter – Berater, Analysten, Kommunikationsfachleute – ist dies ein spürbarer Unterschied im Alltag.

4. Sicherheitsprofil: Verbesserungen und Einschränkungen

Das Sicherheitsprofil von Opus 4.7 ist dem von Opus 4.6 ähnlich. Verbessert hat sich die Ehrlichkeit und der Widerstand gegen Prompt-Injection-Angriffe – ein wichtiger Punkt für Unternehmen, die das Modell in sicherheitskritischen Umgebungen einsetzen.

Benchmark-Übersicht

Benchmark	Opus 4.7	Opus 4.6	GPT-5.4	Gemini 3.1 Pro	Mythos Preview
Agentic Coding (SWE-bench Pro)	64.3%	53.4%	57.7%	54.2%	77.8%
Agentic Coding (SWE-bench Verified)	87.6%	80.8%	—	80.6%	93.9%
Agentic Terminal Coding (Terminal-Bench 2.0)	69.4%	65.4%	75.1%	68.5%	82.0%
Multidisciplinary Reasoning (HLE, no tools)	46.9%	40.0%	42.7%	44.4%	56.8%
Multidisciplinary Reasoning (HLE, with tools)	54.7%	53.3%	58.7%	51.4%	64.7%
Agentic Search (BrowseComp)	79.3%	83.7%	89.3%	85.9%	86.9%
Scaled Tool Use (MCP-Atlas)	77.3%	75.8%	68.1%	73.9%	—
Agentic Computer Use (OSWorld-Verified)	78.0%	72.7%	75.0%	—	79.6%
Agentic Financial Analysis (Finance Agent v1.1)	64.4%	60.1%	61.5%	59.7%	—

Besonders auffällig: Bei Agentic Search (BrowseComp) liegt Opus 4.7 mit 79.3% hinter Opus 4.6 (83.7%) – der einzige Bereich, in dem eine Regression gegenüber dem Vorgänger zu beobachten ist.

Neue Features im Detail

xhigh Effort Level

Opus 4.7 führt ein neues Effort-Level xhigh ein – zwischen high und max. Damit erhalten Entwickler feinere Kontrolle über den Kompromiss zwischen Reasoning-Tiefe und Latenz. In Claude Code hat Anthropic den Standard-Effort-Level auf xhigh für alle Pläne angehoben.

Task Budgets (Public Beta)

Auf der Claude Platform (API) sind Task Budgets jetzt in Public Beta verfügbar. Entwickler können damit Claude's Token-Ausgaben steuern und Prioritäten für längere Runs setzen. Dies ist besonders relevant für Agentic Workflows, bei denen unkontrollierter Token-Verbrauch schnell teuer werden kann.

/ultrareview in Claude Code

Der neue /ultrareview-Slash-Command in Claude Code produziert eine dedizierte Review-Session: Das Modell liest alle Änderungen durch und markiert Bugs sowie Design-Probleme, die ein sorgfältiger Reviewer erkennen würde. Pro- und Max-Nutzer erhalten drei kostenlose Ultrareviews zum Testen.

Auto Mode für Max-Nutzer

Auto Mode ist eine neue Permissions-Option in Claude Code, bei der Claude Entscheidungen selbstständig trifft. Damit lassen sich längere Tasks mit weniger Unterbrechungen ausführen. Mit Opus 4.7 wird Auto Mode auf alle Max-Nutzer ausgeweitet.

Preise und API-Details

Die Preise bleiben unverändert gegenüber Opus 4.6:

Parameter	Wert
Modell-ID	`claude-opus-4-7-20260416`
Kontextfenster	1'000'000 Tokens
Max. Output	128'000 Tokens
Input-Preis	$5 / 1M Tokens
Output-Preis	$25 / 1M Tokens
Cache Read	$0.50 / 1M Tokens
Cache Write	$6.25 / 1M Tokens

Verfügbar über: Anthropic API, Amazon Bedrock, Google Cloud Vertex AI, Microsoft Foundry, Claude.ai, Claude Code.

Migration von Opus 4.6 zu Opus 4.7

Zwei Änderungen sind bei der Migration besonders relevant, da sie den Token-Verbrauch beeinflussen:

Neuer Tokenizer: Opus 4.7 verwendet einen aktualisierten Tokenizer. Derselbe Input kann mehr Tokens erzeugen – je nach Content-Typ etwa 1.0 bis 1.35 Mal so viele. Für Anwendungen mit fixen Token-Budgets ist eine Messung auf realem Traffic empfehlenswert.

Mehr Reasoning bei höheren Effort-Levels: Opus 4.7 denkt mehr nach – besonders bei späteren Turns in Agentic Settings. Das verbessert die Zuverlässigkeit bei schwierigen Aufgaben, bedeutet aber auch mehr Output-Tokens. In Anthropics internem Coding-Benchmark ist der Netto-Effekt positiv: Bei gleichem Token-Budget erzielt Opus 4.7 bessere Ergebnisse als Opus 4.6.

Was bedeutet das für Schweizer Unternehmen?

Für Schweizer Entwicklungsteams, die unter revDSG- oder FINMA-Anforderungen arbeiten, ergeben sich folgende Konsequenzen:

Datenschutz: Opus 4.7 ist über Amazon Bedrock in der Region eu-west-1 (Irland) verfügbar. Für Unternehmen mit strikten Datenlokalisierungsanforderungen bleibt die Frage, ob eine Schweizer Region in Planung ist. Alternativ bietet DeepSeek V3.2 weiterhin die Möglichkeit des vollständig lokalen Betriebs.

Kosten-Nutzen-Abwägung: Bei $5 pro Million Input-Tokens und $25 pro Million Output-Tokens ist Opus 4.7 kein Budget-Modell. Für Anwendungsfälle, die keine maximale Coding-Stärke erfordern, bleibt Sonnet 4.6 die kosteneffizientere Wahl. Für komplexe, autonome Entwicklungsaufgaben – Legacy-Code-Modernisierung, mehrstufiges Debugging, End-to-End-Projektorchestrierung – ist Opus 4.7 jedoch eine klare Empfehlung.

Sicherheitsrelevanz: Der verbesserte Widerstand gegen Prompt-Injection-Angriffe ist für Unternehmen relevant, die das Modell in Produktionssystemen einsetzen, die mit externen Inputs interagieren – etwa Kundenservice-Bots oder automatisierte Datenverarbeitungspipelines.

Einordnung: Wo steht Opus 4.7 im Gesamtbild?

Opus 4.7 ist kein revolutionäres Modell – es ist ein solides, gezieltes Upgrade. Die grössten Fortschritte liegen im Bereich, der für Entwickler am relevantesten ist: reale Software-Engineering-Aufgaben. Der Abstand zu Mythos Preview bleibt bestehen, aber Opus 4.7 schliesst die Lücke zu GPT-5.4 und Gemini 3.1 Pro auf den meisten Benchmarks.

Bemerkenswert ist, dass Anthropic die Preise trotz deutlicher Verbesserungen unverändert lässt – ein Zeichen, dass der Wettbewerbsdruck im Markt für Frontier-Modelle weiter zunimmt.

Fazit

Claude Opus 4.7 liefert, was Anthropic versprochen hat: ein besseres Modell für die härtesten Coding-Aufgaben, feinere Effort-Kontrolle und neue Produktivitätsfeatures in Claude Code. Die Migration von Opus 4.6 ist unkompliziert, erfordert aber eine Überprüfung des Token-Verbrauchs. Für Schweizer Entwicklungsteams, die auf Anthropics Ökosystem setzen, ist das Upgrade klar empfehlenswert.

Quellen

[1] Anthropic: "Introducing Claude Opus 4.7" – https://www.anthropic.com/news/claude-opus-4-7 [2] OpenRouter: "Claude Opus 4.7 – API Pricing & Providers" – https://openrouter.ai/anthropic/claude-opus-4.7 [3] Vellum AI: "Claude Opus 4.7 Benchmarks Explained" – https://www.vellum.ai/blog/claude-opus-4-7-benchmarks-explained [4] CodeRabbit: "What Claude Opus 4.7 means for AI code review" – https://www.coderabbit.ai/blog/claude-opus-4-7-for-ai-code-review [5] Finout: "Claude Opus 4.7 Pricing: The Real Cost Story" – https://www.finout.io/blog/claude-opus-4.7-pricing-the-real-cost-story-behind-the-unchanged-price-tag [6] Inc.: "Anthropic's New Claude Opus 4.7 Versus Gemini and GPT 5" – https://www.inc.com/amaya-nichole/anthropics-claude-opus-4-7-is-here-and-its-already-outperforming-gemini-3-1-pro-and-gpt-5/91332180 [7] GitHub Changelog: "Claude Opus 4.7 is generally available" – https://github.blog/changelog/2026-04-16-claude-opus-4-7-is-generally-available/

Claude Opus 4.7 – Was ist neu?