Claude Opus 4.7 - Anthropics mest autonome model til dato

Anthropic udgiver i dag Claude Opus 4.7, en hybrid reasoning-model med et kontekstvindue på en million tokens og et maksimalt output på 128.000 tokens. Modellen er tilgængelig via Claude.ai, API, Amazon Bedrock, Google Cloud Vertex AI og Microsoft Foundry. Prisen er uændret fra Opus 4.6: 5 dollar per million input-tokens og 25 dollar per million output-tokens.

Det bemærkelsesværdige ved denne udgivelse er ikke bare de forbedrede benchmarks. Det er den retning Anthropic bevæger sig i: modellen får flere redskaber til at styre sit eget arbejde og færre knapper udvikleren kan skrue på.

Hvad er nyt

Opus 4.7 forbedrer sig 13% på Anthropics interne 93-task kodnings-benchmark i forhold til Opus 4.6 og løser fire opgaver, som hverken Opus 4.6 eller Sonnet 4.6 kunne klare. På komplekse, flertrinskopgaver med brug af værktøjer er forbedringen 14%, og modellen laver en tredjedel færre fejl i værktøjskald.

Benchmark-sammenligning mellem Claude Opus 4.7 og Opus 4.6 på kodning, agentiske opgaver, visuel skarphed og billedopløsning

Vision er det område med den største forbedring. Modellen kan nu behandle billeder op til 2.576 pixels på den lange side, svarende til cirka 3,75 megapixels, over tre gange mere end forgængeren. På visuelle skarphedstests scorer Opus 4.7 98,5% mod 54,5% for den tidligere model. Pixelkoordinater mappes nu 1:1, hvilket betyder at modellen kan pege præcist på elementer i et billede.

To nye funktioner skiller sig ud:

Adaptive thinking erstatter de manuelle thinking-budgets fra Opus 4.6. Modellen justerer selv, hvor dybt den ræsonnerer, baseret på opgavens kompleksitet. Extended thinking-budgets er helt fjernet. Adaptive thinking er slået fra som standard og skal aktiveres eksplicit.
Task budgets (beta) giver udviklere mulighed for at sætte et vejledende token-budget for en hel agentisk arbejdsgang. Modellen ser en nedtælling, prioriterer selv sine opgaver og afslutter arbejdet pænt inden for rammen. Det er ikke et hårdt loft men en anbefaling, og minimumsværdien er 20.000 tokens.

Derudover introducerer Anthropic et nyt effort-niveau kaldet xhigh, som ligger mellem high og max. For mange opgaver præsterer Opus 4.7 på lavt effort-niveau omtrent på niveau med Opus 4.6 på medium effort, hvilket gør modellen mere omkostningseffektiv ved daglig brug.

Breaking changes

Opus 4.7 indeholder flere brud med tidligere versioner, som kræver opmærksomhed fra udviklere.

Sampling-parametrene temperature, top_p og top_k er fjernet. Forsøg på at sende ikke-standardværdier returnerer en 400-fejl. Det samme gælder extended thinking-budgets, som er erstattet af adaptive thinking.

En ny tokenizer betyder, at den samme tekst nu kan blive tokeniseret til mellem 1x og 1,35x flere tokens. Det påvirker ikke prisen per token, men det kan betyde op til 35% flere tokens for det samme input, og dermed en tilsvarende stigning i den samlede pris for et API-kald.

Thinking-indhold, det interne ræsonnement modellen udfører, er nu skjult fra API-svaret som standard. Udviklere der ønsker indsigt i modellens tankegang skal eksplicit tilmelde sig med parameteren display: "summarized".

Sikkerhed og alignment

Anthropic beskriver sikkerhedsprofilen som sammenlignelig med Opus 4.6. Modellen har bevidst reducerede cybersikkerhedsevner sammenlignet med Claude Mythos Preview, den model Anthropic valgte ikke at udgive tidligere på måneden.

Automatiske sikkerhedsmekanismer blokerer højrisiko-cybersikkerhedsforespørgsler - en direkte konsekvens af det cybersikkerhedsarbejde Anthropic har gang i med Project Glasswing. Legitime sikkerhedsforskere kan ansøge om adgang via et nyt Cyber Verification Program. Rapporterede forekomster af bekymrende modeladfærd er lave.

Det er værd at bemærke konteksten. Opus 4.7 kommer mindre end to uger efter Mythos system card'et, der dokumenterede en model der var for kapabel til at udgive. At Opus 4.7 lander med bevidst begrænsede cybersikkerhedsevner er et signal om, at Anthropic aktivt styrer balancen mellem kapabilitet og risiko.

Hvad det betyder for danske virksomheder

Opus 4.7 er relevant for virksomheder der allerede bruger AI til kodning, dokumentarbejde og agentiske workflows - altså automatiserede arbejdsgange hvor modellen selv vælger og bruger værktøjer i flere trin.

Task budgets giver for første gang en mekanisme til at styre omkostninger på lange, autonome operationer. I stedet for at sætte hårde grænser der afbryder arbejdet midt i en opgave, kan man give modellen et budget og lade den selv prioritere. Det er et skridt mod AI-systemer der fungerer mere som medarbejdere med et timetal end som funktioner der kører til de er færdige.

Vision-forbedringerne åbner konkrete muligheder inden for dokumentanalyse og kvalitetskontrol. En model der kan behandle 3,75 megapixels med præcis pixelmapning kan læse tekniske tegninger, inspektionsfotos og tætte regneark på en måde, der ikke var praktisk mulig med forgængeren.

Breaking changes kræver handling. Virksomheder med eksisterende API-integrationer skal opdatere kode der bruger sampling-parametre eller extended thinking-budgets, og de skal teste om den nye tokenizer ændrer omkostningsbilledet mærkbart. For en typisk dansk virksomhed med moderat API-forbrug kan tokenizer-ændringen betyde en stigning på op til 35% i token-omkostninger for det samme arbejde, selvom prisen per token er uændret.

Den samlede vurdering er, at Opus 4.7 gør det billigere at få god kvalitet ved daglige opgaver og dyrere at presse maksimal kvalitet ud af komplekse opgaver. Det er en afvejning der passer bedre til drift end til eksperimentering.

Kilde: Anthropic