Anthropic alza l’asticella: Claude Opus 4.6 arriva con 1 milione di token di contesto

Anthropic alza l’asticella: Claude Opus 4.6 arriva con 1 milione di token di contesto

Anthropic ha annunciato Claude Opus 4.6, evoluzione del suo modello di punta, con significative prestazioni nell'esecuzione di compiti complessi come analisi finanziarie e gestione di codebase estese, mantenendo un profilo di sicurezza elevato

di pubblicata il , alle 08:53 nel canale Web
AnthropicClaude
 

Anthropic ha annunciato Claude Opus 4.6, il nuovo modello che segna un miglioramento netto rispetto a Opus 4.5, soprattutto nella capacità di pianificare in modo più preciso, di portare avanti compiti agentici complessi e di lunga durata (cioè task che richiedono più passaggi, memoria dello stato e decisioni coerenti nel tempo) e di lavorare in modo affidabile su codebase molto grandi.

Una delle novità principali è l’introduzione, in beta, di una finestra di contesto da 1 milione di token: è la prima volta che questa capacità arriva nella linea Opus. In pratica, il modello può leggere e mantenere in memoria quantità enormi di informazioni senza perdere il filo. Questa stabilità su contesti estremamente estesi è supportata dai risultati nel benchmark MRCR v2, dove Opus 4.6 raggiunge il 76% di accuratezza anche a 1 milione di token, indicando una degradazione minima delle prestazioni.

Migliorano anche le capacità di code review e debugging, con il modello in grado di identificare autonomamente i propri errori. Nuove funzionalità API includono il context compaction per task lunghi, adaptive thinking per ragionare in modo contestuale e controlli di effort su quattro livelli per bilanciare intelligenza, velocità e costi.

Prestazioni nei benchmark

Opus 4.6 è riuscito a primeggiare in diversi test, stando a quanto dichiarato da Anthropic: raggiunge il punteggio più alto su Terminal-Bench 2.0 per coding agentico, supera tutti i concorrenti su Humanity’s Last Exam e GDPval-AA, dove eccelle di 144 Elo punti su GPT-5.2 e 190 sul predecessore. Su BrowseComp misura la ricerca online complessa, mentre su ARC AGI 2 segna il 68,8%, un balzo dell'83% rispetto a Opus 4.5.

In ambito enterprise, domina Finance Agent con il 60,7% e OSWorld per uso computerizzato al 72,7%. Test interni confermano anche un valido comportamento in compiti legati alla cybersecurity, con oltre 500 vulnerabilità zero-day scoperte in librerie open-source.

Integrazioni e disponibilità

Disponibile da oggi su claude.ai, API e piattaforme cloud come Amazon Bedrock e Microsoft Foundry, con prezzo invariato a 5/25 dollari per milione di token input/output. Nuove feature prodotto comprendono agent team in Claude Code per lavoro parallelo e integrazioni avanzate con Excel e PowerPoint in preview.

Anthropic afferma che il modello presenta un livello di sicurezza pari o superiore a quello dei cosiddetti frontier model. I test mostrano bassi tassi di comportamenti disallineati (cioè risposte che deviano dagli obiettivi di sicurezza) e una riduzione delle over-refusals, ovvero i rifiuti eccessivamente cauti anche quando la richiesta è legittima.
Le valutazioni di sicurezza sono state ampie e sistematiche, includendo aree come la deception (capacità di ingannare), la sycophancy (tendenza a compiacere l’utente anche quando ha torto) e il misuse (uso improprio del modello). A supporto, Anthropic ha integrato safeguard specifici per la cybersecurity e strumenti di interpretability research, utili a osservare e monitorare i comportamenti interni del modello, non solo gli output finali.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^