Anthropic alza l’asticella: Claude Opus 4.6 arriva con 1 milione di token di contesto
Anthropic ha annunciato Claude Opus 4.6, evoluzione del suo modello di punta, con significative prestazioni nell'esecuzione di compiti complessi come analisi finanziarie e gestione di codebase estese, mantenendo un profilo di sicurezza elevato
di Andrea Bai pubblicata il 06 Febbraio 2026, alle 08:53 nel canale WebAnthropicClaude
Anthropic ha annunciato Claude Opus 4.6, il nuovo modello che segna un miglioramento netto rispetto a Opus 4.5, soprattutto nella capacità di pianificare in modo più preciso, di portare avanti compiti agentici complessi e di lunga durata (cioè task che richiedono più passaggi, memoria dello stato e decisioni coerenti nel tempo) e di lavorare in modo affidabile su codebase molto grandi.
Una delle novità principali è l’introduzione, in beta, di una finestra di contesto da 1 milione di token: è la prima volta che questa capacità arriva nella linea Opus. In pratica, il modello può leggere e mantenere in memoria quantità enormi di informazioni senza perdere il filo. Questa stabilità su contesti estremamente estesi è supportata dai risultati nel benchmark MRCR v2, dove Opus 4.6 raggiunge il 76% di accuratezza anche a 1 milione di token, indicando una degradazione minima delle prestazioni.
Migliorano anche le capacità di code review e debugging, con il modello in grado di identificare autonomamente i propri errori. Nuove funzionalità API includono il context compaction per task lunghi, adaptive thinking per ragionare in modo contestuale e controlli di effort su quattro livelli per bilanciare intelligenza, velocità e costi.
Prestazioni nei benchmark
Opus 4.6 è riuscito a primeggiare in diversi test, stando a quanto dichiarato da Anthropic: raggiunge il punteggio più alto su Terminal-Bench 2.0 per coding agentico, supera tutti i concorrenti su Humanity’s Last Exam e GDPval-AA, dove eccelle di 144 Elo punti su GPT-5.2 e 190 sul predecessore. Su BrowseComp misura la ricerca online complessa, mentre su ARC AGI 2 segna il 68,8%, un balzo dell'83% rispetto a Opus 4.5.
In ambito enterprise, domina Finance Agent con il 60,7% e OSWorld per uso computerizzato al 72,7%. Test interni confermano anche un valido comportamento in compiti legati alla cybersecurity, con oltre 500 vulnerabilità zero-day scoperte in librerie open-source.
Integrazioni e disponibilità
Disponibile da oggi su claude.ai, API e piattaforme cloud come Amazon Bedrock e Microsoft Foundry, con prezzo invariato a 5/25 dollari per milione di token input/output. Nuove feature prodotto comprendono agent team in Claude Code per lavoro parallelo e integrazioni avanzate con Excel e PowerPoint in preview.
Anthropic afferma che il modello presenta un livello di sicurezza
pari o superiore a quello dei cosiddetti frontier model. I test
mostrano bassi tassi di comportamenti disallineati (cioè risposte che
deviano dagli obiettivi di sicurezza) e una riduzione delle over-refusals,
ovvero i rifiuti eccessivamente cauti anche quando la richiesta è
legittima.
Le valutazioni di sicurezza sono state ampie e sistematiche, includendo
aree come la deception (capacità di ingannare), la sycophancy (tendenza a
compiacere l’utente anche quando ha torto) e il misuse (uso improprio del
modello). A supporto, Anthropic ha integrato safeguard specifici per la
cybersecurity e strumenti di interpretability research, utili a osservare
e monitorare i comportamenti interni del modello, non solo gli output
finali.










Tastiera gaming MSI GK600 TKL: switch hot-swap, display LCD e tre modalità wireless
DJI Osmo Pocket 4: la gimbal camera tascabile cresce e ha nuovi controlli fisici
Sony INZONE H6 Air: il primo headset open-back di Sony per giocatori
Annunciata la tuta di volo di Vast che sarà utilizzata a bordo della stazione spaziale Haven-1
Vast presenta il nuovo Large Docking Adapter, pensato per le future stazioni spaziali commerciali
Una denuncia getta ombre sulle batterie miracolose di Donut Lab
DJI Avata 2 Fly Smart Combo a 526€: il drone FPV 4K con Goggles N3 e RC Motion 3 che trasforma in piloti professionisti
Alla guida della nuova auto elettrica cinese disegnata a Milano: GAC Aion UT
GeForce RTX 3060 12 GB a giugno di nuovo sugli scaffali? NVIDIA non commenta e non smentisce
Apple Music sarà sponsor ufficiale di Porsche nell'IMSA (con la livrea che ricorda la 935)
The Mandalorian & Grogu: trailer finale in italiano e prevendite aperte. Al cinema il 20 maggio
Fedeltà record: Apple blinda gli utenti, Android insegue
Volkswagen ID.3 Neo: fino a 630 km di autonomia, ricarica a 183 kW e ritorno dei tasti fisici
GPU-Z mette i dati personali a rischio? Non proprio, ma lo sviluppatore interviene
La PS6 potrebbe essere retrocompatibile con PS4 e PS5: un nuovo leak anticipa la scelta di Sony
Amazfit Cheetah 2 Pro arriva in Italia: uno smartwatch 'pro' per corridori esperti
Duolingo ammette l'errore dopo un anno: basta valutare i dipendenti sull'uso dell'AI









0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".