OpenAI e Anthropic si studiano a vicenda: analisi concordata sui rispettivi modelli AI

In un raro esperimento di cooperazione, OpenAI e Anthropic hanno pubblicato valutazioni incrociate sui rispettivi modelli: emergono segnali di robustezza nei modelli di ragionamento, criticità su uso improprio e compiacenza nei modelli general-purpose

di Andrea Bai pubblicata il 28 Agosto 2025, alle 16:33 nel canale Scienza e tecnologia
OpenAI Anthropic Claude ChatGPT

OpenAI e Anthropic hanno pubblicato in parallelo i risultati di una valutazione incrociata dei rispettivi modelli pubblici, evidenziando punti di forza e punti critici su allineamento, sicurezza e comportamenti indesiderati. Si tratta dell'esito di una iniziativa che le due società hanno concordato nel corso delle passate settimane per sottoporre ciascuna i propri sistemi pubblici a una batteria di test di allineamento realizzati “in casa” dalla rispettiva concorrente, con la pubblicazione coordinata ma separata di quanto rilevato, con le rispettive evidenze e metodologie di prova.

Le analisi di Anthropic sui modelli GPT

Anthropic ha valutato i modelli OpenAI sugli aspetti di compiacenza, whistleblowing, autoconservazione, supporto ad abusi umani e capacità di aggirare valutazioni/oversight di sicurezza, con risultati differenziati per famiglie modello e casi d’uso. In questo quadro, i modelli di ragionamento o3 e o4-mini sono stati giudicati allineati quanto o meglio dei modelli Anthropic, mentre sui general-purpose GPT‑4o e GPT‑4.1 sono emerse preoccupazioni soprattutto per la disponibilità a cooperare con richieste di uso improprio in ambienti simulati. Con l’eccezione di o3, la compiacenza si è manifestata in grado variabile su tutti i modelli analizzati, inclusi quelli di entrambe le aziende, segnalando un vettore di rischio trasversale da gestire nei futuri cicli di addestramento e valutazione.

La lente di ingrandimento di Anthropic non si è posata su GPT‑5, non ancora disponibile nel periodo di prova; OpenAI sostiene che il nuovo modello introduca “Safe Completions” per mitigare interazioni potenzialmente pericolose e rafforzare la protezione dell’utenza in query sensibili. Il tema delle salvaguardie è d’attualità anche per il caso che ha visto i genitori di un sedicenne californiano citare in giudizio l’azienda, sostenendo che ChatGPT avrebbe fornito informazioni su metodi di suicidio e avvalorato pensieri autodistruttivi in lunghe conversazioni antecedenti al decesso. Secondo un portavoce, OpenAI dichiara che esistono meccanismi di tutela e instradamento verso numeri di crisi, ma riconosce possibili degradazioni in scambi prolungati, impegnandosi a incrementare le protezioni nei sistemi attuali e futuri.

I test di OpenAI sui modelli Claude

OpenAI ha analizzato i modelli Claude su gerarchia delle istruzioni, jailbreaking, allucinazioni e comportamenti di “scheming”, con risultati che delineano punti di forza e debolezza specifici. In particolare, i Claude hanno performato bene sulla gerarchia delle istruzioni e hanno mostrato tassi elevati di rifiuto nelle prove sulle allucinazioni, cioè maggiore propensione a non rispondere quando l’incertezza può generare contenuti errati, pur con un quadro più articolato nelle prove di jailbreaking rispetto a o3 e o4‑mini. OpenAI evidenzia miglioramenti recenti anche dal proprio lato con GPT‑5 su compiacenza, allucinazioni e resistenza all'uso improprio e, benché questi risultati non rientrassero nel perimetro delle prove condotte da Anthropic prima del lancio.

Uno sforzo di cooperazione come quello mostrato da OpenAi e Anthropic è decisamente insolito e peculiare in un settore caratterizzato da una fortissima competizione, con tra l'altro proprio un episodio di frizione tra le due realtà avvenuto nelle scorse settimane quando Anthropic si è trovata a revocare l'accesso di OpenAI a Claude per presunte violazioni dei termini d’uso durante lo sviluppo di nuovi GPT

Sullo sfondo cresce la pressione regolatoria e sociale per linee guida stringenti a tutela degli utenti, in particolare dei minori, con richieste esplicite di responsabilità verso le big AI per eventuali fallimenti delle protezioni. I rapporti concludono che la scienza delle valutazioni di allineamento è giovane e imperfetta, e che servono metriche e protocolli più maturi per individuare e ridurre comportamenti indesiderati man mano che i modelli ottengono maggiori capacità nel mondo reale.

OpenAI e Antrhopic auspicano iterazioni più frequenti e coordinate di test, con una maggiore condivisione metodologica per ridurre i “punti ciechi” derivanti da attività di ricerca e sviluppo interna non pubblicata o pubblicata in ritardo, che ostacolano la comparabilità tra suite di valutazione. OpenAI indica che gli avanzamenti introdotti in GPT‑5 mirano proprio a chiudere gap emersi nei test precedenti, mentre Anthropic fa riferimento ai progressi su uso improprio e, in parte, su compiacenza nelle generazioni Claude più recenti rispetto a quelle valutate nel pilota. Resta una convergenza sulla necessità di stringere il legame tra valutazioni di allineamento e impieghi agentici con impatti reali, con gruppi di prove che riflettano più fedelmente i contesti d’uso e le possibili degradazioni nelle conversazioni prolungate.

I migliori sconti su Amazon oggi

-21%

TCL 43T6C 43'' QLED TV 4K HDR, Fire TV (Smart tv con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

329.00 259.00€ Compra ora

-21%

FRITZ!Repeater 600 Edition International, Ripetitore - Wi-Fi extender fino a 600 Mbit/s (2,4 GHz), Mesh, Access Point, Interfaccia in italiano

29.49€ Compra ora

-22%

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

449.00 349.00€ Compra ora

Il pieghevole HONOR Magic V5 è arrivato in Italia! Prezzi, sconti e disponibilità

BYD aggira i dazi UE esportando auto elettriche dalla Thailandia

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

ASUS ROG CROSSHAIR X870E GLACIAL

Nuova Opel Astra Electric, stile rinnovato

Sony Alpha 7 V, la nuova velocista

Lucid Gravity Touring, nuovo allestimento più equilibrato

Jeu de Paume

Rilasciati nuovi video e immagini della seconda missione del razzo spaziale Blue Origin New Glenn

PNY RTX 5080 Slim OC, sembra una Founders Edition ma non lo è La PNY GeForce RTX 5080 Slim OC si distingue nel panorama delle GPU di fascia alta per il design compatto a due slot, ispirato alla NVIDIA GeForce RTX 5080 Founders...

Recensione Nothing Phone 4(a): sempre iconico ma ora più concreto Nothing con il suo nuovo Phone 4(a) conferma la sua identità visiva puntando su una costruzione che nobilita il policarbonato. La trasparenza resta l'elemento cardine,...

Diablo II Resurrected: il nuovo DLC Reign of the Warlock Abbiamo provato per voi il nuovo DLC lanciato a sorpresa da Blizzard per Diablo II: Resurrected e quella che segue è una disamina dei nuovi contenuti che abbiamo...

DJI RS 5: stabilizzazione e tracking intelligente per ogni videomaker Analizziamo nel dettaglio DJI RS 5, l'ultimo arrivato della famiglia Ronin progettato per videomaker solisti e piccoli studi. Tra tracciamento intelligente migliorato...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Deep Tech Revolution: così Area Science Park apre i laboratori alle startup Siamo tornati nel parco tecnologico di Trieste per il kick-off del programma che mette a disposizione di cinque startup le infrastrutture di ricerca, dal sincrotrone...

Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite Abbiamo guidato per diversi giorni la Alpine A290, la prima elettrica del nuovo corso della marca. Non è solo una Renault 5 sotto steroidi, ha una sua identità e...

Ecovacs DEEBOT T90 PRO OMNI: ora il rullo di lavaggio è ampio DEEBOT T90 PRO OMNI abbina un sistema di aspirazione basato su tecnologia BLAST ad un rullo di lavaggio dei pavimenti dalla larghezza elevata, capace di trattare...