OpenAI e Anthropic si studiano a vicenda: analisi concordata sui rispettivi modelli AI

OpenAI e Anthropic si studiano a vicenda: analisi concordata sui rispettivi modelli AI

In un raro esperimento di cooperazione, OpenAI e Anthropic hanno pubblicato valutazioni incrociate sui rispettivi modelli: emergono segnali di robustezza nei modelli di ragionamento, criticità su uso improprio e compiacenza nei modelli general-purpose

di pubblicata il , alle 16:33 nel canale Scienza e tecnologia
OpenAIAnthropicClaudeChatGPT
 

OpenAI e Anthropic hanno pubblicato in parallelo i risultati di una valutazione incrociata dei rispettivi modelli pubblici, evidenziando punti di forza e punti critici su allineamento, sicurezza e comportamenti indesiderati. Si tratta dell'esito di una iniziativa che le due società hanno concordato nel corso delle passate settimane per sottoporre ciascuna i propri sistemi pubblici a una batteria di test di allineamento realizzati “in casa” dalla rispettiva concorrente, con la pubblicazione coordinata ma separata di quanto rilevato, con le rispettive evidenze e metodologie di prova.

Le analisi di Anthropic sui modelli GPT

Anthropic ha valutato i modelli OpenAI sugli aspetti di compiacenza, whistleblowing, autoconservazione, supporto ad abusi umani e capacità di aggirare valutazioni/oversight di sicurezza, con risultati differenziati per famiglie modello e casi d’uso. In questo quadro, i modelli di ragionamento o3 e o4-mini sono stati giudicati allineati quanto o meglio dei modelli Anthropic, mentre sui general-purpose GPT‑4o e GPT‑4.1 sono emerse preoccupazioni soprattutto per la disponibilità a cooperare con richieste di uso improprio in ambienti simulati. Con l’eccezione di o3, la compiacenza si è manifestata in grado variabile su tutti i modelli analizzati, inclusi quelli di entrambe le aziende, segnalando un vettore di rischio trasversale da gestire nei futuri cicli di addestramento e valutazione.

La lente di ingrandimento di Anthropic non si è posata su GPT‑5, non ancora disponibile nel periodo di prova; OpenAI sostiene che il nuovo modello introduca “Safe Completions” per mitigare interazioni potenzialmente pericolose e rafforzare la protezione dell’utenza in query sensibili. Il tema delle salvaguardie è d’attualità anche per il caso che ha visto i genitori di un sedicenne californiano citare in giudizio l’azienda, sostenendo che ChatGPT avrebbe fornito informazioni su metodi di suicidio e avvalorato pensieri autodistruttivi in lunghe conversazioni antecedenti al decesso. Secondo un portavoce, OpenAI dichiara che esistono meccanismi di tutela e instradamento verso numeri di crisi, ma riconosce possibili degradazioni in scambi prolungati, impegnandosi a incrementare le protezioni nei sistemi attuali e futuri.

I test di OpenAI sui modelli Claude

OpenAI ha analizzato i modelli Claude su gerarchia delle istruzioni, jailbreaking, allucinazioni e comportamenti di “scheming”, con risultati che delineano punti di forza e debolezza specifici. In particolare, i Claude hanno performato bene sulla gerarchia delle istruzioni e hanno mostrato tassi elevati di rifiuto nelle prove sulle allucinazioni, cioè maggiore propensione a non rispondere quando l’incertezza può generare contenuti errati, pur con un quadro più articolato nelle prove di jailbreaking rispetto a o3 e o4‑mini. OpenAI evidenzia miglioramenti recenti anche dal proprio lato con GPT‑5 su compiacenza, allucinazioni e resistenza all'uso improprio e, benché questi risultati non rientrassero nel perimetro delle prove condotte da Anthropic prima del lancio.

Uno sforzo di cooperazione come quello mostrato da OpenAi e Anthropic è decisamente insolito e peculiare in un settore caratterizzato da una fortissima competizione, con tra l'altro proprio un episodio di frizione tra le due realtà avvenuto nelle scorse settimane quando Anthropic si è trovata a revocare l'accesso di OpenAI a Claude per presunte violazioni dei termini d’uso durante lo sviluppo di nuovi GPT

Sullo sfondo cresce la pressione regolatoria e sociale per linee guida stringenti a tutela degli utenti, in particolare dei minori, con richieste esplicite di responsabilità verso le big AI per eventuali fallimenti delle protezioni. I rapporti concludono che la scienza delle valutazioni di allineamento è giovane e imperfetta, e che servono metriche e protocolli più maturi per individuare e ridurre comportamenti indesiderati man mano che i modelli ottengono maggiori capacità nel mondo reale.

OpenAI e Antrhopic auspicano iterazioni più frequenti e coordinate di test, con una maggiore condivisione metodologica per ridurre i “punti ciechi” derivanti da attività di ricerca e sviluppo interna non pubblicata o pubblicata in ritardo, che ostacolano la comparabilità tra suite di valutazione. OpenAI indica che gli avanzamenti introdotti in GPT‑5 mirano proprio a chiudere gap emersi nei test precedenti, mentre Anthropic fa riferimento ai progressi su uso improprio e, in parte, su compiacenza nelle generazioni Claude più recenti rispetto a quelle valutate nel pilota. Resta una convergenza sulla necessità di stringere il legame tra valutazioni di allineamento e impieghi agentici con impatti reali, con gruppi di prove che riflettano più fedelmente i contesti d’uso e le possibili degradazioni nelle conversazioni prolungate.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^