OpenAI lancia l'hub delle valutazioni di sicurezza per maggior trasparenza su allucinazioni e contenuti dannosi

L'azienda guidata da Sam Altman ha lanciato una nuova piattaforma per condividere pubblicamente i risultati delle valutazioni di sicurezza dei suoi modelli, compiendo un primo passo verso la trasparenza dei modelli linguistici

di Andrea Bai pubblicata il 15 Maggio 2025, alle 12:47 nel canale Web
OpenAI

OpenAI ha inaugurato il Safety Evaluations Hub, una pagina web dedicata che mostra le prestazioni dei suoi modelli in vari test relativi alla generazione di contenuti dannosi, ai tentativi di jailbreak e alle allucinazioni. La società ha indicato che utilizzerà questo hub per condividere dati su base "continuativa" e prevede di aggiornare le informazioni con "aggiornamenti significativi dei modelli" in futuro.

"Alla luce della scienza in evoluzione dietro la valutazione dell'AI, ci impegniamo a comunicare i nostri progressi nello sviluppo di metodi più scalabili per valutare le capacità e la sicurezza dei modelli. Condividendo una parte dei nostri risultati di valutazione della sicurezza qui, speriamo di facilitare una migliore comprensione delle prestazioni di sicurezza di OpenAI nel tempo, sostenendo anche le iniziative della comunità per migliorare la trasparenza in tutto il settore" ha dichiarato OpenAI in un post sul blog, precisando inoltre che con il passare del tempo potrebbero essere aggiunti ulteriori tipi di valutazioni nell'hub.

Introducing the Safety Evaluations Hub—a resource to explore safety results for our models.

While system cards share safety metrics at launch, the Hub will be updated periodically as part of our efforts to communicate proactively about safety.https://t.co/c8NgmXlC2Y
— OpenAI (@OpenAI) May 14, 2025

La misura sembra rappresentare una risposta alle critiche sollevate nelle ultime settimane da alcuni esperti di etica per aver presumibilmente accelerato le valutazioni di sicurezza di determinati modelli chiave e per non aver fornito documentazione tecnica per altri. In questo contesto, anche Sam Altman è stato accusato di aver fornito informazioni fuorvianti ai dirigenti della società circa le valutazioni di sicurezza dei modelli prima della sua rimozione nel novembre del 2023.

Caratteristiche principali dell'hub

L'hub per le valutazioni di sicurezza è concepito per andare oltre le "system cards" di OpenAI, che delineano solo le misure di sicurezza di un modello al momento del lancio, mentre l'hub dovrebbe fornire aggiornamenti continuativi.

L'hub contiene varie metriche di sicurezza, ad esempio la propensione di un modello a generare contenuti che potrebbero essere considerati offensivi, discriminatori o comunque dannosi. Come accennato in precedenza, saranno rese disponibili anche le metriche sui tentativi di jailbreak, per valutare la vulnerabilità del modello a prompt progettati per aggirare i filtri di sicurezza e ottenere risposte non autorizzate. Ovviamente non possono mancare dati relativi alle allucinazioni, che evidenzieranno la frequenza e la gravità dei casi in cui il modello genera informazioni fattuali errate o inventate.

Chiunque può esaminare ciascuna delle sezioni dell'hub e visualizzare informazioni sui modelli pertinenti, come GPT-4.1 fino a 4.5. OpenAI precisa comuqnue che le informazioni fornite in questo hub sono solo una "istantanea" e che per una comprensione più completa del comportamento di un modello è opportuno tenere in considerazione non solo le metriche dell'hub, ma ance le già citate system cards e la documentazione tecnica di supporto.

Trasparenza, è solo un primo passo

L'iniziativa rappresenta un passo avanti verso una maggiore trasparenza nel campo dell'IA, ma solleva anche importanti questioni sulla necessità di standard di settore più rigorosi e di una supervisione indipendente. Il principale limite dell'hub per le valutazioni è che queste sono condotte da OpenAI stessa, la quale sceglie ovviamente anche quali informazioni condividere. Se da un lato la divulgazione di valutazioni di sicurezza consente a ricercatori esterni, decisori politici e pubblico comune di esaminare e comprendere il comportamento dei modelli di IA, la selezione unilaterale delle informazioni da condividere potrebbe non configurare una trasparenza effettiva.

La formulazione di standard rigorosi e valutazioni indipendenti permetterano di raggiungere una maggior capacità di sviluppo sicuro e responsabile a beneficio della società. L'iniziativa di OpenAI potrebbe comunque rappresentare un precedente a cui altre realtà IA si ispireranno, contribuendo a stabilire nuovi contesti e standard "de facto" di trasparenza e sviluppo responsabile.

I migliori sconti su Amazon oggi

-13%

Apple iPhone 16 Pro 128 GB: Telefono 5G con Controllo fotocamera, Dolby Vision 4K a 120 fps e un’autonomia senza precedenti. Compatibile con AirPods; Titanio nero

1239.00 1079.00€ Compra ora

-38%

LG OLED evo 55'', Serie G4 2024, OLED55G45LW, Smart TV 4K, Design One Wall, Processore

2399.00 1499.00€ Compra ora

-50%

Ring videocamera esterna Pro a batteria (Stick Up Cam Pro) | Telecamera di sorveglianza senza fili, video HDR, vista dall’alto, rilev. movimento 3D, fai-da-te | Ring Home: 30 gg. prova gratuita

179.99 89.99€ Compra ora

Veterano di guerra di 98 anni schiaccia una Tesla Model 3 targata "fascism" con un carro armato

Superman: il nuovo trailer a oltre 10 milioni di visualizzazioni in meno di 24 ore

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

NVIDIA GeForce RTX 5060: le schede video di ogni partner dal Computex

MSI Maestro 9000 al Computex 2025: un case che stupisce

Phanteks al Computex 2025

Corsair al Computex 2025

Dalle radio a transistor ai Micro LED: il viaggio di Hisense da Qingdao al mondo intero Una delle realtà a maggiore crescita nel mondo dell'elettronica di consumo, Hisense Group, affonda le sue radici nella storica città portuale di Qingdao, famosa...

realme GT7: un "flaghsip killer" concreto! La recensione Abbiamo provato l'ultimo smartphone di realme, il nuovo GT7. Si tratta di un device che si colloca in una fascia di mercato delicata, ovvero quella che possiamo...

Mario Kart World lancia Switch 2: la magia Nintendo ora in 4K Abbiamo provato esaustivamente due dei titoli di lancio della nuova console di Nintendo, il cui debutto è previsto per la settimana in corso. Mario Kart World e...

DJI Osmo Mobile 7P: ti segue anche con la fotocamera nativa dello smartphone! Grande novità per il nuovo gimbal DJI Osmo Mobile 7P: grazie al modulo multifunzione incluso, dotato di telecamera, ora l'inseguimento del soggetto è possibile anche...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

La rivoluzione dei dati in tempo reale è in arrivo. Un assaggio a Confluent Current 2025 Siamo andati a Londra per partecipare a Current 2025, la conferenza annuale di Confluent. Il tema al centro dell'evento era l'elaborazione dei dati in tempo reale...

Idrogeno verde in Europa: nuovi studi prevedono costi ben superiori alle aspettative Siamo tutti d'accordo: una eventuale diffusione massiccia di idrogeno verde, prodotto esclusivamente da fonti rinnovabili, risolverebbe tanti problemi. Ma siamo...

Fujifilm X100VI: con le 'ricette' è la fotocamera più divertente del momento Fujifilm X100VI è la fotocamera perfetta per divertirsi con la street photography: è tascabile, offre grande qualità, ma soprattutto permette di giocare molto con...

No Rss