OpenAI lancia l'hub delle valutazioni di sicurezza per maggior trasparenza su allucinazioni e contenuti dannosi
L'azienda guidata da Sam Altman ha lanciato una nuova piattaforma per condividere pubblicamente i risultati delle valutazioni di sicurezza dei suoi modelli, compiendo un primo passo verso la trasparenza dei modelli linguistici
di Andrea Bai pubblicata il 15 Maggio 2025, alle 12:47 nel canale WebOpenAI
OpenAI ha inaugurato il Safety Evaluations Hub, una pagina web dedicata che mostra le prestazioni dei suoi modelli in vari test relativi alla generazione di contenuti dannosi, ai tentativi di jailbreak e alle allucinazioni. La società ha indicato che utilizzerà questo hub per condividere dati su base "continuativa" e prevede di aggiornare le informazioni con "aggiornamenti significativi dei modelli" in futuro.
"Alla luce della scienza in evoluzione dietro la valutazione dell'AI, ci impegniamo a comunicare i nostri progressi nello sviluppo di metodi più scalabili per valutare le capacità e la sicurezza dei modelli. Condividendo una parte dei nostri risultati di valutazione della sicurezza qui, speriamo di facilitare una migliore comprensione delle prestazioni di sicurezza di OpenAI nel tempo, sostenendo anche le iniziative della comunità per migliorare la trasparenza in tutto il settore" ha dichiarato OpenAI in un post sul blog, precisando inoltre che con il passare del tempo potrebbero essere aggiunti ulteriori tipi di valutazioni nell'hub.
Introducing the Safety Evaluations Hub—a resource to explore safety results for our models.
— OpenAI (@OpenAI) May 14, 2025
While system cards share safety metrics at launch, the Hub will be updated periodically as part of our efforts to communicate proactively about safety.https://t.co/c8NgmXlC2Y
La misura sembra rappresentare una risposta alle critiche sollevate nelle ultime settimane da alcuni esperti di etica per aver presumibilmente accelerato le valutazioni di sicurezza di determinati modelli chiave e per non aver fornito documentazione tecnica per altri. In questo contesto, anche Sam Altman è stato accusato di aver fornito informazioni fuorvianti ai dirigenti della società circa le valutazioni di sicurezza dei modelli prima della sua rimozione nel novembre del 2023.
Caratteristiche principali dell'hub
L'hub per le valutazioni di sicurezza è concepito per andare oltre le "system cards" di OpenAI, che delineano solo le misure di sicurezza di un modello al momento del lancio, mentre l'hub dovrebbe fornire aggiornamenti continuativi.
L'hub contiene varie metriche di sicurezza, ad esempio la propensione di un modello a generare contenuti che potrebbero essere considerati offensivi, discriminatori o comunque dannosi. Come accennato in precedenza, saranno rese disponibili anche le metriche sui tentativi di jailbreak, per valutare la vulnerabilità del modello a prompt progettati per aggirare i filtri di sicurezza e ottenere risposte non autorizzate. Ovviamente non possono mancare dati relativi alle allucinazioni, che evidenzieranno la frequenza e la gravità dei casi in cui il modello genera informazioni fattuali errate o inventate.

Chiunque può esaminare ciascuna delle sezioni dell'hub e visualizzare informazioni sui modelli pertinenti, come GPT-4.1 fino a 4.5. OpenAI precisa comuqnue che le informazioni fornite in questo hub sono solo una "istantanea" e che per una comprensione più completa del comportamento di un modello è opportuno tenere in considerazione non solo le metriche dell'hub, ma ance le già citate system cards e la documentazione tecnica di supporto.
Trasparenza, è solo un primo passo
L'iniziativa rappresenta un passo avanti verso una maggiore trasparenza nel campo dell'IA, ma solleva anche importanti questioni sulla necessità di standard di settore più rigorosi e di una supervisione indipendente. Il principale limite dell'hub per le valutazioni è che queste sono condotte da OpenAI stessa, la quale sceglie ovviamente anche quali informazioni condividere. Se da un lato la divulgazione di valutazioni di sicurezza consente a ricercatori esterni, decisori politici e pubblico comune di esaminare e comprendere il comportamento dei modelli di IA, la selezione unilaterale delle informazioni da condividere potrebbe non configurare una trasparenza effettiva.
La formulazione di standard rigorosi e valutazioni indipendenti permetterano di raggiungere una maggior capacità di sviluppo sicuro e responsabile a beneficio della società. L'iniziativa di OpenAI potrebbe comunque rappresentare un precedente a cui altre realtà IA si ispireranno, contribuendo a stabilire nuovi contesti e standard "de facto" di trasparenza e sviluppo responsabile.










HONOR Magic 8 Pro: ecco il primo TOP del 2026! La recensione
Insta360 Link 2 Pro e 2C Pro: le webcam 4K che ti seguono, anche con gimbal integrata
Motorola edge 70: lo smartphone ultrasottile che non rinuncia a batteria e concretezza
SiFive adotta NVLink Fusion: RISC-V si integra con le GPU NVIDIA nei datacenter AI
Amazon ha annunciato la fine di New World: Aeternum, un anno per chiudere un ciclo
Umidità addio: deumidificatori elettrici in offerta su Amazon da 31€ a 119€
Konami festeggia 950 milioni di download: George Best, Schmeichel e Robson tornano in campo su eFootball
Modelli gen AI sul tuo Raspberry Pi? Con AI HAT+ 2 adesso è possibile (ma con qualche limite)
Il CEO di Nothing, Carl Pei, avverte: i prossimi smartphone costeranno di più... o saranno peggiori
Serie A, richieste di risarcimento agli utenti dello streaming illegale: 1000 euro di indenizzo
Ferrari e Shell fanno una scelta che nessuno ha avuto il coraggio di provare
Fanatec svela Podium DD: 25 Nm di coppia costante a 1100 euro
I modelli AI cinesi sono ormai a pochi mesi dall'Occidente: l'allarme del boss di DeepMind
Netflix diventa la casa globale dei film Sony, incluso il live action di The Legend of Zelda
Monitor gaming in forte sconto su Amazon: OLED Samsung, AOC 180Hz e modelli Full HD a prezzi mini
500 miliardi di dollari e meno dazi: l'accordo sui chip tra USA e Taiwan
Da Detroit scopriamo le livree di Red Bull e Racing Bulls: nuovi colori e logo Ford









0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".