OpenAI lancia l'hub delle valutazioni di sicurezza per maggior trasparenza su allucinazioni e contenuti dannosi

OpenAI lancia l'hub delle valutazioni di sicurezza per maggior trasparenza su allucinazioni e contenuti dannosi

L'azienda guidata da Sam Altman ha lanciato una nuova piattaforma per condividere pubblicamente i risultati delle valutazioni di sicurezza dei suoi modelli, compiendo un primo passo verso la trasparenza dei modelli linguistici

di pubblicata il , alle 12:47 nel canale Web
OpenAI
 

OpenAI ha inaugurato il Safety Evaluations Hub, una pagina web dedicata che mostra le prestazioni dei suoi modelli in vari test relativi alla generazione di contenuti dannosi, ai tentativi di jailbreak e alle allucinazioni. La società ha indicato che utilizzerà questo hub per condividere dati su base "continuativa" e prevede di aggiornare le informazioni con "aggiornamenti significativi dei modelli" in futuro.

"Alla luce della scienza in evoluzione dietro la valutazione dell'AI, ci impegniamo a comunicare i nostri progressi nello sviluppo di metodi più scalabili per valutare le capacità e la sicurezza dei modelli. Condividendo una parte dei nostri risultati di valutazione della sicurezza qui, speriamo di facilitare una migliore comprensione delle prestazioni di sicurezza di OpenAI nel tempo, sostenendo anche le iniziative della comunità per migliorare la trasparenza in tutto il settore" ha dichiarato OpenAI in un post sul blog, precisando inoltre che con il passare del tempo potrebbero essere aggiunti ulteriori tipi di valutazioni nell'hub.

La misura sembra rappresentare una risposta alle critiche sollevate nelle ultime settimane da alcuni esperti di etica per aver presumibilmente accelerato le valutazioni di sicurezza di determinati modelli chiave e per non aver fornito documentazione tecnica per altri. In questo contesto, anche Sam Altman è stato accusato di aver fornito informazioni fuorvianti ai dirigenti della società circa le valutazioni di sicurezza dei modelli prima della sua rimozione nel novembre del 2023.

Caratteristiche principali dell'hub

L'hub per le valutazioni di sicurezza è concepito per andare oltre le "system cards" di OpenAI, che delineano solo le misure di sicurezza di un modello al momento del lancio, mentre l'hub dovrebbe fornire aggiornamenti continuativi.

L'hub contiene varie metriche di sicurezza, ad esempio la propensione di un modello a generare contenuti che potrebbero essere considerati offensivi, discriminatori o comunque dannosi. Come accennato in precedenza, saranno rese disponibili anche le metriche sui tentativi di jailbreak, per valutare la vulnerabilità del modello a prompt progettati per aggirare i filtri di sicurezza e ottenere risposte non autorizzate. Ovviamente non possono mancare dati relativi alle allucinazioni, che evidenzieranno la frequenza e la gravità dei casi in cui il modello genera informazioni fattuali errate o inventate.

Chiunque può esaminare ciascuna delle sezioni dell'hub e visualizzare informazioni sui modelli pertinenti, come GPT-4.1 fino a 4.5. OpenAI precisa comuqnue che le informazioni fornite in questo hub sono solo una "istantanea" e che per una comprensione più completa del comportamento di un modello è opportuno tenere in considerazione non solo le metriche dell'hub, ma ance le già citate system cards e la documentazione tecnica di supporto.

Trasparenza, è solo un primo passo

L'iniziativa rappresenta un passo avanti verso una maggiore trasparenza nel campo dell'IA, ma solleva anche importanti questioni sulla necessità di standard di settore più rigorosi e di una supervisione indipendente. Il principale limite dell'hub per le valutazioni è che queste sono condotte da OpenAI stessa, la quale sceglie ovviamente anche quali informazioni condividere. Se da un lato la divulgazione di valutazioni di sicurezza consente a ricercatori esterni, decisori politici e pubblico comune di esaminare e comprendere il comportamento dei modelli di IA, la selezione unilaterale delle informazioni da condividere potrebbe non configurare una trasparenza effettiva.

La formulazione di standard rigorosi e valutazioni indipendenti permetterano di raggiungere una maggior capacità di sviluppo sicuro e responsabile a beneficio della società. L'iniziativa di OpenAI potrebbe comunque rappresentare un precedente a cui altre realtà IA si ispireranno, contribuendo a stabilire nuovi contesti e standard "de facto" di trasparenza e sviluppo responsabile.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^