VaultGemma di Google è il primo LLM per un’IA più rispettosa della privacy

VaultGemma di Google è il primo LLM per un’IA più rispettosa della privacy

Un team di Google Research introduce VaultGemma, un modello open-weight basato su privacy differenziale per ridurre la memorizzazione di dati sensibili. Lo studio definisce nuove leggi di scalabilità per bilanciare precisione, risorse di calcolo e tutela della privacy e del copyright

di pubblicata il , alle 14:41 nel canale Scienza e tecnologia
Google
 

Le aziende che sviluppano modelli di intelligenza artificiale sempre più grandi si scontrano con un problema che già avevamo evidenziato tempo addietro, ovvero la scarsità di dati di qualità per l'addestramento. I modelli linguistici di grandi dimensioni passano al setaccio il web, raccogliendo tutto ciò che trovano, compresi contenuti sensibili o materiale coperto da diritto d'autore: esiste quindi il rischio che i modelli possano in maniera occasionale rigenerare parti del dataset su cui sono stati addestrati, producendo un risultato capace di violare la privacy degli utenti o i diritti d'autore.

Partendo da questo problema, Google Research ha provato a porre una possibile soluzione con la tecnica della "privacy differenziale", che si basa sull'introduzione di una quantità precisa e controllata di "rumore" nei dati di addestramento così da ridurre la probabilità di memorizzare e riprodurre pedissequamente informazioni personali o coperte da copyright.

C'è tuttavia un rovescio della medaglia, come può essere facilmente intuibile: l'introduzione di un rumore nei dati di addestramento, per quanto controllato, ne riduce l'accuratezza e aumenta le richieste in termini di potenza di calcolo. Il team di Google ha dimostrato, in maniera precisa per la prima volta nel campo dell'intelligenza artificiale, che le prestazioni di un LLM addestrato con privacy differenziale dipende in larga misura dal rapporto tra la quantità di rumore e la dimensione del dataset utilizzato per l'addestramento.

A partire da questi esperimenti e analisi, Google ha potuto identificare nuove leggi di scalabilità per i modelli, bilanciando tre fattori: la potenza di calcolo disponibile, la necessità di privacy e la quantità di dati. Un esempio della relazione tra questi fattori? Un incremento del rumore (quindi l'aumento della necessità di privacy) porta a output meno accurati, che però possono essere compensati aumentando la potenza di calcolo o usando dataset più grandi (o ambedue le cose).

Le ricerche di Google hanno portato alla realizzazione di VaultGemma, il primo LLM con privacy differenziale. VaultGemma è un modello open-weight, basato sulla serie Gemma 2 e dunque di una generazione precedente rispetto ai Gemma 3 più recenti. Con una dimensione di 1 miliardo di parametri, VaultGemma non è particolarmente esteso rispetto ai modelli generalisti di ultima generazione, ma secondo Google raggiunge prestazioni paragonabili a quelle di modelli non privati della stessa scala.

Questo progetto rappresenta ancora un esperimento, ma con la chiara direzione di integrare la privacy differenziale nell’architettura degli agenti intelligenti di Google. Inoltre, le leggi di scalabilità messe a punto aiuteranno altri sviluppatori a ottimizzare l’uso delle risorse, mostrando che la privacy differenziale è particolarmente adatta ai modelli di dimensioni contenute e con scopi specifici, piuttosto che ai sistemi di intelligenza artificiale più ampi e generici.

VaultGemma è disponibile per il download su Hugging Face e Kaggle. Come gli altri modelli della serie Gemma, è rilasciato con pesi aperti, ma non è realmente open source: per poterlo usare, modificare e distribuire è necessario accettare la licenza Gemma, che impone restrizioni in merito a utilizzi dannosi e richiede la condivisione della licenza con ogni versione derivata.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^