L'Intelligenza Artificiale minaccia la sua stessa sopravvivenza? Il problema del cannibalismo digitale

Dati e informazioni generati dall'IA si mischiano con le informazioni autentiche presenti sul web e quando un modello LLM viene allenato con dati sintetici si avvita su sé stesso
di Andrea Bai pubblicata il 28 Agosto 2024, alle 17:21 nel canale Scienza e tecnologiaI contenuti generati dall'intelligenza artificiale stanno
aumentando in maniera inarrestabile sul web. Questo fenomeno, che si porta
dietro tutta una serie di implicazioni relative alla qualità,
autenticità, affidabilità e veridicità delle informazioni, che siano
testuali o visuali, potrebbe nascondere un risvolto ironico e
rappresentare una minaccia "esistenziale" per gli stessi sistemi
di IA generativa.
In pratica si sta configurando uno scenario in cui è l'IA a nutrire sé
stessa, in un processo che è già stato descritto in maniera
piuttosto evocativa dagli addetti ai lavori: Model Autophagy Disorder
(disordine di autofagia del modello, in sintesi: cannibalismo) oppure
"Intelligenza Artificiale Asburgica", in quest'ultimo caso il riferimento
alla casa d'Austria per via della nota pratica di matrimoni tra
consanguinei, con le note conseguenze di impoverimento del patrimonio
genetico.
E così come reiterate unioni tra consanguinei vanno a impoverire il patrimonio genetico della prole e a causare l'espressione di mutazioni recessive, allo stesso modo quando un modello IA si nutre dei suoi stessi output va a deteriorare progressivamente la qualità e la diversità dei contenuti generati. In altre parole è come se l'IA si nutrisse in maniera ciclica di copie sempre più sbiadite di sé stessa, perdendo progressivamente la capacità di produrre risultati originali e coerenti.

Lo scorso mese è stato pubblicato su Nature uno studio volto ad indagare questo fenomeno. Un gruppo di ricercatori ha usato un modello linguistico di grandi dimensioni (LLM) pre-addestrato, che ha poi calibrato con un set di dati HuggingFace composto da voci di Wikipedia. I ricercatori hanno quindi sottoposto il modello a una serie di generazioni, restituendo ogni volta l'output dell'IA nel set di addestramento, ottenendo un risultato curioso: a partire da un prompt sugli edifici nel Somerset, in Inghilterra, tratto da una pagina di Wikipedia, la prima generazione del modello ha dato una risposta coerente all'argomento anche se con qualche errore, ma procedendo nelle generazioni, alla nona iterazione la risposta citava "code di coniglio" in maniera sconclusionata e compulsiva.
Non si tratta solamente di un problema linguistico, poiché un approccio simile focalizzato sui modelli generativi per immagini ha dato un esito sovrapponibile. Partendo da un set diversificato di ritratti generati dall'IA, i ricercatori hanno osservato che dopo appena quattro cicli di rigenerazione, i volti tendevano a convergere verso caratteristiche sempre più simili tra loro. Questo comportamento solleva importanti preoccupazioni sui rischi del possibile rafforzamento di eventuali bias algoritmici esistenti, che non farebbero altro che prendere vigore da sé stessi mediante le continue iterazioni.
In passato avevamo già citato il possibile problema della "consanguineità digitale" per le Intelligenze Artificiali quando vengono addestrate su set di dati sintetici, cioè generati appunto dalla stessa Intelligenza Artificale, come soluzione tampone per placare la fame di addestramento dei modelli di IA e/o effettuare messe a punto specifiche. Ma un conto è addestrare modelli usando, consapevolmente, dati sintetici, tutt'altro paio di maniche è l'addestramento con vasti dataset estratti dal web su cui non necessariamente c'è un controllo di autenticità, con il rischio di utilizzare materiale composto da informazioni reali assieme a dati sintetici. La proliferazione sul web di contenuti generati dall'IA rende sempre più difficile distinguere le mele dalle pere.
Siamo arrivati al punto in cui l'IA è una minaccia per la sua stessa sopravvivenza? In ogni caso la sfida per il futuro è chiara: trovare un modo per addestrare i modelli senza compromettere la qualità e la diversità dei loro output. Anzitutto è necessario assicurarsi che l'accesso a dati originali sia preservato nel corso del tempo, e di riuscire a separare adeguatamente le nuove informazioni non generate dagli LLM da quelle diffuse dall'intelligenza artificiale. Ma, per quest'ultimo aspetto, è necessario prima colmare un vuoto normativo: la mancanza di regolamentazioni che impongano una precisa etichettatura dei contenuti generati dall'IA. Senza questo genere di indicatori non è possibile, per chi si trova ad addestrare un modello, evitare di includere materiale generato dall'IA nei loro set di addestramento.
5 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infopoi tenete tutto offline per evitare grane. è il modo migliore per poter usufruire di una AI senza restrizioni.
l'addestramento ? vi fate un paio di giorni di spiaggia o sci ed il tempo vola via.
Garbage in, garbage out
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".