Immagini di abusi su minori in un dataset usato per addestrare IA: Stanford lancia l'allarme
LAION-5B è un dataset di immagini usato per addestrare IA generative nel quale sono stati trovati collegamenti ad immagini di abusi su minori
di Andrea Bai pubblicata il 22 Dicembre 2023, alle 08:58 nel canale Scienza e tecnologiaL'Internet Observatory dell'Università di Stanford ha scoperto che un popolare set di dati utilizzato per l'addestramento di IA generative per la creazione di immagini conteneva link ad immagini di abusi su minori, portando i modelli AI a realizzare contenuti potenzialmente rischiosi.
Si tratta di LAION-5B, un set di dati che è stato scoperto contenere quasi 1700 immagini illecite raccolte da post sui social media e siti per adulti. LAION è stato esaminato a partire dallo scorso settembre per verificare proprio se al suo interno vi fosse materiale pedopornografico. I ricercatori hanno analizzato gli hash e gli identificatori dell'immagine, che sono stati poi inviati a piattaforme per il rilevamento di materiale di abuso su minori, come PhotoDNA, e verificati dal Canadian Centre for Child Protection.
Secondo il sito web LAION, il set di dati non conserva archivi delle immagini ma si limita ad indicizzare le immagini presenti sul web e contiene solamente link e didascalie. LAION, l'organizzazione no profit che gestisce il set di dati, afferma di avere una politica di "tolleranza zero" per i contenuti dannosi, e ha inoltre dichiarato di aver temporaneamente sospeso l'accessibilità al set di dati.
LAION-5B è stato utilizzato per addestrare Stable Diffusion, e lo sviluppatore Stability AI ha dichiarato di avere definito delle linee guida contro l'uso improprio delle sue piattaforme. La società ha inoltre affermato che nonostante abbia addestrato i suoi modelli con LAION-5B, si è concentrata solo su una parte del set di dati e l'ha ottimizzata per la sicurezza.
La prima versione di Imagen, lo strumento IA generativo di Google che è stato rilasciato solo a scopi di ricerca, è stata addestrata con il dataset LAION-400M, una versione precedente a 5B, mentre le successive edizioni di Imagen non hanno più utilizzato dataset LAION. Nel rapporto compilato dai ricercatori di Stanford si legge che il team di Imagen aveva scoperto che LAION-400M conteneva "una vasta gamma di contenuti inappropriati, tra cui immagini pornografiche, insulti razzisti e dannosi stereotipi sociali".
I ricercatori sottolineano inoltre che la presenza di materiale pedopornografico non necessariamente può influenzare l'output dei modelli addestrati su quel set di dati, anche se ovviamente esiste la possibilità che il modello abbia imparato qualcosa da quelle immagini. Chiaramente sarebbe difficile e probabilmente anche impossibile rimuovere i contenuti rischiosi, a maggior ragione dai modelli IA che sono stati addestrati con quei set di dati. I ricercatori esortano quindi a interrompere la distribuzione di quei modelli che sono stati allenati su LAION-5B.
3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDalle descrizioni?
che parla di come il problema non siano solo le immagini pedopornografiche ma anche tutte quelle prese senza il consenso di chi è stato ritratto e di come tutto questa problematica di come siano state raccolte le immagini per addestrare le AI che finora è stata del tutto trascurata prima o poi potrebbe scoppiare con effetti devastanti...
o almeno è quello che ci ho capito io.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".