View Full Version : Amazon: scoperto un elevato volume di materiale pedopornografico nei dati di addestramento dell'AI
Redazione di Hardware Upg
30-01-2026, 09:11
Link alla notizia: https://www.hwupgrade.it/news/web/amazon-scoperto-un-elevato-volume-di-materiale-pedopornografico-nei-dati-di-addestramento-dell-ai_149385.html
Amazon ha segnalato oltre un milione di casi di CSAM (Child sexual abuse material) nei propri dati di addestramento dell'AI, senza però chiarirne l'origine. Il NCMEC critica la mancanza di informazioni utili alle indagini. Il caso evidenzia i crescenti rischi per la sicurezza dei minori nello sviluppo dell'IA
Click sul link per visualizzare la notizia.
Hiei3600
30-01-2026, 10:35
Parliamo di "Vero" CSAM o di cartoni animati che certi geni considerano allo stesso livello?
Se si trattasse di "Vero" materiale, Amazon dovrebbe essere legalmente obbligata a fornire le fonti alla polizia
h.rorschach
30-01-2026, 12:53
E zero conseguenze come con l'uso di centinaia di terabyte di materiale protetto da copyright
Sarò molto ignorante ma onestamente non capisco come possa succedere.
Come si arrivi a fornire alle AI materiale CSAM.
Chi controlla le fonti e soprattutto come ?
Ribadisco però la mia ignoranza sull'argomento.
Attendo lumi.
randorama
30-01-2026, 13:16
Sarò molto ignorante ma onestamente non capisco come possa succedere.
Come si arrivi a fornire alle AI materiale CSAM.
Chi controlla le fonti e soprattutto come ?
Ribadisco però la mia ignoranza sull'argomento.
Attendo lumi.
bof avranno fatto scarichi palla de emule/torrent/repository vari e gli hanno ammollato il pacchetto completo, non filtrato.
Sarò molto ignorante ma onestamente non capisco come possa succedere.
Come si arrivi a fornire alle AI materiale CSAM.
Chi controlla le fonti e soprattutto come ?
Ribadisco però la mia ignoranza sull'argomento.
Attendo lumi.
Gran parte del materiale di addestramento per AI viene rastrellato tramite bot o sistemi automatizzati che contano sul fatto che se raccogli una mole sufficiente di dati statisticamente i dati "veri" hanno un certo sopravvento.
Ci sono poi dei controlli che ad esempio escludono fonti palesemente fake come siti di terrapiattisti e simili ma che io sappia è un controllo che prevalentemente avviene attraverso key words in quanto la mole di dati è talmente enorme che sarebbe impossibile farlo a mano.
Detto ciò a secondo di come hai raccolto i dati ci sta che raccogli anche CSAM, non è così insolito, per il semplice fatto che purtroppo sono cose molto diffuse online e spesso anche nascoste con nomi, siti ecc... che non sono evidenti e subito individuabili.
Amazon ha tirato fuori la cosa ma se dovessi scommettere direi che la maggior parte delle AI se si scavasse nei dati di addestramento ha anche materiale illecito più o meno grave per il semplice fatto che pure chiunque di noi se naviga per abbastanza ore anche non volendo prima o poi apre un link a un sito con materiale più o meno illecito certo non per forza roba CSAM ma violare un copyright per esempio è un attimo.
bof avranno fatto scarichi palla de emule/torrent/repository vari e gli hanno ammollato il pacchetto completo, non filtrato.
Se usano emule e torrent praticamente è come avergli aperto l'arca di Indiana Jones...:asd:
Gran parte del materiale di addestramento per AI viene rastrellato tramite bot o sistemi automatizzati che contano sul fatto che se raccogli una mole sufficiente di dati statisticamente i dati "veri" hanno un certo sopravvento.
Ci sono poi dei controlli che ad esempio escludono fonti palesemente fake come siti di terrapiattisti e simili ma che io sappia è un controllo che prevalentemente avviene attraverso key words in quanto la mole di dati è talmente enorme che sarebbe impossibile farlo a mano.
Detto ciò a secondo di come hai raccolto i dati ci sta che raccogli anche CSAM, non è così insolito, per il semplice fatto che purtroppo sono cose molto diffuse online e spesso anche nascoste con nomi, siti ecc... che non sono evidenti e subito individuabili.
Amazon ha tirato fuori la cosa ma se dovessi scommettere direi che la maggior parte delle AI se si scavasse nei dati di addestramento ha anche materiale illecito più o meno grave.
Capisco...
Bah, d'altronde il mondo "è quello che è" e la rete non è che una fedele rappresentazione dello stesso. Schifo compreso. :fagiano:
randorama
30-01-2026, 13:57
Se usano emule e torrent praticamente è come avergli aperto l'arca di Indiana Jones...:asd:
embeh, se non stai attento li tiri giù anche senza volerlo...
embeh, se non stai attento li tiri giù anche senza volerlo...
Vecchio trucco da gran maestro:
Usa un cliente torrent che ti permetta di dare priorità diverse a singoli pacchetti (non file eh... pacchetti) in questo modo se di un file .mp4 scarichi subito la testa (primi 5 pacchetti) e la coda (idem) puoi anche se il download non è finito visualizzarne dei fotogrammi (anche in mezzo a seconda dei pacchetti successivi che scarichi) e capire se è quello che cercavi o no prima di aspettare la fine.
Con le connessioni di oggi non è più una tecnica così importante ma al tempo del 56k evitare errori e ore di download inutile era la chiave di tutto.
randorama
30-01-2026, 14:19
Vecchio trucco da gran maestro:
Usa un cliente torrent che ti permetta di dare priorità diverse a singoli pacchetti (non file eh... pacchetti) in questo modo se di un file .mp4 scarichi subito la testa (primi 5 pacchetti) e la coda (idem) puoi anche se il download non è finito visualizzarne dei fotogrammi (anche in mezzo a seconda dei pacchetti successivi che scarichi) e capire se è quello che cercavi o no prima di aspettare la fine.
Con le connessioni di oggi non è più una tecnica così importante ma al tempo del 56k evitare errori e ore di download inutile era la chiave di tutto.
oddio... basta guardare i commenti.
di solito lo faccio, ma se sono file piccolini, tipo ebook, vado al bersaglio grosso, e poi li guardo con calma. a qual punto capitano le sorprese :)
Sono entrati nei server del Vaticano
Sono entrati nei server del V*****o
Ma scrivi sul serio ??? Noooooo, dai.....:eek:
Non riesco neanche a quotarlo. Impossibile.
Nello Stato per eccellenza votato alla fede, ai valori veri...poi parliamo di Chiesa, non ho mai sentito dire che qualsivoglia suo Fedele o Ministro, anche il più umile sia MAI stato minimamente accostato, anche lontanamente, a simili nefandezze.
Non ci crederei mai. Neanche lo scrivessero nei giornali.
Secondo me la tua fonte è decisamente errata.
Segnalerò questo post alla Santa Sede perchè certe basse insinuazioni sono inaccettabili ! :O
:asd: :read: :fuck:
:ciapet: :Prrr: :D
:sofico:
randorama
30-01-2026, 16:41
Segnalerò questo post alla Santa Sede perchè certe basse insinuazioni sono inaccettabili ! :O
magari dagli anche i link. sia mai che qualcuno gli sia sfuggito...
magari dagli anche i link. sia mai che qualcuno gli sia sfuggito...
Ma assolutamente. Porterò questa storia fino in fondo. :O :O :O
:sofico:
Parliamo di "Vero" CSAM o di cartoni animati che certi geni considerano allo stesso livello?
Se si trattasse di "Vero" materiale, Amazon dovrebbe essere legalmente obbligata a fornire le fonti alla polizia
Per questi genii anche testo (storie / racconti "taboo") può essere considerato CSAM. Qualsiasi fanfiction osé dove i personaggi non sono dichiaratamente maggiorenni lo sarebbe (gran parte di Archive Of Our Own, in pratica). Stanno ingigantendo un problema che praticamente non esiste perché negli ultimi anni, causa isteria collettiva, tale sigla è sempre più usata in maniera molto elastica per indicare anche materiale di fantasia.
Credo che si stia parlando di testo, perché Amazon fin'ora ha addestrato LLM (non granché e neanche open).
Sono entrati nei server del Vaticano
:D
Hiei3600
30-01-2026, 21:00
Per questi genii anche testo (storie / racconti "taboo") può essere considerato CSAM. Qualsiasi fanfiction osé dove i personaggi non sono dichiaratamente maggiorenni lo sarebbe (gran parte di Archive Of Our Own, in pratica). Stanno ingigantendo un problema che praticamente non esiste perché negli ultimi anni, causa isteria collettiva, tale sigla è sempre più usata in maniera molto elastica per indicare anche materiale di fantasia.
Credo che si stia parlando di testo, perché Amazon fin'ora ha addestrato LLM (non granché e neanche open).
Come ho sempre detto, quello che mi fa arrabbiare è quanto tempo, risorse economiche ed umane sprecano per andare dietro ai disegni quando potrebbero impegnare lo stesso tempo, risorse economiche ed umane per salvare le vittime in carne ed ossa, invece di quelle disegnate...
vBulletin® v3.6.4, Copyright ©2000-2026, Jelsoft Enterprises Ltd.