Amazon: scoperto un elevato volume di materiale pedopornografico nei dati di addestramento dell'AI

Amazon: scoperto un elevato volume di materiale pedopornografico nei dati di addestramento dell'AI

Amazon ha segnalato oltre un milione di casi di CSAM (Child sexual abuse material) nei propri dati di addestramento dell'AI, senza però chiarirne l'origine. Il NCMEC critica la mancanza di informazioni utili alle indagini. Il caso evidenzia i crescenti rischi per la sicurezza dei minori nello sviluppo dell'IA

di pubblicata il , alle 10:11 nel canale Web
Amazon
 

Amazon ha scoperto un "alto volume" di materiale pedopornografico, noto come CSAM (Child Sexual Abuse Material), all'interno dei dati utilizzati per addestrare i propri modelli di intelligenza artificiale. La notizia emerge da un'indagine di Bloomberg e ha acceso un forte dibattito sulla sicurezza dei dati e sulle responsabilità delle aziende tecnologiche nello sviluppo dell'AI.

Secondo il National Center for Missing and Exploited Children (NCMEC), nel solo 2025 l'organizzazione ha ricevuto oltre 1 milione di segnalazioni di CSAM legate all'intelligenza artificiale. La "stragrande maggioranza" di queste segnalazioni proviene proprio da Amazon, che avrebbe individuato il materiale illecito nei dataset di training dei suoi servizi AI.

Tuttavia, l'azienda non ha fornito informazioni precise sull'origine dei contenuti, limitandosi a dichiarare che provenivano da fonti esterne utilizzate per l'addestramento.

La mancanza di trasparenza di Amazon sta sollevando forti critiche

Questa mancanza di trasparenza ha sollevato forti critiche. Fallon McNulty, direttrice esecutiva della CyberTipline di NCMEC, ha definito il caso Amazon un'anomalia. Secondo McNulty, ricevere un numero così elevato di segnalazioni da un'unica azienda "solleva molte domande" sulla provenienza dei dati e sulle misure di sicurezza adottate. A differenza di altre aziende, le segnalazioni di Amazon sono risultate "inapplicabili", ovvero inutilizzabili per le forze dell'ordine, proprio perché prive di dettagli sulle fonti originali del materiale.

Amazon, dal canto suo, ha dichiarato di adottare un approccio "deliberatamente prudente" nello scannerizzare i dati di addestramento, inclusi quelli provenienti dal web pubblico, per identificare e rimuovere CSAM noto. Un portavoce ha inoltre spiegato che l'azienda tende a sovrasegnalare i casi al NCMEC per ridurre al minimo il rischio di omissioni e ha assicurato che i contenuti sospetti vengono rimossi prima di essere utilizzati per l'addestramento dei modelli.

Il caso si inserisce in un contesto più ampio di crescente preoccupazione per la sicurezza dei minori nell'era dell'AI. I numeri del NCMEC mostrano un'impennata impressionante: dalle 4.700 segnalazioni del 2023 si è passati a 67.000 nel 2024, fino a superare il milione nel 2025.

16 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
Hiei360030 Gennaio 2026, 11:35 #1
Parliamo di "Vero" CSAM o di cartoni animati che certi geni considerano allo stesso livello?

Se si trattasse di "Vero" materiale, Amazon dovrebbe essere legalmente obbligata a fornire le fonti alla polizia
h.rorschach30 Gennaio 2026, 13:53 #2
E zero conseguenze come con l'uso di centinaia di terabyte di materiale protetto da copyright
Saturn30 Gennaio 2026, 14:00 #3
Sarò molto ignorante ma onestamente non capisco come possa succedere.

Come si arrivi a fornire alle AI materiale CSAM.

Chi controlla le fonti e soprattutto come ?

Ribadisco però la mia ignoranza sull'argomento.

Attendo lumi.
randorama30 Gennaio 2026, 14:16 #4
Originariamente inviato da: Saturn
Sarò molto ignorante ma onestamente non capisco come possa succedere.

Come si arrivi a fornire alle AI materiale CSAM.

Chi controlla le fonti e soprattutto come ?

Ribadisco però la mia ignoranza sull'argomento.

Attendo lumi.



bof avranno fatto scarichi palla de emule/torrent/repository vari e gli hanno ammollato il pacchetto completo, non filtrato.
Darkon30 Gennaio 2026, 14:33 #5
Originariamente inviato da: Saturn
Sarò molto ignorante ma onestamente non capisco come possa succedere.

Come si arrivi a fornire alle AI materiale CSAM.

Chi controlla le fonti e soprattutto come ?

Ribadisco però la mia ignoranza sull'argomento.

Attendo lumi.


Gran parte del materiale di addestramento per AI viene rastrellato tramite bot o sistemi automatizzati che contano sul fatto che se raccogli una mole sufficiente di dati statisticamente i dati "veri" hanno un certo sopravvento.

Ci sono poi dei controlli che ad esempio escludono fonti palesemente fake come siti di terrapiattisti e simili ma che io sappia è un controllo che prevalentemente avviene attraverso key words in quanto la mole di dati è talmente enorme che sarebbe impossibile farlo a mano.

Detto ciò a secondo di come hai raccolto i dati ci sta che raccogli anche CSAM, non è così insolito, per il semplice fatto che purtroppo sono cose molto diffuse online e spesso anche nascoste con nomi, siti ecc... che non sono evidenti e subito individuabili.

Amazon ha tirato fuori la cosa ma se dovessi scommettere direi che la maggior parte delle AI se si scavasse nei dati di addestramento ha anche materiale illecito più o meno grave per il semplice fatto che pure chiunque di noi se naviga per abbastanza ore anche non volendo prima o poi apre un link a un sito con materiale più o meno illecito certo non per forza roba CSAM ma violare un copyright per esempio è un attimo.
Saturn30 Gennaio 2026, 14:37 #6
Originariamente inviato da: randorama
bof avranno fatto scarichi palla de emule/torrent/repository vari e gli hanno ammollato il pacchetto completo, non filtrato.


Se usano emule e torrent praticamente è come avergli aperto l'arca di Indiana Jones...

Originariamente inviato da: Darkon
Gran parte del materiale di addestramento per AI viene rastrellato tramite bot o sistemi automatizzati che contano sul fatto che se raccogli una mole sufficiente di dati statisticamente i dati "veri" hanno un certo sopravvento.

Ci sono poi dei controlli che ad esempio escludono fonti palesemente fake come siti di terrapiattisti e simili ma che io sappia è un controllo che prevalentemente avviene attraverso key words in quanto la mole di dati è talmente enorme che sarebbe impossibile farlo a mano.

Detto ciò a secondo di come hai raccolto i dati ci sta che raccogli anche CSAM, non è così insolito, per il semplice fatto che purtroppo sono cose molto diffuse online e spesso anche nascoste con nomi, siti ecc... che non sono evidenti e subito individuabili.

Amazon ha tirato fuori la cosa ma se dovessi scommettere direi che la maggior parte delle AI se si scavasse nei dati di addestramento ha anche materiale illecito più o meno grave.


Capisco...

Bah, d'altronde il mondo "è quello che è" e la rete non è che una fedele rappresentazione dello stesso. Schifo compreso.
randorama30 Gennaio 2026, 14:57 #7
Originariamente inviato da: Saturn
Se usano emule e torrent praticamente è come avergli aperto l'arca di Indiana Jones...


embeh, se non stai attento li tiri giù anche senza volerlo...
Darkon30 Gennaio 2026, 15:09 #8
Originariamente inviato da: randorama
embeh, se non stai attento li tiri giù anche senza volerlo...


Vecchio trucco da gran maestro:

Usa un cliente torrent che ti permetta di dare priorità diverse a singoli pacchetti (non file eh... pacchetti) in questo modo se di un file .mp4 scarichi subito la testa (primi 5 pacchetti) e la coda (idem) puoi anche se il download non è finito visualizzarne dei fotogrammi (anche in mezzo a seconda dei pacchetti successivi che scarichi) e capire se è quello che cercavi o no prima di aspettare la fine.

Con le connessioni di oggi non è più una tecnica così importante ma al tempo del 56k evitare errori e ore di download inutile era la chiave di tutto.
randorama30 Gennaio 2026, 15:19 #9
Originariamente inviato da: Darkon
Vecchio trucco da gran maestro:

Usa un cliente torrent che ti permetta di dare priorità diverse a singoli pacchetti (non file eh... pacchetti) in questo modo se di un file .mp4 scarichi subito la testa (primi 5 pacchetti) e la coda (idem) puoi anche se il download non è finito visualizzarne dei fotogrammi (anche in mezzo a seconda dei pacchetti successivi che scarichi) e capire se è quello che cercavi o no prima di aspettare la fine.

Con le connessioni di oggi non è più una tecnica così importante ma al tempo del 56k evitare errori e ore di download inutile era la chiave di tutto.


oddio... basta guardare i commenti.
di solito lo faccio, ma se sono file piccolini, tipo ebook, vado al bersaglio grosso, e poi li guardo con calma. a qual punto capitano le sorprese
aqua8430 Gennaio 2026, 17:11 #10
Sono entrati nei server del Vaticano

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^