Amazon: scoperto un elevato volume di materiale pedopornografico nei dati di addestramento dell'AI
Amazon ha segnalato oltre un milione di casi di CSAM (Child sexual abuse material) nei propri dati di addestramento dell'AI, senza però chiarirne l'origine. Il NCMEC critica la mancanza di informazioni utili alle indagini. Il caso evidenzia i crescenti rischi per la sicurezza dei minori nello sviluppo dell'IA
di Francesco Messina pubblicata il 30 Gennaio 2026, alle 10:11 nel canale WebAmazon
Amazon ha scoperto un "alto volume" di materiale pedopornografico, noto come CSAM (Child Sexual Abuse Material), all'interno dei dati utilizzati per addestrare i propri modelli di intelligenza artificiale. La notizia emerge da un'indagine di Bloomberg e ha acceso un forte dibattito sulla sicurezza dei dati e sulle responsabilità delle aziende tecnologiche nello sviluppo dell'AI.
Secondo il National Center for Missing and Exploited Children (NCMEC), nel solo 2025 l'organizzazione ha ricevuto oltre 1 milione di segnalazioni di CSAM legate all'intelligenza artificiale. La "stragrande maggioranza" di queste segnalazioni proviene proprio da Amazon, che avrebbe individuato il materiale illecito nei dataset di training dei suoi servizi AI.
Tuttavia, l'azienda non ha fornito informazioni precise sull'origine dei contenuti, limitandosi a dichiarare che provenivano da fonti esterne utilizzate per l'addestramento.

La mancanza di trasparenza di Amazon sta sollevando forti critiche
Questa mancanza di trasparenza ha sollevato forti critiche. Fallon McNulty, direttrice esecutiva della CyberTipline di NCMEC, ha definito il caso Amazon un'anomalia. Secondo McNulty, ricevere un numero così elevato di segnalazioni da un'unica azienda "solleva molte domande" sulla provenienza dei dati e sulle misure di sicurezza adottate. A differenza di altre aziende, le segnalazioni di Amazon sono risultate "inapplicabili", ovvero inutilizzabili per le forze dell'ordine, proprio perché prive di dettagli sulle fonti originali del materiale.
Amazon, dal canto suo, ha dichiarato di adottare un approccio "deliberatamente prudente" nello scannerizzare i dati di addestramento, inclusi quelli provenienti dal web pubblico, per identificare e rimuovere CSAM noto. Un portavoce ha inoltre spiegato che l'azienda tende a sovrasegnalare i casi al NCMEC per ridurre al minimo il rischio di omissioni e ha assicurato che i contenuti sospetti vengono rimossi prima di essere utilizzati per l'addestramento dei modelli.
Il caso si inserisce in un contesto più ampio di crescente preoccupazione per la sicurezza dei minori nell'era dell'AI. I numeri del NCMEC mostrano un'impennata impressionante: dalle 4.700 segnalazioni del 2023 si è passati a 67.000 nel 2024, fino a superare il milione nel 2025.










Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei
Core Ultra 7 270K Plus e Core Ultra 7 250K Plus: Intel cerca il riscatto ma ci riesce in parte
PC Specialist Lafité 14 AI AMD: assemblato come vuoi tu
Musica generativa, arriva Lyria 3 Pro: ora Gemini compone brani completi
Melania Trump scortata da un robot umanoide alla Casa Bianca. Il video è virale
HONOR 600: nuove conferme sulle specifiche del nuovo mid-range con batteria enorme
Blade 16: Razer sostituisce AMD con Intel, e i prezzi volano
Solo 649€ con coupon: questa e-bike da città HillMiles ha 100 km di autonomia, batteria rimovibile IP65 ed è in offerta in 3 colori
Arriva AI Dividend: 1.000 dollari al mese per chi ha perso il lavoro a causa dell'intelligenza artificiale
Forza Horizon 6 sorprende con requisiti PC accessibili e supporto al gaming handheld fin dal lancio
Smart TV QLED 50'' a un super prezzo: 4K, 120Hz e HDMI 2.1 tornano a 249€ con Google TV e DAZN gratuito per 6 mesi
Crypto, GPU e miliardi: la causa che mette NVIDIA all'angolo entra nel vivo
Gap e Google portano l'acquisto conversazionale a un nuovo livello: si potranno acquistare vestiti all'interno di Gemini
DLSS 5 è qui per restare: ecco cosa ha detto il director di Kingdom Come: Deliverance 2
Un PC HP tuttofare a 649€ imperdibile: 32GB di RAM, 1TB SSD, Intel Core i5, ma solo 9 pezzi
I leader di Meta, NVIDIA e Google entrano nel consiglio tecnologico di Trump per guidare le politiche su AI e innovazione
Dreame vs ECOVACS: 4 robot aspirapolvere super interessanti in offerta su Amazon, da 379€ a 649€









16 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoSe si trattasse di "Vero" materiale, Amazon dovrebbe essere legalmente obbligata a fornire le fonti alla polizia
Come si arrivi a fornire alle AI materiale CSAM.
Chi controlla le fonti e soprattutto come ?
Ribadisco però la mia ignoranza sull'argomento.
Attendo lumi.
Come si arrivi a fornire alle AI materiale CSAM.
Chi controlla le fonti e soprattutto come ?
Ribadisco però la mia ignoranza sull'argomento.
Attendo lumi.
bof avranno fatto scarichi palla de emule/torrent/repository vari e gli hanno ammollato il pacchetto completo, non filtrato.
Come si arrivi a fornire alle AI materiale CSAM.
Chi controlla le fonti e soprattutto come ?
Ribadisco però la mia ignoranza sull'argomento.
Attendo lumi.
Gran parte del materiale di addestramento per AI viene rastrellato tramite bot o sistemi automatizzati che contano sul fatto che se raccogli una mole sufficiente di dati statisticamente i dati "veri" hanno un certo sopravvento.
Ci sono poi dei controlli che ad esempio escludono fonti palesemente fake come siti di terrapiattisti e simili ma che io sappia è un controllo che prevalentemente avviene attraverso key words in quanto la mole di dati è talmente enorme che sarebbe impossibile farlo a mano.
Detto ciò a secondo di come hai raccolto i dati ci sta che raccogli anche CSAM, non è così insolito, per il semplice fatto che purtroppo sono cose molto diffuse online e spesso anche nascoste con nomi, siti ecc... che non sono evidenti e subito individuabili.
Amazon ha tirato fuori la cosa ma se dovessi scommettere direi che la maggior parte delle AI se si scavasse nei dati di addestramento ha anche materiale illecito più o meno grave per il semplice fatto che pure chiunque di noi se naviga per abbastanza ore anche non volendo prima o poi apre un link a un sito con materiale più o meno illecito certo non per forza roba CSAM ma violare un copyright per esempio è un attimo.
Se usano emule e torrent praticamente è come avergli aperto l'arca di Indiana Jones...
Ci sono poi dei controlli che ad esempio escludono fonti palesemente fake come siti di terrapiattisti e simili ma che io sappia è un controllo che prevalentemente avviene attraverso key words in quanto la mole di dati è talmente enorme che sarebbe impossibile farlo a mano.
Detto ciò a secondo di come hai raccolto i dati ci sta che raccogli anche CSAM, non è così insolito, per il semplice fatto che purtroppo sono cose molto diffuse online e spesso anche nascoste con nomi, siti ecc... che non sono evidenti e subito individuabili.
Amazon ha tirato fuori la cosa ma se dovessi scommettere direi che la maggior parte delle AI se si scavasse nei dati di addestramento ha anche materiale illecito più o meno grave.
Capisco...
Bah, d'altronde il mondo "è quello che è" e la rete non è che una fedele rappresentazione dello stesso. Schifo compreso.
embeh, se non stai attento li tiri giù anche senza volerlo...
Vecchio trucco da gran maestro:
Usa un cliente torrent che ti permetta di dare priorità diverse a singoli pacchetti (non file eh... pacchetti) in questo modo se di un file .mp4 scarichi subito la testa (primi 5 pacchetti) e la coda (idem) puoi anche se il download non è finito visualizzarne dei fotogrammi (anche in mezzo a seconda dei pacchetti successivi che scarichi) e capire se è quello che cercavi o no prima di aspettare la fine.
Con le connessioni di oggi non è più una tecnica così importante ma al tempo del 56k evitare errori e ore di download inutile era la chiave di tutto.
Usa un cliente torrent che ti permetta di dare priorità diverse a singoli pacchetti (non file eh... pacchetti) in questo modo se di un file .mp4 scarichi subito la testa (primi 5 pacchetti) e la coda (idem) puoi anche se il download non è finito visualizzarne dei fotogrammi (anche in mezzo a seconda dei pacchetti successivi che scarichi) e capire se è quello che cercavi o no prima di aspettare la fine.
Con le connessioni di oggi non è più una tecnica così importante ma al tempo del 56k evitare errori e ore di download inutile era la chiave di tutto.
oddio... basta guardare i commenti.
di solito lo faccio, ma se sono file piccolini, tipo ebook, vado al bersaglio grosso, e poi li guardo con calma. a qual punto capitano le sorprese
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".