L'anonimato online non ti protegge più: l'IA scopre chi sei davvero al costo di un caffè
Ricercatori di ETH Zurich e Anthropic hanno dimostrato che i grandi modelli linguistici possono de-anonimizzare utenti pseudonimi su larga scala, con una precisione fino al 90% e un costo di pochi dollari per bersaglio
di Andrea Bai pubblicata il 05 Marzo 2026, alle 10:21 nel canale SicurezzaQuante volte avete usato un nickname su Reddit, Hacker News o qualsiasi altro forum o social convinti che nessuno potesse risalire a voi? Quella sensazione di relativa invisibilità, tecnicamente nota come practical obscurity, ovvero la sicurezza che deriva dal fatto che collegare frammenti sparsi di informazioni sarebbe troppo costoso e laborioso per chiunque, è appena stata minata seriamente alla base.
Un gruppo di ricercatori di ETH Zurich e Anthropic ha pubblicato un paper dal titolo"Large-Scale Online Deanonymization with LLMs" che documenta qualcosa di abbastanza infelice: i modelli linguistici di grandi dimensioni sono in grado di collegare account pseudonimi a profili reali in modo automatizzato, economico e su scala massiva, con una precisione che i metodi tradizionali non sono mai riusciti a raggiungere
Come funziona: un'efficace ingegneria delle informazioni
Il sistema sviluppato dai ricercatori non sfrutta backdoor, database trapelati sul dark web o tecniche di particolare sofisticazione. Lavora esclusivamente su testo pubblico e lo fa in quattro passaggi che, presi singolarmente, sembrerebbero del tutto innocui.
Prima di tutto, l'LLM analizza i post scritti sotto pseudonimo ed estrae quello che i ricercatori chiamano "segnali di identità": dati demografici inferiti, interessi, dettagli professionali accennati, riferimenti geografici, abitudini linguistiche. A prima vista, nulla di eclatante poiché è esattamente il tipo di informazioni che qualsiasi lettore attento potrebbe raccogliere, quasi in maniera inconscia, passando ore a sfogliare la cronologia di un account o semplicemente con l'abitudine a leggere i contributi di un dato utente su un dato social.

Poi questi segnali vengono convertiti in rappresentazioni numeriche (embedding semantici) e usati per cercare corrispondenze all'interno di un pool di candidati, come ad esempio ciò che si può trovare nei profili LinkedIn pubblici. Un modello di ragionamento valuta infine le corrispondenze plausibili e le ordina per probabilità. Il tutto avviene in modo completamente automatico, senza intervento umano.
I numeri che fanno riflettere
I ricercatori hanno costruito dataset con "ground truth" verificata per testare il sistema. Il caso più significativo: collegare utenti pseudonimi di Hacker News ai loro profili LinkedIn reali, dopo aver rimosso manualmente tutti gli identificatori diretti come nomi, URL, handle social e qualsiasi cosa ovvia.
Su un pool di 1.000 candidati, il sistema ha identificato correttamente il 68% degli utenti target con una precisione del 90%, ovvero 9 identificazioni su 10 erano corrette. Su un pool di 89.000 candidati, il tasso di identificazione corretta è sceso al 55-67%, ma la precisione del 90% è rimasta sostanzialmente stabile. Anche in condizioni estreme, con probabilità di 1 su 10.000 che l'identità cercata fosse effettivamente nel pool, il sistema ha comunque raggiunto circa il 9% di identificazioni corrette al 90% di precisione. Il costo totale dell'intera sperimentazione è stato inferiore a 2.000 dollari. Il costo per singolo account identificato: tra uno e quattro dollari.
In un terzo esperimento, il sistema ha preso la cronologia di singoli utenti Reddit, l'ha divisa in due profili temporalmente separati da oltre un anno, e ha verificato se riusciva a ricollegarli. Ha funzionato anche in questo caso.
La potenza del modello aumenta il numero di identificazioni
Uno degli aspetti più preoccupanti dello studio riguarda il rapporto tra capacità del modello e efficacia dell'attacco. In un esperimento che confrontava recensioni di film su diverse community Reddit, passare da un livello di ragionamento basso a uno alto ha raddoppiato il numero di identificazioni corrette alla soglia di precisione più stringente.
La conclusione logica è sgradevole: man mano che i modelli migliorano questa tecnica diventa automaticamente più efficace, senza bisogno di alcun aggiornamento specifico al sistema di de-anonimizzazione. Il ricercatore principale Daniel Paleka ha dichiarato di essere rimasto sorpreso da "quanto poca informazione serva per collegare due account". Il co-ricercatore Simon Lermen ha posto la questione in termini ancora più diretti: se un team di investigatori esperti potrebbe risalire alla vostra identità dai vostri post, un agente LLM può farlo allo stesso modo e il costo per farlo è destinato solo a scendere.
Il paper evidenzia un problema strutturale che rende questa tecnica particolarmente insidiosa: l'intero processo di de-anonimizzazione è composto da operazioni individualmente innocue. Riassumere testo, generare embedding, fare ranking di candidati, ragionare su corrispondenze sono tutte operazioni che intrinsecamente non solo malevole, e nessuna di queste attiva le contromisure di sicurezza standard degli LLM.
Cosa cambia nella pratica
Anzitutto una, pur flebile, rassicurazione: questo studio non dimostra che chiunque può essere identificato in qualsiasi contesto. La tecnica funziona meglio quando esiste già un pool di candidati plausibili e quando l'utente target ha una cronologia testuale sufficientemente ricca. Chi posta raramente e in modo vago è un bersaglio molto più difficile di chi discute attivamente del proprio lavoro, della propria città o delle proprie abitudini.
Detto questo, lo scenario in cui questa tecnica diventa un problema reale non è difficile da immaginare: datori di lavoro curiosi, stalker con risorse, servizi di intelligence, o semplicemente aggregatori di dati commerciali che vogliono costruire profili più completi dei propri utenti.
Ciò che lo studio mette in discussione concretamente è l'assunzione, spesso implicita, che disperdere le proprie informazioni su piattaforme diverse e sotto nomi diversi costituisca una forma di protezione. Gli stessi autori ammettono che prevenire questo tipo di attacco è tutt'altro che semplice. Smettere di pubblicare dati online non è una soluzione praticabile: sono proprio quei dati a rendere utili e vive le community. I provider di LLM potrebbero in teoria tentare di rilevare e bloccare gli usi impropri dei propri modelli a fini di de-anonimizzazione, ma il fatto che la tecnica presentata si componga, come già visto, di operazioni singolarmente innocue, rende questa strada difficile da percorrere.
Il confronto che i ricercatori tracciano è con quanto sta già accadendo nella sicurezza informatica, dove le capacità offensive basate su LLM hanno reso necessario un ripensamento di molte assunzioni consolidate. Lo stesso processo, concludono, vale ora per la privacy.










PNY RTX 5080 Slim OC, sembra una Founders Edition ma non lo è
Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei
Core Ultra 7 270K Plus e Core Ultra 7 250K Plus: Intel cerca il riscatto ma ci riesce in parte
L'AI agentica potrebbe trasformare Internet: il settore della pubblicità online è a rischio?
Qualcomm lancerà due chip per smartphone Android a 2 nm nel 2026: ecco le possibili differenze
Xiaomi dà i numeri: ecco come è andato il 2025 dell'azienda tra smartphone, tablet, accessori e auto elettriche
AMD annuncia Ryzen 9 9950X3D2 Dual Edition: primo Zen 5 con doppio 3D V-Cache e TDP a 200W
CyrusOne avvia la costruzione del suo primo data center in Italia, a Milano
Cloud in crescita, ma l’adozione dell’IA resta lenta. L’identikit delle PMI italiane secondo Wolters Kluwer Italia
OpenAI cancella l'adult mode di ChatGPT: il riassetto strategico miete un'altra vittima
Google Search Live arriva in Italia: la ricerca ora ci vede e ci parla
MacBook Air 15'' con chip M4 (2025) crolla su Amazon: il prezzo che stavamo cercando è finalmente realtà
Ora è possibile trasferire file tra Samsung e Apple con AirDrop e Quick Share. Ecco come fare
Apple domina con il MacBook Neo: i laptop Windows faticano a tenere il passo
Arriva la nuova gamma di PC Dell Pro per utenti aziendali: nuovi notebook, desktop e workstation portatili
DJI Avata 360: la recensione del primo drone FPV 8K con sensori da 1 pollice
Il browser di Samsung arriva su Windows, ma in Italia non c'è l'IA agentica









9 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info(chi pensa, Non ho niente da nascondere, non sa quello che dice, anche se noi siamo buoni e onesti così non è il resto del mondo)
Al massimo possono collegare i miei profili dei vari portali Tech, Maker per scoprire che è la stessa persona che scrive.
OT ma il fatto che da mobile bisogna fare 3 volte la login per fare un commento è un bug mio o incompetenza di qualcuno
è un problema che va e viene, forse c'è un nodo difettoso o mal configurato che si perde le sessioni oppure non si sincronizza in tempo. È davvero noioso quando succede, perchè sono arrivato a perdermi più volte il commento scritto.
Oggi a me non l'ha fatto.
Se aspetti che risolvano ciaone proprio...
Se aspetti che risolvano ciaone proprio...
un forum di ventanni fa, secondo me non trovi neanche chi lo ha fatto !
Bisogna accettare gli acciacchi della vecchiaia
avrebbe di cui divertirsi.
Su un pool di 1.000 candidati, il sistema ha identificato correttamente il 68% degli utenti target con una precisione del 90%, ovvero 9 identificazioni su 10 erano corrette. Su un pool di 89.000 candidati, il tasso di identificazione corretta è sceso al 55-67%, ma la precisione del 90% è rimasta sostanzialmente stabile.
Ammetto che non ho letto il paper, troppo lungo.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".