L'anonimato online non ti protegge più: l'IA scopre chi sei davvero al costo di un caffè

L'anonimato online non ti protegge più: l'IA scopre chi sei davvero al costo di un caffè

Ricercatori di ETH Zurich e Anthropic hanno dimostrato che i grandi modelli linguistici possono de-anonimizzare utenti pseudonimi su larga scala, con una precisione fino al 90% e un costo di pochi dollari per bersaglio

di pubblicata il , alle 10:21 nel canale Sicurezza
 

Quante volte avete usato un nickname su Reddit, Hacker News o qualsiasi altro forum o social convinti che nessuno potesse risalire a voi? Quella sensazione di relativa invisibilità, tecnicamente nota come practical obscurity, ovvero la sicurezza che deriva dal fatto che collegare frammenti sparsi di informazioni sarebbe troppo costoso e laborioso per chiunque, è appena stata minata seriamente alla base.

Un gruppo di ricercatori di ETH Zurich e Anthropic ha pubblicato un paper dal titolo"Large-Scale Online Deanonymization with LLMs" che documenta qualcosa di abbastanza infelice: i modelli linguistici di grandi dimensioni sono in grado di collegare account pseudonimi a profili reali in modo automatizzato, economico e su scala massiva, con una precisione che i metodi tradizionali non sono mai riusciti a raggiungere

Come funziona: un'efficace ingegneria delle informazioni

Il sistema sviluppato dai ricercatori non sfrutta backdoor, database trapelati sul dark web o tecniche di particolare sofisticazione. Lavora esclusivamente su testo pubblico e lo fa in quattro passaggi che, presi singolarmente, sembrerebbero del tutto innocui.

Prima di tutto, l'LLM analizza i post scritti sotto pseudonimo ed estrae quello che i ricercatori chiamano "segnali di identità": dati demografici inferiti, interessi, dettagli professionali accennati, riferimenti geografici, abitudini linguistiche. A prima vista, nulla di eclatante poiché è esattamente il tipo di informazioni che qualsiasi lettore attento potrebbe raccogliere, quasi in maniera inconscia, passando ore a sfogliare la cronologia di un account o semplicemente con l'abitudine a leggere i contributi di un dato utente su un dato social.

Poi questi segnali vengono convertiti in rappresentazioni numeriche (embedding semantici) e usati per cercare corrispondenze all'interno di un pool di candidati, come ad esempio ciò che si può trovare nei profili LinkedIn pubblici. Un modello di ragionamento valuta infine le corrispondenze plausibili e le ordina per probabilità. Il tutto avviene in modo completamente automatico, senza intervento umano.

I numeri che fanno riflettere

I ricercatori hanno costruito dataset con "ground truth" verificata per testare il sistema. Il caso più significativo: collegare utenti pseudonimi di Hacker News ai loro profili LinkedIn reali, dopo aver rimosso manualmente tutti gli identificatori diretti come nomi, URL, handle social e qualsiasi cosa ovvia.

Su un pool di 1.000 candidati, il sistema ha identificato correttamente il 68% degli utenti target con una precisione del 90%, ovvero 9 identificazioni su 10 erano corrette. Su un pool di 89.000 candidati, il tasso di identificazione corretta è sceso al 55-67%, ma la precisione del 90% è rimasta sostanzialmente stabile. Anche in condizioni estreme, con probabilità di 1 su 10.000 che l'identità cercata fosse effettivamente nel pool, il sistema ha comunque raggiunto circa il 9% di identificazioni corrette al 90% di precisione. Il costo totale dell'intera sperimentazione è stato inferiore a 2.000 dollari. Il costo per singolo account identificato: tra uno e quattro dollari.

In un terzo esperimento, il sistema ha preso la cronologia di singoli utenti Reddit, l'ha divisa in due profili temporalmente separati da oltre un anno, e ha verificato se riusciva a ricollegarli. Ha funzionato anche in questo caso.

La potenza del modello aumenta il numero di identificazioni

Uno degli aspetti più preoccupanti dello studio riguarda il rapporto tra capacità del modello e efficacia dell'attacco. In un esperimento che confrontava recensioni di film su diverse community Reddit, passare da un livello di ragionamento basso a uno alto ha raddoppiato il numero di identificazioni corrette alla soglia di precisione più stringente.

La conclusione logica è sgradevole: man mano che i modelli migliorano questa tecnica diventa automaticamente più efficace, senza bisogno di alcun aggiornamento specifico al sistema di de-anonimizzazione. Il ricercatore principale Daniel Paleka ha dichiarato di essere rimasto sorpreso da "quanto poca informazione serva per collegare due account". Il co-ricercatore Simon Lermen ha posto la questione in termini ancora più diretti: se un team di investigatori esperti potrebbe risalire alla vostra identità dai vostri post, un agente LLM può farlo allo stesso modo e il costo per farlo è destinato solo a scendere.

Il paper evidenzia un problema strutturale che rende questa tecnica particolarmente insidiosa: l'intero processo di de-anonimizzazione è composto da operazioni individualmente innocue. Riassumere testo, generare embedding, fare ranking di candidati, ragionare su corrispondenze sono tutte operazioni che intrinsecamente non solo malevole, e nessuna di queste attiva le contromisure di sicurezza standard degli LLM.

Cosa cambia nella pratica

Anzitutto una, pur flebile, rassicurazione: questo studio non dimostra che chiunque può essere identificato in qualsiasi contesto. La tecnica funziona meglio quando esiste già un pool di candidati plausibili e quando l'utente target ha una cronologia testuale sufficientemente ricca. Chi posta raramente e in modo vago è un bersaglio molto più difficile di chi discute attivamente del proprio lavoro, della propria città o delle proprie abitudini.

Detto questo, lo scenario in cui questa tecnica diventa un problema reale non è difficile da immaginare: datori di lavoro curiosi, stalker con risorse, servizi di intelligence, o semplicemente aggregatori di dati commerciali che vogliono costruire profili più completi dei propri utenti.

Ciò che lo studio mette in discussione concretamente è l'assunzione, spesso implicita, che disperdere le proprie informazioni su piattaforme diverse e sotto nomi diversi costituisca una forma di protezione. Gli stessi autori ammettono che prevenire questo tipo di attacco è tutt'altro che semplice. Smettere di pubblicare dati online non è una soluzione praticabile: sono proprio quei dati a rendere utili e vive le community. I provider di LLM potrebbero in teoria tentare di rilevare e bloccare gli usi impropri dei propri modelli a fini di de-anonimizzazione, ma il fatto che la tecnica presentata si componga, come già visto, di operazioni singolarmente innocue, rende questa strada difficile da percorrere.

Il confronto che i ricercatori tracciano è con quanto sta già accadendo nella sicurezza informatica, dove le capacità offensive basate su LLM hanno reso necessario un ripensamento di molte assunzioni consolidate. Lo stesso processo, concludono, vale ora per la privacy.

9 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
R@nda05 Marzo 2026, 10:35 #1
La Privacy oggi



(chi pensa, Non ho niente da nascondere, non sa quello che dice, anche se noi siamo buoni e onesti così non è il resto del mondo)
io78bis05 Marzo 2026, 12:46 #2
Quindi basta non avere un profilo pubblico. Io non ho niente da nascondere ma LinkedIn non lo mai usato, facebook non ci scrivo da 15 anni.
Al massimo possono collegare i miei profili dei vari portali Tech, Maker per scoprire che è la stessa persona che scrive.

OT ma il fatto che da mobile bisogna fare 3 volte la login per fare un commento è un bug mio o incompetenza di qualcuno
Unrue05 Marzo 2026, 13:27 #3
Davvero inquietante. Dal momento che non hanno hackerato nulla ma usano solo informazioni pubbliche, se uno da nessuna parte ha postato la sua reale identità non dovrebbe essere possibile comunque risalirci.
lumeruz05 Marzo 2026, 14:14 #4
Originariamente inviato da: io78bis
ma il fatto che da mobile bisogna fare 3 volte la login per fare un commento è un bug mio o incompetenza di qualcuno


è un problema che va e viene, forse c'è un nodo difettoso o mal configurato che si perde le sessioni oppure non si sincronizza in tempo. È davvero noioso quando succede, perchè sono arrivato a perdermi più volte il commento scritto.
Oggi a me non l'ha fatto.
R@nda05 Marzo 2026, 14:39 #5
Ho spuntato ricordami al login
Se aspetti che risolvano ciaone proprio...
gd350turbo05 Marzo 2026, 14:43 #6
Originariamente inviato da: R@nda
Ho spuntato ricordami al login
Se aspetti che risolvano ciaone proprio...


un forum di ventanni fa, secondo me non trovi neanche chi lo ha fatto !
R@nda05 Marzo 2026, 15:24 #7
Originariamente inviato da: gd350turbo
un forum di ventanni fa, secondo me non trovi neanche chi lo ha fatto !


Bisogna accettare gli acciacchi della vecchiaia
benderchetioffender05 Marzo 2026, 15:53 #8
io rilascio sempre dettagli incoerenti nel web, sopratutto quei dettagli molto personali

avrebbe di cui divertirsi.
sbaffo05 Marzo 2026, 18:58 #9
Originariamente inviato da: Redazione di Hardware Upgrade
Link alla notizia: https://www.hwupgrade.it/news/sicur...ffe_150922.html

Su un pool di 1.000 candidati, il sistema ha identificato correttamente il 68% degli utenti target con una precisione del 90%, ovvero 9 identificazioni su 10 erano corrette. Su un pool di 89.000 candidati, il tasso di identificazione corretta è sceso al 55-67%, ma la precisione del 90% è rimasta sostanzialmente stabile.
quindi nel primo caso 68% è due su tre ok, nel secondo tra il 67% e il 55%, non mi pare questo gran risultato.

Anche in condizioni estreme, con [U]probabilità di 1 su 10.000[/U] che l'identità cercata fosse effettivamente nel pool, il sistema ha comunque raggiunto circa il 9% di identificazioni corrette al 90% di precisione.
una probabilità su 10k equivale al 0.01%, come fa a ottenere il 9% ?
Ammetto che non ho letto il paper, troppo lungo.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^