L'anonimato online non ti protegge più: l'IA scopre chi sei davvero al costo di un caffè

Ricercatori di ETH Zurich e Anthropic hanno dimostrato che i grandi modelli linguistici possono de-anonimizzare utenti pseudonimi su larga scala, con una precisione fino al 90% e un costo di pochi dollari per bersaglio

di Andrea Bai pubblicata il 05 Marzo 2026, alle 10:21 nel canale Sicurezza

Quante volte avete usato un nickname su Reddit, Hacker News o qualsiasi altro forum o social convinti che nessuno potesse risalire a voi? Quella sensazione di relativa invisibilità, tecnicamente nota come practical obscurity, ovvero la sicurezza che deriva dal fatto che collegare frammenti sparsi di informazioni sarebbe troppo costoso e laborioso per chiunque, è appena stata minata seriamente alla base.

Un gruppo di ricercatori di ETH Zurich e Anthropic ha pubblicato un paper dal titolo"Large-Scale Online Deanonymization with LLMs" che documenta qualcosa di abbastanza infelice: i modelli linguistici di grandi dimensioni sono in grado di collegare account pseudonimi a profili reali in modo automatizzato, economico e su scala massiva, con una precisione che i metodi tradizionali non sono mai riusciti a raggiungere

Come funziona: un'efficace ingegneria delle informazioni

Il sistema sviluppato dai ricercatori non sfrutta backdoor, database trapelati sul dark web o tecniche di particolare sofisticazione. Lavora esclusivamente su testo pubblico e lo fa in quattro passaggi che, presi singolarmente, sembrerebbero del tutto innocui.

Prima di tutto, l'LLM analizza i post scritti sotto pseudonimo ed estrae quello che i ricercatori chiamano "segnali di identità": dati demografici inferiti, interessi, dettagli professionali accennati, riferimenti geografici, abitudini linguistiche. A prima vista, nulla di eclatante poiché è esattamente il tipo di informazioni che qualsiasi lettore attento potrebbe raccogliere, quasi in maniera inconscia, passando ore a sfogliare la cronologia di un account o semplicemente con l'abitudine a leggere i contributi di un dato utente su un dato social.

Poi questi segnali vengono convertiti in rappresentazioni numeriche (embedding semantici) e usati per cercare corrispondenze all'interno di un pool di candidati, come ad esempio ciò che si può trovare nei profili LinkedIn pubblici. Un modello di ragionamento valuta infine le corrispondenze plausibili e le ordina per probabilità. Il tutto avviene in modo completamente automatico, senza intervento umano.

I numeri che fanno riflettere

I ricercatori hanno costruito dataset con "ground truth" verificata per testare il sistema. Il caso più significativo: collegare utenti pseudonimi di Hacker News ai loro profili LinkedIn reali, dopo aver rimosso manualmente tutti gli identificatori diretti come nomi, URL, handle social e qualsiasi cosa ovvia.

Su un pool di 1.000 candidati, il sistema ha identificato correttamente il 68% degli utenti target con una precisione del 90%, ovvero 9 identificazioni su 10 erano corrette. Su un pool di 89.000 candidati, il tasso di identificazione corretta è sceso al 55-67%, ma la precisione del 90% è rimasta sostanzialmente stabile. Anche in condizioni estreme, con probabilità di 1 su 10.000 che l'identità cercata fosse effettivamente nel pool, il sistema ha comunque raggiunto circa il 9% di identificazioni corrette al 90% di precisione. Il costo totale dell'intera sperimentazione è stato inferiore a 2.000 dollari. Il costo per singolo account identificato: tra uno e quattro dollari.

In un terzo esperimento, il sistema ha preso la cronologia di singoli utenti Reddit, l'ha divisa in due profili temporalmente separati da oltre un anno, e ha verificato se riusciva a ricollegarli. Ha funzionato anche in questo caso.

La potenza del modello aumenta il numero di identificazioni

Uno degli aspetti più preoccupanti dello studio riguarda il rapporto tra capacità del modello e efficacia dell'attacco. In un esperimento che confrontava recensioni di film su diverse community Reddit, passare da un livello di ragionamento basso a uno alto ha raddoppiato il numero di identificazioni corrette alla soglia di precisione più stringente.

La conclusione logica è sgradevole: man mano che i modelli migliorano questa tecnica diventa automaticamente più efficace, senza bisogno di alcun aggiornamento specifico al sistema di de-anonimizzazione. Il ricercatore principale Daniel Paleka ha dichiarato di essere rimasto sorpreso da "quanto poca informazione serva per collegare due account". Il co-ricercatore Simon Lermen ha posto la questione in termini ancora più diretti: se un team di investigatori esperti potrebbe risalire alla vostra identità dai vostri post, un agente LLM può farlo allo stesso modo e il costo per farlo è destinato solo a scendere.

Il paper evidenzia un problema strutturale che rende questa tecnica particolarmente insidiosa: l'intero processo di de-anonimizzazione è composto da operazioni individualmente innocue. Riassumere testo, generare embedding, fare ranking di candidati, ragionare su corrispondenze sono tutte operazioni che intrinsecamente non solo malevole, e nessuna di queste attiva le contromisure di sicurezza standard degli LLM.

Cosa cambia nella pratica

Anzitutto una, pur flebile, rassicurazione: questo studio non dimostra che chiunque può essere identificato in qualsiasi contesto. La tecnica funziona meglio quando esiste già un pool di candidati plausibili e quando l'utente target ha una cronologia testuale sufficientemente ricca. Chi posta raramente e in modo vago è un bersaglio molto più difficile di chi discute attivamente del proprio lavoro, della propria città o delle proprie abitudini.

Detto questo, lo scenario in cui questa tecnica diventa un problema reale non è difficile da immaginare: datori di lavoro curiosi, stalker con risorse, servizi di intelligence, o semplicemente aggregatori di dati commerciali che vogliono costruire profili più completi dei propri utenti.

Ciò che lo studio mette in discussione concretamente è l'assunzione, spesso implicita, che disperdere le proprie informazioni su piattaforme diverse e sotto nomi diversi costituisca una forma di protezione. Gli stessi autori ammettono che prevenire questo tipo di attacco è tutt'altro che semplice. Smettere di pubblicare dati online non è una soluzione praticabile: sono proprio quei dati a rendere utili e vive le community. I provider di LLM potrebbero in teoria tentare di rilevare e bloccare gli usi impropri dei propri modelli a fini di de-anonimizzazione, ma il fatto che la tecnica presentata si componga, come già visto, di operazioni singolarmente innocue, rende questa strada difficile da percorrere.

Il confronto che i ricercatori tracciano è con quanto sta già accadendo nella sicurezza informatica, dove le capacità offensive basate su LLM hanno reso necessario un ripensamento di molte assunzioni consolidate. Lo stesso processo, concludono, vale ora per la privacy.

I migliori sconti su Amazon oggi

-21%

TCL 43T6C 43'' QLED TV 4K HDR, Fire TV (Smart tv con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

329.00 259.00€ Compra ora

-21%

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

140.84€ Compra ora

-35%

FRITZ!Repeater 1200 AX Edition International, Ripetitore - Wi-Fi 6 extender Dual Band con 2.400 Mbit/s (5 GHz) & 600 Mbit/s (2,4 GHz), Mesh, Access Point, 1x Gigabit LAN, Interfaccia in italiano

95.99 61.99€ Compra ora

Counter-Strike: Global Offensive torna su Steam con una pagina dedicata e rientra tra i giochi più giocati dopo anni di assenza

Il figlio si suicida, il padre accusa Gemini: 'lo ha fatto delirare e poi l'ha convinto a uccidersi'

R@nda05 Marzo 2026, 10:35 #1

La Privacy oggi

(chi pensa, Non ho niente da nascondere, non sa quello che dice, anche se noi siamo buoni e onesti così non è il resto del mondo)

io78bis05 Marzo 2026, 12:46 #2

Quindi basta non avere un profilo pubblico. Io non ho niente da nascondere ma LinkedIn non lo mai usato, facebook non ci scrivo da 15 anni.
Al massimo possono collegare i miei profili dei vari portali Tech, Maker per scoprire che è la stessa persona che scrive.

OT ma il fatto che da mobile bisogna fare 3 volte la login per fare un commento è un bug mio o incompetenza di qualcuno

Unrue05 Marzo 2026, 13:27 #3

Davvero inquietante. Dal momento che non hanno hackerato nulla ma usano solo informazioni pubbliche, se uno da nessuna parte ha postato la sua reale identità non dovrebbe essere possibile comunque risalirci.

lumeruz05 Marzo 2026, 14:14 #4

Originariamente inviato da: io78bis

ma il fatto che da mobile bisogna fare 3 volte la login per fare un commento è un bug mio o incompetenza di qualcuno

è un problema che va e viene, forse c'è un nodo difettoso o mal configurato che si perde le sessioni oppure non si sincronizza in tempo. È davvero noioso quando succede, perchè sono arrivato a perdermi più volte il commento scritto.
Oggi a me non l'ha fatto.

R@nda05 Marzo 2026, 14:39 #5

Ho spuntato ricordami al login
Se aspetti che risolvano ciaone proprio...

gd350turbo05 Marzo 2026, 14:43 #6

Originariamente inviato da: R@nda

Ho spuntato ricordami al login
Se aspetti che risolvano ciaone proprio...

un forum di ventanni fa, secondo me non trovi neanche chi lo ha fatto !

R@nda05 Marzo 2026, 15:24 #7

Originariamente inviato da: gd350turbo

un forum di ventanni fa, secondo me non trovi neanche chi lo ha fatto !

Bisogna accettare gli acciacchi della vecchiaia

benderchetioffender05 Marzo 2026, 15:53 #8

io rilascio sempre dettagli incoerenti nel web, sopratutto quei dettagli molto personali

avrebbe di cui divertirsi.

sbaffo05 Marzo 2026, 18:58 #9

Originariamente inviato da: Redazione di Hardware Upgrade

Link alla notizia: https://www.hwupgrade.it/news/sicur...ffe_150922.html

Su un pool di 1.000 candidati, il sistema ha identificato correttamente il 68% degli utenti target con una precisione del 90%, ovvero 9 identificazioni su 10 erano corrette. Su un pool di 89.000 candidati, il tasso di identificazione corretta è sceso al 55-67%, ma la precisione del 90% è rimasta sostanzialmente stabile.

quindi nel primo caso 68% è due su tre ok, nel secondo tra il 67% e il 55%, non mi pare questo gran risultato.

Anche in condizioni estreme, con [U]probabilità di 1 su 10.000[/U] che l'identità cercata fosse effettivamente nel pool, il sistema ha comunque raggiunto circa il 9% di identificazioni corrette al 90% di precisione.

una probabilità su 10k equivale al 0.01%, come fa a ottenere il 9% ?

Ammetto che non ho letto il paper, troppo lungo.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

ASUS ROG CROSSHAIR X870E GLACIAL

Nuova Opel Astra Electric, stile rinnovato

Sony Alpha 7 V, la nuova velocista

Lucid Gravity Touring, nuovo allestimento più equilibrato

Jeu de Paume

Rilasciati nuovi video e immagini della seconda missione del razzo spaziale Blue Origin New Glenn

PNY RTX 5080 Slim OC, sembra una Founders Edition ma non lo è La PNY GeForce RTX 5080 Slim OC si distingue nel panorama delle GPU di fascia alta per il design compatto a due slot, ispirato alla NVIDIA GeForce RTX 5080 Founders...

Recensione Nothing Phone 4(a): sempre iconico ma ora più concreto Nothing con il suo nuovo Phone 4(a) conferma la sua identità visiva puntando su una costruzione che nobilita il policarbonato. La trasparenza resta l'elemento cardine,...

Diablo II Resurrected: il nuovo DLC Reign of the Warlock Abbiamo provato per voi il nuovo DLC lanciato a sorpresa da Blizzard per Diablo II: Resurrected e quella che segue è una disamina dei nuovi contenuti che abbiamo...

DJI RS 5: stabilizzazione e tracking intelligente per ogni videomaker Analizziamo nel dettaglio DJI RS 5, l'ultimo arrivato della famiglia Ronin progettato per videomaker solisti e piccoli studi. Tra tracciamento intelligente migliorato...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Deep Tech Revolution: così Area Science Park apre i laboratori alle startup Siamo tornati nel parco tecnologico di Trieste per il kick-off del programma che mette a disposizione di cinque startup le infrastrutture di ricerca, dal sincrotrone...

Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite Abbiamo guidato per diversi giorni la Alpine A290, la prima elettrica del nuovo corso della marca. Non è solo una Renault 5 sotto steroidi, ha una sua identità e...

Ecovacs DEEBOT T90 PRO OMNI: ora il rullo di lavaggio è ampio DEEBOT T90 PRO OMNI abbina un sistema di aspirazione basato su tecnologia BLAST ad un rullo di lavaggio dei pavimenti dalla larghezza elevata, capace di trattare...