Guerra al web scraping: Cloudflare introduce AI Labyrinth per intrappolare i bot dell'intelligenza artificiale

Guerra al web scraping: Cloudflare introduce AI Labyrinth per intrappolare i bot dell'intelligenza artificiale

Cloudflare lancia "AI Labyrinth", un innovativo sistema per contrastare il web scraping non autorizzato. La tecnologia inganna i bot con contenuti generati da IA, portandoli a sprecare risorse su contenuti inutili

di pubblicata il , alle 15:01 nel canale Web
Cloudflare
 

La scorsa settimana Cloudflare ha annunciato la nuova funzionalità "AI Labyrinth" con l'obiettivo di contrastare lo scraping non autorizzato di pagine web da parte dei sistemi di intelligenza artificiale, somministrando loro contenuti fasulli generati con l'IA. Si tratta di uno strumento che cercherà di ostacolare l'azione delle aziende di Intelligenza Artificiale che passano al setaccio siti web senza autorizzazione per raccogliere dati di addestramento per i modelli linguistici di grandi dimensioni.

L'approccio di Cloudflare è decisamente ingegnoso: invece di tagliar fuori i crawler bloccandone l'azione, li attira in un "labirinto" di pagine web dall'aspetto realistico ma compilate con contenuti del tutto irrilevanti. In questo modo le risorse di calcolo dei bot demandati alla raccolta di informazioni vengono sprecate, in un vero e proprio disincentivo al loro uso. Cloudflare stessa spiega che il semplice blocco dei bot è spesso poco efficace perché ha l'effetto di avvertire gli operatori dei crawler che essi sono stati rilevati, spingendoli quindi ad ottimizzare le capacità di mimetizzazione.

Il contenuto che viene somministrato ai bot è del tutto irrilevante rispetto al sito web preso di mira dai crawler, ma le informazioni sono reali e generate a partire da fatti scentifici o nozioni di fisica, matematica e biologia, allo scopo di evitare la diffusione involontaria di disinformazione.

I lettori più attenti avranno notato una similitudine con il principio di funzionamento di AI Labyrinth con quello delle "honeypot", i sistemi usati dai ricercatori di sicurezza informatica per sembrare vulnerabili e attraenti per gli hacker, ma in realtà isolati e monitorati attentamente per studiare le tattiche, tecniche e procedure degli aggressori. E la stessa Cloudflare si riferisce ad AI Labyrinth come ad una "honeypot di nuova generazione".

Cloudflare ha progettato le pagine trappola e i collegamenti in modo che rimangano invisibili e inaccessibili ai visitatori regolari, così le persone che navigano sul web non vi si imbattano accidentalmente: "Nessun essere umano reale andrebbe a quattro collegamenti di profondità in un labirinto di assurdità generate dall'IA. Qualsiasi visitatore che lo faccia è molto probabilmente un bot, quindi questo ci offre uno strumento completamente nuovo per identificare e profilare i bot malevoli" spiega la società sul suo blog.

In questo modo i dati raccolti da AI Labyrinth sono utilizzati a loro volta per addestrare le capacità di rilevamento dei bot e migliorarle continuamente, applicando le ottimizzazioni a tutta la rete di Cloudflare.

Cloudflare, fornendo servizi di infrastruttura per la distribuzione di contenuti e sicurezza per siti web, si trova in una posizione unica che le consente di osservare le dinamiche del traffico di Internet. Secondo i dati raccolti, la società afferma che i crawler IA generano più di 50 miliardi di richieste alla loro rete ogni giorno, pari a quasi l'1 percento di tutto il traffico web elaborato dai suoi sistemi. Molti di questi crawler raccolgono dati dai siti web per addestrare modelli linguistici di grandi dimensioni senza il permesso dei proprietari dei siti, una pratica che ha scatenato numerose cause legali da parte di creatori di contenuti ed editori.

AI Labyrinth viene descritto da Cloudflare come "la prima iterazione" dell'uso difensivo dell'IA contro i bot: i piani di sviluppo futuro prevedono una maggior integrazione delle pagine fasulle nelle strutture dei siti web, con l'obiettivo di rendere più difficile rilevare che si tratti di un contenuto falso e fuorviante. 

6 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
UtenteHD25 Marzo 2025, 08:04 #1
Interessante, l'avevo letto anche altrove, bell'idea
h.rorschach25 Marzo 2025, 08:52 #2
Ci sono progetti simili self-hosted (https://zadzmo.org/code/nepenthes/). È imperativo rendere la vita impossibile a queste corporazioni.
fra5525 Marzo 2025, 09:02 #3
Bene bene, qualcosa si muove
Tedturb025 Marzo 2025, 13:17 #4
Malissimo invece. Dovrebbe essere una pratica vietata per legge. Se i contenuti sono pubblici sono pubblici. se sono a pagamento sono a pagamento. STOP.
aqua8425 Marzo 2025, 13:30 #5
se ho capito bene impediscono di prendere dai siti le informazioni "gratis" dandogli in pasto quelle non vere

ma quindi da ora in poi le informazioni finte raccolte ci verranno "rivendute" a noi sotto forma di risultati/risposte da parte delle IA ??

cioè, se ad esempio creano una finta pagina di Wikipedia dove c'è scritto che Adolf Hitler vive in Argentina e tra circa 1 mese festeggerà 136 anni, quando qualcuno chiederà alla IA informazioni su Hitler questa gli risponderà in quel modo?
OUTATIME25 Marzo 2025, 15:52 #6
Originariamente inviato da: aqua84
cioè, se ad esempio creano una finta pagina di Wikipedia dove c'è scritto che Adolf Hitler vive in Argentina e tra circa 1 mese festeggerà 136 anni, quando qualcuno chiederà alla IA informazioni su Hitler questa gli risponderà in quel modo?

Dipende.
Se io creo una pagina così, ma altre sono giuste, tendenzialmente l'IA dovrebbe escludere la pagina con le informazioni errate.
Il problema è se tutte le pagine riportano che Hitler ha 136 anni, a quel punto per l'IA diventa un'informazione vera. Infatti definirla "intelligenza" è un po' eccessivo

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^