Guerra al web scraping: Cloudflare introduce AI Labyrinth per intrappolare i bot dell'intelligenza artificiale
Cloudflare lancia "AI Labyrinth", un innovativo sistema per contrastare il web scraping non autorizzato. La tecnologia inganna i bot con contenuti generati da IA, portandoli a sprecare risorse su contenuti inutili
di Andrea Bai pubblicata il 24 Marzo 2025, alle 15:01 nel canale WebCloudflare
La scorsa settimana Cloudflare ha annunciato la nuova funzionalità "AI Labyrinth" con l'obiettivo di contrastare lo scraping non autorizzato di pagine web da parte dei sistemi di intelligenza artificiale, somministrando loro contenuti fasulli generati con l'IA. Si tratta di uno strumento che cercherà di ostacolare l'azione delle aziende di Intelligenza Artificiale che passano al setaccio siti web senza autorizzazione per raccogliere dati di addestramento per i modelli linguistici di grandi dimensioni.
L'approccio di Cloudflare è decisamente ingegnoso: invece di tagliar fuori i crawler bloccandone l'azione, li attira in un "labirinto" di pagine web dall'aspetto realistico ma compilate con contenuti del tutto irrilevanti. In questo modo le risorse di calcolo dei bot demandati alla raccolta di informazioni vengono sprecate, in un vero e proprio disincentivo al loro uso. Cloudflare stessa spiega che il semplice blocco dei bot è spesso poco efficace perché ha l'effetto di avvertire gli operatori dei crawler che essi sono stati rilevati, spingendoli quindi ad ottimizzare le capacità di mimetizzazione.
Il contenuto che viene somministrato ai bot è del tutto irrilevante rispetto al sito web preso di mira dai crawler, ma le informazioni sono reali e generate a partire da fatti scentifici o nozioni di fisica, matematica e biologia, allo scopo di evitare la diffusione involontaria di disinformazione.

I lettori più attenti avranno notato una similitudine con il principio di funzionamento di AI Labyrinth con quello delle "honeypot", i sistemi usati dai ricercatori di sicurezza informatica per sembrare vulnerabili e attraenti per gli hacker, ma in realtà isolati e monitorati attentamente per studiare le tattiche, tecniche e procedure degli aggressori. E la stessa Cloudflare si riferisce ad AI Labyrinth come ad una "honeypot di nuova generazione".
Cloudflare ha progettato le pagine trappola e i collegamenti in modo che rimangano invisibili e inaccessibili ai visitatori regolari, così le persone che navigano sul web non vi si imbattano accidentalmente: "Nessun essere umano reale andrebbe a quattro collegamenti di profondità in un labirinto di assurdità generate dall'IA. Qualsiasi visitatore che lo faccia è molto probabilmente un bot, quindi questo ci offre uno strumento completamente nuovo per identificare e profilare i bot malevoli" spiega la società sul suo blog.
In questo modo i dati raccolti da AI Labyrinth sono utilizzati a loro volta per addestrare le capacità di rilevamento dei bot e migliorarle continuamente, applicando le ottimizzazioni a tutta la rete di Cloudflare.
Cloudflare, fornendo servizi di infrastruttura per la distribuzione di contenuti e sicurezza per siti web, si trova in una posizione unica che le consente di osservare le dinamiche del traffico di Internet. Secondo i dati raccolti, la società afferma che i crawler IA generano più di 50 miliardi di richieste alla loro rete ogni giorno, pari a quasi l'1 percento di tutto il traffico web elaborato dai suoi sistemi. Molti di questi crawler raccolgono dati dai siti web per addestrare modelli linguistici di grandi dimensioni senza il permesso dei proprietari dei siti, una pratica che ha scatenato numerose cause legali da parte di creatori di contenuti ed editori.
AI Labyrinth viene descritto da Cloudflare come "la prima iterazione" dell'uso difensivo dell'IA contro i bot: i piani di sviluppo futuro prevedono una maggior integrazione delle pagine fasulle nelle strutture dei siti web, con l'obiettivo di rendere più difficile rilevare che si tratti di un contenuto falso e fuorviante.










Test ride con Gowow Ori: elettrico e off-road vanno incredibilmente d'accordo
Recensione OnePlus 15: potenza da vendere e batteria enorme dentro un nuovo design
AMD Ryzen 5 7500X3D: la nuova CPU da gaming con 3D V-Cache per la fascia media
4,9 miliardi su Google: Buffett sfida il suo stesso passato e ristruttura il portafoglio
Google ha svelato un agente AI che può giocare ai videogiochi e interagire con mondi virtuali 3D
Tesla cambia idea: è in arrivo l'integrazione con CarPlay?
Anche Firefox punta sull'intelligenza artificiale: navigare il web sarà diverso con AI Window
Stop alle super-accelerazioni delle auto elettriche? La Cina propone nuove norme e pensa alla sicurezza
Osservatorio AGCOM: sempre più accessi in fibra, Iliad non si ferma e Temu conquista gli italiani
Sempre più IA su Spotify: arrivano i riassunti degli audiolibri, per le parti già ascoltate
iMac M4 crolla a 1.199€ con risparmio di 330€ rispetto al listino: il tutto-in-uno Apple più potente e sottile è in super offerta su Amazon
Nintendo Switch 2: in rilascio un nuovo aggiornamento con tanti miglioramenti
Core Ultra 9 290K Plus, Core Ultra 7 270K Plus e Core Ultra 5 250K Plus: le CPU Arrow Lake Refresh in arrivo
Prezzo Black Friday per le super cuffie Sony WH-1000XM5SA, 229€, in offerta a 249€ anche le Sony WH-1000XM5, identiche, cambia la custodia
Crollano i prezzi della cuffie Beats col Black Friday: Studio Pro al minimo assoluto, Studio Buds+ a 95€ e altri prezzi mai visti prima
ASUS ROG Matrix RTX 5090 costa 4000 dollari: solo 1.000 unità per una scheda elitaria
Grazie ai dati di ESA il calcolo della traiettoria della cometa interstellare 3I/ATLAS è più preciso









6 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoma quindi da ora in poi le informazioni finte raccolte ci verranno "rivendute" a noi sotto forma di risultati/risposte da parte delle IA ??
cioè, se ad esempio creano una finta pagina di Wikipedia dove c'è scritto che Adolf Hitler vive in Argentina e tra circa 1 mese festeggerà 136 anni, quando qualcuno chiederà alla IA informazioni su Hitler questa gli risponderà in quel modo?
Dipende.
Se io creo una pagina così, ma altre sono giuste, tendenzialmente l'IA dovrebbe escludere la pagina con le informazioni errate.
Il problema è se tutte le pagine riportano che Hitler ha 136 anni, a quel punto per l'IA diventa un'informazione vera. Infatti definirla "intelligenza" è un po' eccessivo
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".