Guerra al web scraping: Cloudflare introduce AI Labyrinth per intrappolare i bot dell'intelligenza artificiale

Cloudflare lancia "AI Labyrinth", un innovativo sistema per contrastare il web scraping non autorizzato. La tecnologia inganna i bot con contenuti generati da IA, portandoli a sprecare risorse su contenuti inutili

di Andrea Bai pubblicata il 24 Marzo 2025, alle 15:01 nel canale Web
Cloudflare

La scorsa settimana Cloudflare ha annunciato la nuova funzionalità "AI Labyrinth" con l'obiettivo di contrastare lo scraping non autorizzato di pagine web da parte dei sistemi di intelligenza artificiale, somministrando loro contenuti fasulli generati con l'IA. Si tratta di uno strumento che cercherà di ostacolare l'azione delle aziende di Intelligenza Artificiale che passano al setaccio siti web senza autorizzazione per raccogliere dati di addestramento per i modelli linguistici di grandi dimensioni.

L'approccio di Cloudflare è decisamente ingegnoso: invece di tagliar fuori i crawler bloccandone l'azione, li attira in un "labirinto" di pagine web dall'aspetto realistico ma compilate con contenuti del tutto irrilevanti. In questo modo le risorse di calcolo dei bot demandati alla raccolta di informazioni vengono sprecate, in un vero e proprio disincentivo al loro uso. Cloudflare stessa spiega che il semplice blocco dei bot è spesso poco efficace perché ha l'effetto di avvertire gli operatori dei crawler che essi sono stati rilevati, spingendoli quindi ad ottimizzare le capacità di mimetizzazione.

Il contenuto che viene somministrato ai bot è del tutto irrilevante rispetto al sito web preso di mira dai crawler, ma le informazioni sono reali e generate a partire da fatti scentifici o nozioni di fisica, matematica e biologia, allo scopo di evitare la diffusione involontaria di disinformazione.

I lettori più attenti avranno notato una similitudine con il principio di funzionamento di AI Labyrinth con quello delle "honeypot", i sistemi usati dai ricercatori di sicurezza informatica per sembrare vulnerabili e attraenti per gli hacker, ma in realtà isolati e monitorati attentamente per studiare le tattiche, tecniche e procedure degli aggressori. E la stessa Cloudflare si riferisce ad AI Labyrinth come ad una "honeypot di nuova generazione".

Cloudflare ha progettato le pagine trappola e i collegamenti in modo che rimangano invisibili e inaccessibili ai visitatori regolari, così le persone che navigano sul web non vi si imbattano accidentalmente: "Nessun essere umano reale andrebbe a quattro collegamenti di profondità in un labirinto di assurdità generate dall'IA. Qualsiasi visitatore che lo faccia è molto probabilmente un bot, quindi questo ci offre uno strumento completamente nuovo per identificare e profilare i bot malevoli" spiega la società sul suo blog.

In questo modo i dati raccolti da AI Labyrinth sono utilizzati a loro volta per addestrare le capacità di rilevamento dei bot e migliorarle continuamente, applicando le ottimizzazioni a tutta la rete di Cloudflare.

Cloudflare, fornendo servizi di infrastruttura per la distribuzione di contenuti e sicurezza per siti web, si trova in una posizione unica che le consente di osservare le dinamiche del traffico di Internet. Secondo i dati raccolti, la società afferma che i crawler IA generano più di 50 miliardi di richieste alla loro rete ogni giorno, pari a quasi l'1 percento di tutto il traffico web elaborato dai suoi sistemi. Molti di questi crawler raccolgono dati dai siti web per addestrare modelli linguistici di grandi dimensioni senza il permesso dei proprietari dei siti, una pratica che ha scatenato numerose cause legali da parte di creatori di contenuti ed editori.

AI Labyrinth viene descritto da Cloudflare come "la prima iterazione" dell'uso difensivo dell'IA contro i bot: i piani di sviluppo futuro prevedono una maggior integrazione delle pagine fasulle nelle strutture dei siti web, con l'obiettivo di rendere più difficile rilevare che si tratti di un contenuto falso e fuorviante.

I migliori sconti su Amazon oggi

Occhio a questa offerta sul campanello intelligente omajin by Netatmo OVD-01: a Risoluzione 2K+ costa meno di 50 euro

Fotocamere sui prossimi Apple Watch? L'ultima indiscrezione di Gurman

UtenteHD25 Marzo 2025, 08:04 #1

Interessante, l'avevo letto anche altrove, bell'idea

h.rorschach25 Marzo 2025, 08:52 #2

Ci sono progetti simili self-hosted (https://zadzmo.org/code/nepenthes/). È imperativo rendere la vita impossibile a queste corporazioni.

fra5525 Marzo 2025, 09:02 #3

Bene bene, qualcosa si muove

Tedturb025 Marzo 2025, 13:17 #4

Malissimo invece. Dovrebbe essere una pratica vietata per legge. Se i contenuti sono pubblici sono pubblici. se sono a pagamento sono a pagamento. STOP.

aqua8425 Marzo 2025, 13:30 #5

se ho capito bene impediscono di prendere dai siti le informazioni "gratis" dandogli in pasto quelle non vere

ma quindi da ora in poi le informazioni finte raccolte ci verranno "rivendute" a noi sotto forma di risultati/risposte da parte delle IA ??

cioè, se ad esempio creano una finta pagina di Wikipedia dove c'è scritto che Adolf Hitler vive in Argentina e tra circa 1 mese festeggerà 136 anni, quando qualcuno chiederà alla IA informazioni su Hitler questa gli risponderà in quel modo?

OUTATIME25 Marzo 2025, 15:52 #6

Originariamente inviato da: aqua84

cioè, se ad esempio creano una finta pagina di Wikipedia dove c'è scritto che Adolf Hitler vive in Argentina e tra circa 1 mese festeggerà 136 anni, quando qualcuno chiederà alla IA informazioni su Hitler questa gli risponderà in quel modo?

Dipende.
Se io creo una pagina così, ma altre sono giuste, tendenzialmente l'IA dovrebbe escludere la pagina con le informazioni errate.
Il problema è se tutte le pagine riportano che Hitler ha 136 anni, a quel punto per l'IA diventa un'informazione vera. Infatti definirla "intelligenza" è un po' eccessivo

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Intel Xeon Clearwater Forest - Hot Chips 2025

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

Panasonic 55Z95BEG cala gli assi: pannello Tandem e audio senza compromessi Con un prezzo di 2.999 euro, il Panasonic Z95BEG entra nella fascia ultra-premium dei TV OLED: pannello Primary RGB Tandem, sistema di raffreddamento ThermalFlow,...

HONOR Magic V5: il pieghevole ultra sottile e completo! La recensione Abbiamo provato per diverse settimane il nuovo Magic V5 di HONOR, uno smartphone pieghevole che ci ha davvero stupito. Il device è il più sottile (solo 4.1mm) ma...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

Guerra al web scraping: Cloudflare introduce AI Labyrinth per intrappolare i bot dell'intelligenza artificiale

6 Commenti