Perplexity beccata con le mani nel sacco con una trappola: e Reddit la porta in tribunale
Reddit ha avviato un'azione legale contro Perplexity AI e tre società specializzate in data scraping, accusandole di aver orchestrato un sistema su larga scala per estrarre illegalmente contenuti dalla piattaforma e alimentare modelli di AI senza autorizzazione
di Nino Grasso pubblicata il 23 Ottobre 2025, alle 09:41 nel canale WebRedditPerplexity
La piattaforma di social media Reddit ha depositato una denuncia presso il tribunale federale del distretto meridionale di New York contro Perplexity AI e altre tre entità accusate di partecipare a un'economia illegale di raccolta dati. Gli imputati comprendono Oxylabs UAB, società lituana specializzata in scraping, AWMProxy (identificata da Reddit come ex botnet russa) e SerpApi, startup texana che annovera Perplexity tra i propri clienti.

Secondo i documenti depositati, le società imputate avrebbero aggirato sistematicamente le protezioni anti-scraping implementate da Reddit, accedendo ai contenuti protetti da copyright attraverso canali non autorizzati. La denuncia sostiene che in alcuni casi il materiale sia stato estratto direttamente dalle pagine dei risultati di ricerca di Google, eludendo completamente i sistemi di sicurezza della piattaforma.
La documentazione legale critica duramente l'architettura tecnologica alla base del motore di risposta di Perplexity, definendola basata sulla Retrieval Augmented Generation (RAG), un approccio in cui dati estratti vengono elaborati da modelli linguistici di terze parti. Reddit sottolinea come il modello operativo dell'azienda consista nell'acquisire contenuti dai risultati di ricerca, processarli attraverso LLM esterni e presentarli come un prodotto autonomo, pur avendo raggiunto una valutazione di mercato di 20 miliardi di dollari.
Per dimostrare le proprie accuse, Reddit ha condotto un test specifico creando un contenuto unico visibile esclusivamente ai crawler di ricerca di Google e inaccessibile attraverso altri canali. Secondo quanto riportato nella denuncia, il contenuto è apparso nei risultati di Perplexity nel giro di poche ore, fornendo una prova concreta delle pratiche contestate.
Ben Lee, responsabile legale di Reddit, ha dichiarato che gli scraper aggirano le protezioni tecnologiche per sottrarre dati che vengono poi rivenduti a clienti interessati a materiale per l'addestramento di modelli AI e la sua piattaforma rappresenta un obiettivo particolarmente attraente data la vastità e la dinamicità delle conversazioni ospitate. Un elemento centrale della controversia riguarda le promesse non mantenute da parte di Perplexity. Reddit aveva già inviato una lettera di diffida alla piattaforma AI, richiedendo la cessazione immediata dello scraping in assenza di un accordo commerciale formale, sul modello di quelli stipulati da OpenAI e Google. Perplexity aveva assicurato che avrebbe rispettato il file robots.txt della piattaforma, ma secondo la denuncia il volume delle citazioni da Reddit sul motore di risposta sarebbe aumentato di quaranta volte dopo quella comunicazione.
Le accuse mosse da Reddit trovano riscontro in denunce analoghe presentate da Cloudflare nell'agosto scorso, quando il fornitore di infrastrutture internet aveva documentato come Perplexity utilizzasse crawler non dichiarati per aggirare le regole dei Web Application Firewall dopo che alcuni clienti avevano bloccato i bot ufficiali PerplexityBot e Perplexity-User. Cloudflare aveva osservato l'attività sospetta su decine di migliaia di domini, con milioni di richieste giornaliere.
La richiesta avanzata da Reddit al tribunale include l'ingiunzione immediata che impedisca agli imputati di continuare lo scraping dei dati della piattaforma, oltre al risarcimento integrale dei danni subiti. Il social media chiede specificamente la restituzione di eventuali profitti ottenuti attraverso l'utilizzo non autorizzato dei propri contenuti, definiti come "guadagni illeciti" nella documentazione legale rilasciata.










Cineca inaugura Pitagora, il supercomputer Lenovo per la ricerca sulla fusione nucleare
Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA
Renault Twingo E-Tech Electric: che prezzo!
DJI Osmo 360 in super offerta su Amazon: -29%, versioni Standard e Adventure a prezzi mai visti
Moto Watch Fit con Moto AI a metà prezzo: smartwatch completo con GPS e 16 giorni di autonomia a 49,90€
Batterie ibride plug-in: la classifica dei marchi che durano di più (e di meno)
Ayaneo Next 2 è ufficiale: prestazioni da desktop nel palmo di una mano (costerà un rene?)
Windows 11 26H1 è ufficiale, ma è solo per Arm: brutte notizie per i possessori di PC x64
Archive.is nel mirino: l'FBI vuole sapere chi lo gestisce
CMF by Nothing Buds 2a: le cuffie ANC con bassi profondi e autonomia record a soli 27€ su Amazon
Galaxy Watch 7 e 8 in offerta su Amazon: i nuovi smartwatch Samsung con Galaxy AI scendono fino a 135€, anche il modello Classic in sconto
Amazon Haul rilancia con il codice LUCKY10: 10€ di sconto immediato, e se spendi meno… paghi solo la spedizione
Boeing Virtual Airplane, l'addestramento dei piloti passa (anche) da Microsoft Fligh Simulator
Tutte le funzioni satellitari in arrivo su iPhone: non solo SOS e messaggi
NIU inaugura un nuovo store a Milano: apre NIU Sempione
Applicazioni Mission-Critical: alla scoperta del cloud privato di Aruba Cloud con Proxmox VE
PC portatile Lenovo tuttofare a 499€: ora con 1TB di SSD, ma anche 16GB di RAM e CPU Intel Core i5-13420H









5 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoMi hai fatto venire in mente che una volta avevo caricato qualcosa da trasmettere come test ad amico, e lo avevo caricato su un host tipo mega o altro che mostra le visualizzazioni, lo avevo messo senza link, privato, ecc..
trasmettendolo tramite email nulla, la visualizzazione restava 1, ma trasmettendo il link tramite what's up protetto da cifratura come dicono, ecc.. veniva visualizzato 3 o 4 volte oltre alla persona ricevuta, questo per ogni link trasmetto tramite la piattaforma.
Non è che sia il sistema di anteprima dei link il responsabile, quello che mostra il contenuto sotto il link stesso?
YouTube distingue tra impression (quante volte la miniatura o anteprima viene mostrata) e visualizzazioni (quando il video viene effettivamente riprodotto e soddisfa i criteri di conteggio)
Quindi ancora i conti non tornano e si ritorna all'ipotesi dello scraping nascosto anche sui video privati se non esiste altra spiegazione (anche se esiste una differenza tra video privati e video non in elenco nell'help di google.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".