Intelligenza artificiale: bot senza freni mettono in ginocchio Wikipedia
L'uso intensivo di crawler da parte delle aziende di intelligenza artificiale sta mettendo a dura prova l'infrastruttura di Wikipedia. L'aumento del traffico generato da questi bot comporta costi elevati e rischi per la sostenibilità dell'enciclopedia libera.
di Manolo De Agostini pubblicata il 03 Aprile 2025, alle 08:31 nel canale WebWikipedia
L'inarrestabile fame di dati delle aziende di intelligenza artificiale sta diventando un problema concreto per Wikipedia. Secondo la Wikimedia Foundation, dall'inizio del 2024 la richiesta di contenuti multimediali è aumentata del 50%, con gran parte di questo traffico attribuibile a crawler automatizzati che estraggono immagini e testi per addestrare modelli di intelligenza artificiale.
I crawler, anche noti come "web-scraping bot", sono programmi progettati per visitare e raccogliere informazioni da siti web su larga scala. Tradizionalmente utilizzati dai motori di ricerca per indicizzare i contenuti online, questi strumenti sono ora impiegati da aziende di AI per alimentare i loro modelli, spesso senza sufficiente attribuzione o rispetto per l'infrastruttura di chi fornisce i dati.
"L'aumento del traffico non proviene dai lettori umani, ma in gran parte da programmi automatici che estraggono immagini dal catalogo Wikimedia Commons per alimentare i modelli di intelligenza artificiale", spiegano i rappresentanti di Wikimedia Foundation.

Jimmy Wales, cofondatore di Wikipedia
Il problema è che l'infrastruttura di Wikipedia è pensata per gestire picchi di traffico legati a eventi di grande interesse, non per un flusso continuo e massiccio di richieste automatizzate. Attualmente, almeno il 65% del traffico per i contenuti più costosi serviti dai datacenter di Wikimedia Foundation è generato dai bot, anche se questi agenti software rappresentano solo il 35% circa delle pagine viste.
Questo sovraccarico comporta non solo costi elevati, ma anche un rischio per la stabilità del servizio: "Dedichiamo una parte significativa delle nostre risorse alla gestione del traffico non umano, riducendo la capacità di rispondere a esigenze più critiche della nostra comunità", sostiene Wikimedia.
I modelli di IA generativa non si limitano a indicizzare i contenuti per migliorarne la reperibilità, ma spesso li riutilizzano per fini commerciali, riducendo il traffico verso le fonti originali e potenzialmente compromettendo i loro introiti pubblicitari.
Per affrontare il problema, la Wikimedia Foundation ha fissato un obiettivo per l'anno 2025/2026: ridurre del 20% le richieste dei crawler e del 30% l'uso di banda associato. Il metodo su come raggiungere questo traguardo è ancora in fase di studio. Finora, le contromisure includono il blocco dei bot più aggressivi e la ricerca di strategie per incentivare l'uso responsabile dei contenuti di Wikipedia.










Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei
Core Ultra 7 270K Plus e Core Ultra 7 250K Plus: Intel cerca il riscatto ma ci riesce in parte
PC Specialist Lafité 14 AI AMD: assemblato come vuoi tu
L'esperimento BASE del CERN è riuscito a trasportare dell'antimateria
Afeela è morta: chiusa definitivamente la collaborazione tra Sony e Honda per gli EV premium
Intel BOT altera i risultati, Geekbench invita a non fidarsi dei risultati delle CPU che lo supportano
Intel e AMD faticano a soddisfare la domanda consumer: CPU introvabili e attese fino a sei mesi
Microsoft e NVIDIA insieme per dare una scossa allo sviluppo del nucleare: l'IA per accelerare i tempi
Ring rinnova l'intera gamma video: 4K su batteria, PoE e nuovo caricatore solare tra le novità
Recensione Galaxy Buds4 Pro: le cuffie Samsung più belle e intelligenti
Spotify si arricchisce ancora: arriva SongDNA, tutto sulla tua musica preferita
I digital twin di AVEVA a supporto delle AI Factory di NVIDIA
Iliad non si ferma: clienti in crescita sia sul mobile sia per la fibra
XuanTie C950, il chip IA di Alibaba basato su RISC-V sarà prodotto a 5 nm
Volkswagen richiama 94.000 auto elettriche per rischio incendio nei moduli batteria
Le nuove LaserJet di HP portano la crittografia quantum-resistant su tutte le stampanti, dalle Pro alle Enterprise
FSR 4 gira sulla GPU di PS5 Pro, ma non sulle vecchie Radeon: AMD cosa aspetti?









12 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoin che senso?
Wikipedia deve assolutamente continuare ad esistere.
Beh fai un esempio !
don't feed the troll
don't feed the troll
mi hai bruciato sul tempo
qualcuno potrebbe trovare profittevole manipolare notizie con riferimenti di attualità ma stai tranquillo che a Pitagora e Keplero nessuno gli rompe le scatole!
Già, in passato ci credevo ed ero donatore. Poi con il passare del tempo, ho cambiato idea.
Wikipedia and Propaganda
How Wikipedia Became a Propaganda Site
P.S. wikipedia mi ricorda molto mozilla, che da difensore dei diritti degli utenti, è passata a vendere i dati degli utenti. Alcuni link interessanti: link1, link2 e link3.
io la uso ogni giorno per una decina di volte non ho ancora mai trovato un contenuto discutibile saro stato fortunato immagino
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".