Oltre 200 siti di news hanno limitato l'accesso a Internet Archive: cosa sta succedendo

La tensione tra editori e intelligenza artificiale investe Internet Archive. Le testate temono che la Wayback Machine funga da ingresso secondario per l'addestramento dei modelli, e hanno attivato blocchi che di fatto possono minacciare l'esistenza di una memoria storica del web

di Nino Grasso pubblicata il 03 Febbraio 2026, alle 12:31 nel canale Web

La conservazione della memoria digitale si trova oggi schiacciata in un conflitto che non la riguarda direttamente, ma che ne sta compromettendo l'integrità. Grandi gruppi editoriali internazionali hanno iniziato a limitare o bloccare completamente l'accesso ai propri contenuti da parte di Internet Archive, l'ente no-profit che da decenni fotografa e cataloga l'evoluzione del web tramite Wayback Machine. La causa di questa chiusura non risiede nell'attività di archiviazione in sé, quanto nel timore che le aziende di intelligenza artificiale utilizzino questi archivi come scorciatoia per addestrare i propri modelli linguistici (LLM) aggirando paywall e restrizioni imposte sui siti originali.

Si tratta di un fenomeno che Robert Hahn, responsabile delle licenze per Guardian, ha definito - contattato da Nieman Lab - una questione di "conformità" e una difesa contro una "minaccia backdoor". I log di accesso del quotidiano britannico hanno rivelato una frequente attività di scansione proveniente proprio da Internet Archive. Sebbene Guardian supporti la missione di democratizzazione dell'informazione promossa dall'archivio, la dirigenza ha scelto di limitare l'esposizione dei propri articoli completi, temendo che le API della piattaforma di archiviazione offrano database strutturati troppo facili da prelevare per le compagnie tecnologiche a caccia di proprietà intellettuale. Non si tratta di un caso isolato, ma di una tendenza che coinvolge i maggiori attori dell'informazione globale.

Centinaia di siti di news bloccano l'accesso a Internet Archive, contro lo scraping per l'IA

Le contromisure adottate variano per intensità e metodo tecnico: anche New York Times ha confermato di aver attivato un "hard blocking" contro i crawler di Internet Archive, inserendo specifici bot come archive.org_bot nella lista di esclusione del proprio file robots.txt alla fine del 2025. Una decisione simile è stata presa da Reddit e dal conglomerato USA Today Co. (Gannett), che possiede centinaia di testate locali negli Stati Uniti. Mike Reed, CEO di Gannett, ha reso noto che nel solo mese di settembre 2025 l'azienda ha bloccato 75 milioni di bot AI, la maggior parte dei quali tentava di estrarre contenuti locali.

L'analisi condotta da Nieman Lab su oltre mille siti di notizie ha evidenziato che 241 testate in nove paesi vietano esplicitamente l'accesso ad almeno uno dei bot riconducibili a Internet Archive. La preoccupazione principale è che la Wayback Machine mostri versioni gratuite di articoli che sul sito originale sarebbero protetti da abbonamento, offrendo così materiale di alta qualità "pulito" e pronto per essere ingerito dai sistemi di machine learning. Financial Times, ad esempio, blocca qualsiasi automatismo tenti di accedere ai propri contenuti a pagamento, colpendo indistintamente le aziende di AI come OpenAI e gli archivi storici.

Michael Nelson, docente di informatica alla Old Dominion University, descrive la situazione con amarezza: Internet Archive e Common Crawl, considerati i "buoni" dell'ecosistema digitale, sono diventati un danno collaterale nella guerra contro i "cattivi" che sfruttano i dati senza permesso. Brewster Kahle, fondatore di Internet Archive, sostiene che tale condotta potrebbe avere effetti collaterali per gli utenti del web: se gli editori continueranno a limitare le biblioteche digitali, insomma, il pubblico avrà meno accesso alla documentazione storica, minando la lotta contro il disordine informativo.

Nonostante le rassicurazioni di Kahle sui sistemi di sicurezza e filtraggio interni, la fiducia tra chi produce notizie e chi le conserva sembra essersi incrinata di fronte alla fame insaziabile di dati dei nuovi modelli generativi.

I migliori sconti su Amazon oggi

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

140.84€ Compra ora

-30%

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

99.90 69.99€ Compra ora

-30%

FRITZ!Repeater 600 Edition International, Ripetitore - Wi-Fi extender fino a 600 Mbit/s (2,4 GHz), Mesh, Access Point, Interfaccia in italiano

29.49€ Compra ora

Gennaio si chiude positivamente per il mercato auto, ma i volumi sono distanti dal pre-pandemia

La TV non è smart? Amazon la trasforma con meno di 30€: ecco quale Fire TV Stick scegliere

matrix8303 Febbraio 2026, 13:04 #1

Originariamente inviato da: Redazione di Hardware Upgrade

Link alla notizia: https://www.hwupgrade.it/news/web/o...ndo_149545.html

La tensione tra editori e intelligenza artificiale investe Internet Archive. Le testate temono che la Wayback Machine funga da ingresso secondario per l'addestramento dei modelli, e hanno attivato blocchi che di fatto possono minacciare l'esistenza di una memoria storica del web

Click sul link per visualizzare la notizia.

Che cagata, basta semplicemente fingersi Googlebot o Bingbot. Voglio vedere se bloccano pure quello. D'altronde quasi tutti i paywall remover funzionano anche così.

lumeruz03 Febbraio 2026, 14:36 #2

Originariamente inviato da: matrix83

basta semplicemente fingersi Googlebot o Bingbot.

cavoli sei un tipo sveglio tu!
Perchè dovrebberlo farlo? Un crawler deve rispettare robots.txt se non lo fa si passa alle maniere forti, blocco del range IP.
Anche la ca**ata del fingersi googlebot non funziona, perchè c'è chi controlla se l'IP corrisponde al bot segnalato.
Credi di essere il grande hacker?

matrix8303 Febbraio 2026, 14:46 #3

Originariamente inviato da: lumeruz

Si lo credo, tu invece che fai nella vita?. Se l'ho detto è perchè l'ho già fatto. Ci lavoro ogni giorno. Sono un sistemista/programmatore. Ti posso fare crawling fingendo di essere un Googlebot e pure con gli IP di google stessa senza che manco te ne accorgi. Se non sapete di cosa parlate tacete.

Darkon03 Febbraio 2026, 15:23 #4

Originariamente inviato da: matrix83

Ma perdi tempo a rispondergli? Leggiti anche solo gli ultimi 10 post e capisci che ovunque posta solo in maniera aggressiva e provocatoria. Tra l'altro accunt del 2020 con 236 post... non serve che ti dica altro, vero?

matrix8303 Febbraio 2026, 15:37 #5

Originariamente inviato da: Darkon

Da lumeruz a lameruz il passo è breve.

Ataru22403 Febbraio 2026, 17:23 #6

Certo che non c'è giorno in cui le IA generative non facciano danni

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

ASUS ROG CROSSHAIR X870E GLACIAL

Nuova Opel Astra Electric, stile rinnovato

Sony Alpha 7 V, la nuova velocista

Lucid Gravity Touring, nuovo allestimento più equilibrato

Jeu de Paume

Rilasciati nuovi video e immagini della seconda missione del razzo spaziale Blue Origin New Glenn

Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei HUAWEI WiFi Mesh X3 Pro Suite è probabilmente il router mesh più fotogenico che si possa acquistare oggi in Italia, ma dietro il guscio in acrilico trasparente e...

Recensione Nothing Phone 4(a): sempre iconico ma ora più concreto Nothing con il suo nuovo Phone 4(a) conferma la sua identità visiva puntando su una costruzione che nobilita il policarbonato. La trasparenza resta l'elemento cardine,...

Diablo II Resurrected: il nuovo DLC Reign of the Warlock Abbiamo provato per voi il nuovo DLC lanciato a sorpresa da Blizzard per Diablo II: Resurrected e quella che segue è una disamina dei nuovi contenuti che abbiamo...

DJI RS 5: stabilizzazione e tracking intelligente per ogni videomaker Analizziamo nel dettaglio DJI RS 5, l'ultimo arrivato della famiglia Ronin progettato per videomaker solisti e piccoli studi. Tra tracciamento intelligente migliorato...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Deep Tech Revolution: così Area Science Park apre i laboratori alle startup Siamo tornati nel parco tecnologico di Trieste per il kick-off del programma che mette a disposizione di cinque startup le infrastrutture di ricerca, dal sincrotrone...

Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite Abbiamo guidato per diversi giorni la Alpine A290, la prima elettrica del nuovo corso della marca. Non è solo una Renault 5 sotto steroidi, ha una sua identità e...

Ecovacs DEEBOT T90 PRO OMNI: ora il rullo di lavaggio è ampio DEEBOT T90 PRO OMNI abbina un sistema di aspirazione basato su tecnologia BLAST ad un rullo di lavaggio dei pavimenti dalla larghezza elevata, capace di trattare...

Oltre 200 siti di news hanno limitato l'accesso a Internet Archive: cosa sta succedendo

Centinaia di siti di news bloccano l'accesso a Internet Archive, contro lo scraping per l'IA

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

FRITZ!Repeater 600 Edition International, Ripetitore - Wi-Fi extender fino a 600 Mbit/s (2,4 GHz), Mesh, Access Point, Interfaccia in italiano

6 Commenti