Basta IA allenate con i dati di Reddit: l'azienda blocca l'accesso al servizio a tutti i motori di ricerca tranne Google

Il CEO di Reddit Steve Huffman ha chiesto esplicitamente a Microsoft, Anthropic e Perplexity di pagare per l'accesso ai dati del sito, accusandoli di utilizzarli senza autorizzazione per addestrare i loro sistemi di intelligenza artificiale. E, nel frattempo, la piattaforma non è stata più resa disponibile ai motori di ricerca ad eccezione di Google

di Nino Grasso pubblicata il 01 Agosto 2024, alle 13:31 nel canale Web

Reddit, una delle piattaforme social più popolari al mondo, sta lottando per cambiare le regole del gioco nel settore dei dati utilizzati per il training delle IA. Steve Huffman, CEO della piattaforma, ha recentemente lanciato un ultimatum a diverse aziende tech, tra cui Microsoft: pagare per accedere ai contenuti di Reddit o perdere il diritto di utilizzarli.

La richiesta di Huffman arriva dopo che Reddit ha già stretto accordi con Google e OpenAI per l'utilizzo dei suoi dati. Ora, il CEO punta il dito contro Microsoft, Anthropic e Perplexity, accusandoli di aver raccolto i dati del sito senza autorizzazione per addestrare i loro sistemi di intelligenza artificiale o alimentare i risultati delle ricerche: "Senza questi accordi, non abbiamo voce in capitolo su come vengono utilizzati i nostri dati", ha dichiarato Huffman in un'intervista sottolineando come sia difficile bloccare l'accesso a queste aziende, ma al contempo necessario per proteggere gli interessi di Reddit.

Reddit lancia l'ultimatum a Microsoft: pagare per sfruttare i dati della piattaforma

La tensione tra Reddit e Microsoft è particolarmente evidente. Huffman accusa il gigante di Redmond di aver utilizzato i dati di Reddit per addestrare la sua IA e riassumere i contenuti nei risultati di Bing senza un esplicito consenso da parte dell'azienda e dei suoi utenti. Inoltre, sostiene che Microsoft abbia venduto i dati di Reddit ad altri motori di ricerca attraverso l'API di Bing.

La posizione di Reddit si inserisce all'interno di un cambiamento più ampio nel settore: gli editori tradizionali e le piattaforme online stanno cercando di monetizzare i loro contenuti di fronte all'ascesa dell'intelligenza artificiale generativa e Huffman ritiene che "il tradizionale scambio di valore dai motori di ricerca sia cambiato" e che la distinzione tra ricerca, riassunto e formazione dell'IA stia diventando sempre più sfumata.

La risposta di Microsoft non si è fatta attendere. Jordi Ribas, responsabile della divisione Search dell'azienda, ha dichiarato su X che "Reddit ha impedito a Bing di eseguire la scansione del proprio sito per la ricerca, favorendo un altro motore di ricerca" e quindi impedendo una competizione leale fra i player del settore. Microsoft ha anche affermato di rispettare le indicazioni dei siti web che non desiderano che i loro contenuti vengano utilizzati per l'addestramento dell'IA.

All'inizio del mese di luglio, Reddit aveva iniziato a limitare drasticamente l'accesso ai suoi contenuti, concedendoli esclusivamente a Google. La piattaforma aveva modificato il file robots.txt, un documento che indica ai motori di ricerca quali parti del sito possono essere indicizzate, per bloccare l'accesso a tutti tranne Google. Attraverso questa modifica è stato impedito a motori di ricerca come Bing, DuckDuckGo e altri di mostrare risultati recenti (e non) provenienti da Reddit.

Huffman ha spiegato che la decisione è stata presa in risposta all'uso non autorizzato dei dati di Reddit da parte delle aziende che abbiamo citato poco sopra, accusandole di aver utilizzato i contenuti di Reddit senza permesso e senza offrire alcuna compensazione. Cosa dovranno fare, quindi, Microsoft e gli altri player del settore per far sì che Reddit ritorni ad apparire fra i risultati di ricerca? Lo stesso Huffman ha fornito una soluzione, indicando il recente accordo con OpenAI per SearchGPT come modello da replicare. Il nuovo servizio potrà mostrare risultati di Reddit grazie a un accordo di licenza stipulato all'inizio dell'anno anche perché - come sottolineato dallo stesso Huffman - nessuno degli accordi di licenza firmati da Reddit fino ad ora prevede l'uso esclusivo dei dati della piattaforma.

I migliori sconti su Amazon oggi

Oral-B Spazzolino Elettrico Ricaricabile iO 2 Nero, 1 Spazzolino Elettrico, 1 Testina Di Ricambio, Custodia Da Viaggio, Supporto per testine + 1 Dentifricio Oral-B Pro-Expert, Pulizia Denti

129.99€ Compra ora

-23%

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

259.00 199.00€ Compra ora

-23%

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

499.00€ Compra ora

La pecora nera della famiglia Meta ha già bruciato più di 50 miliardi di dollari

Ryzen 9 5900XT e Ryzen 7 5800XT: ordini aperti, ecco specifiche e prezzi

ShinyDiscoBoy01 Agosto 2024, 16:31 #1

ma perchè l'intelligenza dovrebbe essere allenata sui dati di reddit??

è come studiare per la scuola su wikipedia.
come ci si fa a fidare della bontà di ciò che scrivono persone di tutto il mondo e tutte le età/esperienze?
Io ci vado e spesso ho trovato risposte interessantissime e complete a dubbi su prodotti informatici ecc..
Però se un gruppo di persone si organizzano per fare disinfomazione?

Non è stato proprio reddit il sito dove si sono organizzati per fare la speculazione di gamestop (o una cosa simile)?

UtenteHD02 Agosto 2024, 09:07 #2

MI sa che e' il contrario.. chi allenava l'IA con Loro si e' accorto che, grazie alle immense informazioni contenute, l'IA peggiorava a vista d'occhio ed hanno deciso di lasciar perdere, per non far figure hanno deciso di dire cosi'.
Ovviamente immaginazione, ma la vedo piu' probabile HAHAHA

SysAdmNET02 Agosto 2024, 12:52 #3

ma che vuol fare Reddit...

se lo magnano... lol

s12a02 Agosto 2024, 13:15 #4

Originariamente inviato da: ShinyDiscoBoy

ma perchè l'intelligenza dovrebbe essere allenata sui dati di reddit??

Perché i modelli linguistici non sono banche dati, riproducono il linguaggio in termini probabilistici, ed affinché si possa dialogare con essi in maniera naturale è necessario che siano addestrati con grandi quantità di conversazioni reali negli ambiti più disparati, ed in media Reddit checché se ne dica è migliore come fonte di dati rispetto al web in generale (composto principalmente da spam, siti ottimizzati per i motori di ricerca, porno).

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso