Wordfreq, chiude il progetto sulla ricerca linguistica: l'intelligenza artificiale ha inquinato i dati
La diffusione di contenuti testuali generati dall'IA, per lo più inutili, ha alterato i dati sulla frequenza d'uso delle parole compromettendo le attività di ricerca alla base del progetto Wordfreq
di Andrea Bai pubblicata il 23 Settembre 2024, alle 13:31 nel canale AppleWordfreq, un progetto ideato per tracciare l'evoluzione dell'uso linguistico in oltre 40 lingue diverse, è stato chiuso nelle scorse settimane poiché la diffusione, in questi ultimi tre anni, di contenuti generati dai modelli linguistici di intelligenza artificiale ha compromesso i dati su cui si sono basate le attività di ricerca.
E' stata la stessa creatrice del progetto, Robyn Speer, a darne notizia su GitHub, avvisando che Wordfreq sarà abbandonato a causa dell'"inquinamento" dell'informazione causato dall'intelligenza artificiale generativa. "Non credo che nessuno abbia informazioni affidabili sull'uso della lingua da parte degli esseri umani dopo il 2021" ha commentato Speer.
Wordfreq ha rappresentato per anni una risorsa preziosa per accademici e ricercatori. Il sistema analizzava milioni di fonti, tra cui Wikipedia, sottotitoli di film e programmi TV, articoli di notizie, libri, siti web, Twitter e Reddit, offrendo una panoramica dettagliata dell'evoluzione linguistica, tenendo traccia dell'emergere di nuove abitudini e di vecchie cadute in disuso, della diffusione di nuovi modi di dire, costrutti gergali e del riflesso dell'evoluzione culturale nel modo di comunicare.

Andando a scandagliare liberamente il web, Wordfreq si è imbattuto in questi ultimi due anni in una mole significativa di contenuti "inutili", veri e propri scarti generati dai grandi modelli linguistici che non sono di fatto scritti da nessuno per comunicare nulla. La raccolta di questi dati va a compromettere l'attendibilità circa la frequenza d'uso delle parole: si tratta inoltre di contenuti che sono presente di fatto ovunque online, e che scimmiottando di fatto il linguaggio reale, sono difficili da riconoscere e ignorare. E' un problema completamente differente rispetto allo spam, che è sempre stato presente sul web ma in misura comunque minore rispetto ai contenuti autentici e più facilmente identificabile.
Speer ha portato l'esempio dell'uso eccessivo della parola inglese "delve" (indagare, fare ricerche) da parte di ChatGPT, che non riflette l'uso reale fatta dalle persone di tale parola. Questo però ha portato ad alterare la frequenza d'uso registrata per questa specifica parola, di fatto inquinando i dati. E' interessante notare che proprio l'occorrenza eccessiva di determinate parole è un fenomeno analizzato da un altro studio accademico per determinare se un testo sia stato scritto con l'uso dell'intelligenza artificiale generativa.
La diffusione dell'IA ha portato al progetto Wordfreq anche una serie di problematiche di ordine pratico: gli strumenti utilizzati dal progetto per leggere grandi quantità di contenuti sono di fatto assimilabili agli stessi utilizzati dalle società IA per addestrare i loro modelli linguistici. Questo ha portato ad una certa diffidenza da parte degli autori e creatori di contenuti, che quando si trovano dinnanzi ad uno strumento che raccoglie attivamente testo da libri, articoli, siti web o post tendono a pensare, anche in maniera abbastanza comprensibile, che dall'altra parte vi sia qualcuno che sta addestrando un'IA "copiona", magari anche a scopo di lucro. Diretta conseguenza è pertanto la difficoltà ad accedere a fonti di contenuti, con molte realtà che hanno iniziato a sollevare barriere, spesso a pagamento, per la raccolta di dati su larga scala.
La creatrice di Wordfreq ha concluso con una certa amarezza la sua comunicazione, esprimendo disappunto in direzione delle grandi realtà tecnologiche coinvolte nello sviluppo dell'IA e sottolineando inoltre come voglia evitare che il suo lavoro di ricerca possa essere in qualche modo confuso con le attività di addestramento dei grandi modelli linguistici.










Recensione OnePlus 15: potenza da vendere e batteria enorme dentro un nuovo design
AMD Ryzen 5 7500X3D: la nuova CPU da gaming con 3D V-Cache per la fascia media
SONY BRAVIA 8 II e BRAVIA Theatre System 6: il cinema a casa in formato compatto
Accise sui km percorsi invece che sul carburante: l'idea britannica per le auto elettriche
Offerta Amazon TOP: il richiestissimo Samsung Crystal 4K 2025 da 55'' scende a soli 345€
Qualcomm porta l'AI nei PC industriali con i nuovi processori Dragonwing IQ-X
UE pensa a nuovi dazi sui pacchi low cost: colpiti Shein e Temu
Evotrex promette la roulotte del futuro, con generatore e energia green
AMD non teme la bolla: gli investimenti nell'intelligenza artificiale sono una scommessa già vinta
Horizon Steel Frontiers: il nuovo MMORPG della saga salta PS5 e fa discutere i fan
DJI Neo 2: il nuovo mini drone da 151 grammi che decolla dal palmo della mano e segue ogni movimento
Svolta per le centrali a batteria: Peak Energy userà le batterie agli ioni di sodio
Truffa da 1 miliardo di dollari attraverso siti falsi: Google porta l'azienda cinese in tribunale
Oggi il Black Friday in anticipo fa crollare i prezzi di MacBook Pro chip M5, TV LG OLED e QNED, smartphone Samsung Galaxy e altro
Black Friday anticipato su Amazon: soundbar Hisense e LG da 240 e da 300W con subwoofer wireless in super offerta da 89,99€
ARC Raiders si espande con il nuovo aggiornamento: arriva la nuova mappa e un nemico più potente della Regina
Solo svantaggi per gli utenti: Apple prova a smontare (di nuovo) il DMA europeo con uno studio









3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infotra iron-IA (AI), doppi senzi quando possibile ed about altro non ri'entri nell'img-ginario comune e in alterum che mi venga in m'Ente e in mentre
Abbah-so lo shift Song artificiale!
In the ham-byte delle id-spedizioni conoscitive svolte dall'Ia-AI
ovvia'mente
sono i gruppi telegram, i forum e le community isolate come 4chan che creano nuove parole che poi prendono strada a livello nazionale o mondiale.
analizzano wikipedia ? no sinceramente, ma sono dei coglioni ? ci si dimentica spesso che questi pseudo scienziati arrivano da studi umanistici.. sono gli scarti dei licei e college che si reinventano un ruolo. sono almeno 10 anni che i bot scrivono automaticamene su wikipedia, ma dormono ?
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".