Wordfreq, chiude il progetto sulla ricerca linguistica: l'intelligenza artificiale ha inquinato i dati

La diffusione di contenuti testuali generati dall'IA, per lo più inutili, ha alterato i dati sulla frequenza d'uso delle parole compromettendo le attività di ricerca alla base del progetto Wordfreq

di Andrea Bai pubblicata il 23 Settembre 2024, alle 13:31 nel canale Apple

Wordfreq, un progetto ideato per tracciare l'evoluzione dell'uso linguistico in oltre 40 lingue diverse, è stato chiuso nelle scorse settimane poiché la diffusione, in questi ultimi tre anni, di contenuti generati dai modelli linguistici di intelligenza artificiale ha compromesso i dati su cui si sono basate le attività di ricerca.

E' stata la stessa creatrice del progetto, Robyn Speer, a darne notizia su GitHub, avvisando che Wordfreq sarà abbandonato a causa dell'"inquinamento" dell'informazione causato dall'intelligenza artificiale generativa. "Non credo che nessuno abbia informazioni affidabili sull'uso della lingua da parte degli esseri umani dopo il 2021" ha commentato Speer.

Wordfreq ha rappresentato per anni una risorsa preziosa per accademici e ricercatori. Il sistema analizzava milioni di fonti, tra cui Wikipedia, sottotitoli di film e programmi TV, articoli di notizie, libri, siti web, Twitter e Reddit, offrendo una panoramica dettagliata dell'evoluzione linguistica, tenendo traccia dell'emergere di nuove abitudini e di vecchie cadute in disuso, della diffusione di nuovi modi di dire, costrutti gergali e del riflesso dell'evoluzione culturale nel modo di comunicare.

Andando a scandagliare liberamente il web, Wordfreq si è imbattuto in questi ultimi due anni in una mole significativa di contenuti "inutili", veri e propri scarti generati dai grandi modelli linguistici che non sono di fatto scritti da nessuno per comunicare nulla. La raccolta di questi dati va a compromettere l'attendibilità circa la frequenza d'uso delle parole: si tratta inoltre di contenuti che sono presente di fatto ovunque online, e che scimmiottando di fatto il linguaggio reale, sono difficili da riconoscere e ignorare. E' un problema completamente differente rispetto allo spam, che è sempre stato presente sul web ma in misura comunque minore rispetto ai contenuti autentici e più facilmente identificabile.

Speer ha portato l'esempio dell'uso eccessivo della parola inglese "delve" (indagare, fare ricerche) da parte di ChatGPT, che non riflette l'uso reale fatta dalle persone di tale parola. Questo però ha portato ad alterare la frequenza d'uso registrata per questa specifica parola, di fatto inquinando i dati. E' interessante notare che proprio l'occorrenza eccessiva di determinate parole è un fenomeno analizzato da un altro studio accademico per determinare se un testo sia stato scritto con l'uso dell'intelligenza artificiale generativa.

La diffusione dell'IA ha portato al progetto Wordfreq anche una serie di problematiche di ordine pratico: gli strumenti utilizzati dal progetto per leggere grandi quantità di contenuti sono di fatto assimilabili agli stessi utilizzati dalle società IA per addestrare i loro modelli linguistici. Questo ha portato ad una certa diffidenza da parte degli autori e creatori di contenuti, che quando si trovano dinnanzi ad uno strumento che raccoglie attivamente testo da libri, articoli, siti web o post tendono a pensare, anche in maniera abbastanza comprensibile, che dall'altra parte vi sia qualcuno che sta addestrando un'IA "copiona", magari anche a scopo di lucro. Diretta conseguenza è pertanto la difficoltà ad accedere a fonti di contenuti, con molte realtà che hanno iniziato a sollevare barriere, spesso a pagamento, per la raccolta di dati su larga scala.

La creatrice di Wordfreq ha concluso con una certa amarezza la sua comunicazione, esprimendo disappunto in direzione delle grandi realtà tecnologiche coinvolte nello sviluppo dell'IA e sottolineando inoltre come voglia evitare che il suo lavoro di ricerca possa essere in qualche modo confuso con le attività di addestramento dei grandi modelli linguistici.

I migliori sconti su Amazon oggi

-23%

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

259.00 199.00€ Compra ora

-3%

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

429.90 419.00€ Compra ora

-29%

Apple AirPods Pro 2 Auricolari wireless, Auricolari Bluetooth, Cancellazione attiva del rumore, Funzione Apparecchio acustico, Trasparenza, Audio spaziale personalizzato, Alta fedeltà, Ricarica USB-C

279.00 199.00€ Compra ora

Assassin's Creed Invictus: il titolo multiplayer sarà una specie di Fall Guys?

Steam in arrivo sui PC con Snapdragon? Valve al lavoro su una nuova versione per Arm

raxas23 Settembre 2024, 13:50 #1

Personalmente sto portando avanti una serie di post plurali, senza riferimento ai mondi, ma ah quello presente in iter (caso nominativo in questo caso specifico) tranne quando l'argomento è troppo serio (full-troppo dei topics), per fare fall'ire o andare in fall quale Autumn, nel mentre che già lo siamo da two giorni, lo shit dell'intellighenzia artificiale,
tra iron-IA (AI), doppi senzi quando possibile ed about altro non ri'entri nell'img-ginario comune e in alterum che mi venga in m'Ente e in mentre
Abbah-so lo shift Song artificiale!
In the ham-byte delle id-spedizioni conoscitive svolte dall'Ia-AI
ovvia'mente

io78bis23 Settembre 2024, 13:54 #2

Peccato, sembrava sicuramente un progetto più utile che non l'uso attuale fatto dal AI dalle masse.

Gnubbolo23 Settembre 2024, 15:42 #3

studi assolutamente inutili. basta fare 50 km a est e il motorino diventa papero.
sono i gruppi telegram, i forum e le community isolate come 4chan che creano nuove parole che poi prendono strada a livello nazionale o mondiale.
analizzano wikipedia ? no sinceramente, ma sono dei coglioni ? ci si dimentica spesso che questi pseudo scienziati arrivano da studi umanistici.. sono gli scarti dei licei e college che si reinventano un ruolo. sono almeno 10 anni che i bot scrivono automaticamene su wikipedia, ma dormono ?

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

BOOX Note Air4 C è uno spettacolo: il tablet E Ink con Android per lettura e scrittura BOOX Note Air4 C rappresenta l'ultima incarnazione della categoria dei tablet E Ink a colori di Onyx, e combina le prestazioni di un dispositivo Android con l'ottima...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

Wordfreq, chiude il progetto sulla ricerca linguistica: l'intelligenza artificiale ha inquinato i dati

Apple Watch SE (2ª gen.) GPS 40 mm Smartwatch con cassa in alluminio Galassia e Cinturino Sport Galassia - S/M. Tracker per il fitness e il sonno, app Battito, Rilevamento incidenti, display Retina

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

Apple AirPods Pro 2 Auricolari wireless, Auricolari Bluetooth, Cancellazione attiva del rumore, Funzione Apparecchio acustico, Trasparenza, Audio spaziale personalizzato, Alta fedeltà, Ricarica USB-C

3 Commenti