Intelligenza Artificiale, i modelli sono sempre più grandi e i dati di training stanno finendo

Internet non è un posto così grande per soddisfare la fame di informazioni dei modelli di intelligenza artificiale: al vaglio alcune strade alternative

di Andrea Bai pubblicata il 04 Aprile 2024, alle 13:41 nel canale Scienza e tecnologia
OpenAI Anthropic

Le realtà impegnate nel campo dell'intelligenza artificiale che continuano a competere per costruire modelli sempre più grandi e più potenti, potrebbero presto imbattersi in un problema interessante: i dati disponibili su Internet non saranno più sufficienti per soddisfare la loro fame di informazioni.

Il Wall Street Journal osserva infatti che alcune aziende stanno già esplorando fonti di informazioni alternative dopo aver capito che la grande rete non è poi così grande quando si tratta di formare i nuovi modelli IA.

Alcune delle opzioni prese in considerazione sembrano però poco più che palliativi: il Journal cita infatti trascrizioni di video pubblicamente disponibili e addirittura "dati sintetici" generati dall'intelligenza artificiale stessa.

OpenAI avrebbe ad esempio valutato la possibilità di addestrare GPT-5 usando come materiale sorgente le trascrizioni dei video di YouTube. Tuttavia in casa OpenAI c'è un certo imbarazzo quando si parla di YouTube: in diverse occasioni il CTO Mira Murati ha tergiversato quando le è stato chiesto se per addestrare Sora siano stati utilizzati i contenuti della piattaforma di Google.

I dati sintetici, invece, sono un argomento spesso dibattuto dai ricercatori di IA, che sono arrivati a riferirsi a questa pratica con i termini di "consanguineità digitale", con esiti potenzialmente distruttivi per i modelli IA, esattamente allo stesso modo in cui un'eccessiva consanguineità rappresenta una minaccia biologica alla sopravvivenza della specie.

Sul tema dei dati sintetici OpenAI e Anthropic stano cercando di trovare una soluzione con la fabbricazione di dati sintetici di "qualità superiore", anche se entrambe sono riluttanti a chiarire cosa ciò significhi esattamente. In ogni caso quando Anthropic ha presentato Claude 3, ha affermato che il modello è stato addestrato usando "dati generati internamente" e il CSO della società, Jared Kaplan, ha avuto modo di dichiarare durante un'intervista allo stesso Wall Street Journal che esistono "buoni casi d'uso" anche per i dati sintetici.

Il problema in cui presto o tardi le grandi aziende dell'IA incapperanno, potrebbe in realtà rappresentare uno spunto di riflessione sulla necessità di inseguire la realizzazione di modelli sempre più grandi e complessi, anche alla luce dei costi energetici necessari per il funzionamento delle infrastrutture a supporto dell'intelligenza artificiale così come la forte domanda di processori indispensabili per erogare la potenza di calcolo necessaria, per concentrarsi invece sull'ottimizzazione e l'efficientamento dei modelli già esistenti.

I migliori sconti su Amazon oggi

-3%

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

429.90 419.00€ Compra ora

-3%

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

499.00€ Compra ora

-14%

ECOVACS GOAT G1-800 robot tagliaerba 800mq senza filo perimetrale, Rasaerba robot con mappatura automatica, posizionamento Banda Ultra Larga+Vision+GPS, gestione di 16 zone, pendenza fino al 45%

699.00 599.00€ Compra ora

Sensazionale su Amazon: NIkon Z30 solo corpo, garanzia Nital 4 anni, solo 582€ (minimo storico)!

iPhone 16, nuovi modellini svelano le differenze di design di tutta la famiglia

alexfri04 Aprile 2024, 13:47 #1

Potebbe essere anche la naturale evoluzione dell'uomo, scoprire cosa sia l'anima che rende un essere umano senziente, farne un dump e inserirlo in una macchina per superare la forma biologica (sempre che si possa scindere la forma biologica dall'anima) tanto prima o poi dovremmo andarcene di qua prima che il sole ci annienti, e i viaggi spaziali potrebbero durare millenni (la nostra forma attuale non permetterebbe di sopravviverea tali viaggi)

DevilsAdvocate04 Aprile 2024, 14:17 #2

I dati addestrano il modello linguistico, ma non la capacità di ragionamento. Una volta che questa capacità sarà stata aggiunta gli stessi input forniti all'IA in inferenza saranno distillati in nuovi dati... la via per le AGI è questa.

demon7704 Aprile 2024, 14:43 #3

Originariamente inviato da: alexfri

Potebbe essere anche la naturale evoluzione dell'uomo, scoprire cosa sia l'anima che rende un essere umano senziente, farne un dump e inserirlo in una macchina per superare la forma biologica (sempre che si possa scindere la forma biologica dall'anima) tanto prima o poi dovremmo andarcene di qua prima che il sole ci annienti, e i viaggi spaziali potrebbero durare millenni (la nostra forma attuale non permetterebbe di sopravviverea tali viaggi)

L'ANIMA è solo un concetto inventato che di fatto non ha riscontro nel mondo reale.
Fino a prova contraria (che in millenni di storia ed evoluzione ancora non è visibile neanche in lontanaza) siamo nulla più che macchinari su base biologica evoluti a sufficienza per essere autocoscienti.
Può apparire svilente e riduttivo ma questo è quanto.. un po' come quando guardi "all'immensità del pianeta Terra" salvo poi prendere atto che è un corpo così insignificantemente microscopico nella totalità dell'universo da contare meno di un granello di sabbia nel Sahara.

Quindi a livello teorico il DUMP della coscienza di un individuo da supporto biologico a supporto digitale sarebbe pure applicabile.. il limite è giuisto quello tecnico.. per usare un eufemismo.

Ma anche se per assurdo esistesse oggi una interfaccia in grado di copiare il "software di te stesso" da te biologico ad un corpo artificiale ci sarebbe un "problemino"...

Non è che si parla di spostare il tuo cervello dentro un corpo diverso.. si parla di copiare i "DATI DI TE STESSO" in un altro supporto che diverrebbe in quell'istante un clone perfetto della tua coscienza che prenderebbe a fare la sua vita.. ma tu biologico continueresti ad essere tu..

Non è che si possono spostare i dati come fossero una cosa fisica.

Anche quando sul PC fai "SPOSTA" da un disco ad un altro i dati vengono prima copiati sul nuovo supporto e poi cancellati sul supporto originario.
Come dire che prima ti copiano sul nuovo corpo meccanico e poi ti sparano.. gli altri continueranno a vederti e parlare "CON TE" ma in realtà staranno parlando con un tuo clone che comunque non sei tu. Tu sei morto.

UtenteHD04 Aprile 2024, 14:44 #4

Originariamente inviato da: DevilsAdvocate

A grandi linee pensavo in auto qualcosa del genere, cio' che e' intelligente cambia e si adatta che siano Persone o IA, mi viene in mente l'IA che una volta sbagliando mi ha detto "tutto cio' che e' intelligente sbaglia, che siano persone o IA".
Per chi parla di evoluzione, beh alcuni Scienziati (o altro di non specificato) hanno ipotizzato che l'evoluzione sia essere superati (e poi boh preghiamo) dalle macchine in tutto.

Notturnia04 Aprile 2024, 14:47 #5

Originariamente inviato da: UtenteHD

Se vedi nel forum è quello che molti auspicano a prenscindere dal fatto che questo porti alla loro morte per cui …

A me fa strano pensare di essere in via d’estinzione e di aver “partecipato” alla creazione di chi ci sostituirà visto che non è evoluzione di umani in “super umani” ma estinzione per via della nascita di qualcosa di più adatto

io78bis04 Aprile 2024, 15:11 #6

Non ho capito il problema se hai dato in input tutto lo scibile umano che altro vuoi?

La nuova conoscenza si genererà tra il confronto tra l'uomo e la AI che permetterà all'uomo grazie alla capacità AI di aggregazione di analizzare i problemi meglio.

Caspita sono stati così veloci a fare i modelli IA che ormai hanno finito il loro lavoro

Edit
Capito hanno esaurito le fonti gratis e/o consultabili con web scraping. Beh allora basta iniziare a pagare invece che fare il sanguisuga sul lavoro degli altri

s12a04 Aprile 2024, 15:22 #7

Altamente dubbio che siano realmente esauriti i dati linguistici da utilizzare nel training, almeno per gli LLM attualmente in uso o previsti; in ogni caso ci sono studi e sistemi, ad esempio da parte di Meta (V-JEPA), con l'obiettivo di ricavare in maniera efficiente a partire da video dati di training utili per aiutare le reti neurali a costruirsi un solido "modello" della realtà:

https://ai.meta.com/blog/v-jepa-yan...e-architecture/

giuliop04 Aprile 2024, 16:42 #8

Originariamente inviato da: demon77

L'ANIMA è solo un concetto inventato che di fatto non ha riscontro nel mondo reale.
Fino a prova contraria (che in millenni di storia ed evoluzione ancora non è visibile neanche in lontanaza) siamo nulla più che macchinari su base biologica evoluti a sufficienza per essere autocoscienti.
Può apparire svilente e riduttivo ma questo è quanto.. un po' come quando guardi "all'immensità del pianeta Terra" salvo poi prendere atto che è un corpo così insignificantemente microscopico nella totalità dell'universo da contare meno di un granello di sabbia nel Sahara.

Quindi a livello teorico il DUMP della coscienza di un individuo da supporto biologico a supporto digitale sarebbe pure applicabile.. il limite è giuisto quello tecnico.. per usare un eufemismo.

Sono certamente d'accordo con la prima frase in grassetto, ma che questa garantisca la conclusione della seconda è discutibile: potrebbe benissimo essere che, anche dando per buono che la natura sia fondamentalmente meccanicistica/materialistica, l'emergenza della coscienza sia prerogativa esclusiva degli organismi biologici.

Originariamente inviato da: demon77

Ma anche se per assurdo esistesse oggi una interfaccia in grado di copiare il "software di te stesso" da te biologico ad un corpo artificiale ci sarebbe un "problemino"...

Già, anche nel teletrasporto di Star Trek è chiaro che i dati vengono copiati: c'è almeno un episodio in cui un persona (Riker) si "sdoppia", uno rimane bloccato (l'"originale"?) ma dall'altra parte ne arriva un altro, il che fa pensare che quello che succede è che, una volta riprodotta la persona a destinazione, l'originale venga distrutto.
Capire però se "tu sei [effettivamente] morto" solleva una serie di problemi sul concetto di identità, come quello (classico) della "nave di Teseo": fino a quando una nave rimane la stessa, man mano che sostituisci pezzi per ripararla? E se prendi tutti i pezzi che hai sostituito e fai un'altra nave, quale delle due è quella "vera"?
In questo caso potresti dire che tu sei morto perché, nonostante la tua coscienza sia preservata, il tuo organismo non è più lo stesso, ma con lo stesso ragionamento potresti dire che in realtà muori costantemente con il continuo [ri]cambio dell'organismo, che avviene dalla nascita alla morte: cosa rimane esattamente di un neonato in un novantenne?
Insomma, hai stuzzicato un nido di vespe

zappy04 Aprile 2024, 16:56 #9

addestreremo le IA con le scemenze di YT e wikipedia (se già non l'hanno fatto)...
cosa potrebbe mai andare male?

GianMi04 Aprile 2024, 17:03 #10

Garbage in...

...garbage out. Modelli molto più piccoli di ChatGPT ottengono in molti benchmark risultati migliori perché sono stati addestrati con dati migliori. E' il caso p.e. del recentissimo DBRX.

E' tra l'altro lo stesso problema che hanno i RAG (Retrieval Augmented Generation) basati sui LLM, che, se implementati in modo semplicistico dandogli in pasto i documenti senza pre e post elaborazione, restituiscono risultati scadenti.

Quindi, come spesso succede, più che la quantità conta la qualità.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sharkoon VK4 ARGB

Nintendo Switch 2

Fujifilm X-E5 con Fujinon XF23mm F2.8: una X100VI ma con ottica intercambiabile

2025 Nikon Comedy Wildlife Awards: i primi scatti del concorso

Nintendo Switch 2

MSI Prestige 13 AI e i portatili business al Computex

Ryzen Threadripper 9980X e 9970X alla prova: AMD Zen 5 al massimo livello AMD ha aggiornato l'offerta di CPU HEDT con i Ryzen Threadripper 9000 basati su architettura Zen 5. In questo articolo vediamo come si comportano i modelli con 64...

BOOX Note Air4 C è uno spettacolo: il tablet E Ink con Android per lettura e scrittura BOOX Note Air4 C rappresenta l'ultima incarnazione della categoria dei tablet E Ink a colori di Onyx, e combina le prestazioni di un dispositivo Android con l'ottima...

The Edge of Fate è Destiny 2.5. E questo è un problema Bungie riesce a costruire una delle campagne più coinvolgenti della serie e introduce cambiamenti profondi al sistema di gioco, tra nuove stat e tier dell’equipaggiamento....

Fujifilm X-E5: la Fuji X che tutti gli appassionati volevano Dopo il fascino un po’ elitario della GFX100RF e le polemiche intorno a x Half, la nuova Fujifilm X-E5 riporta tutti d’accordo: una mirrorless compatta, leggera,...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

HPE Discover 2025: tra agenti intelligenti, infrastruttura AI-native e un futuro ibrido Edge9 ha seguito da vicino HPE Discover 2025 con accesso esclusivo a keynote e interviste. Dalla Sphere di Las Vegas, la visione di un’infrastruttura AI-native e...

Nuova Ford Capri elettrica, la super prova: in viaggio, in città e in autostrada Dopo diverse prove, da poche ore al volante, fino a un'intera settimana come prima auto, possiamo riportarvi tutti i dettagli e le impressioni sulla Ford Capri elettrica...

Roborock Saros Z70: un braccio meccanico per fare ordine in casa Dotato di tutte le ultime innovazioni in tema di aspirazione della polvere e pulizia dei pavimenti di casa, Roborock Saros Z70 integra un braccio meccanico che promette...

Intelligenza Artificiale, i modelli sono sempre più grandi e i dati di training stanno finendo

Lenovo, Notebook Portatile, V15 G4 IRU, Display 15,6" Full HD, Intel Core i5-13420H, Ram 16 GB DDR4, 512 GB SSD NVMe, Win 11 Pro, Libre Office, Preconfigurato

Lenovo, Notebook Portatile, Display 15,6" Full HD, Intel Core i5-13420H, Ram 24 GB DDR4, 1000 GB SSD NVMe, Pc Portatile Windows 11 Pro

ECOVACS GOAT G1-800 robot tagliaerba 800mq senza filo perimetrale, Rasaerba robot con mappatura automatica, posizionamento Banda Ultra Larga+Vision+GPS, gestione di 16 zone, pendenza fino al 45%

52 Commenti