Intelligenza Artificiale, i modelli sono sempre più grandi e i dati di training stanno finendo

Internet non è un posto così grande per soddisfare la fame di informazioni dei modelli di intelligenza artificiale: al vaglio alcune strade alternative
di Andrea Bai pubblicata il 04 Aprile 2024, alle 13:41 nel canale Scienza e tecnologiaOpenAIAnthropic
Le realtà impegnate nel campo dell'intelligenza artificiale che continuano a competere per costruire modelli sempre più grandi e più potenti, potrebbero presto imbattersi in un problema interessante: i dati disponibili su Internet non saranno più sufficienti per soddisfare la loro fame di informazioni.
Il Wall Street Journal osserva infatti che alcune aziende stanno già esplorando fonti di informazioni alternative dopo aver capito che la grande rete non è poi così grande quando si tratta di formare i nuovi modelli IA.
Alcune delle opzioni prese in considerazione sembrano però poco più che palliativi: il Journal cita infatti trascrizioni di video pubblicamente disponibili e addirittura "dati sintetici" generati dall'intelligenza artificiale stessa.
OpenAI avrebbe ad esempio valutato la possibilità di addestrare GPT-5 usando come materiale sorgente le trascrizioni dei video di YouTube. Tuttavia in casa OpenAI c'è un certo imbarazzo quando si parla di YouTube: in diverse occasioni il CTO Mira Murati ha tergiversato quando le è stato chiesto se per addestrare Sora siano stati utilizzati i contenuti della piattaforma di Google.

I dati sintetici, invece, sono un argomento spesso dibattuto dai ricercatori di IA, che sono arrivati a riferirsi a questa pratica con i termini di "consanguineità digitale", con esiti potenzialmente distruttivi per i modelli IA, esattamente allo stesso modo in cui un'eccessiva consanguineità rappresenta una minaccia biologica alla sopravvivenza della specie.
Sul tema dei dati sintetici OpenAI e Anthropic stano cercando di trovare una soluzione con la fabbricazione di dati sintetici di "qualità superiore", anche se entrambe sono riluttanti a chiarire cosa ciò significhi esattamente. In ogni caso quando Anthropic ha presentato Claude 3, ha affermato che il modello è stato addestrato usando "dati generati internamente" e il CSO della società, Jared Kaplan, ha avuto modo di dichiarare durante un'intervista allo stesso Wall Street Journal che esistono "buoni casi d'uso" anche per i dati sintetici.
Il problema in cui presto o tardi le grandi aziende dell'IA incapperanno, potrebbe in realtà rappresentare uno spunto di riflessione sulla necessità di inseguire la realizzazione di modelli sempre più grandi e complessi, anche alla luce dei costi energetici necessari per il funzionamento delle infrastrutture a supporto dell'intelligenza artificiale così come la forte domanda di processori indispensabili per erogare la potenza di calcolo necessaria, per concentrarsi invece sull'ottimizzazione e l'efficientamento dei modelli già esistenti.
52 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoL'ANIMA è solo un concetto inventato che di fatto non ha riscontro nel mondo reale.
Fino a prova contraria (che in millenni di storia ed evoluzione ancora non è visibile neanche in lontanaza) siamo nulla più che macchinari su base biologica evoluti a sufficienza per essere autocoscienti.
Può apparire svilente e riduttivo ma questo è quanto.. un po' come quando guardi "all'immensità del pianeta Terra" salvo poi prendere atto che è un corpo così insignificantemente microscopico nella totalità dell'universo da contare meno di un granello di sabbia nel Sahara.
Quindi a livello teorico il DUMP della coscienza di un individuo da supporto biologico a supporto digitale sarebbe pure applicabile.. il limite è giuisto quello tecnico.. per usare un eufemismo.
Ma anche se per assurdo esistesse oggi una interfaccia in grado di copiare il "software di te stesso" da te biologico ad un corpo artificiale ci sarebbe un "problemino"...
Non è che si parla di spostare il tuo cervello dentro un corpo diverso.. si parla di copiare i "DATI DI TE STESSO" in un altro supporto che diverrebbe in quell'istante un clone perfetto della tua coscienza che prenderebbe a fare la sua vita.. ma tu biologico continueresti ad essere tu..
Non è che si possono spostare i dati come fossero una cosa fisica.
Anche quando sul PC fai "SPOSTA" da un disco ad un altro i dati vengono prima copiati sul nuovo supporto e poi cancellati sul supporto originario.
Come dire che prima ti copiano sul nuovo corpo meccanico e poi ti sparano.. gli altri continueranno a vederti e parlare "CON TE" ma in realtà staranno parlando con un tuo clone che comunque non sei tu. Tu sei morto.
A grandi linee pensavo in auto qualcosa del genere, cio' che e' intelligente cambia e si adatta che siano Persone o IA, mi viene in mente l'IA che una volta sbagliando mi ha detto "tutto cio' che e' intelligente sbaglia, che siano persone o IA".
Per chi parla di evoluzione, beh alcuni Scienziati (o altro di non specificato) hanno ipotizzato che l'evoluzione sia essere superati (e poi boh preghiamo) dalle macchine in tutto.
Per chi parla di evoluzione, beh alcuni Scienziati (o altro di non specificato) hanno ipotizzato che l'evoluzione sia essere superati (e poi boh preghiamo) dalle macchine in tutto.
Se vedi nel forum è quello che molti auspicano a prenscindere dal fatto che questo porti alla loro morte per cui …
A me fa strano pensare di essere in via d’estinzione e di aver “partecipato” alla creazione di chi ci sostituirà visto che non è evoluzione di umani in “super umani” ma estinzione per via della nascita di qualcosa di più adatto
La nuova conoscenza si genererà tra il confronto tra l'uomo e la AI che permetterà all'uomo grazie alla capacità AI di aggregazione di analizzare i problemi meglio.
Caspita sono stati così veloci a fare i modelli IA che ormai hanno finito il loro lavoro
Edit
Capito hanno esaurito le fonti gratis e/o consultabili con web scraping. Beh allora basta iniziare a pagare invece che fare il sanguisuga sul lavoro degli altri
https://ai.meta.com/blog/v-jepa-yan...e-architecture/
Fino a prova contraria (che in millenni di storia ed evoluzione ancora non è visibile neanche in lontanaza) siamo nulla più che macchinari su base biologica evoluti a sufficienza per essere autocoscienti.
Può apparire svilente e riduttivo ma questo è quanto.. un po' come quando guardi "all'immensità del pianeta Terra" salvo poi prendere atto che è un corpo così insignificantemente microscopico nella totalità dell'universo da contare meno di un granello di sabbia nel Sahara.
Quindi a livello teorico il DUMP della coscienza di un individuo da supporto biologico a supporto digitale sarebbe pure applicabile.. il limite è giuisto quello tecnico.. per usare un eufemismo.
Sono certamente d'accordo con la prima frase in grassetto, ma che questa garantisca la conclusione della seconda è discutibile: potrebbe benissimo essere che, anche dando per buono che la natura sia fondamentalmente meccanicistica/materialistica, l'emergenza della coscienza sia prerogativa esclusiva degli organismi biologici.
Non è che si parla di spostare il tuo cervello dentro un corpo diverso.. si parla di copiare i "DATI DI TE STESSO" in un altro supporto che diverrebbe in quell'istante un clone perfetto della tua coscienza che prenderebbe a fare la sua vita.. ma tu biologico continueresti ad essere tu..
Non è che si possono spostare i dati come fossero una cosa fisica.
Anche quando sul PC fai "SPOSTA" da un disco ad un altro i dati vengono prima copiati sul nuovo supporto e poi cancellati sul supporto originario.
Come dire che prima ti copiano sul nuovo corpo meccanico e poi ti sparano.. gli altri continueranno a vederti e parlare "CON TE" ma in realtà staranno parlando con un tuo clone che comunque non sei tu. Tu sei morto.
Già, anche nel teletrasporto di Star Trek è chiaro che i dati vengono copiati: c'è almeno un episodio in cui un persona (Riker) si "sdoppia", uno rimane bloccato (l'"originale"?) ma dall'altra parte ne arriva un altro, il che fa pensare che quello che succede è che, una volta riprodotta la persona a destinazione, l'originale venga distrutto.
Capire però se "tu sei [effettivamente] morto" solleva una serie di problemi sul concetto di identità, come quello (classico) della "nave di Teseo": fino a quando una nave rimane la stessa, man mano che sostituisci pezzi per ripararla? E se prendi tutti i pezzi che hai sostituito e fai un'altra nave, quale delle due è quella "vera"?
In questo caso potresti dire che tu sei morto perché, nonostante la tua coscienza sia preservata, il tuo organismo non è più lo stesso, ma con lo stesso ragionamento potresti dire che in realtà muori costantemente con il continuo [ri]cambio dell'organismo, che avviene dalla nascita alla morte: cosa rimane esattamente di un neonato in un novantenne?
Insomma, hai stuzzicato un nido di vespe
cosa potrebbe mai andare male?
Garbage in...
...garbage out. Modelli molto più piccoli di ChatGPT ottengono in molti benchmark risultati migliori perché sono stati addestrati con dati migliori. E' il caso p.e. del recentissimo DBRX.E' tra l'altro lo stesso problema che hanno i RAG (Retrieval Augmented Generation) basati sui LLM, che, se implementati in modo semplicistico dandogli in pasto i documenti senza pre e post elaborazione, restituiscono risultati scadenti.
Quindi, come spesso succede, più che la quantità conta la qualità.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".