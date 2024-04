Le realtà impegnate nel campo dell'intelligenza artificiale che continuano a competere per costruire modelli sempre più grandi e più potenti, potrebbero presto imbattersi in un problema interessante: i dati disponibili su Internet non saranno più sufficienti per soddisfare la loro fame di informazioni.

Il Wall Street Journal osserva infatti che alcune aziende stanno già esplorando fonti di informazioni alternative dopo aver capito che la grande rete non è poi così grande quando si tratta di formare i nuovi modelli IA.

Alcune delle opzioni prese in considerazione sembrano però poco più che palliativi: il Journal cita infatti trascrizioni di video pubblicamente disponibili e addirittura "dati sintetici" generati dall'intelligenza artificiale stessa.

OpenAI avrebbe ad esempio valutato la possibilità di addestrare GPT-5 usando come materiale sorgente le trascrizioni dei video di YouTube. Tuttavia in casa OpenAI c'è un certo imbarazzo quando si parla di YouTube: in diverse occasioni il CTO Mira Murati ha tergiversato quando le è stato chiesto se per addestrare Sora siano stati utilizzati i contenuti della piattaforma di Google.

I dati sintetici, invece, sono un argomento spesso dibattuto dai ricercatori di IA, che sono arrivati a riferirsi a questa pratica con i termini di "consanguineità digitale", con esiti potenzialmente distruttivi per i modelli IA, esattamente allo stesso modo in cui un'eccessiva consanguineità rappresenta una minaccia biologica alla sopravvivenza della specie.

Sul tema dei dati sintetici OpenAI e Anthropic stano cercando di trovare una soluzione con la fabbricazione di dati sintetici di "qualità superiore", anche se entrambe sono riluttanti a chiarire cosa ciò significhi esattamente. In ogni caso quando Anthropic ha presentato Claude 3, ha affermato che il modello è stato addestrato usando "dati generati internamente" e il CSO della società, Jared Kaplan, ha avuto modo di dichiarare durante un'intervista allo stesso Wall Street Journal che esistono "buoni casi d'uso" anche per i dati sintetici.

Il problema in cui presto o tardi le grandi aziende dell'IA incapperanno, potrebbe in realtà rappresentare uno spunto di riflessione sulla necessità di inseguire la realizzazione di modelli sempre più grandi e complessi, anche alla luce dei costi energetici necessari per il funzionamento delle infrastrutture a supporto dell'intelligenza artificiale così come la forte domanda di processori indispensabili per erogare la potenza di calcolo necessaria, per concentrarsi invece sull'ottimizzazione e l'efficientamento dei modelli già esistenti.