Il modello di IA dell'università di Stanford è come ChatGPT ma open-source e con training da 600 dollari

Il modello di IA dell'università di Stanford è come ChatGPT ma open-source e con training da 600 dollari

Il valore aggiunto dei modelli di intelligenza artificiale generativa di grande successo nell'ultimo periodo riguarda il loro training: quanti più dati vengono dati loro in pasto e più sono efficaci. Ma il training ha dei costi non indifferenti

di pubblicata il , alle 18:01 nel canale Web
ChatGPT
 

Molte aziende come Google, Apple, Meta, Baidu e Amazon stanno investendo milioni di dollari per poter stare al passo di OpenAI e del suo partner Microsoft che con ChatGPT e l'integrazione in Bing puntano a rivoluzionare il modo con cui l'utente si interfaccia con le risorse informatiche. Ma, secondo i ricercatori dell'università di Stanford, un esborso così consistente non è strettamente necessario.

Hanno, infatti, strutturato un nuovo modello che si prefigge di raggiungere un'accuratezza paragonabile a quella di ChatGPT minimizzando, però, i costi. Per poter rendere funzionante un sistema di intelligenza artificiale come questo, infatti, bisogna spendere risorse e denaro per il suo addestramento: quest'ultimo, infatti, costituisce il loro principale vantaggio competitivo.

Alpaca AI

I modelli GPT sono riusciti a sbalordire tutti grazie all'enorme quantità di tempo che OpenAI ha dedicato al post-addestramento. Una cosa è aver letto un miliardo di libri, ma un'altra è aver analizzato grandi quantità di coppie formate da domande e risposte. Questo tipo di dati, infatti, permette all'IA di comprendere cosa le si sta chiedendo e di fornire risposte esaurienti.

L'università di Stanford ha cercato di individuare un modo per snellire il lavoro di training, utilizzando GPT-3.5 per fornire a LLaMA 7B i dati che servono per poter svolgere il proprio lavoro, ovvero la sufficiente quantità di coppie di domande e risposte. LLaMA 7B è il modello di linguaggio open source di Meta, il più piccolo ed economico tra i diversi modelli LLaMA disponibili che l'azienda di Facebook mette gratuitamente a disposizione per i progetti accademici.

Il team di Stanford è partito da GPT, chiedendo di prendere 175 coppie di input/output scritte dall'uomo e iniziare a generarne altre nello stesso stile e formato. Questo procedimento è stato automatizzato tramite una delle utily API fornite da OpenAI e, in breve tempo, il team ha così ottenuto circa 52.000 conversazioni. Quindi, questo set di conversazioni è stato dato in pasto a LLaMA 7B, un processo che ha richiesto circa tre ore di elaborazione tramite otto computer messi a disposizione via cloud. Si tratta di sistemi di tipo NVIDIA A100 con l'elaborazione che costa circa 100 dollari (mentre il lavoro di addestramento con le API di OpenAI è costato circa 500 dollari).

Infine, i ricercatori hanno testato il modello che hanno così ottenuto, che hanno chiamato Alpaca, in una varietà di attività tra cui la scrittura di e-mail, i social media e gli strumenti di produttività, e hanno confrontato i risultati con quelli ottenuti da GPT. Alpaca ha superato 90 di questi test, GPT ne ha superati 89.

Inoltre, vale la pena notare che chiunque desideri replicare un'intelligenza artificiale ora ha accesso a modelli ancora più complessi, come GPT-4, oltre che alla dotazione software e hardware per creare dei veri e propri rivali dei modelli di riferimento senza spendere molto. Gli stessi ricercatori dell'università di Stanford, infatti, sottolineano come sia possibile eliminare altre voci di costo, come quello per l'elaborazione tramite cloud computing. Il processo di formazione, secondo alcuni, potrebbe essere completato entro cinque ore utilizzando una singola scheda grafica NVIDIA GeForce RTX 4090.

La disponibilità di strumenti così potenti nelle mani di tutti potrebbe cambiare molte cose nella società rispetto a come la conosciamo oggi. Potrebbe dare ancora più spazio alla disinformazione, portando a un mondo ancora più confuso e difficile da interpretare.

33 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
randorama23 Marzo 2023, 19:14 #1
è curiosa sta cosa.
a fine 2022 non c'era una intelligenza artificiale che una; nel giro di tre mesi anche l'università di camerino ne propone una superfiga.

chissà che ne pensa il superguru vannini
alexfri23 Marzo 2023, 19:45 #2
Altro che universitá di camerino, pure il salumiere sotto casa millanta AI nell’affettatrice, siamo al delirio. Oramai si viaggia per mode, appena ne esce una prende il sopravvento con una velocitá pazzesca, guardate il metaverso, ce le hanno fatte a fette con sta roba non richiesta che immeditamente é arrivato chatGPT e tutto hanno iniziato con quello… sempre di piu, sempre piu veloce, non proprio a “misura d’uomo”
pachainti23 Marzo 2023, 21:12 #3
Originariamente inviato da: randorama
è curiosa sta cosa.
a fine 2022 non c'era una intelligenza artificiale che una; nel giro di tre mesi anche l'università di camerino ne propone una superfiga.

chissà che ne pensa il superguru vannini


Ne ha parlato ampiamente:
[LIST]
[*]DK 7x10 - Stronzate Artificiali
[*]DK 7x15 - Intelligenze supposte
[*]DK 7x19 - L'economia politica di chatGPT
[/LIST]
joe4th23 Marzo 2023, 22:15 #4
Da quel che ricordo c'era gia' il sistema di riconoscimento vocale di baidu che era pubblico su github ma era privo del training, e quindi praticamente inutilizzato.

Se ho ben capito questi di stanford anziche' fare il training con grandi dataset li hanno fatti con dataset molto piu' piccoli, ma composti solo da domande-risposte.

Se ce la fa una RTX 4090 in 5 ore, una 3060 ce ne puo' mettere 15..., ammesso che la memoria sia sufficiente.

A questo punto magari saranno usati per passare gli esami a quiz, quelli della patente, a scuola, per l'esame del corso di intelligenza artificiale in informatica (e' ricorsivo...), etc.
randorama23 Marzo 2023, 23:04 #5
Originariamente inviato da: pachainti


lo sappiamo; e la sesta o settima volta che posti le sue medesime vaccate.
sai che ormai sta diventando famoso? viene perculato abbastanza diffusamente.
giuliop23 Marzo 2023, 23:21 #6
Originariamente inviato da: randorama
lo sappiamo; e la sesta o settima volta che posti le sue medesime vaccate.
sai che ormai sta diventando famoso? viene perculato abbastanza diffusamente.


Magari è lui stesso, come quell’altro che insisteva che i DVD sono inutili perché la risoluzione è troppo alta (:rotfl… e poi è stato bannato (:winner.
randorama24 Marzo 2023, 00:04 #7
Originariamente inviato da: giuliop
Magari è lui stesso, come quell’altro che insisteva che i DVD sono inutili perché la risoluzione è troppo alta (:rotfl… e poi è stato bannato (:winner.


questa è una insinuazione di bassissima lega che a me giammai sarebbe venuta in mente.
RaZoR9324 Marzo 2023, 07:40 #8
Originariamente inviato da: joe4th
Da quel che ricordo c'era gia' il sistema di riconoscimento vocale di baidu che era pubblico su github ma era privo del training, e quindi praticamente inutilizzato.

Se ho ben capito questi di stanford anziche' fare il training con grandi dataset li hanno fatti con dataset molto piu' piccoli, ma composti solo da domande-risposte.

Se ce la fa una RTX 4090 in 5 ore, una 3060 ce ne puo' mettere 15..., ammesso che la memoria sia sufficiente.

A questo punto magari saranno usati per passare gli esami a quiz, quelli della patente, a scuola, per l'esame del corso di intelligenza artificiale in informatica (e' ricorsivo...), etc.
Non tutto l'hype è uguale. Metaverso e blockchain sono solo molto fumo, AI è ben diverso e avrà un serio impatto nei prossimi decenni.
Saturn24 Marzo 2023, 08:16 #9
Originariamente inviato da: giuliop
Magari è lui stesso, come quell’altro che insisteva che i DVD sono inutili perché la risoluzione è troppo alta (:rotfl… e poi è stato bannato (:winner.


Vi prego, voglio leggere queste "perle", postate i link !
Phoenix Fire24 Marzo 2023, 09:07 #10
Originariamente inviato da: randorama
è curiosa sta cosa.
a fine 2022 non c'era una intelligenza artificiale che una; nel giro di tre mesi anche l'università di camerino ne propone una superfiga.

chissà che ne pensa il superguru vannini


1) è moda, quindi ci girano soldi
2) migliorare copiando è diverso da inventare da zero
3) questi hanno sfruttato l'AI "precedente" di chatGPT per generare un dataset fatto bene per poi trainare la loro AI. Avranno fatto un ottimo lavoro sul training e sul tuning, ma hanno "risparmiato" sulla parte più costosa ovvero la generazione/raccolta/validazione del dataset di training. Come dire che al posto di leggersi il milione di libri, abbiano potuto chiedere direttamente al super esperto che li ha letti una sintesi del tutto

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^