OpenAI presenta CriticGPT, il modello che mette in discussione i risultati di GPT-4

OpenAI presenta CriticGPT, il modello che mette in discussione i risultati di GPT-4

Sviluppato un nuovo modello che è in grado di rilevare gli errori nell'output del codice prodotto da GPT-4, ma che ha dimostrato un'iniziale efficacia anche su analisi non strettamente legate al codice

di pubblicata il , alle 12:08 nel canale Web
OpenAI
 

OpenAI ha recentemente presentato CriticGPT, un nuovo modello di intelligenza artificiale ideato allo scopo di individuare errori nel codice generato da ChatGPT. Nel documento "LLM Critics Help Catch LLM Bugs", OpenAI spiega come CriticGPT sia nato con l'idea di perfezionare il processo di allineamento dei sistemi di IA con le aspettative umane, sfruttando la tecnica di apprendimento per rinforzo dal feedback umano (Reinforcement Learning from Human Feedback o RLHF), che aiuta i revisori umani a rendere più accurati gli output degli LLM.

CriticGPT, basato sulla famiglia di modelli linguistici GPT-4, è stato progettato per fungere da assistente AI per i formatori umani impegnati nella revisione del codice prodotto da ChatGPT. Il suo compito principale è l'analisi del codice per rilevare e segnalare potenziali errori, semplificando l'identificazione di quei bug che potrebbero sfuggire inizialmente allo sguardo umano.

A tal scopo CriticGPT è stato allenato usando un ampio set di dati costituito da campioni di codice con errori inseriti intenzionalmente. I formatori umani sono stati incaricati di modificare il codice generato da ChatGPT, introducendo deliberatamente errori e fornendo poi feedback esemplificativi come se avessero loro stessi scoperto questi bug. Questa metodologia ha permesso al modello di apprendere a riconoscere e mettere in discussione una vasta gamma di errori di codifica. CriticGPT ha dimostrato la capacità di individuare sia i bug inseriti artificialmente che gli errori naturali nell'output di ChatGPT.

Le osservazioni formulate da CriticGPT sono risultate più efficaci e preferite dai formatori umani nel 63% dei casi rispetto a quelle fomulate dalla stessa ChatGPT: il nuovo modello ha prodotto risposte più puntuali e nella produzione di minor falsi positivi. 

Per migliorare ulteriormente le prestazioni di CriticGPT, i ricercatori hanno inoltre sviluppato una nuova tecnica denominata Force Sampling Beam Search (FSBS): si tratta di un metodo che consente a CriticGPT di produrre revisioni del codice più dettagliate, permettendo ai ricercatori di regolare con precisione la ricerca dei problemi e controllare la frequenza con cui il modello potrebbe inventare problemi inesistenti. La flessibilità di questa tecnica consente di adattare l'equilibrio tra precisione e creatività in base alle diverse esigenze delle attività di formazione dell'IA.

CriticGPT si è mostrato però capace di operare con efficacia anche al di là della revisione di codice. I ricercatori hanno provato ad applicare il nuovo modello ad un sottoinsieme di dati di addestramento di ChatGPT che in precedenza sono stati valutati come impeccabili da supervisori umani. CriticGPT ha però individuato errori nel 24% dei casi, che sono stati in seguito confermati da revisori umani. Secondo OpenAI questo esperimento offre un punto di partenza interessante per esplorare il potenziale applicativo di CriticGPT per compiti non strettamente legati alla revisione di codice, oltre ad evidenziare la capacità di rilevare quegli errori sottili e sfuggenti che potrebbero passare del tutto inosservati anche ad un'attenta analisi umana.

I ricercatori evidenziano comunque le limitazioni attuali di CriticGPT: anzitutto il modello è stato addestrato su risposte relativamente brevi di ChatGPT e al momento non è chiaro se vi siano già dei riscontri sull'efficacia del modello su compiti più estesi e complessi. Inoltre CriticGPT si è mostrato efficace nell'identificare errori localizzabili in una posizione specifica all'interno del codice, laddove gli errori "del mondo reale" negli output generati da un'IA possono essere distribuiti in più parti di una risposta.

La società prevede di integrare modelli simili a CriticGPT all'interno della sua pipeline RLHF di etichettatura, così da mettere a disposizione dei suoi formatori un supporto basato su IA e semplificare quei compiti di valutazione dei risultati dei sistemi LLM che altrimenti potrebbero risultare complessi e difficili da analizzare per gli esseri umani. In ogni caso i ricercatori sottolineano come l'inevitabile aumento della complessità dei modelli LLM potrebbe rappresentare una sfida importante per i valutatori umani, anche quando assistiti da strumenti IA.

3 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
UtenteHD01 Luglio 2024, 16:19 #1
Grazie per info,
Eh hanno fatto bene sicuramente ad implementare sta cosa anche se non so quanto posso servire, ad esempio corregge o redigere un documento, programma ecc.. ok lo fa abbastanza bene e poi lo corregge in controllo ecc..
Ma i molti casi dove anche insistendo inventa continuamente come chiedere lo spessore di lavorazione manuale dei fogli di alluminio, oppure informazioni su certe leggi con articoli, ecc.. per ora inventano di sana pianta e spudoratamente anche quando lo fai notare, Ti rispondono eh si hai ragione e continuano ad inventare.. (anche quelle con accesso ad internet) ed il controllore in questi casi che ragiona (ok non ragiona va a probabilita', MA per ora..) piu' o meno alla stessa maniera non penso cambierebbe molto.
Comunque va bene, meglio un controllore in piu', piano piano fra qualche decennio avremo un'AI che funziona bene, poi quando ci sorpassera', ciao..
LMCH01 Luglio 2024, 21:08 #2
Ormai sia OpenAI che Microsoft generano sempre più hype ma la sostanza cambia poco.

Chi invece fa applicazioni reali e concrete basate su AI e robotica ha una visione più pratica:

https://techcrunch.com/2024/06/29/m...-generative-ai/
barzokk02 Luglio 2024, 10:01 #3
Originariamente inviato da: LMCH
Ormai sia OpenAI che Microsoft generano sempre più hype ma la sostanza cambia poco.

Chi invece fa applicazioni reali e concrete basate su AI e robotica ha una visione più pratica:

https://techcrunch.com/2024/06/29/m...-generative-ai/

bel link, che è quello che pensano tutti quelli che hanno almeno una vaga idea dell'argomento...

Ma sulla questione comanda altra bella gente, gente con i denti aguzzi e la voglia di soldi disposta a vendere la madre


AI optimism could boost S&P 500 to 7,000 next year, says economist
https://www.marketwatch.com/amp/sto...nomist-70c0bd92

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^