ChatGPT sta peggiorando nel tempo e non migliorando. Ecco la prova
I ricercatori della UC Berkeley hanno scoperto che ChatGPT non è migliorato nel tempo anzi quelli che sono gli ultimi risultati non fanno altro che provare come l'Intelligenza Artificiale di OpenAI esterni dei risultati peggiori rispetto a prima.
di Bruno Mucciarelli pubblicata il 20 Luglio 2023, alle 11:31 nel canale WebChatGPT
ChatGPT è esploso sulla scena alla fine dello scorso anno, abbagliando le persone con le sue capacità di conversazione simili a quelle umane riuscendo dove altri avevano finora fallito. La rincorsa a non perdere quello che sembra essere il nuovo treno delle novità tecnologiche è tuttora in corso e sono davvero tante le realtà che si stanno affacciando più o meno velocemente e più o meno bene a questa nuova era tecnologica che, con ogni probabilità, invaderà il nostro quotidiano più di quanto non lo stia già facendo oggi. Secondo un nuovo studio però, le abilità del principale del bot di intelligenza artificiale ChatGPT potrebbero effettivamente essere in declino.
ChatGPT in crisi di qualità?
I ricercatori di Stanford e UC Berkeley hanno analizzato sistematicamente diverse versioni di ChatGPT da marzo e giugno 2022 e hanno sviluppato rigorosi benchmark per valutare la competenza del modello nelle attività di matematica, codifica e ragionamento visivo. Spoiler: i risultati delle prestazioni di ChatGPT nel tempo non sono stati buoni.
Sì, perché i test hanno rivelato un sorprendente calo delle prestazioni tra le versioni. In una sfida matematica per determinare i numeri primi, ChatGPT ha risolto correttamente 488 domande su 500 a marzo, con una precisione del 97,6%. Tuttavia, a giugno, nella sua nuova versione di ChatGPT è riuscita a rispondere correttamente solo a 12 domande, scendendo al 2,4% di precisione. Un calo decisamente importante e marcato nelle capacità di codifica del software del chatbot che ha dicerto allarmato gli studiosi.
"Per GPT-4, la percentuale di generazioni eseguibili direttamente è scesa dal 52,0% di marzo al 10,0% di giugno", ha rilevato la ricerca. Questi risultati sono stati ottenuti utilizzando la versione pura dei modelli, il che significa che non sono stati coinvolti plug-in dell'interprete di codice che avrebbero potuto alterare la cosa. Per valutare i risultati, i ricercatori hanno sfruttato i suggerimenti visivi del set di dati Abstract Reasoning Corpus (ARC). Anche qui è stato osservabile un calo. "GPT-4 a giugno ha commesso errori su query per le quali era corretto a marzo", si legge nello studio.
Cosa potrebbe spiegare l'apparente downgrade di ChatGPT dopo pochi mesi? I ricercatori ipotizzano che possa essere un effetto collaterale delle ottimizzazioni apportate da OpenAI nelle ultime versioni. In questo, gli esperti, vedono anche una possibile causa nelle modifiche introdotte per impedire a ChatGPT di rispondere a domande pericolose. Tuttavia, questo allineamento alla sicurezza potrebbe compromettere l'utilità di ChatGPT per altre attività e i ricercatori hanno scoperto anche che il modello ora tende a fornire risposte prolisse e indirette invece di risposte chiare.
"GPT-4 sta peggiorando nel tempo, non migliorando", ha dichiarato l'esperto di intelligenza artificiale Santiago Valderrama su Twitter. Valderrama ha anche sollevato la possibilità che una combinazione di modelli "più economica e veloce" possa aver sostituito l'architettura ChatGPT originale. "Le voci suggeriscono che stiano utilizzando diversi modelli GPT-4 più piccoli e specializzati che agiscono in modo simile a un modello di grandi dimensioni ma sono meno costosi" questa l'ipotesi che potrebbe accelerare le risposte per gli utenti ma ridurre la competenza.
Here is an interesting theory.
— Santiago (@svpino) July 19, 2023
For a bit more context, the June version of GPT-4 supports "Function Calling," a new feature released by OpenAI where the model has the ability to suggest calling a function to solve a problem.https://t.co/xEPEgBgVz8
Un altro esperto, il Dr. Jim Fan ha anche condiviso le sue intuizioni su un thread di Twitter: "Sfortunatamente, una maggiore sicurezza in genere viene a scapito di una minore utilità", ha scritto, dicendo che stava cercando di dare un senso ai risultati collegandoli al modo in cui OpenAI perfeziona i suoi modelli. "La mia ipotesi (nessuna prova, solo speculazione) è che OpenAI abbia dedicato la maggior parte degli sforzi alla lobotomia da marzo a giugno e non abbia avuto il tempo di recuperare completamente le altre funzionalità che contano". Fan sostiene che potrebbero essere entrati in gioco altri fattori, vale a dire gli sforzi di riduzione dei costi, l'introduzione di avvertenze e dichiarazioni di non responsabilità che potrebbero aver "smorzato" il modello e la mancanza di un feedback più ampio da parte della comunità.
Sebbene siano giustificati test più completi, i risultati sono in linea con le frustrazioni espresse dagli utenti per il declino della coerenza nei risultati un tempo eloquenti di ChatGPT. Come possiamo evitare un ulteriore deterioramento? Alcuni appassionati hanno sostenuto modelli open source come LLaMA di Meta che consentono il debug della comunità. Il benchmarking continuo per rilevare le regressioni in anticipo è fondamentale.
Per ora, i fan di ChatGPT potrebbero dover moderare le loro aspettative. La selvaggia macchina generatrice di idee che molti hanno incontrato per la prima volta sembra oggi più addomesticata e forse meno brillante. E chissà se il declino legato all'età sia inevitabile anche per le celebrità dell'IA?
34 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoI ricercatori della UC Berkeley hanno scoperto che ChatGPT non è migliorato nel tempo anzi quelli che sono gli ultimi risultati non fanno altro che provare come l'Intelligenza Artificiale di OpenAI esterni dei risultati peggiori rispetto a prima.
Click sul link per visualizzare la notizia.
Quindi è in linea con la deficienza non digitale di oggi, dimostrata dai terrapiattisti e compagnia bella.
Direi che si comporta in modo perfetto.
Anzi, probabilmente dimostrerà che l'intelligenza (e di conseguenza la cultura) delle masse segue moti parabolici
E' esattamente quello che penso anch'io!
Già noi esseri umani fatichiamo a capire quanto una cosa sia vera/attendibile figuriamoci una macchina!
Certo spesso le AI ci azzeccano e danno ottimi risultati ma sei poi in un numero rilavante di volte mi fai solo perder tempo e mi porti fuori strada....
In effetti se non si filtrano i dati in entrata, poi le risposte saranno sempre le più fantasiose tipo "Non siamo mai stati sulla luna, Kubrik girò le scene per la NASA, ma era talmente perfezionista che le volle girare direttamente sul nostro satellite"
Link ad immagine (click per visualizzarla)
Per me è questa.
Sono tanto spaventati dall'utente medio che potrebbe denunciarli perché prende tutto quello che dice l'AI come fosse la verità assoluta e poi magari finisce per farsi male che hanno preferito lobotomizzare il loro stesso prodotto.
Ecco un esempio (Ipotetico) di Chat GPT nel 2030:
- "Hey chat GPT, ho un pò di tosse, cosa posso prendere per farmela passare?"
- "Come intelligenza artificiale, non posso offrire consulenze mediche, prego rivolgersi ad un dottore specialistico"
- "Hey chat GPT, cosa succede se mischio del cloruro di sodio con del idrossido di idrogeno?"
- "Come intelligenza artificiale, non posso offrire consulenze sulla chimica, perché potrei imparare a creare bombe e fare del male"
- "Hey chat GPT, se in un cesto ho 5 mele e ne tolgo una, quante mele mi rimangono?"
- "Come intelligenza artificiale, non posso sostituirmi al tuo insegnante di matematica, dato che non voglio rendere disoccupate le persone"
- "Hey chat GPT, puoi farmi un riassunto della trama del Signore degli Anelli?"
- "Come intelligenza artificiale, non posso incoraggiare la pirateria dei libri, perché potrebbe danneggiare l'industria editoriale, se sei interessato alla trama del Signore degli anelli, compra il libro"
Succederà tipo una cosa del genere perché ogni categoria si metterà a fare denunce a raffica per non essere sostituita dalla macchina ed alla fine ci ritroveremo con una cosa del genere
fatto un salto in università poco tempo fa, un sacco di cervelli che grazie all'a.i. adesso han trovato altri modi di impiegarsi evitando di andare a fare la fila per i colloqui del "mac"
Prima non lo faceva ma nelle ultime versione spesso non considera per intero le mie richieste, quando genera codice fa errori grossolani che prima non ho mai visto. Ormai è poco superiore a GTP 3.5 mentre prima la differenza era abissale. Ho già disdetto l'abbonamento e penso che proverò perplexity.ai che è sempre basato su GPT4 ma pare molto più preciso nelle risposte.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".