Claude batte ChatGPT: la battaglia tra i chatbot IA è appena iniziata

Per la prima volta dal lancio di GPT-4 c'è un altro LLM che batte l'intelligenza artificiale di OpenAI sulla piattaforma di confronto Chatbot Arena
di Andrea Bai pubblicata il 28 Marzo 2024, alle 10:01 nel canale Scienza e tecnologiaOpenAIAnthropicChatGPT
I rapporti di forza nel campo delle intelligenze artificiali generative conversazionali hanno subito un rimescolamento importante nel corso dei giorni passati quando Claude 3 Opus, il modello linguistico di grandi dimensioni (LLM) sviluppato da Anthropic, ha superato GPT-4 di OpenAI nella Chatbot Arena, una piattaforma di crowdsourcing popolare tra i ricercatori di intelligenza artificiale per valutare le capacità relative dei modelli linguistici di intelligenza artificiale.

Chatbot Arena è una particolare piattaforma per la valutazione delle IA generative conversazionali che presenta agli utenti gli output di due LLM differenti, senza specificare di quali si tratta, e li invita a valutare quale tra essi sia il migliore sulla base di criteri del tutto soggettivi. Incrociando e mediando migliaia di confronti, Chatbot Arena determina quali siano i modelli migliori compilando una classifica, che viene via via aggiornata nel corso del tempo.
Non è solo il modello di punta di Anthropic, Claude 3 Opus, ad aver raccolto un risultato storico, ma anche uno dei loro modelli più piccoli, Haiku, ha attirato l'attenzione grazie a prestazioni significative.
Può sembrare una cosa di poco conto, ma tra i ricercatori e gli sviluppatori si è trattato di un evento quasi epocale: sui social network si è velocemente diffuso il meme "Il re è morto" e "RIP GPT-4", assieme al confronto tra i risultati dei due modelli LLM nella Chatbot Arena.
The king is dead
— Nick Dobos (@NickADobos) March 26, 2024
RIP GPT-4
Claude opus #1 ELo
Haiku beats GPT-4 0613 & Mistral large
That’s insane for how cheap & fast it is https://t.co/XWmvTE6h75 pic.twitter.com/fAwzJScLTH
Del resto da quando GPT-4 è stato introdotto nella Chatbot Arena a maggio del 2023 si è sempre posizionato, con le sue varianti, ai vertici della classifica: per la prima volta, invece, i migliori modelli al momento disponibili (Opus per compiti avanzati, Haiku in termini di efficienza) sono di una società che non è OpenAI.
Nonostante la presenza di quattro modelli GPT-4 nella classifica, i modelli Claude 3 di Anthropic hanno scalato costantemente le posizioni sin dal loro rilascio all'inizio di questo mese.
La piattaforma Chatbot Arena è gestita da Large Model Systems Organization, realtà dedicata ai modelli aperti e che coinvolge studenti e docenti dell'Università della California-Berkeley, dell'UC San Diego e della Carnegie Mellon University.
Si tratta di una piattaforma di particolare importanza nel contesto IA perché consente di facilitare la misurazione delle prestazioni (non strettamente in termini di rapidità, ma anche di qualità dell'output) dei chatbot IA, i cui risultati sono difficili da quantificare oggettivamente per via della loro estrema variabilità. L'approccio più funzionale è quindi quello di procedere per valutazioni statistico-soggettive, che riesce a fornire indicazioni più attendibili rispetto ai meri test numerici che misurano la "conoscenza" di un LLM o la sua capacità di sostenere determinati test.
Nel corso dell'estate è previsto il rilascio del successore di GPT-4, con un probabile rimescolamento delle forze in gioco: considerando la concorrenza nel settore LLM, la vivacità delle attività di sviluppo e la "giovinezza" delle tecnologie è lecito attendersi una serrata competizione per i prossimi mesi e anni.
13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info2)1251
Link ad immagine (click per visualizzarla)
tra qualche anno diremo; come abbiamo fatto a vivere senza?
IMHO
tra qualche anno diremo; come abbiamo fatto a vivere senza?
IMHO
in realtà moltissima gente usa già oggi il chatbot di chatgpt per consultazione/lavoro/studio. io personalmente lo consulto ormai quotidianamente e spesso ha preso il posto di google
Si usa una chatbot che riporta nella maggior parte dei casi il risultato del primo link al posto di leggerlo nel primo link
pure io mi sono fatto la stessa domanda, non reputo realistico la concorrenza fosse a pari livello. reputo più probabile sia stata fatta una sorta di ingegneria inversa sul funzionamento di chatgpt
tra qualche anno diremo; come abbiamo fatto a vivere senza?
IMHO
Tra qualche anno non esisterà più nessuna chat Ai. Rubare contenuti a chi li crea spendendo il proprio tempo, le proprie conoscenze e il proprio lavoro, al paese mio non è evoluzione ma ruberia. Appena i grandi gruppo editoriali capiranno la gravità, bloccheranno gli accessi ad ogni tipo di Bot.
Ha iniziato il New York Times
https://www.nytimes.com/robots.txt
Beh ChatGPT non è uscita dal nulla, pure loro si basano sulle ricerche disponibili pubblicamente
Si usa una chatbot che riporta nella maggior parte dei casi il risultato del primo link al posto di leggerlo nel primo link
Questo non e' l'uso corretto.
L'uso corretto e' ad esempio chiedere informazioni, cosa ne pensa riguardo ad una cosa, chiedere di redarre una lettera di lavoro, correggere una lettera, una frase, snellirla, renderla piu' seria, professionale uno scritto, creare con l'IA qualcosa, studiare, farsi fare dei riassunti, farsi insegnare una lingua, la storia, matematica, geografia, farsi consigliare quale intonaco speciale usare in una determinata situazione, farsi dare dei consigli per vari lavori, specifiche su certe Leggi, ecc.. (uso potenzialmente infinito)
Se devi solamente cercare un link usa motore di ricerca
L'uso corretto e' ad esempio chiedere informazioni, cosa ne pensa riguardo ad una cosa, chiedere di redarre una lettera di lavoro, correggere una lettera, una frase, snellirla, renderla piu' seria, professionale uno scritto, creare con l'IA qualcosa, studiare, farsi fare dei riassunti, farsi insegnare una lingua, la storia, matematica, geografia, farsi consigliare quale intonaco speciale usare in una determinata situazione, farsi dare dei consigli per vari lavori, specifiche su certe Leggi, ecc.. (uso potenzialmente infinito)
Se devi solamente cercare un link usa motore di ricerca
Concordo anche se bisogna sempre stare in guardia... a volte basta un errore minimi di punteggiatura o un typo per ingannarla senza volerlo e avere un risultato completamente diverso.
Semplifico:
Se gli chiedi di risolvere la radice cubica di 12 * 3 l'IA fraintende la frase e nello specifico crederà di dover fare la radice cubica di 12 e poi moltiplicare per tre.
Ora è un esempio semplicistico è chiaro che se devi fare dei calcoli usi altro ma è per far capire che ancora bisogna stare attenti a come l'IA riassume o elabora qualcosa perché in certi casi può succedere che il risultato sia stravolto.
Fermo restando che i risultati stanno migliorando di giorno in giorno in maniera impressionante.
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".