Secondo i primi test, Grok 4 di Elon Musk ha già superato i rivali

Secondo i primi test, Grok 4 di Elon Musk ha già superato i rivali

Il nuovo modello AI di xAI ha conquistato i benchmark più duri del settore. Ha, infatti, raggiunto un Intelligence Index pari a 73 secondo ArtificialAnalysis e prestazioni multimodali che secondo Musk surclassano i laureati in ogni disciplina

di pubblicata il , alle 14:31 nel canale Web
Grok
 

xAI ha presentato Grok 4, il suo modello di intelligenza artificiale più potente, in grado di superare concorrenti come ChatGPT, Gemini 2.5 Pro e Claude Opus 4 su numerosi test di ragionamento avanzato, secondo dati forniti da ArtificialAnalysis. Il valore dell'Intelligence Index di Grok 4 è pari a "73", a fronte di 70 ottenuti dai modelli di OpenAI e Google.

Le prestazioni eccellono in test come Humanity’s Last Exam, con un punteggio del 25,4% per il modello base e fino al 44,4% nella variante "Heavy" grazie all’approccio multi-agente, quasi il doppio rispetto a Gemini (21,6%).

ArtificialAnalysis

Il modello Heavy opera in parallelo con sottosistemi agenti che si confrontano tra loro per selezionare la risposta più coerente, funzione accessibile attraverso il nuovo piano SuperGrok Heavy a 300 dollari al mese, mentre la versione standard costa 30 dollari al mese.

Nei giorni scorsi, in fase di presentazione, Elon Musk ha definito Grok 4 come più intelligente di quasi tutti gli studenti laureati contemporaneamente, e ha specificato che l'IA eccelle in matematica, ragionamento scientifico e comprensione multimodale (testo, immagini e audio). Ha anche annunciato futuri aggiornamenti per analisi video e agenti autonomi tra fine estate e autunno.

Del resto, il lancio del modello arriva in un contesto delicato: pochi giorni prima dell'annuncio, Grok ha generato contenuti antisemiti tramite un account su X, e ha costretto xAI a intervenire per rimuovere i post e rafforzare i controlli interni. Le dimissioni di Linda Yaccarino da CEO di X hanno alimentato ulteriori interrogativi.

Il successo ai benchmark si accompagna anche a critiche sull'accessibilità del modello: latenza elevata, costi troppo alti per l'uso intensivo e assenza di documentazione tecnica approfondita rendono ancora complessa una valutazione indipendente.

6 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
LMCH11 Luglio 2025, 15:10 #1
Siamo agli stessi livelli di quando 10 anni fa prometteva la guida autonoma per l'anno successivo.

Questa continua antropomorfizzazione dei software LLM è veramente deprimente.

Grok 4 è strutturalmente inaffidabile, come i suoi "colleghi" va usato tenendo conto delle sue limitazioni o si finisce col far danni, non parliamo poi di come Capitan Ketamina sta sperimentando come usarlo a fini memetico-propagandisti.
Ago7211 Luglio 2025, 15:53 #2
Originariamente inviato da: LMCH
Grok 4 è strutturalmente inaffidabile, come i suoi "colleghi" va usato tenendo conto delle sue limitazioni o si finisce col far danni,


Concordo. Oggi l'IA ha il ruolo di un ottimo neo-assunto primo-impiego*. E' come avere uan schiera di neo assunti, se suddividi il lavoro in piccoli task e li dai a loro da fare e tu controlli, sono un ottimo aiuto.
Ma da quello che ho provato, per task complessi non sono ancora pronti.
E sto parlando di programmazione, risposte mail, aggregazione dati e qualche idea per qualche slide al volo.

*Ma se l'IA farà quei lavori che venivano dati a chi iniziava a lavorare per formarli, come faremo a formare le persone?
Lo Straniero Misterioso11 Luglio 2025, 17:43 #3
Bah, come se i colleghi non facessero mai ca%%ate sul posto di lavoro...

Solo che se la cavolata l'ha fatta Pippo, allora è colpa sua e siamo a posto. Se l'ha fatta Gemini, la colpa e mia è quindi non posso correre il rischio.

Paracubo che non siamo altro!
pachainti11 Luglio 2025, 17:45 #4
Companies That Tried to Save Money With AI Are Now Spending a Fortune Hiring People to Fix Its Mistakes

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
When developers are allowed to use AI tools, they take 19% longer to complete issues—a significant slowdown that goes against developer beliefs and expert forecasts. This gap between perception and reality is striking: developers expected AI to speed them up by 24%, and even after experiencing the slowdown, they still believed AI had sped them up by 20%.
Manu197612 Luglio 2025, 15:30 #5
be', è una battaglia all'ultimo sangue, che comunque farà venir fuori IA sempre migliori. quel che san già fare ora è incredibile se chiudo gli occhi e penso a 3 anni fa. e tra 3 anni forse ci sarà della fantascienza ancora inimmaginata.
TorettoMilano12 Luglio 2025, 15:36 #6
Originariamente inviato da: Manu1976
be', è una battaglia all'ultimo sangue, che comunque farà venir fuori IA sempre migliori. quel che san già fare ora è incredibile se chiudo gli occhi e penso a 3 anni fa. e tra 3 anni forse ci sarà della fantascienza ancora inimmaginata.


è il pensiero generale. mi sembra irreale come si possano creare video realistici da un semplice comando di testo, ma anche solo interfacciarsi a un chatbot come se fosse umano è qualcosa di incredibile (anche se non sempre affidabile)

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^