Secondo i primi test, Grok 4 di Elon Musk ha già superato i rivali

Il nuovo modello AI di xAI ha conquistato i benchmark più duri del settore. Ha, infatti, raggiunto un Intelligence Index pari a 73 secondo ArtificialAnalysis e prestazioni multimodali che secondo Musk surclassano i laureati in ogni disciplina

di Rosario Grasso pubblicata il 11 Luglio 2025, alle 14:31 nel canale Web
Grok

xAI ha presentato Grok 4, il suo modello di intelligenza artificiale più potente, in grado di superare concorrenti come ChatGPT, Gemini 2.5 Pro e Claude Opus 4 su numerosi test di ragionamento avanzato, secondo dati forniti da ArtificialAnalysis. Il valore dell'Intelligence Index di Grok 4 è pari a "73", a fronte di 70 ottenuti dai modelli di OpenAI e Google.

Le prestazioni eccellono in test come Humanity’s Last Exam, con un punteggio del 25,4% per il modello base e fino al 44,4% nella variante "Heavy" grazie all’approccio multi-agente, quasi il doppio rispetto a Gemini (21,6%).

ArtificialAnalysis

Il modello Heavy opera in parallelo con sottosistemi agenti che si confrontano tra loro per selezionare la risposta più coerente, funzione accessibile attraverso il nuovo piano SuperGrok Heavy a 300 dollari al mese, mentre la versione standard costa 30 dollari al mese.

Nei giorni scorsi, in fase di presentazione, Elon Musk ha definito Grok 4 come più intelligente di quasi tutti gli studenti laureati contemporaneamente, e ha specificato che l'IA eccelle in matematica, ragionamento scientifico e comprensione multimodale (testo, immagini e audio). Ha anche annunciato futuri aggiornamenti per analisi video e agenti autonomi tra fine estate e autunno.

Del resto, il lancio del modello arriva in un contesto delicato: pochi giorni prima dell'annuncio, Grok ha generato contenuti antisemiti tramite un account su X, e ha costretto xAI a intervenire per rimuovere i post e rafforzare i controlli interni. Le dimissioni di Linda Yaccarino da CEO di X hanno alimentato ulteriori interrogativi.

Il successo ai benchmark si accompagna anche a critiche sull'accessibilità del modello: latenza elevata, costi troppo alti per l'uso intensivo e assenza di documentazione tecnica approfondita rendono ancora complessa una valutazione indipendente.

I migliori sconti su Amazon oggi

HP 250R G9, Computer Portatile Notebook, Intel i5-1334u 10 Core 3.4Ghz, Display 15.6'' FHD, Ram 32GB, SSD 1000GB, Windows 11

569.90€ Compra ora

-18%

Apple Portatile MacBook Air 13'' con chip M4 (2025): progettato per Apple Intelligence, display Liquid Retina da 13,6'', 16GB di memoria unificata, 256GB di archiviazione SSD, Touch ID; Argento

1149.00 936.99€ Compra ora

-18%

LG SQC2 Soundbar TV 300W, 2.1 Canali con Subwoofer Wireless, Soundbar Dolby Digital, Bluetooth, Ingresso Ottico, Ingresso AUX 3,5mm, USB

113.32€ Compra ora

Vendeva segreti per la produzione di processori alla Russia: arrestato ingegnere nei Paesi Bassi

Fujifilm annuncia le versioni infrarossi delle mirrorless GFX100 II e X-H2

LMCH11 Luglio 2025, 15:10 #1

Siamo agli stessi livelli di quando 10 anni fa prometteva la guida autonoma per l'anno successivo.

Questa continua antropomorfizzazione dei software LLM è veramente deprimente.

Grok 4 è strutturalmente inaffidabile, come i suoi "colleghi" va usato tenendo conto delle sue limitazioni o si finisce col far danni, non parliamo poi di come Capitan Ketamina sta sperimentando come usarlo a fini memetico-propagandisti.

Ago7211 Luglio 2025, 15:53 #2

Originariamente inviato da: LMCH

Grok 4 è strutturalmente inaffidabile, come i suoi "colleghi" va usato tenendo conto delle sue limitazioni o si finisce col far danni,

Concordo. Oggi l'IA ha il ruolo di un ottimo neo-assunto primo-impiego*. E' come avere uan schiera di neo assunti, se suddividi il lavoro in piccoli task e li dai a loro da fare e tu controlli, sono un ottimo aiuto.
Ma da quello che ho provato, per task complessi non sono ancora pronti.
E sto parlando di programmazione, risposte mail, aggregazione dati e qualche idea per qualche slide al volo.

*Ma se l'IA farà quei lavori che venivano dati a chi iniziava a lavorare per formarli, come faremo a formare le persone?

Lo Straniero Misterioso11 Luglio 2025, 17:43 #3

Bah, come se i colleghi non facessero mai ca%%ate sul posto di lavoro...

Solo che se la cavolata l'ha fatta Pippo, allora è colpa sua e siamo a posto. Se l'ha fatta Gemini, la colpa e mia è quindi non posso correre il rischio.

Paracubo che non siamo altro!

pachainti11 Luglio 2025, 17:45 #4

Companies That Tried to Save Money With AI Are Now Spending a Fortune Hiring People to Fix Its Mistakes

Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
When developers are allowed to use AI tools, they take 19% longer to complete issues—a significant slowdown that goes against developer beliefs and expert forecasts. This gap between perception and reality is striking: developers expected AI to speed them up by 24%, and even after experiencing the slowdown, they still believed AI had sped them up by 20%.

Manu197612 Luglio 2025, 15:30 #5

be', è una battaglia all'ultimo sangue, che comunque farà venir fuori IA sempre migliori. quel che san già fare ora è incredibile se chiudo gli occhi e penso a 3 anni fa. e tra 3 anni forse ci sarà della fantascienza ancora inimmaginata.

TorettoMilano12 Luglio 2025, 15:36 #6

Originariamente inviato da: Manu1976

è il pensiero generale. mi sembra irreale come si possano creare video realistici da un semplice comando di testo, ma anche solo interfacciarsi a un chatbot come se fosse umano è qualcosa di incredibile (anche se non sempre affidabile)

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Sony Alpha 7 V, la nuova velocista

Lucid Gravity Touring, nuovo allestimento più equilibrato

Jeu de Paume

Rilasciati nuovi video e immagini della seconda missione del razzo spaziale Blue Origin New Glenn

Formula E Gen4 - La monoposto

Honda WN7, la prima moto elettrica dal vivo

FRITZ!Repeater 1700 estende la rete super-veloce Wi-Fi 7 FRITZ!Repeater 1700 porta il Wi-Fi 7 dual-band nelle case connesse. Mette a disposizione fino a 2.880 Mbit/s su 5 GHz e 688 Mbit/s su 2,4 GHz, integrazione Mesh...

realme GT 8 Pro Dream Edition: prestazioni da flagship e anima racing da F1 realme e Aston Martin Aramco F1 Team si sono (ri)unite dando alla vita un flagship con chip Snapdragon 8 Elite Gen 5 e design esclusivo ispirato alle monoposto di...

Due mesi di Battlefield 6: dalla campagna al battle royale, è l'FPS che stavamo aspettando Abbiamo giocato a lungo a Battlefield 6, abbiamo provato tutte le modalità multiplayer, Redsec, e le numerose personalizzazioni. In sintesi, ci siamo concentrati...

Sony Alpha 7 V, anteprima e novità della nuova 30fps, che tende la mano anche ai creator Dopo oltre 4 anni si rinnova la serie Sony Alpha 7 con la quinta generazione, che porta in dote veramente tante novità a partire dai 30fps e dal nuovo sensore partially...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Nutanix: innovazione, semplicità e IA al centro della strategia hybrid multicloud Al Museo Alfa Romeo di Arese, Nutanix ha riunito clienti, partner ed esperti per .Next On Tour Italia e per mostrare come l’infrastruttura hybrid multicloud possa...

Polestar 3 Performance, test drive: comodità e potenza possono convivere Abbiamo passato diversi giorni alla guida di Polestar 3, usata in tutti i contesti. Come auto di tutti i giorni è comodissima, ma se si libera tutta la potenza è...

Mova Z60 Ultra Roller Complete: pulisce bene grazie anche all'IA Rullo di lavaggio dei pavimenti abbinato a un potente motore da 28.000 Pa e a bracci esterni che si estendono: queste, e molte altre, le caratteristiche tecniche...

Secondo i primi test, Grok 4 di Elon Musk ha già superato i rivali

HP 250R G9, Computer Portatile Notebook, Intel i5-1334u 10 Core 3.4Ghz, Display 15.6'' FHD, Ram 32GB, SSD 1000GB, Windows 11

Apple Portatile MacBook Air 13'' con chip M4 (2025): progettato per Apple Intelligence, display Liquid Retina da 13,6'', 16GB di memoria unificata, 256GB di archiviazione SSD, Touch ID; Argento

LG SQC2 Soundbar TV 300W, 2.1 Canali con Subwoofer Wireless, Soundbar Dolby Digital, Bluetooth, Ingresso Ottico, Ingresso AUX 3,5mm, USB

6 Commenti