Secondo i primi test, Grok 4 di Elon Musk ha già superato i rivali
Il nuovo modello AI di xAI ha conquistato i benchmark più duri del settore. Ha, infatti, raggiunto un Intelligence Index pari a 73 secondo ArtificialAnalysis e prestazioni multimodali che secondo Musk surclassano i laureati in ogni disciplina
di Rosario Grasso pubblicata il 11 Luglio 2025, alle 14:31 nel canale WebGrok
xAI ha presentato Grok 4, il suo modello di intelligenza artificiale più potente, in grado di superare concorrenti come ChatGPT, Gemini 2.5 Pro e Claude Opus 4 su numerosi test di ragionamento avanzato, secondo dati forniti da ArtificialAnalysis. Il valore dell'Intelligence Index di Grok 4 è pari a "73", a fronte di 70 ottenuti dai modelli di OpenAI e Google.
Le prestazioni eccellono in test come Humanity’s Last Exam, con un punteggio del 25,4% per il modello base e fino al 44,4% nella variante "Heavy" grazie all’approccio multi-agente, quasi il doppio rispetto a Gemini (21,6%).
Il modello Heavy opera in parallelo con sottosistemi agenti che si confrontano tra loro per selezionare la risposta più coerente, funzione accessibile attraverso il nuovo piano SuperGrok Heavy a 300 dollari al mese, mentre la versione standard costa 30 dollari al mese.
Nei giorni scorsi, in fase di presentazione, Elon Musk ha definito Grok 4 come più intelligente di quasi tutti gli studenti laureati contemporaneamente, e ha specificato che l'IA eccelle in matematica, ragionamento scientifico e comprensione multimodale (testo, immagini e audio). Ha anche annunciato futuri aggiornamenti per analisi video e agenti autonomi tra fine estate e autunno.
Del resto, il lancio del modello arriva in un contesto delicato: pochi giorni prima dell'annuncio, Grok ha generato contenuti antisemiti tramite un account su X, e ha costretto xAI a intervenire per rimuovere i post e rafforzare i controlli interni. Le dimissioni di Linda Yaccarino da CEO di X hanno alimentato ulteriori interrogativi.
Il successo ai benchmark si accompagna anche a critiche sull'accessibilità del modello: latenza elevata, costi troppo alti per l'uso intensivo e assenza di documentazione tecnica approfondita rendono ancora complessa una valutazione indipendente.










FRITZ!Repeater 1700 estende la rete super-veloce Wi-Fi 7
Fondazione Chips-IT, l'Italia alla riscossa nei chip. Il piano e la partnership EssilorLuxottica
Nutanix: innovazione, semplicità e IA al centro della strategia hybrid multicloud
Il futuro dei chip è verticale: RAM e logica impilati per chip più efficienti, ma realizzabili (quasi) ovunque
Accenture e Anthropic insieme per aiutare le imprese a sprigionare il valore dell'IA
Fino a 360 GB su un vetro grande come una moneta: l'archiviazione del futuro presto alla prova dei fatti
tado° porta il bilanciamento idraulico automatico nelle case: più efficienza nel riscaldamento senza interventi tecnici
Metallo liquido o solido? Entrambi, contemporaneamente: lo stato ibrido che sfida la fisica
iPhone 17 Pro Max in offerta su Amazon: la versione da 256 GB scende a 1.349€
A Taranto divieto di bici, e-bike e monopattini in zone pedonali. Richiesta una revisione
Scopa elettrica lava e aspira come una top di gamma: DREAME H12 Pro FlexReach scende a 229€ su Amazon
SumUp continua a crescere ed espande l'offerta
Volkswagen ID.Polo: da 25.000 euro, in quattro versioni con due batterie
iPhone Fold: le ultime indiscrezioni suggeriscono l'assenza del Face ID
Audi Revolut F1 Team: annunciati nome e logo della nuova squadra del circus
Resident Evil - Code Veronica Remake: l'annuncio è atteso per il prossimo anno con uscita nel 2027
Occhio ai prezzi dei robot ECOVACS Deebot: su Amazon si torna ai livelli del Black Friday da 199€









6 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoQuesta continua antropomorfizzazione dei software LLM è veramente deprimente.
Grok 4 è strutturalmente inaffidabile, come i suoi "colleghi" va usato tenendo conto delle sue limitazioni o si finisce col far danni, non parliamo poi di come Capitan Ketamina sta sperimentando come usarlo a fini memetico-propagandisti.
Concordo. Oggi l'IA ha il ruolo di un ottimo neo-assunto primo-impiego*. E' come avere uan schiera di neo assunti, se suddividi il lavoro in piccoli task e li dai a loro da fare e tu controlli, sono un ottimo aiuto.
Ma da quello che ho provato, per task complessi non sono ancora pronti.
E sto parlando di programmazione, risposte mail, aggregazione dati e qualche idea per qualche slide al volo.
*Ma se l'IA farà quei lavori che venivano dati a chi iniziava a lavorare per formarli, come faremo a formare le persone?
Solo che se la cavolata l'ha fatta Pippo, allora è colpa sua e siamo a posto. Se l'ha fatta Gemini, la colpa e mia è quindi non posso correre il rischio.
Paracubo che non siamo altro!
Measuring the Impact of Early-2025 AI on Experienced Open-Source Developer Productivity
When developers are allowed to use AI tools, they take 19% longer to complete issues—a significant slowdown that goes against developer beliefs and expert forecasts. This gap between perception and reality is striking: developers expected AI to speed them up by 24%, and even after experiencing the slowdown, they still believed AI had sped them up by 20%.
è il pensiero generale. mi sembra irreale come si possano creare video realistici da un semplice comando di testo, ma anche solo interfacciarsi a un chatbot come se fosse umano è qualcosa di incredibile (anche se non sempre affidabile)
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".