Llama 4, Meta ha rilasciato i modelli IA Scout e Maverick: Behemoth in arrivo

Llama 4, Meta ha rilasciato i modelli IA Scout e Maverick: Behemoth in arrivo

Meta ha presentato Llama 4, la sua nuova gamma di modelli di intelligenza artificiale. Due modelli sono già disponibili e prendono il nome di Scout e Maverick. In arrivo anche Behemoth, ancora in fase di training.

di pubblicata il , alle 06:01 nel canale Web
Meta
 

Meta ha presentato ufficialmente Llama 4, la nuova generazione dei suoi modelli di intelligenza artificiale. L'annuncio, che anticipa la conferenza LlamaCon prevista per il 29 aprile, include il rilascio di due modelli già disponibili - Llama 4 Scout e Llama 4 Maverick - e un'anteprima del modello ancora in fase di training, Llama 4 Behemoth.

I primi due modelli, Scout e Maverick, sono disponibili su Llama.com e presso i partner di Meta, tra cui la piattaforma di sviluppo Hugging Face. Meta afferma che Meta AI, il suo assistente AI per applicazioni come WhatsApp, Messenger e Instagram, è stato aggiornato per impiegare Llama 4 in 40 Paesi. Le funzioni multimodali sono per ora limitate agli Stati Uniti in lingua inglese.

Clicca per ingrandire

Scout è il più compatto dei due, si tratta di un modello da 109 miliardi di parametri totali, ma con 17 miliardi di parametri attivi lungo una configurazione di 16 esperti. Il modello è progettato per essere eseguito su una singola GPU NVIDIA H100 con quantizzazione INT4.

Questo lo rende ideale per compiti come il riassunto di documenti multipli, l'analisi di attività utente su larga scala e il ragionamento su grandi basi di codice. Nonostante le dimensioni contenute, Meta sostiene che Scout superi modelli rivali come Google Gemma 3, Gemini 2.0 Flash-Lite e Mistral 3.1 in numerosi benchmark.

Clicca per ingrandire

Maverick, invece, è un modello da 400 miliardi di parametri in totale, di cui 17 miliardi attivi su una configurazione di 128 esperti. Il modello è ottimizzato per la comprensione di testi e immagini in ambiti di assistenza virtuale e chat. Secondo Meta, il modello si dimostra competitivo contro GPT-4o e Gemini 2.0 Flash, ottenendo risultati paragonabili al nuovo DeepSeek v3 per quanto riguarda il ragionamento e la codifica, con meno della metà dei parametri attivi. Al contrario del più leggero Scout, richiede un sistema DGX H100 o equivalente.

Clicca per ingrandire

Entrambi i modelli adottano un'architettura Mixture of Experts (MoE), che seleziona dinamicamente i "moduli" migliori da attivare per ogni richiesta, migliorando efficienza e velocità. Le architetture MoE fondamentalmente suddividono le attività di elaborazione dei dati in sottoattività e le delegano a modelli "esperti" più piccoli e specializzati.

Scout e Maverick sono stati ottenuti dalla distillazione di Llama 4 Behemoth, un modello da circa 2 trilioni di parametri in totale, di cui 288 miliardi attivi su 16 esperti. "È il nostro modello più potente e tra i più intelligenti LLM al mondo. Llama 4 Behemoth supera GPT-4.5, Claude Sonnet 3.7 e Gemini 2.0 Pro in diversi benchmark STEM. Llama 4 Behemoth è ancora in fase di addestramento.

Nessuno dei modelli di Llama 4 è un vero e proprio modello di "ragionamento", sulla falsariga di o1 e o3-mini di OpenAI. I modelli di ragionamento controllano le loro risposte e in genere rispondono alle domande in modo più affidabile, ma impiegano più tempo dei modelli tradizionali "non ragionanti" per fornire risposte.

Clicca per ingrandire

Meta ha reso noto di aver messo a punto tutti i suoi modelli Llama 4 affinché si rifiutino con minor frequenza di rispondere a domande "controverse". Secondo l'azienda, Llama 4 risponde ad argomenti politici e sociali "dibattuti" a cui la precedente serie di modelli Llama non rispondeva. Inoltre, secondo l'azienda, Llama 4 è "nettamente più equilibrato" per quanto riguarda le domande che non accetta.

Un portavoce di Meta ha dichiarato a TechCrunch: "Potete contare su [Llama 4] per fornire risposte utili e concrete, senza giudizi". "Stiamo continuando a rendere Llama più reattivo, in modo che risponda a un maggior numero di domande, possa rispondere a una varietà di punti di vista diversi [...] e non favorisca alcune opinioni rispetto ad altre".

Clicca per ingrandire

A fare eco all'annuncio di Meta, un post di NVIDIA in cui l'azienda spiega di aver ottimizzato entrambi i modelli Llama 4 per NVIDIA TensorRT-LLM, una libreria open source utilizzata per accelerare le prestazioni di inferenza LLM per gli ultimi modelli fondazionali sulle sue GPU.

"Sulla GPU Blackwell B200, TensorRT-LLM garantisce una produttività di oltre 40.000 token al secondo con una versione FP8 ottimizzata per NVIDIA di Llama 4 Scout e di oltre 30.000 token al secondo su Llama 4 Maverick", scrive la società, aggiungendo che Blackwell garantisce "una produttività 3,4 volte più veloce e un costo per token 2,6 volte migliore rispetto a NVIDIA H200". 

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^