Nemotron 3 Super: modello AI open da 120 miliardi di parametri di NVIDIA per sistemi agentici

NVIDIA ha presentato Nemotron 3 Super, un modello AI open da 120 miliardi di parametri progettato per applicazioni multi-agente. Grazie a una finestra di contesto da 1 milione di token, architettura ibrida Mamba-Transformer e inferenza ottimizzata per GPU Blackwell, punta a ridurre costi e complessità nei workflow autonomi.

di Manolo De Agostini pubblicata il 12 Marzo 2026, alle 10:01 nel canale Web
NVIDIA

NVIDIA ha annunciato il rilascio di Nemotron 3 Super, nuovo modello linguistico open progettato per l'esecuzione di sistemi di AI agentica complessi. La soluzione introduce un'architettura da 120 miliardi di parametri totali, ma con soli 12 miliardi di parametri attivi durante l'inferenza, un approccio pensato per migliorare efficienza computazionale e costi operativi nelle applicazioni multi-agente.

Il modello è stato progettato per affrontare alcune delle principali limitazioni che emergono quando i modelli linguistici vengono utilizzati come motore decisionale in pipeline autonome. In questi scenari, infatti, l'esecuzione di workflow complessi comporta un forte aumento del volume di dati elaborati: secondo NVIDIA, i sistemi multi-agente possono generare fino a 15 volte più token rispetto alle normali conversazioni.

Questo fenomeno, definito "context explosion", deriva dalla necessità di reinviare continuamente lo storico delle interazioni, le risposte degli strumenti utilizzati e i passaggi intermedi di ragionamento. Con il tempo ciò può portare a un disallineamento rispetto all'obiettivo iniziale (goal drift) e a un aumento significativo dei costi computazionali.

Per mitigare questi problemi, Nemotron 3 Super introduce una finestra di contesto nativa da 1 milione di token, pensata per consentire agli agenti di mantenere in memoria l'intero stato di un workflow complesso. In teoria questo permette al modello di analizzare simultaneamente grandi quantità di dati, come interi codebase software o migliaia di pagine di documentazione.

L'obiettivo è ridurre la necessità di rielaborare continuamente le informazioni durante conversazioni o processi di lunga durata, migliorando al contempo l'allineamento del modello con il compito iniziale.

Uno degli elementi tecnici distintivi di Nemotron 3 Super è l'architettura ibrida Mamba-Transformer combinata con un sistema Mixture-of-Experts (MoE).

Un'altra caratteristica chiave è la multi-token prediction (MTP). A differenza dei modelli tradizionali che prevedono un token alla volta, Nemotron 3 Super genera simultaneamente più token futuri in un singolo passaggio.

Questo approccio garantisce una maggiore capacità di modellare sequenze logiche lunghe durante l'addestramento e un'inferenza più rapida grazie a una forma di speculative decoding integrato. Secondo NVIDIA, questa tecnica può portare a fino a tre volte la velocità di generazione nelle attività strutturate come codice o chiamate di strumenti.

Nemotron 3 Super è stato addestrato utilizzando NVFP4, formato floating-point a 4 bit progettato per l'architettura GPU Blackwell. Diversamente da molti modelli quantizzati dopo l'addestramento, in questo caso la riduzione di precisione è stata utilizzata direttamente durante il training.

Clicca per ingrandire

L'approccio consente di ridurre significativamente il fabbisogno di memoria mantenendo la stabilità numerica del modello. NVIDIA sostiene che l'inferenza possa risultare fino a quattro volte più veloce rispetto al formato FP8 utilizzato su GPU Hopper, mantenendo livelli di accuratezza comparabili.

NVIDIA distribuisce Nemotron 3 Super con pesi open, dataset e pipeline di addestramento pubblicate. Il modello può essere eseguito su workstation, datacenter o cloud ed è disponibile tramite piattaforme come Hugging Face, OpenRouter e build.nvidia.com.

I migliori sconti su Amazon oggi

-22%

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

449.00 349.00€ Compra ora

-22%

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

140.84€ Compra ora

-30%

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

99.90 69.99€ Compra ora

Addio caricamenti lenti? Microsoft aggiorna DirectStorage e promette giochi più veloci su PC

WhatsApp prepara account dedicati ai minori di 13 anni: i genitori potranno gestire contatti, gruppi e richieste di messaggi

io78bis12 Marzo 2026, 10:46 #1

Premetto che non so quasi nulla di AI ma giusto per capire.
Il modello è open ma questa ottimizzazione

stato addestrato utilizzando NVFP4, formato floating-point a 4 bit progettato per l'architettura GPU Blackwell

vincola all'uso di architettura Nvidia?

supertigrotto12 Marzo 2026, 14:23 #2

Originariamente inviato da: io78bis

Premetto che non so quasi nulla di AI ma giusto per capire.
Il modello è open ma questa ottimizzazione

vincola all'uso di architettura Nvidia?

Si fp4 è lo standard generico (4bit) mentre nvfp4 è una tecnica per manipolare i piccoli numeri che si è inventata Nvidia, comunque sempre di matematica parliamo,ovvero manipolazione dei numeri.
Nvfp4 richiede hardware Nvidia,potrebbe girare anche su altro hardware ma ci girerà male naturalmente.

s12a12 Marzo 2026, 16:25 #3

Originariamente inviato da: io78bis

vincola all'uso di architettura Nvidia?

Nella pratica non ci sono molte alternative reali ad NVidia se vuoi usare LLM localmente, ma è sempre possible convertire da NVFP4 ad altri formati compatibili anche con CPU (se hai memoria RAM multicanale sufficientemente veloce), come è stato già fatto qui:

https://huggingface.co/unsloth/NVID...-120B-A12B-GGUF

Blackwell ha supporto nativo (hardware) per il formato NVFP4, ma alla fine per l'inferenza il limite prestazionale è dato principalmente dalla larghezza di banda della memoria.

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.

tutti gli articoli »

tutte le news »

Multimedia
Gallerie
Video

Nuova Opel Astra Electric, stile rinnovato

Sony Alpha 7 V, la nuova velocista

Lucid Gravity Touring, nuovo allestimento più equilibrato

Jeu de Paume

Rilasciati nuovi video e immagini della seconda missione del razzo spaziale Blue Origin New Glenn

Formula E Gen4 - La monoposto

Wi-Fi 7 con il design di una vetta innevata: ecco il nuovo sistema mesh di Huawei HUAWEI WiFi Mesh X3 Pro Suite è probabilmente il router mesh più fotogenico che si possa acquistare oggi in Italia, ma dietro il guscio in acrilico trasparente e...

Recensione Nothing Phone 4(a): sempre iconico ma ora più concreto Nothing con il suo nuovo Phone 4(a) conferma la sua identità visiva puntando su una costruzione che nobilita il policarbonato. La trasparenza resta l'elemento cardine,...

Diablo II Resurrected: il nuovo DLC Reign of the Warlock Abbiamo provato per voi il nuovo DLC lanciato a sorpresa da Blizzard per Diablo II: Resurrected e quella che segue è una disamina dei nuovi contenuti che abbiamo...

DJI RS 5: stabilizzazione e tracking intelligente per ogni videomaker Analizziamo nel dettaglio DJI RS 5, l'ultimo arrivato della famiglia Ronin progettato per videomaker solisti e piccoli studi. Tra tracciamento intelligente migliorato...

Vi portiamo all'interno di uno dei più importanti centri di distribuzione Amazon in Italia MXP6 è uno dei più recenti investimenti di Amazon sul territorio italiano, per la realizzazione di un capannone da 60.000 metri quadri alle porte di Novara, a due...

Deep Tech Revolution: così Area Science Park apre i laboratori alle startup Siamo tornati nel parco tecnologico di Trieste per il kick-off del programma che mette a disposizione di cinque startup le infrastrutture di ricerca, dal sincrotrone...

Alpine A290 alla prova: un'auto bella che ti fa innamorare, con qualche limite Abbiamo guidato per diversi giorni la Alpine A290, la prima elettrica del nuovo corso della marca. Non è solo una Renault 5 sotto steroidi, ha una sua identità e...

Ecovacs DEEBOT T90 PRO OMNI: ora il rullo di lavaggio è ampio DEEBOT T90 PRO OMNI abbina un sistema di aspirazione basato su tecnologia BLAST ad un rullo di lavaggio dei pavimenti dalla larghezza elevata, capace di trattare...

Nemotron 3 Super: modello AI open da 120 miliardi di parametri di NVIDIA per sistemi agentici

TCL 55T6C 55'' QLED TV 4K HDR, FireTV (SmartTV con Dolby Vision e Atmos, HDR10+, Premi e Chiedi ad Alexa)

LEFANT M330Pro Robot Aspirapolvere Lavapavimenti con Mappatura, Navigazione dToF, Zona vietata, Evitamento ostacoli PSD, Aspirazione 5000Pa, 150 minuti, Pulizia programmata, Alexa/APP/WiFi,Nero

Amazfit Active 2 Smart Watch 44mm, AI, Controllo Vocale, GPS e Mappe incluse, Batteria da 10 Giorni, 160+ Modalità Sportive, Resistente allAcqua 5 ATM per Android e iPhone, Nero

3 Commenti