Qualcomm entra nei datacenter: annunciati gli acceleratori AI200 e AI250 per l'inferenza generativa

Qualcomm entra nei datacenter: annunciati gli acceleratori AI200 e AI250 per l'inferenza generativa

Qualcomm entra nel mercato dei datacenter con gli acceleratori AI200 e AI250, soluzioni rack-scale pensate per l'inferenza di modelli generativi. Basate sull'architettura NPU Hexagon, con 768 GB di memoria per scheda e tecnologia Near Memory Computing, promettono prestazioni elevate a basso TCO per sfidare NVIDIA e AMD.

di pubblicata il , alle 06:01 nel canale Server e Workstation
Qualcomm
 

Qualcomm ha annunciato ufficialmente AI200 e AI250, due acceleratori per datacenter che segnano l'ingresso dell'azienda statunitense nel mercato dell'inferenza AI su scala rack. Si tratta di sistemi completi, progettati per l'esecuzione di modelli generativi e multimodali di grandi dimensioni, con l'obiettivo di offrire prestazioni elevate a costi di gestione contenuti (TCO).

L'iniziativa rappresenta un cambio di passo per Qualcomm, da sempre concentrata su chip per dispositivi mobili e connettività wireless, salvo un passato tentativo andato a vuoto di entrare nell'arena delle CPU server con la linea CentriQ.

Ora l'azienda punta al segmento in più rapida crescita dell'intera industria tecnologica: quello delle infrastrutture per l'intelligenza artificiale. Secondo stime McKinsey, infatti, entro il 2030 saranno investiti oltre 6,7 trilioni di dollari in datacenter, con la maggior parte delle risorse destinate a sistemi basati su chip AI.

Entrambe le soluzioni si basano su versioni evolute delle NPU Hexagon, unità di elaborazione neurale già impiegate nei SoC Snapdragon, ma in questo caso scalate per carichi di lavoro da datacenter. Le nuove varianti includono acceleratori scalar, vector e tensor in configurazione 12+8+1, supportano formati di precisione ridotta come INT2, INT4, INT8 e FP8, tecniche di inferencing micro-tile per ridurre il traffico di memoria e funzionalità di virtualizzazione e crittografia dei modelli per garantire sicurezza nelle implementazioni enterprise.

A differenza delle soluzioni di NVIDIA e AMD, orientate anche al training, Qualcomm ha scelto di concentrarsi esclusivamente sull'inferenza, cioè sull'esecuzione di modelli già addestrati, ambito che rappresenta la parte più intensiva e ricorrente nei flussi di lavoro generativi. Qualcosa che, anche Intel, punta a fare nei prossimi anni.

L'AI200, in arrivo nel 2026, sarà la prima soluzione a debuttare e offrirà 768 GB di memoria LPDDR5. Il sistema rack che la vedrà protagonista offrirà scalabilità orizzontale tramite Ethernet e verticale via PCIe, mentre la dissipazione termica sarà gestita con raffreddamento a liquido diretto. Il consumo complessivo dichiarato per un rack completo è stimato in 160 kW.

L'anno successivo, nel 2027, debutterà AI250, evoluzione diretta del modello precedente, che introdurrà una nuova architettura di calcolo "near-memory". Questa tecnologia promette un aumento di oltre 10 volte della larghezza di banda effettiva della memoria e una significativa riduzione dei consumi, consentendo un utilizzo disaggregato e più efficiente delle risorse di calcolo e memoria tra le diverse schede del rack.

Oltre all'hardware, Qualcomm ha sviluppato una piattaforma software end-to-end di livello hyperscaler, pensata per semplificare l'integrazione e la gestione dei modelli AI. Il pacchetto, compatibile con PyTorch, ONNX, vLLM, LangChain e CrewAI, consente il deployment con un clic di modelli pre-addestrati, anche tramite librerie come la Efficient Transformers Library. L'azienda promette inoltre il pieno supporto al confidential computing e alla gestione centralizzata dei workload attraverso Qualcomm AI Inference Suite.

Con il lancio di AI200 e AI250, Qualcomm conferma una roadmap annuale di prodotti per datacenter, segno dell'impegno a lungo termine nel settore. L'azienda sta inoltre lavorando su CPU proprietarie, che potrebbero debuttare intorno al 2028, mentre per questi primi sistemi è previsto l'impiego di chip Arm o x86 di terze parti.

1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
supertigrotto28 Ottobre 2025, 13:32 #1
Praticamente hanno usato parte della tecnologia per smartphone e la hanno scalata,un po' come Intel con i core due duo post netburst

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^