AWS e Cerebras uniscono le forze: nuova architettura per accelerare l'inferenza AI nel cloud

AWS e Cerebras uniscono le forze: nuova architettura per accelerare l'inferenza AI nel cloud

AWS e Cerebras collaboreranno per portare nel cloud una nuova infrastruttura di inferenza AI basata su architettura disaggregata. Il sistema combinerà chip Trainium per l'elaborazione dei prompt e sistemi CS-3 per la generazione dei token. Obiettivo? Altissime prestazioni.

di pubblicata il , alle 15:01 nel canale Mercato
CerebrasAmazon Web ServicesAWS
 

Amazon Web Services ha annunciato una collaborazione con Cerebras Systems per sviluppare una nuova infrastruttura destinata ad accelerare l'inferenza dei modelli di intelligenza artificiale generativa nel cloud. La soluzione sarà integrata nella piattaforma Amazon Bedrock e sfrutterà una combinazione di processori Trainium sviluppati da Amazon e sistemi CS-3 basati sulla tecnologia wafer-scale di Cerebras.

L'obiettivo dichiarato è affrontare uno dei principali colli di bottiglia dell'AI moderna: la velocità con cui i modelli linguistici di grandi dimensioni riescono a generare risposte durante l'esecuzione, soprattutto in applicazioni interattive come assistenti di programmazione, chatbot avanzati o sistemi agentici.

Secondo AWS, la piattaforma sarà distribuita nei dat center dell'azienda e resa disponibile nei prossimi mesi attraverso Bedrock, mentre un'offerta commerciale più ampia basata su questa architettura è prevista nel corso della seconda metà del 2026.

Il progetto si basa su un approccio definito "inference disaggregation", che separa il processo di inferenza in due fasi distinte: Prefill, ovvero l'elaborazione del prompt inviato dall'utente e la preparazione del contesto per il modello

Le due operazioni presentano caratteristiche computazionali differenti. Il prefill è altamente parallelizzabile e richiede notevole potenza di calcolo, ma una banda di memoria moderata. Il decode, invece, è intrinsecamente seriale e dipende fortemente dalla larghezza di banda della memoria, perché ogni token deve essere generato uno dopo l'altro.

In molti casi proprio il decode rappresenta la parte più lenta dell'inferenza, soprattutto nei modelli di ragionamento che generano sequenze più lunghe mentre elaborano una risposta.

Per questo AWS e Cerebras hanno scelto di ottimizzare separatamente le due fasi: i processori Trainium si occupano del prefill, mentre i sistemi Cerebras CS-3 gestiscono la generazione dei token. Il collegamento tra le due componenti avviene tramite Elastic Fabric Adapter (EFA), una tecnologia di networking ad alta velocità utilizzata nei cluster HPC di AWS.

Tra i partner che hanno annunciato l'uso della piattaforma figurano Anthropic, che ha scelto AWS come principale infrastruttura per il training dei propri modelli, e OpenAI, che prevede di utilizzare capacità Trainium per supportare carichi di lavoro legati ai modelli di frontiera.

Dal lato Cerebras, il sistema CS-3 utilizza la tecnologia Wafer Scale Engine, un approccio che consiste nel realizzare un singolo chip di dimensioni simili a un wafer, per l'appunto. Questo design punta a ridurre la latenza nella comunicazione interna e a offrire una banda di memoria molto elevata, caratteristiche particolarmente utili durante la generazione sequenziale dei token.

Secondo l'azienda, il sistema può offrire una banda di memoria di gran lunga superiore a quella delle GPU tradizionali, elemento che diventa sempre più rilevante con l'aumento dei modelli di ragionamento e delle applicazioni agentiche.

AWS sostiene che la combinazione tra Trainium e CS-3 possa offrire prestazioni di inferenza fino a un ordine di grandezza superiore rispetto alle soluzioni attuali in alcuni scenari. Il vantaggio dovrebbe emergere soprattutto nelle applicazioni che richiedono interazioni rapide e iterative con l'utente, come gli strumenti di sviluppo software assistiti dall'AI.

AWS diventa il primo hyperscaler ad adottare ufficialmente la tecnologia Cerebras all'interno della propria infrastruttura cloud. Per Cerebras, che sta preparando un'IPO, la partnership con il principale provider di cloud computing rappresenta un'opportunità significativa per ampliare la diffusione della propria architettura e competere più direttamente con le soluzioni basate su GPU.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^