Troppe memorie HBM difettose? NVIDIA bacchetta i fornitori e cambia le regole

NVIDIA avrebbe modificato la sua policy nei confronti dei fornitori di memorie HBM, imponendo test completi prima del packaging. L'obiettivo sarebbe quello di migliorare l'efficienza produttiva e contenere i costi.
di Manolo De Agostini pubblicata il 20 Febbraio 2025, alle 09:20 nel canale Schede VideoHBMNVIDIA
Secondo quanto riportato dal quotidiano sudcoreano TheElec, NVIDIA avrebbe aggiornato la propria policy nei confronti dei fornitori di memorie, richiedendo loro di testare completamente gli stack di memoria HBM prima di inviarli alle fonderie per il packaging finale.
Il report spiega che, fino a ora, gli stack HBM venivano inviati direttamente a TSMC e ad altre fonderie per il packaging, senza essere sottoposti a test preliminari. Dopo aver ricevuto le memorie HBM, le fonderie procedevano a integrarle nei substrati insieme alle GPU.
Di conseguenza, un modulo HBM difettoso poteva rendere inutilizzabile l'intero package, causando un significativo aumento dei costi produttivi e rallentando la produzione. Secondo TheElec, questo sarebbe uno dei fattori che hanno contribuito a definire il prezzo elevato degli acceleratori H100, che può raggiungere decine di migliaia di dollari.
Per risolvere il problema, NVIDIA avrebbe richiesto ai fornitori di memoria di testare completamente i package HBM prima di inviarli alle fonderie. Questo cambiamento ha aperto nuove opportunità commerciali per aziende produttrici di apparecchiature di test, come Genesem, che ha rapporti con SK hynix.
Al momento, non è chiaro quale sia l'impatto economico di questa decisione sui produttori di HBM, visto che devono investire e sostenere passaggi in più prima di evadere gli ordini ricevuti. NVIDIA, tuttavia, è così potente da poter imporre qualsivoglia regola, nessun partner sarebbe così pazzo da non accontentarla.
L'installazione di chip non testati è una pratica comune in molti settori dell'industria, poiché nei prodotti di largo consumo e nelle soluzioni meno complesse i difetti sono rari. Testare ogni componente prima dell'assemblaggio finale comporterebbe un aumento significativo del carico di lavoro e dei costi.
Tuttavia, la situazione è diversa per prodotti altamente sofisticati come gli acceleratori di NVIDIA, che integrano un gran numero di chip, i quali devono operare in perfetta sincronia per garantire le massime prestazioni.
5 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info(2024) Faulty Nvidia H100 GPUs and HBM3 memory caused half of failures during LLama 3 training — one failure every three hours for Meta's 16,384 GPU training cluster
mi meraviglio anzi che già non esistessero i controlli a monte, o che questi non evidenziassero un numero troppo elevato di moduli difettosi
troveranno un accordo sui costi e sui tempi con i fornitori di hbm e tra una generazione (forse due) saranno a regime
è una cosa che farà bene, se implementata, anche ad amd (na volta tanto)
ciao ciao
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".