Prima immagine della GPU Navi 21, cuore della scheda Radeon top di gamma

Radeon RX 6900 XT: questo il nome che identificherà al prossima scheda video top di gamma di AMD il cui annuncio è previsto per il 28 ottobre. Nel frattempo appare online uno scatto della GPU, decisamente importante.
di Paolo Corsini pubblicata il 04 Ottobre 2020, alle 14:21 nel canale Schede VideoAMDRadeonNaviTSMCHBMGDDR6
Il debutto delle schede video AMD di nuova generazione, basate su architettura indicata con il nome di RDNA2, è ormai questione di settimane: sarà alla fine del mese di ottobre che AMD presenterà ufficialmente queste nuove soluzioni ma ancora non sappiamo se questo coinciderà anche con l'avvio delle vendite sul mercato o bisognerà attendere ancora.
Nel frattempo le indiscrezioni si sprecano, assieme a quella che dovrebbe essere la prima immagine del chip Navi 21 che sarà utilizzato sulla proposta top di gamma di AMD. Parliamo della scheda che dovrebbe prendere il nome di Radeon RX 6900 XT, la cui GPU vanterebbe secondo l'immagine disponibile una dimensione decisamente importante: fonte dell'immagine è il canale Twitter Coreteks.
La stima è infatti di un chip da 536 millimetri quadrati, costruito con tecnologia produttiva a 7 nanometri dalla taiwanese TSMC. Precedenti indiscrezioni davano questo chip caratterizzato da una superficie di poco più di 500 millimetri quadrati. Dall'immagine possiamo ricavare alcune ulteriori informazioni: manca memoria HBM2 abbinata alla GPU pertanto è facile ipotizzare che questa declinazione di GPU Navi 21 sia abbinata a memoria GDDR6. L'ampiezza del bus memoria non è stata al momento indicata da AMD: ipotizzando un quantitativo di memoria video pari a 16GB potrebbe essere stato adottato un bus da 256bit come uno da 512bit: quest'ultimo non è adottato da schede video da molto tempo per via della sua complessità, ma in passato è stato spesso utilizzato da AMD per proprie schede della famiglia Radeon.
Tendiamo ad escludere l'ipotesi che AMD possa utilizzare memorie HBM2 con queste nuove GPU, in quanto si tratta di architetture rivolte al mondo del gaming e dell'intrattenimento. Per soluzioni destinate al mercato professionale e ai datacenter AMD adotterà una diversa architettura di GPU, con la quale potrebbe scegliere di continuare ad utilizzare la memoria HBM2 per via della superiore bandwidth che è capace di assicurare rispetto a quella GDDR6.
Non resta ora che attendere alcune settimane sino al prossimo 28 ottobre, giorno indicato da AMD per annunciare le caratteristiche tecniche della propria nuova famiglia di schede video. Sempre nello stesso giorno è previsto il debutto commerciale delle schede video NVIDIA GeForce RTX 3070, schede di nuova generazione della famiglia Ampere che si candidano sulla carta quale riferimento per il segmento di fascia medio alta nel mercato delle schede video per videogiocatori.
62 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDubbioso sui 256bit di ampiezza, soprattutto abbinato alle GDDR6 classiche.
i leak indicano che un "simil" navi 10, il navi 23, con 40 CU lo abbiano portato a 240 mm^2.
logicamente non sappiamo che cosa hanno integrato di diverso, ma è facile che il miglioramento del PP abbia portato almeno un 10% di guadagno sulla densità.
il fatto è che 2X 40 CU sono le 80 CU di navi 21, ma 2X 240mm^2 fa 480mm^2 e qui parlano di 536, con l'aggiunta di 56mm^2 e con la mancanza di altri 8 memory controller, se dobbiamo stare alle voci che usa 256 bit.
ci sono dai 60 ai 90mm^2 usati per qualcos'altro.
se fosse tutta caches, per quel quantitativo di silicio, confrontato con gli Zen 2, si parla di oltre 128MB di caches.
a quel punto è una porzione di caches che aiuterebbe moltol'uso della memoria che, ricordo, in AMD è unificata (ossia tutti i chip sono su un unico bus centrale e servono l'intera GPU).
la memoria o la scrivi o la leggi; al massimo puoi fare partizioni che leggono e partizioni che scrivono, ma non tanto di più.
in tutti i casi se elabori dati sulle unità di calcolo, necessiti di sufficiente banda per scrivere e leggere in modo sufficientemente veloce da non limitare i calcoli, cioè al doppio del flusso dati che le unità possono elaborare, visto che lo fai comunque in due distinte tempistiche.
con una caches puoi leggere dalle RAM e storare sulla caches, quindi puoi dimezzare sia la velocità della RAM che quella della caches, per poi, nei tempi morti, caricare da caches su ram.
a quel punto avere 256 bit equivale ad avere 512 bit, ma senza caches.
quindi anche il fatto di una così ridotta banda ram non è indicativo; si aprono tante possibilità diverse e, se non si conosce il disegno dell'implementazione di questa architettura, è inutile fare speculazioni.
dopo i test si cercherà di capire come sia stato concepito il flusso dei dati.
Dubbioso sui 256bit di ampiezza, soprattutto abbinato alle GDDR6 classiche.
Concordo sia sul numero di transistor che sulla banda, staremo a vedere..
sicuri sicuri sicuri sicuri?
se non conosci l'architettura e non hai un minimo di indicazione sulle prestazioni, di sicuro c'è solo che non siamo eterni su questa terra...
se non conosci l'architettura e non hai un minimo di indicazione sulle prestazioni, di sicuro c'è solo che non siamo eterni su questa terra...
scordi le tasse e i politici cazzari
/OT
se l'operazione di scrittura e lettura fatta sulla ram è in due distinte operazioni, una velocità di 100GB/s ti garantirebbe il 50% in load e 50% in store, poi devi aggiungere anche l'operazione di calcolo, che richiede un certo tempo, (ammettiamo lo stesso tempo che il bus trasferisce 100GB, ossia 1 secondo).
quindi hai 100GB/s per 0.5 secondi per portare i dati da ram a L1, 1 secondo di elaborazione, 100GB/s per 0.5 secondi per portare i dati elaborati da L1 a RAM; totale 2 secondi e 100GB/s di velocità del bus.
con la caches puoi usare un bus da 50GB/s, perchè fornisci dati a 50GB/s per 1 secondo dalla RAM alla L1, nel mentre elabori per 1 secondo, e nel mentre scarichi dati dalla L1 alla caches (L2 o L3) e nel frattempo, dopo il primo secondo che la RAM ha finito di mandare dati, puoi cominciare a caricare dati dalla cache alla RAM... sempre 2 secondi hai usato ed impiegato il bus, ma alla metà della velocità, perchè hai sfruttato il tempo di elaborazione per sfruttare il trasferimento... hai eliminato latenze, in pratica.
è vero che questo esempio è a dir poco grossolano e che trasferisci quantità di dati infinitivamente più piccole, ma il senso è questo: eliminare i tempi di attesa che s'impiegano nelle unità di calcolo riuscendo a sfruttarli utilizzando i bus di trasferimento...
a quel punto dipende solo dalle velocità dei bus, dalla dimensione della caches, delle L1, e dalla velocità di elaborazione delle unità...
un calcolo preciso richiederebbe qualificare le operazioni clock per clock e non è cosa pratica per noi semplici appassionati.
insomma: si devono aspettare le reviews, se non si era già capito.
PS:
logicamente la "triangolazione" costa energia, perchè implica l'uso più intenso del bus dati (anche se a velocità minore), ma anche l'uso di una bella caches... hai aggiunto una entità al sistema e quindi, se la usi, consuma..
staremo a vedere...
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".