[Thread Ufficiale] CPU serie FX: AMD Bulldozer/Piledriver - Aspettando Steamroller - Pagina 1544

FazzoMetal · 23-09-2015, 14:46

Quote:

Originariamente inviato da gridracedriver

sono d'accordo sulle prime 3 frasi, ma potresti riformulare l'ultima perché mi pare una supercazzola

nel senso che non ho capito nulla, a causa mia, ma non ho capito

Volevo dire che il TDP può essere contenuto e limitato a livelli accettabili in quanto esistono varie tecniche, indipendenti dal silicio, che permettono di ridurre sensibilmente i consumi lasciando inalterate le performance.

Quello che si paga quando si vuole un'architettura che sia contemporaneamente veloce e parca nei consumi è l'area occupata, ossia la dimensione del die. Intel è stata bravissima a impacchettare le sue ultime architettura in die di dimensione "contenuta".

AMD a questo giro non può accettare compromessi ne sulle performance assolute ne sul TDP (niente super proci da 220W). Gli scenari, quindi, sono 2:

1 - Sfruttando la grande libertà del team di sviluppo e il talento di Keller AMD realizzerà un "miracolo" con le nuove CPU FX che saranno potenti, efficienti e a prezzi concorrenziali

2 - Più realisticamente le nuove CPU faranno pesantemente ricorso a tecniche di ottimizzazione low-power/high-speed, offrendo alte performance, TDP ridotto ma notevole complessità e dimensione del die --> ZEN offrirà tanto ma il prezzo di lancio sarà elevato

Quando parlavo di dimensioni del die e costo della CPU dicevo che l'area del circuito integrato incide sul prezzo con la quarta potenza. Per fare un esempio, aumentando l'area del 10% il prezzo aumenta del 46%.

FazzoMetal · 23-09-2015, 15:03

Quote:

Originariamente inviato da paolo.oliva2

Un momento.
Non mischiare architetture, io parto da un punto preciso;
Il core Ex ha un consumo suo a prescindere che dopo venga implementato in SMT o CMT.
Il CMT Xunisce" 2 core, per un risparmio transistor e quindi di TDP con i pro e i contro.
Quindi inquadrare un core EX o Zen con SMT o CMT pone una situazione ben diversa da inquadrare il core AMD + CMT vs core Intel con SMT, perché in questo caso la differenza la fa il silicio.

Io mica sono in disaccordo con te, però il core Intel ha dei consumi suoi ed anche con l'SMT disabilitato o assente addirittura, ha consumi/prestazioni migliori a BD, ma lo era anche con il K10 che non era CMT era lo stesso.
Io non è che voglio difendere il CMT, ma un core Intel senza SMT ed applicandovi il CMT avrebbe comunque una spanna di forza bruta in più e un 4 moduli starebbe perfino sopra ad un 8+8.

Il core EX non ha un consumo "intrinseco" a prescindere dal tipo di implementazione del multi-threading. Un core EX (contenente tutto quello che serve all'esecuzione di 1 thread con istruzioni x86) ha un determinato consumo. Nel momento in cui si implementa il CMT modifichi pesantemente l'architettura andando a sdoppiare l'intera ALU, gli scheduler e altre risorse. Aumenti la potenza di calcolo parallelo ma aumenti il numero di transistor di una percentuale molto maggiore di quella che si avrebbe aggiungendo a un core EX il necessario per implementare l'HT.

Un core Intel applicandovi il CMT aumenterebbe di dimensione e complessità notevolmente, aumentando die size (e quindi il costo della CPU) e consumi.

FazzoMetal · 23-09-2015, 15:12

Quote:

Originariamente inviato da gridracedriver

ok chiaro

ah, 1.1^4 !
come mai elevare alla quarta?

Ovviamente è una prima approssimazione. Un fattore lineare c'è a causa del costo intrinseco del pezzo di silicio: 1 mm^2 --> tot €, 2 mm^2 --> 2*tot €.

La parte preponderante, invece, dipende dalla funzione che descrive la distribuzione delle imperfezioni sul disco di silicio dove si vanno a stampare litograficamente i die. Le imperfezioni si distribuiscono non proprio casualmente sul wafer e più aumenta l'area del die più aumenta il numero medio di imperfezioni/die. Garantire di non avere imperfezioni su un'area di 300 mm^2 è molto più "facile" che farlo su un die di 600 mm^2 (la resa cala drasticamente).

Infine ci sono i costi di testing e verifiche varie del die che crescono anch'essi con la complessità dello stesso.

I conti esatti non li conosco ma so che alla fine il contributo complessivo della dimensione del die sul costo della CPU è approssimabile come x^4.

tuttodigitale · 23-09-2015, 19:41

Quote:

Originariamente inviato da davo30

E soprattutto meno dipendente dalla bontà del silicio. Cosa fondamentale per AMD (e water-glofo)

Spero solo che l'esempio di cpu non dipendente dal silicio non siano quelle basate sui derivati di Nehalem...
Le cpu Intel hanno un FO4 "enorme" di 24. Questo significa questa cpu ha la NECESSITA' di commutazioni veloci (delay off-on ridotto= maggiore Vcore). Velocità che non è stata in grado di fornire il SOI a Vcore decenti. E qui dove il FO4 basso fa la differenza. E in effetti PD dimostra questa qualità in tutta la sua potenza nei confronti di k10. Non c'è nessuna ragione per credere che Sandy bridge potesse raggiungere i 3 GHz sui 32nm SOI.
Come se non bastasse un FO4 basso permette un clock gating molto aggressivo
.
Qualcuno potrebbe dire che anche PD ha la necessità di commutazioni veloci. E infatti, il FO4 è un buon indice per conoscere la frequenza massima di una cpu con un determinato processo produttivo e Vcore. L'analisi del consumo effettivo è cosa diversa e dipende dall'implementazione, così come le prestazioni.

Credo che Intel debba necessariamente pensare ad un post-Nehalem per sfruttare a meglio le qualità del suo silicio anche nel ST.

Quote:

Originariamente inviato da gridracedriver

se non erro l'SMT di Intel incide del +5% in termini di transistor a favore di un +30% di prestazioni, mentre il CMT di AMD incide del +25% in termini di transistor a favore di un +80% di prestazioni

in termini assoluti SMT ha un efficienza per transistor circa doppia rispetto al CMT
30/5 = 6x
80/25 = 3.2x

Le percentuali sono un pochino sbagliate (prendo per buono i tuoi numeri anche se AMD parla di +12% a livello di modulo e+5% a livello di die, il quantitativo di cache è esagerato):

SMT +24% (perf 130% tran 105%)
CMT +44% (perf 180% tran 125%)
chiaramente è il secondo ad essere più efficiente. Tuttavia utilizzando il primo tipo si può aumentare a parità di TDP la potenza nel ST (ma andrà meno nel MT) rispetto alla soluzione CMT. Come vedi non c'è un chiaro vincitore.

Quote:

Originariamente inviato da FazzoMetal

Un core Intel applicandovi il CMT aumenterebbe di dimensione e complessità notevolmente, aumentando die size (e quindi il costo della CPU) e consumi.

Ma andrebbe anche l'80% in più..
A parte gli scherzi un CMT+SMT potrebbe essere un ottima soluzione. Mi pare di ricordare che le CPU xeon con le istruzioni AVX si downcloccano pesantemente. Per il desktop anzichè avere un octa-core (16 thread) ci fosse un 6 moduli con 12 core+ HT (24 thread), sarebbe ancora meglio imho.

paolo.oliva2 · 23-09-2015, 23:26

Quote:

Originariamente inviato da tuttodigitale

Spero solo che l'esempio di cpu non dipendente dal silicio non siano quelle basate sui derivati di Nehalem...
Le cpu Intel hanno un FO4 "enorme" di 24. Questo significa questa cpu ha la NECESSITA' di commutazioni veloci (delay off-on ridotto= maggiore Vcore). Velocità che non è stata in grado di fornire il SOI a Vcore decenti. E qui dove il FO4 basso fa la differenza. E in effetti PD dimostra questa qualità in tutta la sua potenza nei confronti di k10. Non c'è nessuna ragione per credere che Sandy bridge potesse raggiungere i 3 GHz sui 32nm SOI.
Come se non bastasse un FO4 basso permette un clock gating molto aggressivo
.
Qualcuno potrebbe dire che anche PD ha la necessità di commutazioni veloci. E infatti, il FO4 è un buon indice per conoscere la frequenza massima di una cpu con un determinato processo produttivo e Vcore. L'analisi del consumo effettivo è cosa diversa e dipende dall'implementazione, così come le prestazioni.

Credo che Intel debba necessariamente pensare ad un post-Nehalem per sfruttare a meglio le qualità del suo silicio anche nel ST.

Le percentuali sono un pochino sbagliate (prendo per buono i tuoi numeri anche se AMD parla di +12% a livello di modulo e+5% a livello di die, il quantitativo di cache è esagerato):

SMT +24% (perf 130% tran 105%)
CMT +44% (perf 180% tran 125%)
chiaramente è il secondo ad essere più efficiente. Tuttavia utilizzando il primo tipo si può aumentare a parità di TDP la potenza nel ST (ma andrà meno nel MT) rispetto alla soluzione CMT. Come vedi non c'è un chiaro vincitore.

Ma andrebbe anche l'80% in più..
A parte gli scherzi un CMT+SMT potrebbe essere un ottima soluzione. Mi pare di ricordare che le CPU xeon con le istruzioni AVX si downcloccano pesantemente. Per il desktop anzichè avere un octa-core (16 thread) ci fosse un 6 moduli con 12 core+ HT (24 thread), sarebbe ancora meglio imho.

Come potrebbe essere un CMT + SMT?
Quel tizio di AMD aveva detto che Zen sarebbe sia CMT che SMT.
Ma che complessità avrebbe un core + SMT in CMT nel modulo?
Sarebbe disumano... Alla faccia della predizione e fella velocità cache.

paolo.oliva2 · 23-09-2015, 23:39

FazzoMetal

Per i costi non è come dici tu, nel senso che GF ha riportato che il 16nm costerebbe meno del 28nm bulk, quindi contando la miniaturizzazione e la relativa diminuzione dell'area del die, praticamente un procio sul 16nm potrebbe essere pure X8 ma costare meno di un X4 sul 28nm a parità di affinamento.
Conta che un 8350 ha circa lo stesso die size di un 5960X, ma ovviamente AMD non vende in negativo, come ovviamente Intel applica più un prezzo/prestazioni che un costo al mm2.

In ogni cado, senza polemica alcuna, il costo reale al mm2 del silicio è ben diverso dal costo commerciale, nel senso che chiaramente AMD applica un prezzo/prestazioni + un costo progetto (prodotto da 5 anni) che non può essere lo stesso di Intel.

Idem, il costo di un Zen implicherà enormemente sul die rispetto ad un passaggio di un ipotetico 8350 con modulo Excavator... Se poi a parità un FX fosse anche più grande di un Zen, costerebbe comunque molto meno.

tuttodigitale · 24-09-2015, 00:29

Quote:

Originariamente inviato da paolo.oliva2

Come potrebbe essere un CMT + SMT?
Quel tizio di AMD aveva detto che Zen sarebbe sia CMT che SMT.
Ma che complessità avrebbe un core + SMT in CMT nel modulo?
Sarebbe disumano... Alla faccia della predizione e fella velocità cache.

Se è disumano un CMT+SMT figurati un SMT 4
100% + 25% + 5% = 131% complessità
100% + 80% + 30%= 234% prestazioni

Efficienza teorica +78%

Come dicevo poco sopra, le CPU della concorrenza downcloccano quando le loro enormi FPu vengono usate a limite. Oggi, esattamente come a lancio di BD ha perfettamente senso usare la flexFP, che sarebbe comunque di dimensioni doppie rispetto a quella attuale.

E' ovvio che un SMT non ha senso se la cpu, come nel caso di BD, ha poche ALU a disposizione. Aldilà dei numeri ogni approccio deve essere contestualizzato.

macellatore · 24-09-2015, 10:12

Il CMT non fa guadagnare di piu', semmai fa perdere di meno.

Se x sono le prestazioni single core,
con n core hai x*n*fattoreCMT oppure x*n*fattoreSMT,
dove fattoreCMT e fattoreSMT sono compresi tra 0 e 1,
e fattoreCMT > fattoreSMT.

Io vedo percentuali sommate che non hanno alcun senso.
Semmai con l'SMT sottrai il 50% (fattoreSMT=0.5), con il CMT sottrai il 20% (fattoreCMT=0.8).

Meditateci in relax. Pagine e pagine di thread con conti senza senso. YAWN

capitan_crasy · 24-09-2015, 10:33

paolo.oliva2 · 24-09-2015, 12:39

Quote:

Originariamente inviato da gridracedriver

scusa, ma così stai valutando le prestazioni globali ed indubbiamente il CMT fa guadagnare di più in maniera relativa, però non il guadagno assoluto apportato della sola componente aggiuntiva al Core Reale(Intel) o Modulo con 1 solo Integer(AMD).

Intel, spendo 5 per guadagnare 30: ho un guadagno il 600% da quel 5 -> 6x
AMD, spendo 25 per guadagnare 80: ho un guadagno del 320% da quel 25 -> 3.2x

poi appunto non ricordo se sia +25% di transistor, magari è troppo; contiamo +15%:

AMD, spendo 15 per guadagnare 80: ho un guadagno del 530% da quel 15 -> 5.3x

il mio era un modo per evidenziare l'efficienza assoluta delle implementazioni e non le prestazioni relative.

Però ci sono altre cose da tenere in considerazione, non solamente il numero di transistor.
Intel ha cache più veloci di AMD, OK per l'IPC superiore, ma anche perché ovviamente la L1 deve essere svuotata velocemente per dare posto al 2° TH e poi per ritornare al 1°.

Non voglio contraddurti nel tuo discorso, ma ad esempio Carrizo ha 3.1 miliardi di transistor, ben 1/2 miliardo in più di un 5960X, ma non per questo il die ha prezzi proibitivi, come del resto il numero dei transistor è vero incide sui consumi, ma bisogna vedere quanti cambi di stato hanno 1000 transistor e quanti ipoteticamente 100 nella stessa unità di tempo. Facendo un esempio di quello che voglio dire... Il 5% in più che ha l'SMT Intel si poggia su latenze cache ben inferiori rispetto a quelle di AMD, quindi non sarebbe sbagliato supporre che quel 5% generi anche un TDP superiore rispetto al 20% del CMT di AMD.
Oggi come oggi il costo di un die è relativo, perché un procio veramente fallato da essere buttato via al 100% dovrebbe avere quantità minime, quindi anche se ad esempio un FX aumenta i transistor e quindi la possibilità di die fallato, alla fine può essere venduto come X6 e X4, con L3 4MB o assente, questo fa sì di diminuire drasticamente la reale perdita totale del die.

Tornando al tuo discorso, secondo me non si può giudicare il CMT e SMT sulle basi odierne semplicemente perché il CMT di AMD rappresenta un'implementazione povera, cioè si è puntato ad ottenere prestazioni semplicemente diminuendo il TDP.

Il confronto sul numero di transistor ci può stare, ma il 30% e 80% vanno valutati sempre sull'IPC nativo e di qui quello finale, ma occorre pure considerare che il core BD per quanto più flessibile del K10, AMD non ci ha speso una tozza in miglioramenti predizione, latenze cache e similari. In fin dei conti AMD con il modulo è ad un soffio con 2 TH rispetto ad Intel con il core + SMT spendendo 1/1000 rispetto a rivoluzionare completamente tutto (cache, predizione & C.

P.S.
Aggiungo, oltre al core in se per se, va anche valutato l'implicazione delle cache inclusive, che indubbiamente riducono i tempi nel ritrovare i dati, ma per contro a parità di capienza utile necessitano di capacità ben maggiori. Senza andare in polemiche inutili, un Opteron X16 vs un 8+8 Intel, dovrebbero avere capacità di carico TH simili, ma ammesso che il core + SMT richieda meno transistor, alla fine ci sono quasi il 20% in più di transistor a parità di TH con Intel e non il contrario. La differenza al più sarebbe nel TDP ma non al fatto di più transistor, o comunque non tanto dipendente dal CMT vs SMT

paolo.oliva2 · 24-09-2015, 13:01

Quote:

Originariamente inviato da tuttodigitale

Se è disumano un CMT+SMT figurati un SMT 4
100% + 25% + 5% = 131% complessità
100% + 80% + 30%= 234% prestazioni

Efficienza teorica +78%

Come dicevo poco sopra, le CPU della concorrenza downcloccano quando le loro enormi FPu vengono usate a limite. Oggi, esattamente come a lancio di BD ha perfettamente senso usare la flexFP, che sarebbe comunque di dimensioni doppie rispetto a quella attuale.

E' ovvio che un SMT non ha senso se la cpu, come nel caso di BD, ha poche ALU a disposizione. Aldilà dei numeri ogni approccio deve essere contestualizzato.

Si però non capisco il concetto.
Il CMT riduce il TDP condividendo i core ricercando un TDP più basso a potenza a scapito della forza bruta ma con 2 TH fisici.
L'SMT sfrutta il core riducendo si i transistor, ma non abbassa di certo il TDP, anzi lo aumenta (da verificare nel complesso per la stessa potenza quanto TDP genererebbe il CMT e quanto l'SMT con lo stesso silicio)

Come fai a inglobare nel modulo 2 soluzioni opposte?
Cioè, inglobi l'SMT per ottenere la potenza max e poi ci metti il CMT che castrerebbe l'SMT per diminuire il TDP? Che è, un power8 FX?

Se mi consenti, la vedrei meglio un modulo che implichi il CMT con 2 TH ma abbia la possibilità di annullare il CMT quando il carico fosse 1 TH. Io non mi so spiegare, ma il modulo BD come IPC dovrebbe essere comunque superiore a quello del K10 semplicemente purché ha un'FP del doppio più grande, INT più efficienti e un rapporto pipeline/frequenza non peggiore. Ma anche con 1 TH il CMT sega la potenza, forse potrebbe pure essere che AMD abbia segato un po il front-end per abbassare il TDP (o comunque con la nuova miniaturizzazione avrebbe il margine TDP per potenziarlo), ma nel caso di un core Zen con SMT e CMT nel modulo, io non ci raccapezzo il senso.

-Maxx- · 24-09-2015, 15:20

Quote:

Originariamente inviato da capitan_crasy

Mi sono cappottato dalle risate!

batou83 · 24-09-2015, 15:26

Per favore AMD, fà uscire presto sti benedetti zen FX , altrimenti questi qui dentro impazziscono nell'attesa

AceGranger · 24-09-2015, 15:36

Quote:

Originariamente inviato da gridracedriver

mi ricordo che il discorso del transistor-count e die-area era venuto fuori ai tempi dell'uscita del 8150, proprio perché ha un die-area del 50% superiore al 2600k con un tot di transistor in più ed anche se la commutazione dei transistor fosse la medesima indubbiamente questo comporta un consumo superiore ed una probabilità di die fallati superiore (minor introiti).
il CMT anche proprio per un fattore economico di azienda è una scelta infelice nel desktop dai margini risicati.

Carrizo è metà cpu e metà gpu, e se consideri che la componente gpu (aka 7750) conta 1,5 miliardi di transistor vedi che torna sotto rispetto al 5960x.
http://www.anandtech.com/show/5541/a...edition-review

http://www.anandtech.com/show/8426/t...7-5820k-tested
http://wccftech.com/amd-carrizo-apu-...n-transistors/

vishera 1.2B in 315 mmq a 32nm
kaveri 2.4B in 245mmq (-1.5B ~ igpu) 0.9B in 125mmq a 28nm (la igpu ha un di circa 120 mmq)
carrizo 3.1B in 245mmq (-1.5B ~ igpu) 1.6B in 125mmq a 28nm (la igpu ha un di circa 120 mmq)
sandybridge 4C 1B in 215mmq (-0.3B ~ igpu) 0.7B in ???mq a 32nm (non conosco i mmq della igpu)
sandybridge 6C 2.27B in 435mq a 32nm

non capisco come faccia carrizo ad avere così tanti transistor, sempre che il dato sia certo.

i 22nm non li considero perché non ha molto senso visto che da un nodo all'altro dimezzi l'area occupata e di conseguenza tagli dal 30 al 50% i consumi a pari prestazioni

occhio pero che nel SB 6C il numero dei transistor è quello totale del chip 8 core compresi i 2 disattivati.

come numero di transitor conviene prendere quelli di Ivy Bridge a 22nm, che varia di molto poco risepetto a SB nella parte X86, ed è un 6 core nativo e ne ha 1.86B.

george_p · 24-09-2015, 15:50

Quote:

Originariamente inviato da capitan_crasy

Questa gif è sempre mitica!!!

tuttodigitale · 24-09-2015, 19:46

Quote:

Originariamente inviato da gridracedriver

scusa, ma così stai valutando le prestazioni globali ed indubbiamente il CMT fa guadagnare di più in maniera relativa, però non il guadagno assoluto apportato della sola componente aggiuntiva al Core Reale(Intel) o Modulo con 1 solo Integer(AMD).

Intel, spendo 5 per guadagnare 30: ho un guadagno il 600% da quel 5 -> 6x
AMD, spendo 25 per guadagnare 80: ho un guadagno del 320% da quel 25 -> 3.2x

poi appunto non ricordo se sia +25% di transistor, magari è troppo; contiamo +15%:

AMD, spendo 15 per guadagnare 80: ho un guadagno del 530% da quel 15 -> 5.3x

il mio era un modo per evidenziare l'efficienza assoluta delle implementazioni e non le prestazioni relative.

Ma scusami: ti rendi conto che il tuo ragionamento è un pochino sballato?
Mi dici come fai a dire che l'efficienza assoluta aumenta del 600% con il SMT quando le prestazioni aumentano del 30%

Io non parlavo di prestazioni ma di prestazioni/transistor. E di questo stavamo parlando o no?
CMP 100 transistor ottengo 100 di prestazioni (efficienza 100%)
SMT 105 transistor ottengo 130 di prestazioni (efficienza 124%)
CMT 125 transistor ottengo 180 di prestazioni (efficienza 144%)

Globalmente, e solo in teoria, un singolo transistor in una cpu con architettura CMT rende di più. Ed è questo quello che conta o sbaglio?

Forse ti può essere d'aiuo questo grafico

Tuttavia voglio sottolineare che per avere il SMT devi avere un architettura progettata espressamente per il SMT. Quel +5% è bugiardo e non del tutto veritiero, perchè non considera che chi progetta una determinata architettura ha già previsto il SMT.
Ad esempio vi siete mai chiesti perchè Intel non usa il SMT4...Semplice, il core non è adatto. Il power 8 guadagna con il passaggio dal SMT2 a SMT4 più di quanto Intel faccia dal singolo Thread al SMT2....

Infatti secondo questi ragionamenti un modulo BD, secondo le slide dovrebbe essere superiore al 12% di un ipotetico BD senza dual core. Peccato che una cpu del genere farebbe a dir poco pena, visto che sarebbe comunque quasi grande quanto due core k10...Se si fa finta che le componenti comuni non siano sovradimensionate per il doppio thread (le cache come ha detto Paolo devono avere una maggior associavità per gestire al meglio il secondo thread, oltre che dimensioni maggiori), i guadagni sembrano enormi. In realtà sono assai più modesti. Tanto che Intel nel nome dell'efficienza, è passato da una cpu cone un'architettura SMT (atom) ad una che ne è priva

tuttodigitale · 24-09-2015, 19:59

Quote:

Originariamente inviato da gridracedriver

non capisco come faccia carrizo ad avere così tanti transistor, sempre che il dato sia certo.

1,4 miliardi sono solo di gpu.

paolo.oliva2 · 24-09-2015, 20:24

Aspetta, io sono d'accordo con te per il discorso core. Il discorso Kaveri e Carrizo è inficiato da supporto huma e HSA, non tanto nel core in sé per sé, e comunque l'IGP AMD è più potente.
Quello che volevo notare è che il modulo in quanto tale è lo stesso sia di un Opteron che di un APU, e di qui il numero di transistor e quant'altro, perché credo che per AMD risulti più conveniente realizzare un modulo unico che diverse varianti.
Intel ha sì lo stesso core, ma varia le cache in base al suo utilizzo e numero dei cote.

È ovvio che così se confronti il modulo con un 2600k , anche a parità di TH, dia un risultato differente che rispetto allo stesso nella forma Opteron 16TH ma riferito magari ad un 5960X, appunto perché in questo caso l'architettura deve reggere un determinato carico e assolvere compiti più gravosi.

Il problema è che se confronti un 5960X ad un 2600K non fai caso al numero in può di transistor semplicemente perché ha una potenza doppia in MT ed un carico maggiore.
Stona quando prendi un 8350 che più o meno è simile in potenza MT, ed allora il carico in più non lo si prende in considerazione.

Tolto questo che magari è una mia personale considerazione, il nocciolo vero sarebbe l'efficienza architetturale, che sia con più o meno transistor frega poco perché nessuno ci pensa, se non per il fatto che una potrebbe consumare di più e andare meno, ma di questo abbiamo un parametro diretto tra un 8350 con 1,2miliardi di transistor che consuma quasi quanto un 5960X con meta potenza e meno della metà dei transistor, ma questo mi sembra palese che sia dovuto ad un silicio della metà meno efficiente, non architetturale, altrimenti non potrebbe esistere la stessa architettura ma sul 28nm competitiva per consumo/prestazioni ad un 22nm Intel.

paolo.oliva2 · 25-09-2015, 08:47

Quote:

Originariamente inviato da tuttodigitale

Ma scusami: ti rendi conto che il tuo ragionamento è un pochino sballato?
Mi dici come fai a dire che l'efficienza assoluta aumenta del 600% con il SMT quando le prestazioni aumentano del 30%

Io non parlavo di prestazioni ma di prestazioni/transistor. E di questo stavamo parlando o no?
CMP 100 transistor ottengo 100 di prestazioni (efficienza 100%)
SMT 105 transistor ottengo 130 di prestazioni (efficienza 124%)
CMT 125 transistor ottengo 180 di prestazioni (efficienza 144%)

Globalmente, e solo in teoria, un singolo transistor in una cpu con architettura CMT rende di più. Ed è questo quello che conta o sbaglio?

Forse ti può essere d'aiuo questo grafico

Tuttavia voglio sottolineare che per avere il SMT devi avere un architettura progettata espressamente per il SMT. Quel +5% è bugiardo e non del tutto veritiero, perchè non considera che chi progetta una determinata architettura ha già previsto il SMT.
Ad esempio vi siete mai chiesti perchè Intel non usa il SMT4...Semplice, il core non è adatto. Il power 8 guadagna con il passaggio dal SMT2 a SMT4 più di quanto Intel faccia dal singolo Thread al SMT2....

Infatti secondo questi ragionamenti un modulo BD, secondo le slide dovrebbe essere superiore al 12% di un ipotetico BD senza dual core. Peccato che una cpu del genere farebbe a dir poco pena, visto che sarebbe comunque quasi grande quanto due core k10...Se si fa finta che le componenti comuni non siano sovradimensionate per il doppio thread (le cache come ha detto Paolo devono avere una maggior associavità per gestire al meglio il secondo thread, oltre che dimensioni maggiori), i guadagni sembrano enormi. In realtà sono assai più modesti. Tanto che Intel nel nome dell'efficienza, è passato da una cpu cone un'architettura SMT (atom) ad una che ne è priva

Quoto.

Io non ho le tue basi di elettronica... Per questo ti chiedo:
Escludendo BD con le sue pipeline lunghe, sarebbe corretto dire che il CMT punterebbe più nel risparmio TDP l'aumento di potenza a die mentre l'SMT ricerca l'efficienza nello sfruttamento totale del core?
Cioè, io credo che senza un silicio valido, comunque abbiamo la prova di cosa può fare il CMT, ma non possiamo sapere cosa sarebbe successo nel caso BD fosse stato SMT, ma io sarei dell'opinione che non sarebbe stato meglio di sicuro nell'MT, ma forse meglio nell'ST a patto di ridurre i core totali.

Ma nei prox silicio, è presumibile che il leakage comunque diminuisca?

Perché credo che a seconda della bontà silicio l'equilibrio sia tra numero di transistor, frequenza e leakage, ma se il leakage percentualmente diminuirebbe, sarebbe più conveniente ricercare un TDP migliore con più transistor ma meno esasperati che viceversa, contando anche il problema sempre maggiore di dissipazione del calore prodotto su una superficie sempre più minore.

paolo.oliva2 · 25-09-2015, 09:14

Quote:

Originariamente inviato da gridracedriver

forse mi sono espresso male, quello che voglio sottolineare è l'efficienza della sola parte "aggiuntiva"
spendo il 5% del core e ne guadagno il 30% in prestazioni, spendo il 25% del core e ne guadagno l'80% in prestazioni.
guadagno meno come throughput indubbiamente, ma molto di più in:
efficienza, minor leakage
dimensioni totali del die
minor numero di transistor totali
minor numero di wafer da realizzare
minor numero di die da realizzare e incidenza minore di quelli non fallati
maggior guadagno dal singolo die venduto
...
di contro c'è che il design deve essere studiato alla perfezione, di sicuro una architettura SMT è più difficile da realizzare da una CMT o ancora nel caso migliore dalla CMP.

voglio sottolineare questo, che chi produce cpu dovrebbe valutare soprattutto questi fattori e per ultimo le prestazioni generali

si ma sono comunque 1.6~1.7! uno sproposito

Come dice Tuttodigitale , l'architettura BD è comunque creata a monte... Il problema non è nel numero dei transistor se più o meno, ma i pro e i contro in quel numero di transistor.
Prendi un i3 e confrontarlo con 2 moduli, e diresti che il numero maggiore di transistor di AMD è speso più che bene, diverso se prendi un i7 X4+4, mentre da X6+6 in su il CMT non richiederebbe più transistor dall'SMT. Il punto è che il confronto tra 8TH AMD e Intel è basato tra un procio server per AMD ed un procio non server come sopporto carico Intel, con tutte le differenze, ma un procio Intel che offre più potenza sia ST che MT per me non dovuta all'architettura, ma ad un insieme di cose, efficienza cache, efficienza silicio, sfruttamento massimo tra minor numero di transistor e carico, e le macroscopiche pecche di AMD nell'implementazione CMT, tra frequenze più basse, impossibilitata ad aumentare l'IPC per il silicio e quant'altro.

Però prendere singolarmente il numero di transistor e da qui estrapolare che l'SMT è più efficiente del CMT è tutto un'altra cosa.

23-09-2015, 23:39	#30866
paolo.oliva2 Senior Member Iscritto dal: Jan 2002 Città: Urbino (PU) Messaggi: 31843	FazzoMetal Per i costi non è come dici tu, nel senso che GF ha riportato che il 16nm costerebbe meno del 28nm bulk, quindi contando la miniaturizzazione e la relativa diminuzione dell'area del die, praticamente un procio sul 16nm potrebbe essere pure X8 ma costare meno di un X4 sul 28nm a parità di affinamento. Conta che un 8350 ha circa lo stesso die size di un 5960X, ma ovviamente AMD non vende in negativo, come ovviamente Intel applica più un prezzo/prestazioni che un costo al mm2. In ogni cado, senza polemica alcuna, il costo reale al mm2 del silicio è ben diverso dal costo commerciale, nel senso che chiaramente AMD applica un prezzo/prestazioni + un costo progetto (prodotto da 5 anni) che non può essere lo stesso di Intel. Idem, il costo di un Zen implicherà enormemente sul die rispetto ad un passaggio di un ipotetico 8350 con modulo Excavator... Se poi a parità un FX fosse anche più grande di un Zen, costerebbe comunque molto meno. __________________ 9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593

24-09-2015, 10:33	#30869
capitan_crasy Senior Member Iscritto dal: Nov 2003 Messaggi: 24170	__________________ AMD Ryzen 9600x\|Thermalright Peerless Assassin 120 Mini W\|MSI MAG B850M MORTAR WIFI\|2x16GB ORICO Raceline Champion 6000MHz CL30\|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)\|1 M.2 NVMe Lexar EQ790 2TB (Games)\|1 M.2 NVMe Silicon Power A60 2TB (Varie)\|PowerColor【RX 9060 XT Hellhound Spectral White】16GB\|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]\|Enermax Revolution D.F. 650W 80+ gold\|Case Antec CX700\|Fans By Noctua e Thermalright

24-09-2015, 15:26	#30873
batou83 Senior Member Iscritto dal: Jun 2014 Messaggi: 3017	Per favore AMD, fà uscire presto sti benedetti zen FX , altrimenti questi qui dentro impazziscono nell'attesa __________________ Trattative positive nel forum : molte!

24-09-2015, 20:24	#30878
paolo.oliva2 Senior Member Iscritto dal: Jan 2002 Città: Urbino (PU) Messaggi: 31843	Aspetta, io sono d'accordo con te per il discorso core. Il discorso Kaveri e Carrizo è inficiato da supporto huma e HSA, non tanto nel core in sé per sé, e comunque l'IGP AMD è più potente. Quello che volevo notare è che il modulo in quanto tale è lo stesso sia di un Opteron che di un APU, e di qui il numero di transistor e quant'altro, perché credo che per AMD risulti più conveniente realizzare un modulo unico che diverse varianti. Intel ha sì lo stesso core, ma varia le cache in base al suo utilizzo e numero dei cote. È ovvio che così se confronti il modulo con un 2600k , anche a parità di TH, dia un risultato differente che rispetto allo stesso nella forma Opteron 16TH ma riferito magari ad un 5960X, appunto perché in questo caso l'architettura deve reggere un determinato carico e assolvere compiti più gravosi. Il problema è che se confronti un 5960X ad un 2600K non fai caso al numero in può di transistor semplicemente perché ha una potenza doppia in MT ed un carico maggiore. Stona quando prendi un 8350 che più o meno è simile in potenza MT, ed allora il carico in più non lo si prende in considerazione. Tolto questo che magari è una mia personale considerazione, il nocciolo vero sarebbe l'efficienza architetturale, che sia con più o meno transistor frega poco perché nessuno ci pensa, se non per il fatto che una potrebbe consumare di più e andare meno, ma di questo abbiamo un parametro diretto tra un 8350 con 1,2miliardi di transistor che consuma quasi quanto un 5960X con meta potenza e meno della metà dei transistor, ma questo mi sembra palese che sia dovuto ad un silicio della metà meno efficiente, non architetturale, altrimenti non potrebbe esistere la stessa architettura ma sul 28nm competitiva per consumo/prestazioni ad un 22nm Intel. __________________ 9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593

24-09-2015, 10:12	#30868
macellatore Bannato Iscritto dal: Dec 2014 Messaggi: 281	Il CMT non fa guadagnare di piu', semmai fa perdere di meno. Se x sono le prestazioni single core, con n core hai xnfattoreCMT oppure xnfattoreSMT, dove fattoreCMT e fattoreSMT sono compresi tra 0 e 1, e fattoreCMT > fattoreSMT. Io vedo percentuali sommate che non hanno alcun senso. Semmai con l'SMT sottrai il 50% (fattoreSMT=0.5), con il CMT sottrai il 20% (fattoreCMT=0.8). Meditateci in relax. Pagine e pagine di thread con conti senza senso. YAWN

Strumenti
Mostra una versione stampabile Invia questa pagina per email