[Thread Ufficiale] Aspettando ZEN - Pagina 68

bjt2 · 08-04-2016, 08:51

Quote:

Originariamente inviato da tuttodigitale

aspetta, non ho detto che un core ZEN corrisponde ad un core, e ancora peggio che 2 core ZEN == modulo XV.
Tra avere una maggiore complessità rispetto al singolo core XV, giustificata dal maggior ipc (10-20-40-80, quello che è) e averne una pari al modulo, ci sono tante possibilità intermedie...

Se ZEN avesse un throughput superiore del 80% rispetto ad un singolo core XV, e sarebbe grande come un modulo, si avrebbe addirittura una regressione della potenza per transistore..

credo, che qualora 1 core ZEN avesse la stessa complessità di un modulo, avrrebbe prestazioni, secondo me, doppie rispetto al core XV

, proprio perchè le risorse possono essere equilibrate meglio: ho fatto l'esempio delle MUL, e un esempio di un raddoppio delle ALU ad un costo irrisorio. Ma lo stesso vale per lo scheduling, e per tutte le risorse dedicate al core.
il smt2, nel primo p4, costava il 5% e dava il 15-20%. Nel power5 costava il 30% e dava il 50%.
bjt2 ha pronosticato un aumento del 80% nel SMT2, chi lo sa..

No, 80% no...

80% è il CMT... Ho solo detto che se INTEL ha un +30% con il SMT, AMD, che ha più porte e non condivise, dovrebbe arrivare al +50%... Non esageriamo...

Si potrebbe arrivare all'80% (circa come il CMT) se le 4 ALU fossero universali, o almeno 2mul+2div, si avessero 4 AGU e 4 unità di load store... In pratica un modulo XV unificato ma con una unica cache L1D...
Il 50% comunque è una media... Si può arrivare a +80-90% se entrambi i thread hanno poche mul, poche div e pochi accessi in memoria, magari con codice intrinsecamente seriale, come calcoli lunghi e complicati, come una formula matematica complessa in un loop, dove ogni risultato dipende dai precedenti (perchè è una unica formula complicata) e quindi la pipeline stalla spesso...

Ren · 08-04-2016, 15:28

Quote:

Originariamente inviato da bjt2

No, 80% no...

80% è il CMT... Ho solo detto che se INTEL ha un +30% con il SMT, AMD, che ha più porte e non condivise, dovrebbe arrivare al +50%... Non esageriamo...

Il power8 ottiene il 30% dal secondo thread ed ha molte porte non condivise. Il boost continua con i 4thread e si ridimensiona con gli 8.

Ren · 08-04-2016, 16:37

Quote:

Originariamente inviato da gridracedriver

io vedo

2° th +34%
3° e 4° th +39% (+20% a th ?)
5° a 8° th +14% (+3,5% a th ?)

non so come siano più o meno condivise le porte, ma caspita anche solo se SMT2 di AMD fosse simile al SMT4 di IBM, avremmo +87%, una enormità, o al SMT3 +60%.

per me è sbagliato paragonare un SMT2 con 10 porte ad un SMT2 con 16 porte fatto per SMT8, in proporzione abbiamo 5 porte per TH nel SMT2 vs 2 porte per TH nel SMT8
(non sarà così con precisione ma rende l'idea credo

)

Con SMT2 non credo si possa ottenere più del 30-35% con 10 porte.
Ad AMD servirebbe un SMT4 e forse qualche porta L&S in più per scatenare la bestia...

ps- il bench in questione (7zip), scala alla perfezione, quindi siamo davvero "vicino" al massimo potenziale.

bjt2 · 08-04-2016, 16:47

Se intel ha ottenuto il 30% con la sua architettura scarsa, forse vuol dire solo che il POWER ha un ottimo Single thread... Potrebbe essere per la ISA più RISC-like e completamente ortogonale, inoltre il power ha 32 registri... Mentre la isa x86, anche 64 ha pochi registri (16), non è ortogonale e quindi richiede più spesso l'uso della cache/memoria o trucchi con le istruzioni... Se il compilatore fa il suo dovere, con 32 registri si può intervallare molte istruzioni indipendenti e quindi avere un alto IPC e lasciare solo le briciole per gli altri thread... Comunque 7-zip è un carico che è molto memory intensive e i calcoli sono abbastanza semplici... Non mi stupisce che scali poco...

Ren · 08-04-2016, 16:47

Quote:

Originariamente inviato da gridracedriver

beh in effetti ufficialmente non è ancora stato detto tutto sull'architettura, magari sarà davvero un SMT4 con qualche porta dedicata

mi sa tanto che le nostre previsioni subiranno dei cambiamenti

@tuttodigitale, quanto tempo abbiamo per le rettifiche o fino a quando sono aperte le scommesse?

sarà anche un test massimale, ma haswell scala solo del +28% che è circa la MEDIA del SMT di Intel

Non so, credo che la prima versione sarà SMT2.

bjt2 · 08-04-2016, 16:48

Quote:

Originariamente inviato da gridracedriver

beh in effetti ufficialmente non è ancora stato detto tutto sull'architettura, magari sarà davvero un SMT4 con qualche porta dedicata

mi sa tanto che le nostre previsioni subiranno dei cambiamenti

@tuttodigitale, quanto tempo abbiamo per le rettifiche o fino a quando sono aperte le scommesse?

sarà anche un test massimale, ma haswell scala solo del +28% che è circa la MEDIA del SMT di Intel

Non ci avevo fatto caso...

paolo.oliva2 · 08-04-2016, 16:49

(nulla a che vedere come discorso di bandiera)

Boh... a me l'SMT non piace...certo che vedere i numeri Power8 un po' di scimmia viene... però il Power8 (non li ho mai usati

) penso che costino una cifra di per sè e non oso pensare a tutto l'hardware attorno al procio...
Però rimango sempre dell'idea che Carrizo 2 con "estrogeni", modificato da FX e portato sul desktop, sul 14nm, farebbe scintille...
Però... leggendo i vostri post, concordo su jaguar/XV = Zen (preso un po' da uno ed un po' dall'altro)... spero solamente che l'imperativo di aumentare l'IPC non sia dovuto a frequenze inferiori a BD 32nm, ma c'è anche la possibilità (tutt'altro che remota) che AMD abbia potenziato l'IPC (Zen) ancor prima di conoscere il 14nm, in quanto non avendo più le FAB non può svilluppare a piacere il silicio e quindi aumentare l'IPC ridurrebbe il bisogn di frequenze alte-

bjt2 · 08-04-2016, 16:49

Quote:

Originariamente inviato da Ren

Non so, credo che la prima versione sarà SMT2.

Anche io... Da quel grafico che ho postato qualcuno sospetta che gli INTEL possano essere SMT4, ma viste le poche porte, ne dubito...

Ren · 08-04-2016, 16:52

Quote:

Originariamente inviato da bjt2

Se intel ha ottenuto il 30% con la sua architettura scarsa, forse vuol dire solo che il POWER ha un ottimo Single thread... Potrebbe essere per la ISA più RISC-like e completamente ortogonale, inoltre il power ha 32 registri... Mentre la isa x86, anche 64 ha pochi registri (16), non è ortogonale e quindi richiede più spesso l'uso della cache/memoria o trucchi con le istruzioni... Se il compilatore fa il suo dovere, con 32 registri si può intervallare molte istruzioni indipendenti e quindi avere un alto IPC e lasciare solo le briciole per gli altri thread... Comunque 7-zip è un carico che è molto memory intensive e i calcoli sono abbastanza semplici... Non mi stupisce che scali poco...

Ho messo il bench in compressione apposta. In decompressione il power8 si avvantaggia del suo sistema di cache mostruoso (edram+L4).

Cmq in single thread è una mezza calzetta e dicono di aver aumentato IPC sT del 60% rispetto al power7...

Per l'incontentabile

bjt2 ecco il raytrace :

bjt2 · 08-04-2016, 16:57

Quote:

Originariamente inviato da Ren

Ho messo il bench in compressione apposta. In decompressione il power8 si avvantaggia del suo sistema di cache mostruoso (edram+L4).

Cmq in single thread è una mezza calzetta e dicono di aver aumentato IPC sT del 60% rispetto al power7...

Per l'incontentabile

bjt2 ecco il raytrace :

Mi sa che il 30% di INTEL è in discesa e con il vento a favore...

Allora sarà 30% max per INTEL e 50% max per AMD...

Comunque questo è software compilato appositamente...
Con software legacy, o non compilato appositamente, penso che si possa otterere di più...

Ren · 08-04-2016, 17:05

Quote:

Originariamente inviato da bjt2

Mi sa che il 30% di INTEL è in discesa e con il vento a favore...

Allora sarà 30% max per INTEL e 50% max per AMD...

In FP storicamente i power vanno meglio degli altri...
Credo anche che ROB magri e pipeline lunghe(missprediction) si avvantaggino molto più del SMT, soprattutto con molti thread.

Ribadisco, secondo me 50% con SMT2 è un utopia...

Ren · 08-04-2016, 17:10

Quote:

Originariamente inviato da bjt2

Anche io... Da quel grafico che ho postato qualcuno sospetta che gli INTEL possano essere SMT4, ma viste le poche porte, ne dubito...

Forse in futuro aumentando le porte, anche perché ormai intel è alla frutta con i potenziamenti del P6. Non gli rimane molto per aumentare IPC (MT).

bjt2 · 08-04-2016, 17:53

Quote:

Originariamente inviato da Ren

Forse in futuro aumentando le porte, anche perché ormai intel è alla frutta con i potenziamenti del P6. Non gli rimane molto per aumentare IPC (MT).

EDIT: I power che sono SMT8 hanno 16 pipeline...
EDIT: secondo wikipedia ha 2rw+2r pipeline, quindi non 2+1... Max 4 letture o 3 letture+1scrittura o 2 letture+2scritture...

EDIT: 8 decoder, in media 1 per thread...

E' intel che è anomalo con 2x256b r e 1x256b w...
Se solo fosse possibile splittarle almeno in 2 (anche per avere più transazioni a 64 bit)... Magari per SMT4 faranno così... Passare a 4 porte a 256 bit mi sembra un po' troppo...

Ren · 08-04-2016, 18:13

Quote:

Originariamente inviato da bjt2

EDIT: I power che sono SMT8 hanno 16 pipeline.

Il P8 ha 10porte, di cui due dedicate al branch.

bjt2 · 08-04-2016, 18:25

Quote:

Originariamente inviato da Ren

Il P8 ha 10porte, di cui due dedicate al branch.

All'inizio avevo scritto anche io così, ma poi sono andato su wikipedia: 8 sono i decoder, 10 sono le istruzioni iniziabili per ciclo (immagino max: un decoder 10x16 deve essere un incubo), ma le unità sono 16: infatti le code sono 16 di 4 elementi...

Ren · 08-04-2016, 18:31

Quote:

Originariamente inviato da bjt2

All'inizio avevo scritto anche io così, ma poi sono andato su wikipedia: 8 sono i decoder, 10 sono le istruzioni iniziabili per ciclo (immagino max: un decoder 10x16 deve essere un incubo), ma le unità sono 16: infatti le code sono 16 di 4 elementi...

Sono sedici, ma le porte FP, condividono mezzo mondo

.
I decoder sono 8, ma hanno implementato il macrofusion.
Il ROB supera di poco le 100e e gli stadi fino al decoder sono 10.

Se serve altro chieda pure...

ps. sto leggendo da un articolo ibm.

bjt2 · 08-04-2016, 18:45

Quote:

Originariamente inviato da Ren

Sono sedici, ma le porte FP, condividono mezzo mondo

.
I decoder sono 8, ma hanno implementato il macrofusion.
Il ROB supera di poco le 100e e gli stadi fino al decoder sono 10.

Se serve altro chieda pure...

ps. sto leggendo da un articolo ibm.

Aggiorna wikipedia allora!

P.S.: odio quando delle unità condividono delle porte... Il progetto di AMD mi sembra più pulito...

tuttodigitale · 08-04-2016, 22:08

Quote:

Originariamente inviato da Ren

Con SMT2 non credo si possa ottenere più del 30-35% con 10 porte.
Ad AMD servirebbe un SMT4 e forse qualche porta L&S in più per scatenare la bestia...

ps- il bench in questione (7zip), scala alla perfezione, quindi siamo davvero "vicino" al massimo potenziale.

Il numero e la potenza (e a momento si sa davvero poco sulle operazioni eseguibile da ciascuna ALU) delle porte del back end non sono mica l'unico possibile collo di bottiglia.
E' tutto il tratto condiviso dai thread, dal prefetch al RoB, che deve essere "adeguatamente" dimensionato..

Quote:

Originariamente inviato da Ren

Forse in futuro aumentando le porte, anche perché ormai intel è alla frutta con i potenziamenti del P6. Non gli rimane molto per aumentare IPC (MT).

Intel ha aumentato le porte da ivy bridge ad Haswell, passando da 6 a 8. Più che il numero quello che conta è anche cosa fanno. Queste due pipeline aggiungono lo shift e un'AGU dedicata allo store e poco altro.
Notare che nonostante ciò lo scaling SMT, ha subito incrementi minimi. Questo sta a significare, ad un analisi alla buona, che le risorse messe a disposizione sono pensate per le prestazioni nel ST, e solo in seconda battuta si cerca di sfruttare le risorse inutilizzate...
Non sembrerebbe un caso che IBM sia passato ad una soluzione SMT8, con un aumento di ipc nel ST, che ha dell'incredibile (+40%

), probabilmente per recuperare il recuperabile.

PS la strada maestra per aumentare il throughput di PICCO rimane quella di tanti piccoli core. Il SMT serve innanzitutto per poter aumentare il ILP, senza sacrificare il throughput complessivo REALE, ovvero non rendere svantaggioso l'aumento di ipc (ST ovviamente)

paolo.oliva2 · 08-04-2016, 22:28

Ho fatto una carellata in vari forum, e alla fine questo TH è conservativo sulle frequenze di Zen. Praticamente oramai tutti danno Zen > 3,5GHz, una base di almeno 3,7GHz ma c'è chi si sbilancia sui 4GHz def.
E' chiaro che sono tutte voci, di sicuro c'è solo l'ES a 3GHz con turbo disattivato.
Però, se non ricordo male, mi sembra che nelle previsioni di clock per proci AMD si è sempre stati più bassi, vedi Phenom II 3GHz e lo si dava per 2,5GHz, Thuban 2,5GHz ed invece 3,2GHz, Zambesi 3GHz ed invece 3,6GHz, Piledriver sempre 3,6GHz ed invece 4GHz... speriamo sia così anche per Zen, se lo danno 3,7GHz/4GHz, c'è la possibilità che sia 4,5GHz

darek · 08-04-2016, 23:06

Iscritto

08-04-2016, 16:47	#1344
bjt2 Senior Member Iscritto dal: Apr 2005 Città: Napoli Messaggi: 6817	Se intel ha ottenuto il 30% con la sua architettura scarsa, forse vuol dire solo che il POWER ha un ottimo Single thread... Potrebbe essere per la ISA più RISC-like e completamente ortogonale, inoltre il power ha 32 registri... Mentre la isa x86, anche 64 ha pochi registri (16), non è ortogonale e quindi richiede più spesso l'uso della cache/memoria o trucchi con le istruzioni... Se il compilatore fa il suo dovere, con 32 registri si può intervallare molte istruzioni indipendenti e quindi avere un alto IPC e lasciare solo le briciole per gli altri thread... Comunque 7-zip è un carico che è molto memory intensive e i calcoli sono abbastanza semplici... Non mi stupisce che scali poco... __________________ 0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST PROGRAMMABILE!

08-04-2016, 16:49	#1347
paolo.oliva2 Senior Member Iscritto dal: Jan 2002 Città: Urbino (PU) Messaggi: 32123	(nulla a che vedere come discorso di bandiera) Boh... a me l'SMT non piace...certo che vedere i numeri Power8 un po' di scimmia viene... però il Power8 (non li ho mai usati ) penso che costino una cifra di per sè e non oso pensare a tutto l'hardware attorno al procio... Però rimango sempre dell'idea che Carrizo 2 con "estrogeni", modificato da FX e portato sul desktop, sul 14nm, farebbe scintille... Però... leggendo i vostri post, concordo su jaguar/XV = Zen (preso un po' da uno ed un po' dall'altro)... spero solamente che l'imperativo di aumentare l'IPC non sia dovuto a frequenze inferiori a BD 32nm, ma c'è anche la possibilità (tutt'altro che remota) che AMD abbia potenziato l'IPC (Zen) ancor prima di conoscere il 14nm, in quanto non avendo più le FAB non può svilluppare a piacere il silicio e quindi aumentare l'IPC ridurrebbe il bisogn di frequenze alte- __________________ 9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CPU-Z 19207 - CB23 49265 - CB24 2593 Ultima modifica di paolo.oliva2 : 08-04-2016 alle 17:59.

08-04-2016, 22:28	#1359
paolo.oliva2 Senior Member Iscritto dal: Jan 2002 Città: Urbino (PU) Messaggi: 32123	Ho fatto una carellata in vari forum, e alla fine questo TH è conservativo sulle frequenze di Zen. Praticamente oramai tutti danno Zen > 3,5GHz, una base di almeno 3,7GHz ma c'è chi si sbilancia sui 4GHz def. E' chiaro che sono tutte voci, di sicuro c'è solo l'ES a 3GHz con turbo disattivato. Però, se non ricordo male, mi sembra che nelle previsioni di clock per proci AMD si è sempre stati più bassi, vedi Phenom II 3GHz e lo si dava per 2,5GHz, Thuban 2,5GHz ed invece 3,2GHz, Zambesi 3GHz ed invece 3,6GHz, Piledriver sempre 3,6GHz ed invece 4GHz... speriamo sia così anche per Zen, se lo danno 3,7GHz/4GHz, c'è la possibilità che sia 4,5GHz __________________ 9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CPU-Z 19207 - CB23 49265 - CB24 2593 Ultima modifica di paolo.oliva2 : 09-04-2016 alle 06:33.

08-04-2016, 23:06	#1360
darek Senior Member Iscritto dal: Oct 2006 Città: Roma Messaggi: 2514	Iscritto __________________ Sotto la panza la mazza avanza win11 pro . 9800x3d nh-u12s . msi x870e carbon . trident z5 32Gb . rtx 4080 . enermax 850 . QN900A65 8k . m2 990 pro . G 502x .

Strumenti
Mostra una versione stampabile Invia questa pagina per email