PDA

View Full Version : [Thread Ufficiale] Aspettando ZEN


Pagine : 1 2 3 [4] 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 68 69 70 71 72 73 74 75 76 77 78 79 80 81 82 83 84 85 86 87 88 89 90 91 92 93 94 95 96 97 98 99 100 101 102 103

bjt2
10-03-2016, 14:09
BJT2
Certo se funziona in questo modo, sarebbe davvero un mostro. La complessità per molti aspetti fondamentali sarebbe paragonabile a quella di una CPU con SMT...
Tuttavia, caricare un dato inutile nel 90% dei casi, è un costo non trascurabile. Sei sicuro al 100%?

Sicuro di cosa? :D Un modo per non avere la branch misprediction è quella, ma è costosa energeticamente e comunque richiede area di chip... Di più nin zo'! :D

tuttodigitale
10-03-2016, 14:35
Il FO4 dovrebbe essere una misura normalizzata e quindi indipendente dal processo. Solo se un processo impone dei vincoli realizzativi, ad esempio il circuito con il migliore FO4 non si può fare perchè le tracce sono più lunghe per vincoli geometrici del processo, allora può influire... Ma in teoria no.
credo che volesse dire che la scelta di un determinato FO4 piuttosto che un altro sia legato alle caratteristiche (presunte) del silicio su cui lavorerà.
In pratica ritornando a BD, AMD avrebbe progettato questa architettura con in mente i 45-22 SOI, mentre ZEN per i finfet 14-10nm
Sicuro di cosa? :D :spam:


:D


vero che il silicio cambia e quindi l'architettura zen potrebbe subire un aumento di fo4 rispetto a BD senza che questo comprometta i consumi a parità di clock, ma un fo4 superiore a 20 lo trovo eccessivo per una architettura a 360° che deve rullare ed essere allo stesso tempo parca nei consumi
in teoria un FO4 basso non è adatto alle CPU a bassi consumi. Tuttavia, il FO4 di bulldozer, per quanto basso, non è assolutamente esagerato. Il vecchio kaveri era efficiente nel mobile quasi quanto SB, questo la dice lunga su come scalava (e scala) male in frequenza il 28nm bulk di GF rispetto ai 32nm di Intel (e non ditemi che è colpa dell'architetture che vi lincio :eek: :ciapet: )

Il gap dell'efficienza energetica a basse frequenze, è stato drasticamente mitigato dalle nuove tecnologie sul risparmio energetico che funzionano meglio con numerosi stadi.

il FO4 influenza l'ipc, per questo spero che il +40% nel ST sia ottenuto con stadi poco complessi che permettono di lavorare a frequenze o vcore nettamente più favorevoli
E' un compromesso. Spero che scelgano il migliore: FO4 10 - ipc +100% :D

tuttodigitale
10-03-2016, 18:54
quindi comunque ti auguri pipe piuttosto medio-lunghe come quelle di BD, e da come detto fin ora sembra così.
se come sembra, AMD avrà ancora una volta deficit nell'ipc nel ST, me lo auguro.
L'ipotesi che mi sono fatto è questa.
Se AMD si limita a 95W, significa che almeno 3,5GHz di base, li abbia...è un no-sense fermarsi quando le prestazioni aumentano ancora significativamente, con 30-45W di margine...a meno di non avere una superiorità tecnologica tale da permettersi questo ed altro...(a64 docet), ovviamente dovremmo rivedere a rialzo le stime...
Per quello che ne sappiamo (davvero MOLTO poco), ZEN potrebbe raggiungere i 5 GHz in turbo mode...
Al momento la patch riferisce latenze lato FPU identiche a quelle di Bulldozer. Potrebbe non essere veritiera, ma se fosse confermata vuol dire che ZEN è un demonio di velocità, esattamente come il suo predecessore:eek:
Con tutto il bene del SOI, il bulk a 28nm si è dimostrato della stessa pasta del più prestante (sulla carta) 32nm, ad alte frequenze: il a10-7890k, gira a 4,1/4,3GHz.
Siceramente, mi aspetto ulteriori aumenti di clock (turbo) passando ai finfet, qualora mantenesse un FO4 simile a BD.

tuttodigitale
10-03-2016, 21:44
tu si che sai come convincere le persone :D
cosa dovrei dire di bjt2:
attualmente penso che l'ipc salga del 40% nel ST e del 100% nel MT (sono ritornato alle mie vecchie convinzioni, scaling del SMT migliore per AMD). In pratica, tra un core ZEN e uno skylake, le differenze nel multithread sarebbero irrisorie.

Dirò di più, per i più pessimisti. IBM ha aumentato l'ipc nel ST del 40-50% dal power7/+ al power8..e non mi pare che abbia subito penalità a livello di clock (ha una frequenza massima di 5GHz vs 4,42 del predecessore)...:cool:
certo partiva da un livello infimo di ipc, ma non avevano keller :read:. D'altra parte non si può non notare quanto sia ampio il core ZEN..

un octa core nel MT paragonabile ad uno skylake, con una frequenza 3,5 GHz base in 95W, è un mostro efficientissimo, altro che aspettative basse. :cool: .

Quelle delle frequenze alte, 3,5GHz+ per l'octa core, è una inevitabile conseguenza delle commercializzazione di un opteron da 32 core. Se partono bassi (3GHz) con un octa core...

AceGranger
10-03-2016, 21:57
cosa dovrei dire di bjt2:
attualmente penso che l'ipc salga del 40% nel ST e del 100% nel MT (sono ritornato alle mie vecchie convinzioni, scaling del SMT migliore per AMD). In pratica, tra un core ZEN e uno skylake, le differenze nel multithread sarebbero irrisorie.


se è cosi non esistera la versione 32 core perchè riuscirebbero tranquillamente a competere con Intel in tutta la fascia Xeon e a quanto annunciato non sara cosi.

digieffe
11-03-2016, 00:13
@tuttodigitale

se intel produce/rra sul suo 14nm un 10core@3ghz 140W ed un 8core@3.2ghz 140w, non capisco come amd possa produrre un throughput analogo al secondo in 95w@3.5ghz

non è più verosimile che a 95w si fermi a 3.0ghz? (con throughput inferiore all'intel x8)

davo30
11-03-2016, 01:08
@tuttodigitale

se intel produce/rra sul suo 14nm un 10core@3ghz 140W ed un 8core@3.2ghz 140w, non capisco come amd possa produrre un throughput analogo al secondo in 95w@3.5ghz

non è più verosimile che a 95w si fermi a 3.0ghz? (con throughput inferiore all'intel x8)
Intel con il 6600k sta a 3.5/3.9 in 91w. Con silicio prodotto da lei specificatamente per i suoi proci. È estremamente inverosimile che GF riesca a fornire un silicio che permetta ad AMD di far rientrare un x8 nei 95w a più di 3ghz.

Inviato dal mio XT1092 utilizzando Tapatalk

tuttodigitale
11-03-2016, 08:17
non è più verosimile che a 95w si fermi a 3.0ghz? (con throughput inferiore all'intel x8)
fermarsi a soli 3 GHz con ben 30-45W di margine, vuol dire o farsi male (non sarebbe la prima volta per AMD :( ) o avere una superiorità tecnologica schiacciante o ancora che non salga in frequenza, ma la patch ad oggi indicherebbe un FO4 in linea con BD...
Più probabile che l'ipc sia bassino, e sicuramente lo sarà nel ST. Mi aspetto un bel boost con il SMT, proprio perchè ipotizzo che ci sia una scarsa efficienza nell'usare le 10 porte.

Se i 2,7GHz saranno la frequenza base di Carrizo/BristolRIdge in 15W, AMD già con i 28nm, raggiungerebbe senza grossi sforzi le più efficienti soluzioni Xeon a 22nm....
Le prestazioni altissime nel MT, sono proprio il minimo che possiamo attenderci...tanto varrebbe fare un die shrink di quello che sarebbe il più prestante excavator.....

se è cosi non esistera la versione 32 core perchè riuscirebbero tranquillamente a competere con Intel in tutta la fascia Xeon e a quanto annunciato non sara cosi.
i miglioramenti a 3GHz dei 14nm sono sostanziosi (sei stato tu ad affermarlo, tempo fa), credi che Intel con i 14nm non sia in grado di migliorare di una virgola gli XEON, che sono già 10-core@3GHz?

il meglio dei 14nm Intel, deve ancora venire.

@tuttodigitale

se intel produce/rra sul suo 14nm un 10core@3ghz 140W ed un 8core@3.2ghz 140w, non capisco come amd possa produrre un throughput analogo al secondo in 95w@3.5ghz
10 core@3GHz, mi pare che li faccia già sui 22nm, vedi xeon....possibile che non riusciranno a migliorare?
Per curiosità più tardi vedrò un pò di test sui prodotti da 35-45W di Intel, per vedere quanto rullano rispetto alla generazione precedente:D . MAgari hanno migliorato anche oltre i 3GHz...

davo30
11-03-2016, 08:25
fermarsi a soli 3 GHz con ben 30-45W di margine, vuol dire o farsi male (non sarebbe la prima volta per AMD :( ) o avere una superiorità tecnologica schiacciante o ancora che non salga in frequenza, ma la patch ad oggi indicherebbe un FO4 in linea con BD...
Più probabile che l'ipc sia bassino, e sicuramente lo sarà nel ST. Mi aspetto un bel boost con il SMT, proprio perchè ipotizzo che ci sia una scarsa efficienza nell'usare le 10 porte.

Se i 2,7GHz saranno la frequenza base di Carrizo/BristolRIdge in 15W, AMD già con i 28nm, raggiungerebbe senza grossi sforzi le più efficienti soluzioni Xeon a 22nm....
Le prestazioni altissime nel MT, sono proprio il minimo che possiamo attenderci...tanto varrebbe fare un die shrink di quello che sarebbe il più prestante excavator.....


prendiamo i modelli di punta, please:
l'i7 6700k, sta a 4/4,2GHz in 95W e non è da escludere ulteriori aumenti di clock...
l'i7 6700 sta a 3,4/4GHz in 65W.
quelli mobili (quad core/8thread) 2,9/3,8GHz in 35W:
a titolo di paragonare la vecchia generazione era 2,8/4 GHz in 47W...in teoria ci sarebbe il margine per un 12-14 core a 3GHz e quindi un 8 core a 3GHz@95W. Quest'ultimo per me sarà il rivale di ZEN (PS Intel in qualsiasi momento potrebbe fare un downgrade di una cpu xeon, come fece a suo tempo con lo XEON Gallatin)


i miglioramenti a 3GHz dei 14nm sono sostanziosi (sei stato tu ad affermarlo, tempo fa), credi che Intel con i 14nm non sia in grado di migliorare di una virgola gli XEON, che sono già 10-core@3GHz?

il meglio dei 14nm Intel, deve ancora venire.
Penso che i 95w siano più un limite psicologico e di marketing che AMD si sia imposta per non trovarsi più nella situazione "ma gli FX consumano troppo", visto che per molti tdp=consumo

Inviato dal mio XT1092 utilizzando Tapatalk

tuttodigitale
11-03-2016, 08:38
Penso che i 95w siano più un limite psicologico e di marketing che AMD si sia imposta per non trovarsi più nella situazione "ma gli FX consumano troppo", visto che per molti tdp=consumo

Inviato dal mio XT1092 utilizzando TapatalkPS ho sbagliato è quello adattivo. A livello nominale non c'è stato nessun miglioramento.

AceGranger
11-03-2016, 11:24
i miglioramenti a 3GHz dei 14nm sono sostanziosi (sei stato tu ad affermarlo, tempo fa), credi che Intel con i 14nm non sia in grado di migliorare di una virgola gli XEON, che sono già 10-core@3GHz?

il meglio dei 14nm Intel, deve ancora venire.


mmm no, io avevo detto che l'efficienza migliore dell'architetutra core è intorno ai 2,5 GHz, massimo 3 GHZ e che oltre inizia ad aumentare il TDP; infatti 2-2,5 GHz è la frequenza degli Xeon top core.

14 core 2,6 GHZ 145W
10 core 3,1 GHz 160W

il guadagno lo si avra aumentando il numero di core ma tenendo bassa la frequenza; sarebeb stato uno spettacolo avere un i7 12 core a tipo 2,8 GHz, per poi mandarlo in OC dopo :D

sappiamo gia che come massimo Intel presentera 22 core, e realisticamente credo saranno intorno ai 2,5 GHz come ora lo sono i 14 core; se ci sara un 32 core AMD, secondo quello detto, dovra andare l'80% del top Intel.
non collima molto quell'IPC con 32 core e il valore dell'80%.

tuttodigitale
11-03-2016, 11:33
Aldilà dei valori nominali, il consumo dell’i5 6600k si è abbassato notevolmente rispetto al i5 4670k, addirittura inferiore al Pentium anniversary che ha un tdp di soli 53W…
http://images.anandtech.com/graphs/graph9483/76803.png
i miglioramenti sono indiscutibili, come il fatto che i vantaggi si assottigliano superata questa soglia. Ma il vantaggio a 3,5GHz è netto e quello ancora più ampio a 3GHz potrebbe davvero consentire un 14 core in 140W



sappiamo gia che come massimo Intel presentera 22 core,
con broadwell. Con skylake sono attesi 28 core in 165W...

guarda a livello teorico la penso come te in questo ultimo tuo post, il problema è capire se il pp ff di ss/gf o anche fosse tsmc reggerebbe i 95w a 3.5ghz con una architettura come quella che pare essere zen~broadwell
nell'ipc nel ST ci sarebbe comunque un buco del 30%. Non è esattamente la stessa cosa :p .
La mia ipotesi era nata:
1) latenze alla bulldozer, per il momento, lato FP
2) ipc per core paragonabile a broadwell (secondo il tizio)
3) ipc +40% secondo AMD (single thread)
4) oltre alle 2 FMAC+ 2 FADD . Fa paura!

AceGranger
11-03-2016, 11:48
Aldilà dei valori nominali, il consumo dell’i5 6600k si è abbassato notevolmente rispetto al i5 4670k, addirittura inferiore al Pentium anniversary che ha un tdp di soli 53W…
http://images.anandtech.com/graphs/graph9483/76803.png
i miglioramenti sono indiscutibili, come il fatto che i vantaggi si assottigliano superata questa soglia. Ma il vantaggio a 3,5GHz è netto e quello ancora più ampio a 3GHz potrebbe davvero consentire un 14 core in 140W



con broadwell. Con skylake sono attesi 28 core in 165W...

Skylake arrivera al massimo a 160 W e i 28 core arriveranno con gli E7...

AMD credo battagliera al massimo con gli E5, non ha mai avuto una fascia Mission Critical stile E7.

tuttodigitale
11-03-2016, 12:45
Skylake arrivera al massimo a 160 W e i 28 core arriveranno con gli E7...

AMD credo battagliera al massimo con gli E5, non ha mai avuto una fascia Mission Critical stile E7.

:confused: E cosa sarebbero gli opteron quad-socket utilizzati nel mercato HPC :rolleyes:

AceGranger
11-03-2016, 13:54
:confused: E cosa sarebbero gli opteron quad-socket utilizzati nel mercato HPC :rolleyes:

i concorrenti degli Xeon E5 4x socket... la stessa AMD non nomina mai il settore Mission Critical nella pagina degli Opteron, ma altri ambiti enterprise

gli E7 stanno una fascia sopra e arrivano a 8 socket.

tuttodigitale
11-03-2016, 16:29
state dicendo che il mercato datacenter, che pubblicizza tanto AMD, non è mission critical? :muro:
i concorrenti degli Xeon E5 4x socket... la stessa AMD non nomina mai il settore Mission Critical nella pagina degli Opteron, ma altri ambiti enterprise

gli E7 stanno una fascia sopra e arrivano a 8 socket.
premesso che secondo slide Intel, il 22 core non va oltre i 2 socket. Per un sistema quad processor bisognerà attende gli skylake a 24 core..
Nell'analisi non si può non considerare che il numero di canali e quindi di quantitativo di ram installabile in una soluzione quad-socket ZEN è identica a quella delle attuali soluzioni octa-socket di Intel e il doppio delle future soluzione skylake E5 4 socket. ZEN x32 è molto più vicino al 28 core che non al 22-24 core...
Fermo restando che se AMD avrà due socket server (come Intel), cosa la vieterebbe di fare soluzioni octa-socket, ammesso che ci sia spazio sulla motherboard per installare 128 moduli di ram.....

tuttodigitale
11-03-2016, 16:58
in che senso buco di 30%?

ho ipotizzato che un core nel ST vada il 40% in più di excavator. Rimane un gap del 30%.
Parte del gap nel MT (core to core con SMT) verrebbe recuperato da uno scaling nel SMT, sostanzialmente identico a quelle delle soluzioni power7 di IBM con 2 thread.
Lo scaling è favorito da 2 fattori. Maggior quantità di porte, ILP meno spinto.

tuttodigitale
11-03-2016, 18:37
dipende, quanto è distante XV da SL in IPC MEDIO?..
80% circa.

no, si sta solo dicendo che amd non l'ha mai fatto prima e quindi rimane un punto interrogativo almeno dal mio punto di vista e prendendo come riferimento quel 80% della offerta server :)
ma questa è una vaccata :D
Dal sito supermicro
2042G-72RF4. Quad/4-way 16/12/8/4-Core AMD Opteron™ 6000 series (6300P* ready) processors supported. 64 Cores High Performance Computing with 4x GbE LAN ports. LSI 2208 SAS2 RAID. 1x dedicated LAN for system management (IPMI2.0). Ideal for Mission-critical, firewall applications, Enterprise server, and HPC cluster node. .

AceGranger
11-03-2016, 20:04
state dicendo che il mercato datacenter, che pubblicizza tanto AMD, non è mission critical? :muro:


gia; come non sono catalogati mission critical gli Xeon E5.


premesso che secondo slide Intel, il 22 core non va oltre i 2 socket. Per un sistema quad processor bisognerà attende gli skylake a 24 core..


dipende che slide hai visto, se parlava solo degli Xeon V4 26xx si, ma un sistema 4 socket lo si puo fare gia ora con gli Xeon V3, e gli Xeon V4 arriveranno in tutte le fasce 1, 2 e 4 socket, anche perchè è antieconomico per Intel non farlo...


Nell'analisi non si può non considerare che il numero di canali e quindi di quantitativo di ram installabile in una soluzione quad-socket ZEN è identica a quella delle attuali soluzioni octa-socket di Intel e il doppio delle future soluzione skylake E5 4 socket. ZEN x32 è molto più vicino al 28 core che non al 22-24 core...

tralasciando il fatto che gli Xeon E7 ( con particolari controller di nodi terzi ), possono scalare fino a 32 socket..., il quantitativo di ram installabile mica si calcola guardando solo i canali di memoria, dipende anche dal tipo di switch dei canali a valle; gli E7 hanno un memory buffer per 4 banchi per ogni canale; forse intendevi dire la banda passante.

Xeon E5 ( 2-4 socket ) Quad-Channel puo montare 768 Gb di ram
Xeon E7 ( 4-8 socket ) Quad-Channel puo montare 1536 Gb di ram


è gia stato annunciato il quantitativo massimo di memoria supportato da Zen? se si, ho perso la notiza, hai un link ?

chiaro che se anche Zen avra uno switch a 4 banchi per canale, con piu canali supportera piu memoria per socket, ma non è cosi diretta come cosa la relazione numero di canali e memoria massima supportata.


ma questa è una vaccata :D
Dal sito supermicro
.

supermicro per marketing puo dire quello che vuole, è AMD in persona che non lo scrive da nessuna parte, mentre Intel ci ha fatto una serie ad-hock...
La piattaforma E7 è stata pensata per offrire un Uptime equivalente agli IBM Power e garantito al 99,999%; una piattafomra E7 è in grado di isolare automaticamente la CPU o memoria danneggiata e puoi sostituire a caldo qualsiasi cosa, HDD, PCI EX, RAM e pure la CPU.

ora, se AMD con Zen vorra entrare anche in questa fascia ben vanga, le capacita certo le ha, ma attualmente, E7 e Opteron( come anche gli E5 ) stanno su 2 pianeti differenti...

tuttodigitale
11-03-2016, 21:35
dipende che slide hai visto, se parlava solo degli Xeon V4 26xx si, ma un sistema 4 socket lo si puo fare gia ora con gli Xeon V3, e gli Xeon V4 arriveranno in tutte le fasce 1, 2 e 4 socket, anche perchè è antieconomico per Intel non farlo...

http://www.extremetech.com/wp-content/uploads/2015/05/ief9b32d-640x386.png

il quantitativo di ram installabile mica si calcola guardando solo i canali di memoria, dipende anche dal tipo di switch dei canali a valle; gli E7 hanno un memory buffer per 4 banchi per ogni canale; forse intendevi dire la banda passante.
Non correre. Avere più canali offre un vantaggio non indifferente a livelli di costi.
Con le RAM ECC "tradizionali" non si può usare il 4 slot, mentre la frequenza con 2/3 moduli per canale scende rispettivamente a 1833/1600MHz..

Come puoi osservare, la banda passante, a meno di non utilizzare i costosi banchi LRDimm, cala a picco. Oltre ad essere costose sono pure inefficienti.

Il vantaggio di avere un maggior numero di canali non è indifferente quindi:
si possono utilizzare più moduli di minor capacità con un rapporto capacità/prezzo favorevole.
a meno di non superare 16 moduli per cpu si può vivere con ram da "quattro soldi"

una piattafomra E7 è in grado di isolare automaticamente la CPU o memoria danneggiata e puoi sostituire a caldo qualsiasi cosa, HDD, PCI EX, RAM e pure la CPU.
perchè ti risulta che la ram negli opteron non possa essere sostituita a caldo? sata, pci e pci express sono per natura hot swap. Il problema sono i driver di windows consumer e quelli dei componenti specifici..
Mi è giunta voce, che fino a qualche anno fa facevano anche bei supercomputer con gli opteron, e certo non fermano le macchine per un modulo RAM danneggiato (è il componente che si guasta con maggior frequenza).
Non credi che solo il fatto che possa gestire un quantitativo di ram doppio sia un punto a strafavore da giustificare il maggior esborso?

AceGranger
11-03-2016, 22:09
http://www.extremetech.com/wp-content/uploads/2015/05/ief9b32d-640x386.png


bè, da slide Intel non esitevano nemmeno i 14 core attuali, vedremo fra qualche mese cosa uscira.

http://www.extremetech.com/wp-content/uploads/2015/05/ief9b32d-640x386.png

Non correre. Avere più canali offre un vantaggio non indifferente a livelli di costi.
Con le RAM ECC "tradizionali" non si può usare il 4 slot, mentre la frequenza con 2/3 moduli per canale scende rispettivamente a 1833/1600MHz..

Come puoi osservare, la banda passante, a meno di non utilizzare i costosi banchi LRDimm, cala a picco. Oltre ad essere costose sono pure inefficienti.

Il vantaggio di avere un maggior numero di canali non è indifferente quindi:
si possono utilizzare più moduli di minor capacità con un rapporto capacità/prezzo favorevole.
a meno di non superare 16 moduli per cpu si può vivere con ram da "quattro soldi"


Tu qui stai ancora parlando di banda e poi di costi, che è una cosa differente da quello che hai scritto prima.
Non ho mai detto che non sia meglio avere piu canali di ram, solo che quello che hai scritto prima sulla quantita è sbagliato.


perchè ti risulta che la ram negli opteron non possa essere sostituita a caldo? sata, pci e pci express sono per natura hot swap. Il problema sono i driver di windows consumer e quelli dei componenti specifici..


non ho scritto che con gli Opteron non puoi sostituire ram, ho scritto che con gli E7 puoi sostituire TUTTO e che fa in automatico l'escusione delle componenti danneggiate compresa la CPU; la CPU con gli Opteron te lo scordi di sostituirla a caldo come ti scordi pure la meta delle feature RAS degli E7, come pure l'Uptime a quei valori.


Mi è giunta voce, che fino a qualche anno fa facevano anche bei supercomputer con gli opteron, e certo non fermano le macchine per un modulo RAM danneggiato (è il componente che si guasta con maggior frequenza).


e quindi ? c'erano anche supercomputer con GPU gaming e google usa HDD normali invece di quelli del segmento Pro; ognuno si gestisce il sistema come vuole e si fa i propri conti su cosa gli conviene, cio non toglie che gli E7 sono una categoria superiore, il che non vuol dire che sia le migliore piattaforma, ma è inutile tentare di paragonare gli Opteron a qualche cosa che non sono.


Non credi che solo il fatto che possa gestire un quantitativo di ram doppio sia un punto a strafavore da giustificare il maggior esborso?

il quantitativo di ram doppio, abbiamo appurato che non è vero visto che uno scala fino a 32 socket e ha uno switch di 4 linnee per ogni canale, e con skylake arriveranno i 6 channel...
il maggior o minor esborso economico non centra nulla con quello di cui si stava parlando.
il punto è che gli E7 sono veri sistemi Mission Critical come gli IBM Power, mentre gli Opteron NO, ZEN vedremo quando uscira.
E cristallino che siano 2 categorie di prodotti differenti, poi puoi continuare a vederla un po come ti pare ma la situazione è questa.

per me fine OT.




Se avra quell'IPC, con ZEN 8 core che in MT se la giochera con l'8 core skylake sara tanta roba, avremo un bella piattaforma competitiva anche in fascia enthusiast.

paolo.oliva2
11-03-2016, 22:45
Vorrei dire 2 cose.

La prima, come riferito a suo tempo, almeno per quanto riguarda il mobile, dall'X2+2 sul 22nm all'X2+2 sul 14nm c'è una galassia di differenza. A parità di carico/Watt, io ho 30° di temp procio in meno, 500MHz di clock in più (a parte l'incremento di IPC, anche se non alto).

La seconda... io non so che features metta in campo Intel in accoppiata al silicio, però, anche se non ne conosco i dettagli, penso che il PP di Intel sia migliore di qualsiasi PP otterrà il 14nm GF, perchè ovviamente in primis Intel ha le FAB di proprietà, i soldi dietro, quindi l'affinamento è lei a decidere quando smettere o continuare (cosa che ovviamente non può fare chi produce per AMD, altrimenti il prezzo a die salirebbe troppo).
Però non dimentichiamoci che AMD ha realizzato features diciamo software sull'hardware (silicio) che altrimenti era catastrofico.

La mia opinione, è che tra un procio progettato con caratteristiche mobile (minor consumo a scapito delle massime prestazioni) ed un procio server, ci sono parecchie analogie, nel senso che il procio server ricerca una frequenza def ottimale per contenere il TDP a core per riuscire a mettere il massimo dei core possibili, assai simile al procio mobile che cerca il minor TDP possibile e su quello la massima potenza.

Se uniamo il tutto, facendo un po' di fantascienza, proviamo ad ipotizzare questo:
AMD non ha la forza bruta (IPC) di Intel (mia opinione, felice se sbaglio), non ha il silicio che può concedere frequenze simili ad Intel o superiori... ma ha sviluppato su Carrizo features tali da poter ottenere la medesima (se non migliore) prestazioni/consumo sui 15W anche se sul 28nm vs 14nm Intel.
Su queste basi, cosa ci sarebbe di sballato se 8 core di Zen rientrassero in 95W, quando un Carrizo sul 28nm con 4 core + IGP sfiora i 3GHz con 15W?
Sulla carta un core Zen dovrebbe avere lo stesso TDP di un modulo XV, e se Carrizo è 15W con 2 moduli (IGP compresa), Zen foss'anche sul 28nm potrebbe rientrare tranquillamente sui 7,5W a core, che per 8 core farebbe 60W, ben al di sotto di 95W.

Secondo me, AMD non cercherà di piazzare un procio a parità di core/TH vs Intel, ma un X8+SMT vs gli X4+SMT Intel, e un X12 (ipotizzando X8 95W +4 core in 30/45W) verso gli i7 socket 2011.

Le features di Carrizo sono ottime entro una determinata frequenza e/o TDP, ma degradano paurosamente sopra i 45W. Un Zambesi sarebbe stato da idioti commercializzarlo a 95W perchè si sarebbe dovuto abbassare la frequenza e comunque si era già partiti su un numero di core pari a 8.
Io sono dell'opinione che AMD sia partita con il concetto di realizzare Zen come X8, sperando comunque di arrivare ad una frequenza "giusta" tale da ottenere una determinata potenza in un TDP accettabile.
La competitività di Zen Server sarebbe tutta qui... perchè anche ipotizzando 3GHz la massima frequenza silicio 14nm in rapporto all'efficienza, vorrebbe dire che un X12 avrebbe comunque sempre la stessa frequenza di un X8... e di cascata in ambito desktop una offerta ad un TDP in linea con Intel ma con un numero doppio di core e TH.

tuttodigitale
12-03-2016, 01:56
edit
Tu qui stai ancora parlando di banda e poi di costi, che è una cosa differente da quello che hai scritto prima.
Non ho mai detto che non sia meglio avere piu canali di ram, solo che quello che hai scritto prima sulla quantita è sbagliato.
Non mi pare sbagliato pensare a più di 2 moduli per canale per ZEN. C'è questa possibilità.


e con skylake arriveranno i 6 channel...
che secondo il tuo ragionamento avranno per forza di cose massimo 3 moduli a canale...:D ,


non ho scritto che con gli Opteron non puoi sostituire ram, ho scritto che con gli E7 puoi sostituire TUTTO e che fa in automatico l'escusione delle componenti danneggiate compresa la CPU; la CPU con gli Opteron te lo scordi di sostituirla a caldo come ti scordi pure la meta delle feature RAS degli E7, come pure l'Uptime a quei valori.
i server AMD hanno gli strumenti adeguati per capire cosa va e cosa meno, che intervengono in automatico alla bisogna.
hot plug della cpu è una feature che permette l'upgrade senza affrontare i costi/problemi del fermo macchina, ed è nata per questo. Non è certo una feature indispensabile, visto che oggi si cambia chipset e socket senza soluzione di continuità..
La disabilitazione dei core/CPU supportata da TUTTI i sistemi.

Più interessante, se fosse presente, la possibilità di disabilitare blocchi singoli della ram..


http://hexus.net/tech/items/cpu/9055-worlds-leading-stock-exchanges-trust-amd-opterontm-processors-mission-critical-trading-platforms/
http://businesswireindia.com/news/news-details/amd64-technology-selected-by-daimlerchrysler-mission-critical-computin/4477

. "After a deep analysis we came to the conclusion that AMD64 technology is the only solution that can offer us the needed performance for such mission-critical applications like car safety, and a smooth migration to 64-bit technology while retaining software compatibility and protecting our corporate investments

da wikipedia:
The mission critical is a business's quintessence and if failed, will cause serious financial and reputational damages. il data center lo è al 1000%

digieffe
12-03-2016, 13:41
a me sembra che abbiate due definizioni diverse di cpu MissionCritical

edit: a memoria ricordoi che gli e7 sono maggiormente ridondati e "checked" all'interno...

tuttodigitale
12-03-2016, 16:52
Più che altro, ad Acegranger non gli piace l'idea che ZEN possa essere un concorrente diretto degli E7, negando il fatto che può gestire,se proprio va male, lo stesso quantitativo di ram
ZEN 32x ------------E7 skylake 28x
3x8channel=24 vs 4x6channel=24
mi pare difficile che ci sia un dowgrade dai 3 dimm per canale degli opteron 6300...
questo è un punto a strafavore delle soluzioni E7 (e ZEN octa channel) sugli E5, che li pone su un altro livello.


Allo stesso modo, i carico di lavoro dei datacenter, a differenza di quelle HPC, è meno ST dipendente...Per quello che ne sappiamo il 28 core potrebbe essere più lento e quindi meno efficiente del 24 con carichi da workstation/HPC....Ma 32, 64 thread e datacenter vanno d'accordo e come! Nella migliore dell'ipotesi il 32 core è una CPU destinata al HPC :read:, e non solo al datacenter.

Aspettarsi che una piattaforma uscita nel 2010 sia esattamente pari a quelle odierne è pretendere un pò troppo.

Credo che sia auspicabile che una piattaforma del 2017, sia migliore anche su questo punto di vista con una uscita nel 2010...Non si può non far finta che sia passati anni dall'introduzione di G34.


edit: a memoria ricordoi che gli e7 sono maggiormente ridondati e "checked" all'interno...
il problema che non si capisce dove finisce il marketing e dove iniziano le differenze (una tabella E5 vs E7 no?).
Hanno un nuovo algoritmo ECC, il DDDC, in grado di correggere 2 errori.

La seconda news è lo hot swap della ram.

La terza è il controllo degli errori sul bus QPI, AMD ha il controllo degli errori sul bus hypertranspont dal 2003, anno di introduzione...

E' curioso a questo punto sapere se gli E5, sono messi peggio degli Opteron...o nel bene e nel male gli E5 sono sostanzialmente equivalenti agli E7.
Da ignorante, dico che la maggior differenziazione (peraltro evidenziata da Intel) è il massimo quantitativo di RAM installabile.

tuttodigitale
13-03-2016, 08:54
La prima, come riferito a suo tempo, almeno per quanto riguarda il mobile, dall'X2+2 sul 22nm all'X2+2 sul 14nm c'è una galassia di differenza. A parità di carico/Watt, io ho 30° di temp procio in meno, 500MHz di clock in più (a parte l'incremento di IPC, anche se non alto).
fai bene a sottolinearlo..
il 47W x4+4 broadwell, ad esempio lavora a 3,3GHz, pazzesco.:eek: in cinebench.
E' singolare quanto perdi non tanto a 65W, visto che lavorano a 3,5GHz base, e i consumi sono pure inferiori a vecchi prodotti da 55W, ma a 4GHz.
Ho il sospetto che il 6700k abbia un vcore decisamente non ottimizzato. Ma è indubbio che a 3 GHz ci sia un gap non proprio trascurabile.


La seconda... io non so che features metta in campo Intel in accoppiata al silicio, però, anche se non ne conosco i dettagli, penso che il PP di Intel sia migliore di qualsiasi PP otterrà il 14nm GF, perchè ovviamente in primis Intel ha le FAB di proprietà, i soldi dietro, quindi l'affinamento è lei a decidere quando smettere o continuare (cosa che ovviamente non può fare chi produce per AMD, altrimenti il prezzo a die salirebbe troppo).
Si è sempre detto che il core M, abbia core skylake, ma le ridotte dimensioni rispetto alla versione desktop, 6,9mmq vs 8,2mmq, fanno presupporre (e sarebbe pure logico) l'uso di librerie ad alta densità. A quanto pare, le architetture Intel, anche con i 14nm, per raggiungere i 4GHz, necessitano delle librerie ad alte prestazioni. Questo potrebbe essere il più grande vantaggio di ZEN...sempre se mantengono il carattere di excavator.

I soldi di Intel sono infiniti. Semmai visto il loro NETTO e ABISSALE vantaggio con la concorrenza (ci metto anche nvidia), che ahimè ancora non hanno messo un solo prodotto in commercio con i 14/16nm, si è potuta accontentare anche di un silicio sotto aspettative, per concentrare gli sforzi sui 10nm (che è pure peggio, per AMD) vero concorrente in termini temporali dei 14nm LPP di GF...

Ren
13-03-2016, 14:47
Si è sempre detto che il core M, abbia core skylake, ma le ridotte dimensioni rispetto alla versione desktop, 6,9mmq vs 8,2mmq, fanno presupporre (e sarebbe pure logico) l'uso di librerie ad alta densità. A quanto pare, le architetture Intel, anche con i 14nm, per raggiungere i 4GHz, necessitano delle librerie ad alte prestazioni. Questo potrebbe essere il più grande vantaggio di ZEN...sempre se mantengono il carattere di excavator.


Guarda che i 6.9mm2 sono di broadwell, i primi core M(serie 5) 14nm.

Le Foto dei die core M (serie6 skylake) non sono state pubblicate.

Con i mm2 fai una bella confusione... (forse voluta :boh: ) :sofico:.

Free Gordon
13-03-2016, 18:54
http://excavator.looncraz.net

Carrizo vs Sandy vs Kaveri! :D

digieffe
14-03-2016, 13:13
tutta questa differenza con sandy bridge mi pare un po' strana :stordita:

a me pare ragionevole :)


ps: prova a sommare il 40% all' 845

Free Gordon
14-03-2016, 14:01
ma hai visto la floating point? :stordita:

eh...sono indietro...e assai...

In questa maniera Zen arriverebbe ad avere a malapena la capacità ST di un Sandybridge... (come dice digieffe)

Certo, in multithreading recupererebbe un pò...ma la parità con Broadwell (a parità di consumi) la vedo a malapena raggiungibile...

Forse Zen sarebbe in MT un 5% dietro a Broadwell, a parità di consumo. Ma si troverebbe subito dopo di nuovo ad inseguire Ice lake...

Sinceramente non pensavo che i core EV fossero ancora così tanto delle chiaviche nelle capacità di calcolo di base....... :cry: hanno fatto proprio pena da quel lato con st'architettura Bulldozer :mad: :mad:

digieffe
14-03-2016, 14:11
non state pensando quadridimensionalmente :)

carrizzo ha solo 2 fpu (1 condivisa èer modulo) mentre zen ne avrà 4 (1 per core) ^_^ ;)

ora fate le vostre previsioni ...

Free Gordon
14-03-2016, 14:49
non state pensando quadridimensionalmente :)
carrizzo ha solo 2 fpu (1 condivisa èer modulo) mentre zen ne avrà 4 (1 per core) ^_^ ;)
ora fate le vostre previsioni ...


Siamo sicuri che quel 40% non tenga conto già del fatto che ogni core Zen avrà 2fpu e non una come nei "moduli" XV?

Quindi.. IPC 1 core Zen = 1 modulo XV + 40%?

Significherebbe che un 4core Zen, avrebbe le capacità in MT (considerando uno scaling per core, linearissimo :D ) di un 8core EV + 40%.

Quindi il 4+4 base Zen, quello da 95W, prendendo per buoni i benchmark sopra, andrebbe nella peggiore come un i7 2700K (32nm.. :confused: ) o al max un i7 3770/4770K (che però ha un tdp di 77/84W) a 22nm??

digieffe
14-03-2016, 15:28
Quindi il 4+4 base Zen, quello da 95W, prendendo per buoni i benchmark sopra, andrebbe nella peggiore come un i7 2700K (32nm.. :confused: ) o al max un i7 3770/4770K (che però ha un tdp di 77/84W) a 22nm??

a questo punto penso proprio di si....

ed un mega dubbio mi assale: vuoi vedere xhe i 95 watt sono riferiti un Zen X4+ht 4++ghz

affiu
14-03-2016, 15:58
Se avra quell'IPC, con ZEN 8 core che in MT se la giochera con l'8 core skylake sara tanta roba, avremo un bella piattaforma competitiva anche in fascia enthusiast.

E'tutta una questione di equilibri di vari fattori: area disponibile, processo produttivo più avanzato che permette meno energia ecc.
E' giusto che crediate che possa essere anche su un quasi pari livello, ma io inviterei, sempre filosoficamente che sia dia un occhiata a queste serie di immagini:(sempre secondo i disegni).

http://images.bit-tech.net/content_images/2010/08/amd-previews-fusion-details/bulldozer_ht-l.jpg
http://www.overclock3d.net/gfx/articles/2015/11/02041152785l.jpg
http://images.anandtech.com/doci/8067/7%20Core%20comparison%20to%20Jaguar.png

Dando solo conto a tali immagini si potrebbe pensare sempre pensare che il CMT non sia efficiente(e difatti non è oggi), però se si considera la componente risorse/processo produttivo/area del die, si possono considerare alcune cose.
Ad esempio troviamo una componente in virgola mobile rafforzata al doppio, quindi farà la sua parte nel calcolo; prima i threads erano si eseguibile senza interferenze, ma le risorse non sopportavano bene, ma purtroppo per questione di compromessi non è stato possibile.
Ogni modulo bulldozer contiene nella parte integer 2 ALU per core e per thread.
Nel modulo zen mi aspettavo un ALU in più, tipo 3 ALU per core e per thread, e siccome un 1core(con l'smt) può elaborare 2 threads alla volta, da quale singolo core integer di zen escono?....dato che 1 core zen ha sempre 4 ALU per core per 2 thread comunque.
L'unica supposizione che mi viene è che il singolo modulo della famiglia bulldozer è predefinito per ''arricchirlo'' di risorse.
cioè per poter essere in grado un 4 ''moduli'' zen di elaborare 8 threads alla volta, deve semplicemente duplicare un modulo con un modulo doppio ma nella stessa area del die occupata.
Cioè, secondo me, un 16 threads dovrebbe continuare ad essere un 16 core fisici....cioè a dire 16 moduli bulldozer-zen dovrebbero uccupare circa la stessa area di un fx 8350....altrimenti ancora come farebbe solamente per la virga mobile potenziata ad elaborare piu threads per core dato che le ALU restano ''uguali'' quelle destinate per core singolo( sempre 2 ALU per 2 threads se non ho capito male).......
In pratica il rimpicciolimento del processo a 14 nm dovrebbe permettere di farci entrare in un modulo con 2 core/2 thread un 1core-zen/2 thread per area del die:read:
Se il processo permette questa miniaturizzazione tutto è possibile, in ogni caso non ci sarebbe variazione di energia richiesta, ma le ''risorse'' per dedicare ad un thread sono potenziate da ogni parte.
In definita potrebbe avverarsi pure che dentro un core bulldozer di oggi che è composto da da due unità integer ed in grado di elaborare due threads, abbiamo 4 core zen piccolini ma che filettano sempre 4 threads e sempre secondo il connubio del CMT: un core fisico sempre dedicato per un thread.
Un quad-modulo di oggi(cioè un fx 8350) dovrebbe contenere sempre 16 core zen.....poi può darsi che mi sbaglierò....e certamente viene difficile immaginare dove metteranno le ALU totali :mbe: :eek:

Totix92
14-03-2016, 16:33
http://wccftech.com/amd-zen-cpu-8-core-summit-ridge-launching-october/
:D
probabilmente saranno 8 core in 95W di TDP :sbavvv: :eek:

paolo.oliva2
14-03-2016, 16:44
Siamo sicuri che quel 40% non tenga conto già del fatto che ogni core Zen avrà 2fpu e non una come nei "moduli" XV?
Dubito che il +40% sia riferito all'FP. Basta fare un calcolo semplice semplice.
Se BD aveva una FP a 256bit condivisa su 2 core, Zen raddoppierebbe a 512bit (AVX2) e per singolo core, quindi alla fine sarebbe 4 volte più grande di quella di un modulo Piledriver. Se per fare ciò almeno si devono quadruplicare i transistor, se fosse per ottenere un +40%, allora tanto vale rimanere su XV, almeno al posto di un Zen 8+8 si avrebbe un XV X16 con FP uguali a Zen ma con la parte INT doppia


Quindi.. IPC 1 core Zen = 1 modulo XV + 40%?

Significherebbe che un 4core Zen, avrebbe le capacità in MT (considerando uno scaling per core, linearissimo :D ) di un 8core EV + 40%.

Quindi il 4+4 base Zen, quello da 95W, prendendo per buoni i benchmark sopra, andrebbe nella peggiore come un i7 2700K (32nm.. :confused: ) o al max un i7 3770/4770K (che però ha un tdp di 77/84W) a 22nm??

Ma il 95W, non era l'8+8? Altrimenti Zen X32 risulterebbe 750W e quindi incommerciabile.

Non mi torna... ma un 8370 in MT non andrebbe meglio di un 3770/4770K (o almeno li), quindi praticamente AMD nel passaggio dal 32nm al 14nm avrebbe solamente guadagnato 30W di TDP... ma il +40% su XV (che sarebbe 65% su piledriver) sarebbe svanito?
Alla faccia del pessimismo...

P.S.

Come linkato da altri

AMD has several other Zen based SOCs – systems on a chip – in development. A 32 Core Zen server CPU, a sixteen core Zen HPC APU and a quadcore Zen consumer APU. All of which should be taped out sometime later this year.

AMD Zen 8 Core 95W Summit Ridge CPUs To Be Released In October

Chiaramente 2016, non 2017.

Free Gordon
14-03-2016, 18:34
si il 95w si dice dall'inizio che sarebbe l'8 core, però il discorso del 32c a 750w non ha senso in quanto ti ricordo che il 6700k skylake a 14nm 4c è 91watt per 4/4.2 ghz def/turbo

a 4 ghz probabilmente ha metà efficienza che non ha 3ghz e a 2.5ghz guadagnerà ancora un 30% come efficienza l'architettura core... e zen sarà simile da questo punto di vista


Quì lo dico e qui lo nego...ma imho l'octacore AMD, sarà un "semplice" 4+4...come tutti gli i7 desktop.

Se davvero fosse un 8core, avrebbe 16thread e quindi un potenziale MT "mostruoso" rispetto ad un i7 Intel...anche di uno Skylake....

Non ci credo sinceramente. :D

Ma ci spero! :sofico:

Free Gordon
14-03-2016, 18:35
Ma il 95W, non era l'8+8?

Stesso discorso di sopra.. ;)

digieffe
14-03-2016, 20:27
bene... bene... 95w 8 piccolini + ht...

ora c'è da sperare nel prezzo che in ogni caso non sarà inferiore all'X6 della concorrenza... :-/

bomkill
14-03-2016, 21:06
bene... bene... 95w 8 piccolini + ht...

ora c'è da sperare nel prezzo che in ogni caso non sarà inferiore all'X6 della concorrenza... :-/

Bisogna considerare che AMD e con l'acqua alla gola,o si rissoleva o affoga certo dipendera' dalle prestazioni ma comunque deve vendere di contro INTEL si può permettere una gara al ribasso per affossare definitivamente AMD

capitan_crasy
14-03-2016, 21:12
Bisogna considerare che AMD e con l'acqua alla gola,o si rissoleva o affoga certo dipendera' dalle prestazioni ma comunque deve vendere di contro INTEL si può permettere una gara al ribasso per affossare definitivamente AMD

E da 10 anni (forse di più) che AMD è con l'acqua alla gola, che sta per fallire, che ormai è spacciata...:asd::ronf:

fabius21
14-03-2016, 23:25
Non penso che amd quando parla di 8core , intenda 4+smt , ma penso che parli di 8+smt.
E secondo il mio parere , amd non commercializzerà cpu-zen con smt disabilitato ;)

Free Gordon
15-03-2016, 02:04
fosse un semplice 4+4 allora si che a sto giro sarebbe da class action come quelli che hanno citato amd per i bulldozer serie 8000 ;)

se hanno detto 8 core, saranno 8 core + smt anche perchè nel 2016 dopo 5 anni dal 8150 proporre di nuovo un 8th come top di gamma sarebbe un fail clamoroso, anche fosse a 95watt

non sarebbe mostruoso in linea di massima, sarebbe in linea con gli 8/10 core intel

certo se ci riferiamo a cosa produce ora a 32/28nm, si è notevole, ma relativo ad intel no

e poi c'è la fonte che cita il 32c formato da 8x4... sembra tornare quindi un 8core desktop

intel tra poco commercializzerà un 10 core e 20 thread desktop con broadwell-e non dimenticarlo :)

magari non avrà il tdp da 95w, ma sarà di sicuro un 8c/16(32?)th ;)


Se avrà 8core + smt, sarà un mostro macina thread questo Zen! :D
Speriamo.. :D

bjt2
15-03-2016, 06:08
Se avrà 8core + smt, sarà un mostro macina thread questo Zen! :D
Speriamo.. :D

Se consideri le 10 porte, la uop cache, le nuove caches e il checkpointing... Sarà un mostro anche in MT... :D

tuttodigitale
15-03-2016, 08:58
@gridracedriver
la parte più notevole di excavator, sono le prestazioni nei giochi in linea con quelli di kaveri, nonostante la l2 di un solo MB a modulo. E' un miglioramento su kaveri, che non era affatto male nei confronti di SB, su tutta la linea: consumi, prestazioni, area occupata sul die. Notevole.

ps. dimenticavo anche la dichiarazione di "lisa su" dicendo che l'architettura zen coprirà l'80% del mercato server. (senza dimenticare che nel 2017 dovrebbe debuttare anche k12 su base ARM e quindi un altra fetta di mercato)
con una dichiarazione così: intel 10 core amd 8 core = 80% :sofico: è una battuta, ma neanche poi così una battuta...
La partizione è 81.3-18.7, tra x86 e Risc...
il fatto è che lisa su ha parlato del 80% del mercato server, senza specificare oltre, ovvero l'intero mercato server x86.

Il campo RISC sarà occupato da k12. Credo di non spararla grossa se dico che sarù una soluzione SMT4.
Dubito che il +40% sia riferito all'FP. Basta fare un calcolo semplice semplice.
Se BD aveva una FP a 256bit condivisa su 2 core, Zen raddoppierebbe a 512bit (AVX2) e per singolo core, quindi alla fine sarebbe 4 volte più grande di quella di un modulo Piledriver. Se per fare ciò almeno si devono quadruplicare i transistor, se fosse per ottenere un +40%, allora tanto vale rimanere su XV, almeno al posto di un Zen 8+8 si avrebbe un XV X16 con FP uguali a Zen ma con la parte INT doppia
Che io sappia ZEN manterrà ancora la FMAC a 256bit (o meglio 2x128), con in più 2 unità FADD.

Se fossero n-mila bit, questo non dovrebbe comunque far parte della conta dell'ipc. Fermo restando che il throughput, beneficia e come della maggior ampiezza della pipeline, ma semplicemente perchè si usano istruzioni più potenti.

Una notevole differenza si avrà con le istruzioni AVX a 256 bit. Dove XV ha una singola FMAC +1MMX, ZEN ne avrà sempre 1, ma accoppiata ad una FADD, la differenza è sostanziale. ZEN trarrà a differenza di BD, benefici con istruzioni avx256, per un troughput massimo pari al doppio.

Quindi anche se non è grande il doppio (le FADD sono notevolmente più piccole delle FMAC/FMUL), con buona approssimazione è potente il doppio, e a differenza di Intel senza la necessità di usare nuove istruzioni (per quelle imho bisognerà attende ZEN+, 4 thread, 4 fmac, AVX512:eek: )

Quì lo dico e qui lo nego...ma imho l'octacore AMD, sarà un "semplice" 4+4...come tutti gli i7 desktop.

Se davvero fosse un 8core, avrebbe 16thread e quindi un potenziale MT "mostruoso" rispetto ad un i7 Intel...anche di uno Skylake....

Non ci credo sinceramente. :D

Ma ci spero! :sofico:
Non vorrei dirlo.....Excavator, è di gran lunga la più efficiente fra tutte le architetture x86 nel MT.
ops l'ho detto.:cool:

e zen sarà simile da questo punto di vista
un core excavator, considerando che bristol ridge dovrebbe girare alla frequenza minima di 2,7GHz in 15 W (meno di 4W a core), sarebbe difficilmente immaginabile pensare che possa girare a meno di 3 GHz anche con 64 core sui finfet....:D

Anzi, se le info che abbiamo oggi sono veritiere, dovremmo davvero iniziare a pensare che il 32 core ZEN possa girare tranquillamente a 3GHz di base...

stefanonweb
15-03-2016, 12:40
Scusate, io non ho capito... ma dai roumors sentiti... in teoria su AM4, potrebbero uscire APU con quanti core x86... Cioè adesso un 7800 ne avrebbe 4 cioè 2 moduli... Qui si parla di 4 moduli e 8 core + la parte grafica? Grazie.
Cioè potrebbe uscire un APU del genere?

capitan_crasy
15-03-2016, 13:12
Scusate, io non ho capito... ma dai roumors sentiti... in teoria su AM4, potrebbero uscire APU con quanti core x86... Cioè adesso un 7800 ne avrebbe 4 cioè 2 moduli... Qui si parla di 4 moduli e 8 core + la parte grafica? Grazie.
Cioè potrebbe uscire un APU del genere?

Sul AM4 usciranno sia APU 28/14nm sia le CPU Zen.
Per le APU Zen se ne parla nel 2017 ma per ora non ce un quadro preciso su cosa possa uscire anche a livello di grandezza della GPU integrata...

stefanonweb
15-03-2016, 14:16
Sul AM4 usciranno sia APU 28/14nm sia le CPU Zen.
Per le APU Zen se ne parla nel 2017 ma per ora non ce un quadro preciso su cosa possa uscire anche a livello di grandezza della GPU integrata...

Ok, ma vista la tua esperienza... Verosimilmente potremmo aspettarci APU a 6/8 core? Non penso sia logico continuare con 4 + Grafica... Tu personalmente che ne pensi? Grazie.

digieffe
15-03-2016, 15:15
IMO le prime Apu Zen avranno solo 4 core+ht +igp, tieni però conto che avranno un ipc alto e come potenza complessiva sarà vicino ad un steamroller 8c

azzardo anche 768 sp +2gb hbm

el-mejo
15-03-2016, 16:18
IMO le prime Apu Zen avranno solo 4 core+ht +igp, tieni però conto che avranno un ipc alto e come potenza complessiva sarà vicino ad un steamroller 8c

azzardo anche 768 sp +2gb hbm

Anche per me saranno "solo" 4 core + ht.

Se la parte grafica avrà solo 768 sp non sarà necessaria alcuna hbm, basta e avanza la ddr4 2400mhz in dual channel. Se invece verranno proposte apu con diciamo 1280 sp un singolo die hbm da 2gb (1024bit @ 500mhz) ci potrebbe stare: avrebbe più o meno lo stesso rapporto banda/potenza di un r9 nano (4096bit @ 500mhz x una gpu 4096sp).
Ma un bestio del genere scordiamocelo prima del 2017 inoltrato imho.

°Phenom°
15-03-2016, 16:43
Uscisse una bella apu stra pompata in grado di pilotare bene un 1920x1080 in gaming la comprerei al volo :D

Mister D
15-03-2016, 17:09
Anche per me saranno "solo" 4 core + ht.

Se la parte grafica avrà solo 768 sp non sarà necessaria alcuna hbm, basta e avanza la ddr4 2400mhz in dual channel. Se invece verranno proposte apu con diciamo 1280 sp un singolo die hbm da 2gb (1024bit @ 500mhz) ci potrebbe stare: avrebbe più o meno lo stesso rapporto banda/potenza di un r9 nano (4096bit @ 500mhz x una gpu 4096sp).
Ma un bestio del genere scordiamocelo prima del 2017 inoltrato imho.

Tu dici?
Ora siamo così 2133 MHz come massimo ufficiale per il memory controller delle apu che corrisponde a ((2133*64*2)/8)/1024= 33,33 GB/sec di banda.
E considera che amd fa delle ram sue a 2400 MHz ddr3 per le apu con banda di 37,5 GB/sec. Non è che le ddr4 aumentano la banda così perché si chiamano 4 e non 3. Aumentano la banda perché hanno più frequenza, soprattutto se i canali rimangono solo 2.
Il calcolo è lo stesso che siano ddr1/ddr2/ddr3/ddr4/gddr5.
Se già ora con ddr3 2400 una gpu con 512 sp è castrata come fa a non esserlo una gpu con ddr4 2400 sempre con 2 canali da 64 bit ciascuno??
Al massimo se mettiamo delle belle ddr4 3600 MHz allora sì che cambia la storia:
((3600*64*2)/8)/1024=56,25 GB/sec:read:

capitan_crasy
15-03-2016, 17:11
Ok, ma vista la tua esperienza... Verosimilmente potremmo aspettarci APU a 6/8 core? Non penso sia logico continuare con 4 + Grafica... Tu personalmente che ne pensi? Grazie.

Io penso che finchè il mercato delle APU rimarrà quello attuale (middle) una soluzione 4 core (che comunque dovrebbe avere anche 4 logici) sarà quella più probabile; forse ci sarà quella speciale dedicata al gaming ma finchè verranno prodotte CPU, le APU saranno sempre un gradino sotto
Resta da vedere quanto ce l'avrà grossa la GPU integrata (basata su polaris) delle APU Zen che secondo me come potenza di calcolo puro si avvicinerà alle vecchie soluzioni HD79x0!:read:

sgrinfia
15-03-2016, 18:35
Io penso che finchè il mercato delle APU rimarrà quello attuale (middle) una soluzione 4 core (che comunque dovrebbe avere anche 4 logici) sarà quella più probabile; forse ci sarà quella speciale dedicata al gaming ma finchè verranno prodotte CPU, le APU saranno sempre un gradino sotto
Resta da vedere quanto ce l'avrà grossa la GPU integrata (basata su polaris) delle APU Zen che secondo me come potenza di calcolo puro si avvicinerà alle vecchie soluzioni HD79x0!:read:

Ciao, una integrata con una potenza di calcolo di un hd 79x0 !,scherzi vero?.

tuttodigitale
15-03-2016, 20:48
Anche per me saranno "solo" 4 core + ht.

Se la parte grafica avrà solo 768 sp non sarà necessaria alcuna hbm, basta e avanza la ddr4 2400mhz in dual channel. Se invece verranno proposte apu con diciamo 1280 sp un singolo die hbm da 2gb (1024bit @ 500mhz) ci potrebbe stare: avrebbe più o meno lo stesso rapporto banda/potenza di un r9 nano (4096bit @ 500mhz x una gpu 4096sp).
Ma un bestio del genere scordiamocelo prima del 2017 inoltrato imho.
considera che la stessa gpu da 512, accoppiata con memorie gddr5 fa segnare il 50-55% di prestazioni in più (Vedi hd7750, ma gira a 800vs720MHz, +11%) rispetto a kaveri con memorie ddr3 a 2400MHz.
Tra il miglioramento sulla compressione dati di gcn 1.2 (+30%), o ulteriore boost di clock , che passa da 720 a 950MHz(+30%) che non guasta mai, dovrebbe riuscire finalmente ad offrire prestazioni paragonabill alla scheda discreta.

ps i 2 valori non vanno sommati: significa che andrà "solo" il 30% in più, quindi circa l'85-90% di una hd7750. In definitiva, considerando l'aumento di clock, siamo esattamente nelle stesse identiche condizioni gi bandwidth limited che hanno afflitto le gpu kaveri...


BRistol Ridge anche qualora fosse una soluzione da 512sp, porterà in dote miglioramenti di prestazioni significativi nei giochi. Figuriamoci un ulteriore incarnazione di GCN 1.3 (alcuni test suggeriscono che AMD sia ancora indietro rispetto a nvidia, negli algoritmi di compressione):

Comunque credo che non saranno meno di 1024 gli SP ad 1 GHz della soluzione APU ZEN e in tal caso le HBM o gddr5 sono obbligatorie...

capitan_crasy
15-03-2016, 21:15
Ciao, una integrata con una potenza di calcolo di un hd 79x0 !,scherzi vero?.

Facciamo un mini riassunto:
Llano aveva circa 400 Gigaflops.
Trinity aveva 763 Gigaflops.
Kaveri ha 856 Gigaflops.
Carrizo mobile ha 812 Gigaflop e la previsione per le APU Carrizo sul socket AM4 potrebbe arrivare al traguardo del Teraflops.
La vecchia HD7950 (detta Tahiti pro v.1) non arriva a 3 Teraflops (2.87 per la precisione).
Sono ottimista ma per il 2017 mi aspetto una GPU polaris evoluta + (forse) una CPU ZEN+ e credo che il traguardo di 3 Teraflops non sia così utopistico!
Quindi no, non scherzo... ;)

el-mejo
15-03-2016, 21:23
considera che la stessa gpu da 512, accoppiata con memorie gddr5 fa segnare il 50-55% di prestazioni in più (Vedi hd7750, ma gira a 800vs720MHz, +11%) rispetto a kaveri con memorie ddr3 a 2400MHz.
Tra il miglioramento sulla compressione dati di gcn 1.2 (+30%), o ulteriore boost di clock , che passa da 720 a 950MHz(+30%) che non guasta mai, dovrebbe riuscire finalmente ad offrire prestazioni paragonabill alla scheda discreta...
BRistol Ridge anche qualora fosse una soluzione da 512sp, porterà in dote miglioramenti di prestazioni significativi nei giochi. Figuriamoci un ulteriore incarnazione di GCN 1.3 (alcuni test suggeriscono che AMD sia ancora indietro rispetto a nvidia, negli algoritmi di compressione):

Comunque credo che non saranno meno di 1024 gli SP ad 1 GHz della soluzione APU ZEN.
In effetti è vero, e secondo me il vantaggio è più legato ai timing ottimizzati delle memorie di tipo gddr che dalla banda disponibile, infatti oltre i 2133mhz Kaveri ha guadagni di prestazioni risibili.
Rimango dell'opinione che passerà del tempo di vedere apu con hbm, sia per capire come verrà gestita questa memoria aggiuntiva (disponibile solo per la gpu salvo applicazioni HSA?) e sopratutto per la necessità dell'interposer, che fà lievitale il prezzo e le rese in maniera incompatibile per prodotti mainstream.
Il fatto che la prossima gpu Nvidia Pascal che andrà a rimpiazzare GM204 come fascia prestazionale, quindi su gpu del calibro di 500$, non le implementerà fa pensare. Soprattutto il fatto che le applicazioni gpgpu, di cui nvidia ha quasi tutto il mercato, sono perlopiù limitate dalla banda e trarrebbero grande beneficio anche dalle hbm di prima generazione.

tuttodigitale
15-03-2016, 22:00
il bandwidth limited, non si manifesti come il CPU limited, ovvero con un margine ben definito...in realtà si può nascondere il collo di bottiglia offerto dalla ram con l'aumento di forza bruta..
negli anni passati si vendevano nel mobile soluzioni da 720sp 128bit ddr3 che andavano quanto quelle da 400sp 128bit gddr5, entrambi andavano molto di più delle soluzioni 400sp 128bit ddr/gddr3...
Ancora più confusi?:D

Pensate in questo modo, l'operatore X e Y devono mettere le mani in maniera alternativa su un oggetto.
inizialmente il tempo impiegato da X e Y è 50-50.
X decide di raddoppiare la velocità e si passa ad un 33-66. Y sta iniziando a fare da collo di bottiglia.
X raddoppia ancora la velocità e si passa ad un 20-80. Il collo di bottiglia sta aumentando.
Nonostante ciò le prestazioni son aumentate del 33%primo caso, e di un ulteriore 20% nel secondo caso..
Per arrivare alla totale strozzatura, che approssimiamo a 10-90, Y dovrebbe essere 8 volte più lento di X....+12%...

Se ci pensate è esattamente quello che succede con i test di decompressione: aumentate il clock della sola cpu le prestazioni migliorano, aumentate il clock della ram, idem. Aumentate il clock di entrambi e avrete uno scaling perfetto.
questo per chiarire un concetto. Si può potenzialmente aumentare le prestazioni anche con un collo di bottiglia, che poi è esattamente quello che sta facendo AMD con kaveri (quella gpu rimane un piccolo mostro)..non è il massimo, ma meglio di niente...
In effetti è vero, e secondo me il vantaggio è più legato ai timing ottimizzati delle memorie di tipo gddr che dalla banda disponibile, infatti oltre i 2133mhz Kaveri ha guadagni di prestazioni risibili.
le gddr5 hanno latenze molto più elevate (sono le HBM ad averle basse). Ho visto un pò test in giro, in effetti lo scaling è pessimo (e non dovrebbe esserlo). Che i 512sp non siano pesantemente bandwidth limited?NO
La realtà è ancora più triste, il collo di bottiglia secondo test sintetici sembra essere offerto dal MC...:muro: Ma come si fa? :rolleyes:

paolo.oliva2
15-03-2016, 23:22
si il 95w si dice dall'inizio che sarebbe l'8 core, però il discorso del 32c a 750w non ha senso in quanto ti ricordo che il 6700k skylake a 14nm 4c è 91watt per 4/4.2 ghz def/turbo

a 4 ghz probabilmente ha metà efficienza che non ha 3ghz e a 2.5ghz guadagnerà ancora un 30% come efficienza l'architettura core... e zen sarà simile da questo punto di vista

Aspetta, quello che voglio dire è che è chiaro che l'efficienza aumenta al diminuire della frequenza, ma è anche chiaro che partendo da un Piledriver 125W X8 4GHz, AMD ha potuto realizzare un Opteron X16 (2 die X8) di poco sotto i 3GHz ma sotto i 140W TDP
Per dirla in matematica spiccia ed approssimativa, con un -35% di frequenza ha ottenuto un +100% di core con un +10% di TDP.

Mi sembra chiaro che far rientrare un Opteron Zen X32 nei 140W, partendo da un X4 95W,, vorrebbe dire aumentare di 8 volte i core (e non del doppio), cosa assolutamente impossibile, manco frazionando la frequenza operativa a 1/4.

Mi sembra ovvio che non si può considerare Zen 95W X4, come del resto tutte le info su Zen X32 riguardano X32 e non 32TH. Anche ipotizzando 32TH, si parlerebbe pur sempre di un X16 che vorrebbe sempre un X8 come punto di partenza e mai un X4.
Altresì è abbastanza auspicabile l'esatto contrario, cioè partendo da un Excavator Carrizo X4 APU 15W di poco sotto i 3GHz e sul 28nm, che Zen anche raddoppiando il TDP a core, già un X4 risulterebbe 30W (ma da togliere la parte IGP dell'APU Carrizo e del guadagno del 14nm sul 28nm).

Non sto facendo un discorso di bandiera... parto solamente dal presupposto TANGIBILE del TDP di un Carrizo sul 28nm e da qui proiettare Zen sul 14nm, mentre mi sembra errato partire che se Intel un X4+4 risulta 95W allora AMD NON PUO' avere un X8+8, non so se sono chiaro.

E poi alla fine io sinceramente non tifo per Zen.... Avrei preferito 100 volte un XV 8 moduli 125W 4GHz... :sofico:, visto che ormai anche i muri hanno capito che il TDP alto di BD non aveva nulla a che vedere con l'architettura ed era un esclusivo problema di silicio.

paolo.oliva2
15-03-2016, 23:39
Quì lo dico e qui lo nego...ma imho l'octacore AMD, sarà un "semplice" 4+4...come tutti gli i7 desktop.

Se davvero fosse un 8core, avrebbe 16thread e quindi un potenziale MT "mostruoso" rispetto ad un i7 Intel...anche di uno Skylake....

Non ci credo sinceramente. :D

Ma ci spero! :sofico:

Io preferisco 8 core PURI senza SMT che 4 core con SMT.
Magari puoi pensare che lo dico per bandiera... però io preferirei un XV X16 a 4GHz che un Zen X8+8 che va bene il +40% di IPC dichiarato ma forse anzichè girare a 4GHz va a 3GHz quindi alla fine IPC x Frequenza il guadagno si abbasserebbe al 10%...
Questo è come la penso... è indubbio che comunque un Zen X8+8 potrà sopportare carichi maggiori di un Piledriver X8/4M, ma basta gurdare il confronto 8370 vs 5960X e di qui proiettare un Piledriver o meglio Excavator X16 come si rapporterebbe... e non penso che AMD a prima botta con Zen possa arrivare ad una efficienza architetturale simile a quella Intel (efficienza, non potenza).
Quindi se l'architettura BD (su silicio idoneo) con un numero di moduli uguale al numero di core + SMT Intel può dire la sua, credo che lo stesso confronto BD ma vs Zen possa essere più favorevole a BD.

digieffe
15-03-2016, 23:57
Io preferisco 8 core PURI senza SMT che 4 core con SMT.
Magari puoi pensare che lo dico per bandiera... però io preferirei un XV X16 a 4GHz che un Zen X8+8 che va bene il +40% di IPC dichiarato ma forse anzichè girare a 4GHz va a 3GHz quindi alla fine IPC x Frequenza il guadagno si abbasserebbe al 10%...
Questo è come la penso... è indubbio che comunque un Zen X8+8 potrà sopportare carichi maggiori di un Piledriver X8/4M, ma basta gurdare il confronto 8370 vs 5960X e di qui proiettare un Piledriver o meglio Excavator X16 come si rapporterebbe... e non penso che AMD a prima botta con Zen possa arrivare ad una efficienza architetturale simile a quella Intel (efficienza, non potenza).
Quindi se l'architettura BD (su silicio idoneo) con un numero di moduli uguale al numero di core + SMT Intel può dire la sua, credo che lo stesso confronto BD ma vs Zen possa essere più favorevole a BD.

facendo 100 l'IPC ST di excavator e 185 quello del modulo, Zen avrebbe 140 in ST e (supponendo un guadagno del 30% in HT) 182 in HT.

Ne consegue che 1 core+ht Zen =~ 1 modulo XV.

Ma i più preparati hanno scritto che il guadano in HT sarà maggiore di Intel (30%), quindi se ciò sarà vero 1 core+ht Zen > 1 modulo XV.

resta il discorso della frequenza, se come ha scritto qualcuno (tuttodigitale ?) le pipeline saranno simili ad XV, allora anche le frequenze saranno analoghe. In altre parole credo che a parità di Watt XV non esprimerà maggior througput (IPC x freq x core) di Zen, ma semai il contrario.

EDIT: poi credo che tu facessi il paragone con un 140w mentre Zen sarà a 95w. ci sarà da capire quanti core inseriranno per il 140w di zen.

Free Gordon
16-03-2016, 00:00
Se invece verranno proposte apu con diciamo 1280 sp un singolo die hbm da 2gb (1024bit @ 500mhz) ci potrebbe stare: avrebbe più o meno lo stesso rapporto banda/potenza di un r9 nano (4096bit @ 500mhz x una gpu 4096sp).
Ma un bestio del genere scordiamocelo prima del 2017 inoltrato imho.

E' quasi 3 anni che è in commercio una APU con 18CU 1152sp (quella di PS4) e 8 core Jaguar,non credo che ci siano limiti tecnologici per produrla già oggi con 4 core XV e 20 CU + 2GB di HBM...
Il problema sono i costi... e il mercato risicato di una soluzione del genere... :p

affiu
16-03-2016, 12:00
Io preferisco 8 core PURI senza SMT che 4 core con SMT.
Magari puoi pensare che lo dico per bandiera... però io preferirei un XV X16 a 4GHz che un Zen X8+8 che va bene il +40% di IPC dichiarato ma forse anzichè girare a 4GHz va a 3GHz quindi alla fine IPC x Frequenza il guadagno si abbasserebbe al 10%...
Questo è come la penso... è indubbio che comunque un Zen X8+8 potrà sopportare carichi maggiori di un Piledriver X8/4M, ma basta gurdare il confronto 8370 vs 5960X e di qui proiettare un Piledriver o meglio Excavator X16 come si rapporterebbe... e non penso che AMD a prima botta con Zen possa arrivare ad una efficienza architetturale simile a quella Intel (efficienza, non potenza).
Quindi se l'architettura BD (su silicio idoneo) con un numero di moduli uguale al numero di core + SMT Intel può dire la sua, credo che lo stesso confronto BD ma vs Zen possa essere più favorevole a BD.

D'accordo ma 8 core puri come li intendete, ma da dove escono fuori i 16 threads?
Forse è stato più conveniente diminuire l'area di un core con un core piu potente di 2 singole unita integer sfruttando la miniaturizzazione;
Alla fine hanno accorpato i 2 core integer di un singolo modulo bulldozer in un super core, che riesce a elaborare 2 threads alla volta(come d'altronde fa un modulo bulldozer, sempre 2 sono) ma occupando un area minore di un altro qualsiasi ipotetico modulo-dual integer a 14 nm.
Così si avrebbe la parte in virgola mobile di pari livello e non condivisa come nei due core integer del modulo ma associata ad un singolo core zen.
La prova fatta sulle lunghezze degli stadi, anche sconosciuta, con bulldozer, poteva significare elaborare senza interferenza fra i threads in esecuzione....
Immagina un 8 core zen in overclock max daily;.....significherebbe tenere tutti i programmi di qualsiasi programma utilizziamo, tutti attivi, fare conversioni video, tenere aperti una 5nquina di giochi aperti ecc ecc, ed il procio non lo affatichi, anzi quando sta a riposo è quasi spento.
In maniera teorica non si puo sdoppiare la matematica, cioè se si volessero 2 threads senza interferenza di dipendenze reciproche, bisogna che un thread abbia il suo core dedicato, a questo va aggiunto il tempo di esecuzione.
Adesso quindi un singolo core zen dovrebbe gestire 2 threads, ma come fanno ad NON interferire?
Forse le pipeline alte e la frequenza più alta possibile, potrebbe diminuire la possibilità che i thread interferiscono tra loro nonostante i 2 threads abbiano risorse del singolo core da dividere.:muro:

bjt2
16-03-2016, 12:12
In effetti è vero, e secondo me il vantaggio è più legato ai timing ottimizzati delle memorie di tipo gddr che dalla banda disponibile, infatti oltre i 2133mhz Kaveri ha guadagni di prestazioni risibili.
Rimango dell'opinione che passerà del tempo di vedere apu con hbm, sia per capire come verrà gestita questa memoria aggiuntiva (disponibile solo per la gpu salvo applicazioni HSA?) e sopratutto per la necessità dell'interposer, che fà lievitale il prezzo e le rese in maniera incompatibile per prodotti mainstream.
Il fatto che la prossima gpu Nvidia Pascal che andrà a rimpiazzare GM204 come fascia prestazionale, quindi su gpu del calibro di 500$, non le implementerà fa pensare. Soprattutto il fatto che le applicazioni gpgpu, di cui nvidia ha quasi tutto il mercato, sono perlopiù limitate dalla banda e trarrebbero grande beneficio anche dalle hbm di prima generazione.

L'interposer costerà anche di più, ma se fai una APU con 8/16/32GB di RAM, non sono necessari gli slot RAM (MB meno costosa) e neanche le RAM (!)... Quindi a conti fatti forse spendi anche di meno e con meno consumi e più prestazioni...

bjt2
16-03-2016, 12:16
Io preferisco 8 core PURI senza SMT che 4 core con SMT.
Magari puoi pensare che lo dico per bandiera... però io preferirei un XV X16 a 4GHz che un Zen X8+8 che va bene il +40% di IPC dichiarato ma forse anzichè girare a 4GHz va a 3GHz quindi alla fine IPC x Frequenza il guadagno si abbasserebbe al 10%...
Questo è come la penso... è indubbio che comunque un Zen X8+8 potrà sopportare carichi maggiori di un Piledriver X8/4M, ma basta gurdare il confronto 8370 vs 5960X e di qui proiettare un Piledriver o meglio Excavator X16 come si rapporterebbe... e non penso che AMD a prima botta con Zen possa arrivare ad una efficienza architetturale simile a quella Intel (efficienza, non potenza).
Quindi se l'architettura BD (su silicio idoneo) con un numero di moduli uguale al numero di core + SMT Intel può dire la sua, credo che lo stesso confronto BD ma vs Zen possa essere più favorevole a BD.

Il consumo è molto non lineare con le frequenze. Un 32 core Zen è possibile con clock tra i 2 e i 2,5GHz, IMHO. Ricordiamo che i primi opteron a 16 core avevano un clock base di 1,6GHz e un turbo di +1.2GHz... Non credo che non si siano fatti passi in avanti dai primi opteron... ;)

Mister D
16-03-2016, 13:04
D'accordo ma 8 core puri come li intendete, ma da dove escono fuori i 16 threads?
Forse è stato più conveniente diminuire l'area di un core con un core piu potente di 2 singole unita integer sfruttando la miniaturizzazione;
Alla fine hanno accorpato i 2 core integer di un singolo modulo bulldozer in un super core, che riesce a elaborare 2 threads alla volta(come d'altronde fa un modulo bulldozer, sempre 2 sono) ma occupando un area minore di un altro qualsiasi ipotetico modulo-dual integer a 14 nm.
Così si avrebbe la parte in virgola mobile di pari livello e non condivisa come nei due core integer del modulo ma associata ad un singolo core zen.
La prova fatta sulle lunghezze degli stadi, anche sconosciuta, con bulldozer, poteva significare elaborare senza interferenza fra i threads in esecuzione....
Immagina un 8 core zen in overclock max daily;.....significherebbe tenere tutti i programmi di qualsiasi programma utilizziamo, tutti attivi, fare conversioni video, tenere aperti una 5nquina di giochi aperti ecc ecc, ed il procio non lo affatichi, anzi quando sta a riposo è quasi spento.
In maniera teorica non si puo sdoppiare la matematica, cioè se si volessero 2 threads senza interferenza di dipendenze reciproche, bisogna che un thread abbia il suo core dedicato, a questo va aggiunto il tempo di esecuzione.
Adesso quindi un singolo core zen dovrebbe gestire 2 threads, ma come fanno ad NON interferire?
Forse le pipeline alte e la frequenza più alta possibile, potrebbe diminuire la possibilità che i thread interferiscono tra loro nonostante i 2 threads abbiano risorse del singolo core da dividere.:muro:

Ciao,
escono fuori dalle slide su ZEN dove a chiare lettere è riportato SMT sinonimo di Simultaneus Multi Threading, cioè quella tecnologia che permette, duplicando le risorse pre core (i registri, alcune unità logiche), di poter processare n thread (con n=2 nel caso di intel, n=4 nel caso dei Power7 di IBM o anche n=8 nel caso degli utlimi Power8) simultaneamente per ogni core fisico.
Quindi in Zen è stato abbandonato il concetto di CMT in favore del SMT e ogni core sarà quindi composto da una unità integer e una floating point con l'aggiunta di questa tecnica che aumenta sia l'efficienza delle pipeline sia il throughput in MT.
Quindi Zen 8 core potrà processare fino a 8 thread contemporaneamente e fino a 16 thread simultaneamente (cioè quando le pipe del core stallano ed è in attesa) ipotizzando quindi un SMT a 2 vie. Se fosse 4 vie un 8 core potrebbe processare anche 32 thread simult.;)

Per quanto riguarda l'interferenza tra thread nei processori con SMT può avvenire solo se il thread B è conseguente al risultato del thread A e in questo caso il thread A verrà messo un un core fisco e il thread B anche. Le pipe del thread B andranno in stallo se il thread A non darà in tempo il risultato e inizieranno a processare un thread C. Appena il thread A darà il risultato allora le pipe del thread B si rimetteranno al lavoro perché i dati saranno presenti in cache o in ram. Lo scaling del SMT è dato cmq dall'ottimizzazione del codice e dalla parallelizzazione dello stesso. Più un codice può contenere parti che vengono elaborate in parallelo più il SMT porterà beneficio. Altresì più un codice è ottimizzato per non far stallare le pipe, più il SMT non entrerà in gioco e non darà beneficio, viceversa un codice poco ottimizzato che fa mandare in stallo le pipe consente al SMT di entrare in funzionamento e di annullare i tempi morti processando altro. Questo è un veloce riassunto, poi se vuoi trovi un sacco di materiale in inglese su come il SMT funziona, chiaramente materiale anche molto tecnico.

tuttodigitale
16-03-2016, 13:47
In maniera teorica non si puo sdoppiare la matematica, cioè se si volessero 2 threads senza interferenza di dipendenze reciproche, bisogna che un thread abbia il suo core dedicato, a questo va aggiunto il tempo di esecuzione.
Adesso quindi un singolo core zen dovrebbe gestire 2 threads, ma come fanno ad NON interferire?
Forse le pipeline alte e la frequenza più alta possibile, potrebbe diminuire la possibilità che i thread interferiscono tra loro nonostante i 2 threads abbiano risorse del singolo core da dividere.:muro:
è lo scheduler del sistema operativo a dover gestire il carico. Le CPU, almeno quelle con SMT a 2 vie, gestiscono la priorità con la logica FIFO. Ovvero il primo core logico che fa richiesta ha la precedenza.
Ovviamente la perdita, inevitabile delle prestazioni nel ST (i 2 thread sono in competizione) è compensata dalle migliori prestazioni complessive (Che poi è quello che conta).
Ci sono molte più dipendenze su un codice sequenziale, ed è per questo che la CPU si trova impossibilitata a sfruttare totalmente la sua ampiezza. Il motore OoO, ovvero lo scheduler della CPU, fa proprio questo: manda in esecuzione in parallelo codice sequenziale, manipolandone anche l'ordine di esecuzione....Nonostante i buoni propositi, spesso questo non basta. Le unità esecutive lasciate vuote, vengono riempite dal thread appartenente all'altro core logico, ovviamente che era stato già prelevato e decodificato.
Il secondo thread, infatti, deve rubare già le risorse del primo per essere utile allo scopo, è meglio sottolinearlo, se no pare, che venga in soccorso solo quando serve...è un pò come quando uno si porta la borsa da pronto soccorso. Il peso e il disagio del trasporto rappresentano il peso sulla decodifica, cache l0-l3, e sullo scheduler, lo spray medicale il thread, e la botta/ferita, una pipeline di esecuzione da riempire...
se la ferita è così profonda (predizione rami sbagliata) il primo thread (anche questo un medicinale) deve attendere un'altra ferita, prima di iniziare ad operare.

affiu
16-03-2016, 14:14
A tuttodigitale e Mister D

Va bene tutta la spiegazione ma io parto sempre da bulldozer, seppur sbagliando, è cioè che il modulo nasce per processsare 2 thread, ma non possiamo concepire un modulo bulldozer come 2 core ''veri e propri'' in quanto non hanno le risorse di un singolo core ''normale''; tutto questo per consentire di elaborare sempre 2 threads anche se pero in 2 ''unità integer'' e conservando il principio di esecuzione 1-core-1thread.
Se allora fanno come dite voi significa che si abbandonera questo concetto:cry: ...in pratica io parto dal die di un fx 8350: 4 moduli x 8 unità integer; da questo cerco di immaginare quanto si può ridurre il die di un ipotetico quad-modulo-zen e da questo pensare di mettere 4 core zen dentro al modulo.
Tutto questo è possibile mantenendo sempre il connubio 1-core-1thread?!:doh:
In fondo se fosse possibile tramite il passaggio da 32 nm a 14 nm perchè escluderlo e sempre ''una forma di smt''( a due vie in questo caso) deve essere perchè da un ipotetico modulo zen escono 4 thread quanto nello stesso modulo bulldozer ne uscivano sempre 2 thread elaborati.

Mister D
16-03-2016, 14:35
A tuttodigitale e Mister D

Va bene tutta la spiegazione ma io parto sempre da bulldozer, seppur sbagliando, è cioè che il modulo nasce per processsare 2 thread, ma non possiamo concepire un modulo bulldozer come 2 core ''veri e propri'' in quanto non hanno le risorse di un singolo core ''normale''; tutto questo per consentire di elaborare sempre 2 threads anche se pero in 2 ''unità integer'' e conservando il principio di esecuzione 1-core-1thread.
Se allora fanno come dite voi significa che si abbandonera questo concetto:cry: ...in pratica io parto dal die di un fx 8350: 4 moduli x 8 unità integer; da questo cerco di immaginare quanto si può ridurre il die di un ipotetico quad-modulo-zen e da questo pensare di mettere 4 core zen dentro al modulo.
Tutto questo è possibile mantenendo sempre il connubio 1-core-1thread?!:doh:
In fondo se fosse possibile tramite il passaggio da 32 nm a 14 nm perchè escluderlo e sempre ''una forma di smt''( a due vie in questo caso) deve essere perchè da un ipotetico modulo zen escono 4 thread quanto nello stesso modulo bulldozer ne uscivano sempre 2 thread elaborati.

Ciao,
non possiamo concepirlo come core vero e proprio solo perché ci siamo abituati in epoca moderna a vedere ogni core di una cpu superscalare x86 formata da 1 INTU e 1 FPU + tutte le unità logiche necessarie al rifornimento/smistamento di dati alle pipeline.
Con il CMT le unità di esecuzione sono 2 INTU + 1 FPU per ogni modulo e alcune parti condivise (unità di fetch, decodifica e cache L2 per il modulo BD/PD mentre da steamroller in avanti sono solo rimaste fetch e cache condivise a livello di modulo, il resto è singolo per ogni unità integer) ma il numero di thread processati dipende dalle unità integer ergo ci sono 8 core integer reali e il problema dell'interferenza è gestito a livello di OS o di motore OoO perché con il CMT i thread processati in ogni ciclo di clock pari al numero delle unità fisiche presente, cioè 8.
Purtroppo amd ha deciso di ritornare indietro come approccio e aggiungere il SMT perché conviene sia per un motivo di efficienza, sia perché costa poco in termini di die in rapporto al guadagno in MT.
Il connubio 1 core 1 thread verrà abbandonato in favore quindi 1 core n thread con n a seconda di quante vie verranno implementate con il SMT.
A vedere dalle porte, secondo i rumors usciti fin'ora, ci sarebbe spazio già per un SMT 4 ma molto probabilmente, a mio modo di vedere, si tengono l'asso per ZEN+. Ergo è più probabile che ZEN sia un smt 2 vie, ergo un 1 core 2 thread. Non esisterà il concetto di modulo se non nel fatto che una parte di cache L3 è condivisa ogni tot core (4 core -> 8MB di cache l3 ergo si può parlare di modulo zen con 4 core ma questi potranno processare 8 thread per quanto detto fin d'ora. Non puoi però paragonare il modulo di una volta con quello di ora perché sono due cose completamente diverse. Guarda il conteggio delle unità INT e FP. Il modulo zen conta 4 INTU e 4 FPU e ricalca il vecchio stile dove ogni core di una cpu era formato da 1INTU+1FPU).;)

Free Gordon
16-03-2016, 15:13
L'interposer costerà anche di più, ma se fai una APU con 8/16/32GB di RAM, non sono necessari gli slot RAM (MB meno costosa) e neanche le RAM (!)... Quindi a conti fatti forse spendi anche di meno e con meno consumi e più prestazioni...

Avrebbe senso una APU simile per il mobile...anche con soli 8GB di ram totali. Direi che bastano e avanzano. Anche molti desktop da ufficio ne potrebbero giovare.. ma credo farebbe più fortuna nel mobile, dato il prezzo di vendita in media più alto.

bjt2
16-03-2016, 16:48
Avrebbe senso una APU simile per il mobile...anche con soli 8GB di ram totali. Direi che bastano e avanzano. Anche molti desktop da ufficio ne potrebbero giovare.. ma credo farebbe più fortuna nel mobile, dato il prezzo di vendita in media più alto.

Ormai lo spazio di memoria unificato tra CPU e GPU è approdato anche in NVidia, anche se per le GPU discrete ciò vale solo per l'accesso della GPU alla RAM normale, mentre per il contrario servirebbe supporto hardware (APU) o del SO (windows)...

Il processo è irreversibile. Non c'è più differenza tra memoria CPU e GPU e si possono tranquillamente unire (sempre solo dal punto di vista delle GPU), ancora di più vale per le APU AMD... Tranquillamente si possono avere 8/16/32GB di HBM2 e slot per eventuale RAM aggiuntiva che si aggiungerà a quella on-board... Inutile dire che la veloce HBM2 sarà riservata alla GPU e l'eccedenza ai processi CPU... Ma questo ultimo fatto è fattibile solo se hai un collegamento veloce alla HBM: quindi non fattibile per una classica GPU discreta accedibile tramite PCIexpress (che non è neanche coerente), dal lato CPU, ma solo con la memoria HBM, che è anche più veloce delle DDR4 e supporta un numero molto superiore di transazioni, avendo 8 canali per chip (!)... Quindi un server (ad esempio con 32 core :D ) ci andrebbe a nozze...

digieffe
16-03-2016, 18:56
... a questo punto ipc al 90%, mt simile, c'è solo da sperare in una buona frequenza ...

edit: http://excavator.looncraz.net/ nella pagina "guesstimate", da selezionare in fondo, ha fatto delle previsioni IMO attendibili

paolo.oliva2
17-03-2016, 06:31
Il consumo è molto non lineare con le frequenze. Un 32 core Zen è possibile con clock tra i 2 e i 2,5GHz, IMHO. Ricordiamo che i primi opteron a 16 core avevano un clock base di 1,6GHz e un turbo di +1.2GHz... Non credo che non si siano fatti passi in avanti dai primi opteron... ;)

Ma io credo che il clock sarà almeno di 3GHz indipendentemente dal numero di core totali... in fin dei conti AMD (o chi per lei) affina il silicio e tara la distanza dei transistor su una frequenza ottimale che è quella Opteron.

E' per questo che un X8 BD alla fine ha la stessa frequenza massima di un X6/X4 (die fallati), perchè i limiti fisici del silicio e la distanza dei transistor è la medesima su tutti i modelli (tanto è lo stesso die).

Intel invece realizza un die con affinamento silicio e distanza transistor e varianti architetturali proprie... quindi è ovvio che un 6700K può essere 95W a 4GHz mentre un X6/X8 alle stesse frequenze già risulterebbe +50%/+100% se I/O Cache fossero le stesse, ma essendo più corposo, è ovvio che Intel debba limare di parecchio la frequenza.
Va bene gli scalini del TDP, ma addirittura AMD commercialmente ha venduto dei BD X4 a 125W vs dei BD X8 a 95W e comunque alla fine X4 e X8 allo stesso TDP minimo 95W...

Secondo me, quindi, Zen implementerà tutto quanto realizzato da AMD su Carrizo/28nm con il vantaggio del passaggio dal 28nm Bulk al 14nm FF.

Vorrei farti una domanda che ho postato parecchie volte ma non ha trovato risposta.:sofico:

Un silicio HP è affinato per ottenere massime prestazioni, viceversa ul LP per il minor consumo. E' ovvio che tra i 2 la differenza sia comunque la frequenza.

AMD implementa l'alimentazione a "isola", credo per focalizzare il minimo TDP/core, unito alla semplicità così di arrivare al TDP/DIE/n° core.

Su questa base... è sbagliato ipotizzare che su qualsiasi silicio di partenza (LP/HP) comunque la potenza totale del DIE non sarebbe pregiudicata ed, anzi, un silicio LP permetterebbe potenze MT superiori?

Cioè... l'HP permetterebbe una potenza superiore a core, ma ad un costo TDP/potenza comunque superiore rispetto ad un silicio LP visto che questo ha l'obiettivo del minor TDP a parità di potenza.
Ora... visto che un silicio mobile ha le stesse priorità di un silicio server (la massima potenza al minor TDP), ne conseguirebbe che un Zen IPOTETICAMENTE realizzato su un silicio LP, avrebbe si frequenze def inferiori rispetto ad un silicio HP, ma si inquadrerebbe meglio sul discorso del perchè Zen X8 avrebbe 95W e di varianti Zen a 16 e 32 core a TDP umani.

E' ovvio che Zen desktop è possibile in quanto l'IPC sarebbe aumentato del 40% a fronte di una frequenza che nella più pessimistica delle ipotesi passerebbe da 4GHz (PD) a 3GHz (-33%) (ma potrebbe essere recuperata con il turbo, la forza bruta).

Inoltre... visto che pure Intel dai 4GHz di un procio desktop deve limare di un -30% con un 5960X, un Zen nato con una frequenza def ottimale a cavallo dei 3GHz (con tutto il bla bla sopra), non avrebbe nulla di meno, soprattutto considerando che presumibilmente all'aumentare dei core la frequenza non calerebbe un granchè (addirittura ipotizzando X8 95W ~3,5GHz, un X16 nei 140W avrebbe sicuramente ~3GHz, mentre Intel già con l'X10, qualcuno ha postato che sul 14nm si spera arriverebbe alla stessa frequenza, quindi un rapporto Zen-Intel di frequenze simili ma con +50% di core per Zen allo stesso TDP, ben al di sopra di qualsiasi deficit di IPC.

E' per questo che io sono dell'idea che il confronto forza bruta di Zen su Intel sarà una cosa mentre la potenza MT a die e parità di TDP sarà tutt'altra... ed ipotizzo che il vantaggio MT di Zen sarà superiore rispetto a quando perderà in ST su Intel.

Mister D
17-03-2016, 11:31
mi immagino già PC desktop/mobile senza ram di sistema con le apu_zen nel 2017 da minimo 4~8 fino a 32 GB :sofico:

un bel Die da ~300mmq in 95~125watt (4c+ht zen e 1024~2048sp gcn4.0) più 4 Die HBM1/2 da 4~8+ GB

E bastaaaaaa!!! Che non vedo l'ora di farmi il pc nuovo con una APU di livello over 9000:sofico:

PS: la scimmia per ora sono riuscita a contenerla a livello 6000:D

bjt2
17-03-2016, 12:12
Ma io credo che il clock sarà almeno di 3GHz indipendentemente dal numero di core totali... in fin dei conti AMD (o chi per lei) affina il silicio e tara la distanza dei transistor su una frequenza ottimale che è quella Opteron.

E' per questo che un X8 BD alla fine ha la stessa frequenza massima di un X6/X4 (die fallati), perchè i limiti fisici del silicio e la distanza dei transistor è la medesima su tutti i modelli (tanto è lo stesso die).

Intel invece realizza un die con affinamento silicio e distanza transistor e varianti architetturali proprie... quindi è ovvio che un 6700K può essere 95W a 4GHz mentre un X6/X8 alle stesse frequenze già risulterebbe +50%/+100% se I/O Cache fossero le stesse, ma essendo più corposo, è ovvio che Intel debba limare di parecchio la frequenza.
Va bene gli scalini del TDP, ma addirittura AMD commercialmente ha venduto dei BD X4 a 125W vs dei BD X8 a 95W e comunque alla fine X4 e X8 allo stesso TDP minimo 95W...

Secondo me, quindi, Zen implementerà tutto quanto realizzato da AMD su Carrizo/28nm con il vantaggio del passaggio dal 28nm Bulk al 14nm FF.

Vorrei farti una domanda che ho postato parecchie volte ma non ha trovato risposta.:sofico:

Un silicio HP è affinato per ottenere massime prestazioni, viceversa ul LP per il minor consumo. E' ovvio che tra i 2 la differenza sia comunque la frequenza.

AMD implementa l'alimentazione a "isola", credo per focalizzare il minimo TDP/core, unito alla semplicità così di arrivare al TDP/DIE/n° core.

Su questa base... è sbagliato ipotizzare che su qualsiasi silicio di partenza (LP/HP) comunque la potenza totale del DIE non sarebbe pregiudicata ed, anzi, un silicio LP permetterebbe potenze MT superiori?

Cioè... l'HP permetterebbe una potenza superiore a core, ma ad un costo TDP/potenza comunque superiore rispetto ad un silicio LP visto che questo ha l'obiettivo del minor TDP a parità di potenza.
Ora... visto che un silicio mobile ha le stesse priorità di un silicio server (la massima potenza al minor TDP), ne conseguirebbe che un Zen IPOTETICAMENTE realizzato su un silicio LP, avrebbe si frequenze def inferiori rispetto ad un silicio HP, ma si inquadrerebbe meglio sul discorso del perchè Zen X8 avrebbe 95W e di varianti Zen a 16 e 32 core a TDP umani.

E' ovvio che Zen desktop è possibile in quanto l'IPC sarebbe aumentato del 40% a fronte di una frequenza che nella più pessimistica delle ipotesi passerebbe da 4GHz (PD) a 3GHz (-33%) (ma potrebbe essere recuperata con il turbo, la forza bruta).

Inoltre... visto che pure Intel dai 4GHz di un procio desktop deve limare di un -30% con un 5960X, un Zen nato con una frequenza def ottimale a cavallo dei 3GHz (con tutto il bla bla sopra), non avrebbe nulla di meno, soprattutto considerando che presumibilmente all'aumentare dei core la frequenza non calerebbe un granchè (addirittura ipotizzando X8 95W ~3,5GHz, un X16 nei 140W avrebbe sicuramente ~3GHz, mentre Intel già con l'X10, qualcuno ha postato che sul 14nm si spera arriverebbe alla stessa frequenza, quindi un rapporto Zen-Intel di frequenze simili ma con +50% di core per Zen allo stesso TDP, ben al di sopra di qualsiasi deficit di IPC.

E' per questo che io sono dell'idea che il confronto forza bruta di Zen su Intel sarà una cosa mentre la potenza MT a die e parità di TDP sarà tutt'altra... ed ipotizzo che il vantaggio MT di Zen sarà superiore rispetto a quando perderà in ST su Intel.

Che io sappia il processo LP ha sopratutto un leakage inferiore, dovuto a una tensione di soglia, e quindi Vcore richiesto, inferiore. Giocoforza questo produce anche frequenze massime inferiori. Un processo LP può andare bene per chip mobili oppure ad alto parallelismo (GPU, CPu con molti core) e ovviamente privilegia il MT rispetto al ST (escluso turbo, ma comunque la frequenza massima è limitata)


mi immagino già PC desktop/mobile senza ram di sistema con le apu_zen nel 2017 da minimo 4~8 fino a 32 GB :sofico:

un bel Die da ~300mmq in 95~125watt (4c+ht zen e 1024~2048sp gcn4.0) più 4 Die HBM1/2 da 4~8+ GB

E' una possibilità più che concreta... Una delle prossime console molto probabilmente sarà fatta con una APU AMD con 16-32GB di RAM HBM2...

digieffe
17-03-2016, 12:29
... (addirittura ipotizzando X8 95W ~3,5GHz, un X16 nei 140W avrebbe sicuramente ~3GHz, mentre Intel già con l'X10, qualcuno ha postato che sul 14nm si spera arriverebbe alla stessa frequenza, quindi un rapporto Zen-Intel di frequenze simili ma con +50% di core per Zen allo stesso TDP, ben al di sopra di qualsiasi deficit di IPC.


confermo che SE Zen X8 fosse a 3,5ghz allora l'X16 sarebbe a 3.0 con 140W.

sarebbe ottimo se Zen X8 fosse a 3,5ghz, spero non sia a 3,2 o peggio ancora a 3,0.

a 3,5ghz se la vedrebbe direttamente col prossimo X8 intel a 14nm (3,2hhz), invece a 3,2 o 3 se la verdrebbe con gli X6.
Temo però che in ogni caso il prezzo di Zen X8 non sarà inferiore ai 4-500 euro.

digieffe
17-03-2016, 12:40
Che io sappia il processo LP ha sopratutto un leakage inferiore, dovuto a una tensione di soglia, e quindi Vcore richiesto, inferiore. Giocoforza questo produce anche frequenze massime inferiori. Un processo LP può andare bene per chip mobili oppure ad alto parallelismo (GPU, CPu con molti core) e ovviamente privilegia il MT rispetto al ST (escluso turbo, ma comunque la frequenza massima è limitata)


poco overclock... povero paolo :D

Free Gordon
17-03-2016, 12:56
E' una possibilità più che concreta... Una delle prossime console molto probabilmente sarà fatta con una APU AMD con 16-32GB di RAM HBM2...


Probabile PS5...perchè l'NX di Nintendo non credo proprio avrà una soluzione del genere. Sarà una console meno potente di PS4. :)

bjt2
17-03-2016, 13:16
confermo che SE Zen X8 fosse a 3,5ghz allora l'X16 sarebbe a 3.0 con 140W.

sarebbe ottimo se Zen X8 fosse a 3,5ghz, spero non sia a 3,2 o peggio ancora a 3,0.

a 3,5ghz se la vedrebbe direttamente col prossimo X8 intel a 14nm (3,2hhz), invece a 3,2 o 3 se la verdrebbe con gli X6.
Temo però che in ogni caso il prezzo di Zen X8 non sarà inferiore ai 4-500 euro.

Se questo fosse vero allora il FO4 sarebbe stato aumentato di molto.
Mi spiego.

Già oggi 8 core piledriver (e excavator dovrebbe consumare di meno) vanno oltre i 4GHz (4,2 in turbo) a 125W.
E' vero che i core Zen sono più "grossi" se non altro per la FPU duplicata, ma i core Zen saranno prodotti a 14nm o 16nm e sopratutto con il processo FinFET, che fa scendere di molto consumi e leakage (per il minore Vcore). Anche se i transistors di Zen dovessero essere il doppio di Piledriver, credo che si potrebbe raggiungere tranquillamente i 4GHz a 125W per 8 core SE IL FO4 NON E' CAMBIATO. Il fatto che sia aumentato l'IPC del 40% non implica necessariamente che siano diminuiti gli stadi e quindi che sia aumentato il FO4.

Le tante pipeline rompono le scatole solo in caso di previsioni salto sbagliate, ma (1) il branch prediction dovrebbe essere migliorato e (2) con il checkpointing si dovrebbe ridurre la latenza, come se la pipeline fosse più corta... Inoltre con la cache L0 la pipeline si accorcia comunque nel caso tipico di dati in cache...

Quindi io non mi fascerei la testa dicendo che necessariamente il FO4 deve essere aumentato. La latenza minore delle MUL e FMUL potrebbe essere dovuta anche solo a una maggiore parallelizzazione unita a caratteristiche leggermente maggiori del silicio.
Mi spiego.
Feci i calcoli per calcolare quanti bit per ciclo potevano calcolare i moltiplicatori. La differenza in FO4 equivalente tra calcolare ad esempio 12 o 18 bit per ciclo può sembrare proporzionale per la implementazione "semplice" di avere 12 o 18 addizionatori in cascata... Ma con una adeguata rete combinatoria è possibile anche ridurre gli stadi, ad esempio con addizionatori da 2,3,4 operandi. Ovviamente ci vuole più hardware. Con adeguato numero di transistors, possono anche aver ridotto la latenza delle MUL senza aumentare il FO4.
Analogamente per altre eventuali velocizzazioni di altre istruzioni.

Se usciranno (almeno a regime) x8 a 4GHz (magari anche a 95W) allora sapremo che non hanno aumentato il FO4.

tuttodigitale
17-03-2016, 14:40
Secondo me è fuori dal benchè minimo dubbio che x16 possa raggiungere e persino superare i 3GHz in 140W. Se non ci fosse la dicitura low power, non avrei dubbi dello sforamento dei 4 GHz di base per l'octa core...
Tuttavia il fatto che AMD non abbia delegato a TSMC la produzione di ZEN, vuol dire che il 14nm LPP è un buon processo produttivo..che poi sia buono per il 32 core, destinato ai datacenter :cool: (polaris è su 14nm e sembra promettere un bel balzo in avanti in efficienza) , e meno buono per l'octa core:mbe: , su questo non ci è dato sapere.

Ho come l'impressione che tutti noi stiamo aspettando il 16core monolitico...:read: (Secondo me ci sono buone possibilità nell'avere una piattaforma quad-channel concorrente a quella Intel 2011):read:

digieffe
17-03-2016, 16:39
non ho alcun dubbio che zen x8 possa girare a 4ghz, ma non certamente consumando 95w e probabilmente neanche 125/140w.

raxas
17-03-2016, 21:26
Salve, leggo con una certa frequenza questo thread con le varie valutazioni dagli indizi mostrati, sul prossimo processore "Zen"... che spero sia davvero oltre (parlando grossolanamente) gli Intel attuali, o almeno alla pari, con sviluppi nel range di evoluzione possibile: per un senso di giustizia per un'azienda, AMD, che ha dedicato tempo e risorse nella riprogettazione profonda, sarebbe davvero una grossa delusione se tutto quello inferito non si rivelasse vero, ma sembra che ci saranno sorprese... a questo scopo mi chiedevo quale sia la politica di AMD nel tenere riservati gli sviluppi, specie se di tipo positivo...
a quale policy sono tenuti tutti*
i fior fiore di ingegneri, compreso il Keller... come avrà fatto poi a finire il prodotto e a lasciarlo da affinare agli altri... avrà davvero compiuto il suo ruolo possibile?
oltre a chi si occupa dei risvolti pratici della produzione, prima che il prodotto esca?
*al fine di mantenere tutto segreto?
davvero si può avere una così vasta osservanza dei segreti di produzione richiesti?
che poi io spero, per non dare indizi al concorrente...

certo che se esce una rivoluzione e si avrà un 8 fino 16 core desktop (come prestazioni... non come riferimento al numero dei core, se l'efficienza dipenderà da altro...) con prestazioni superlative... bè, non perchè io sia o non sia a sostegno di AMD (anzi per adesso, dato che non posso aspettare ottobre e oltre, con un A64 del 2006 e un Opteron185 (conservato)... potrei anche prendere uno Xeon di fascia meido-bassa come un E5 2620v3, da affiancare dopo a uno Zen...)
sarà una resurrezione di AMD, che indipendentemente da tutto, io spero, da profanissimo, e non solo io evidentemente...

digieffe
17-03-2016, 22:20
Se questo fosse vero allora il FO4 sarebbe stato aumentato di molto.
Mi spiego.

Già oggi 8 core piledriver (e excavator dovrebbe consumare di meno) vanno oltre i 4GHz (4,2 in turbo) a 125W.
E' vero che i core Zen sono più "grossi" se non altro per la FPU duplicata, ma i core Zen saranno prodotti a 14nm o 16nm e sopratutto con il processo FinFET, che fa scendere di molto consumi e leakage (per il minore Vcore). Anche se i transistors di Zen dovessero essere il doppio di Piledriver, credo che si potrebbe raggiungere tranquillamente i 4GHz a 125W per 8 core SE IL FO4 NON E' CAMBIATO. Il fatto che sia aumentato l'IPC del 40% non implica necessariamente che siano diminuiti gli stadi e quindi che sia aumentato il FO4.

Le tante pipeline rompono le scatole solo in caso di previsioni salto sbagliate, ma (1) il branch prediction dovrebbe essere migliorato e (2) con il checkpointing si dovrebbe ridurre la latenza, come se la pipeline fosse più corta... Inoltre con la cache L0 la pipeline si accorcia comunque nel caso tipico di dati in cache...

Quindi io non mi fascerei la testa dicendo che necessariamente il FO4 deve essere aumentato. La latenza minore delle MUL e FMUL potrebbe essere dovuta anche solo a una maggiore parallelizzazione unita a caratteristiche leggermente maggiori del silicio.
Mi spiego.
Feci i calcoli per calcolare quanti bit per ciclo potevano calcolare i moltiplicatori. La differenza in FO4 equivalente tra calcolare ad esempio 12 o 18 bit per ciclo può sembrare proporzionale per la implementazione "semplice" di avere 12 o 18 addizionatori in cascata... Ma con una adeguata rete combinatoria è possibile anche ridurre gli stadi, ad esempio con addizionatori da 2,3,4 operandi. Ovviamente ci vuole più hardware. Con adeguato numero di transistors, possono anche aver ridotto la latenza delle MUL senza aumentare il FO4.
Analogamente per altre eventuali velocizzazioni di altre istruzioni.

Se usciranno (almeno a regime) x8 a 4GHz (magari anche a 95W) allora sapremo che non hanno aumentato il FO4.

non ho alcun dubbio che zen x8 possa girare a 4ghz, ma non certamente consumando 95w e probabilmente neanche 125/140w.

ho risposto senza leggere la tua risposta :stordita:

ora se sarà a 4ghz, andrà circa quanto il 10 core intel a 3ghz che però è 140w... un po' tantino, o no?

Ren
17-03-2016, 23:11
Secondo me è fuori dal benchè minimo dubbio che x16 possa raggiungere e persino superare i 3GHz in 140W.

il 10 core intel a 3ghz che però è 140w... un po' tantino, o no?

Mettici pure che intel ha un silicio del 15% più veloce... :rotfl:

Un F04 minore(sempre se confermato) non ti regala di certo il 60% di core in più con un silicio peggiore. (in 140w)


ps. se accoppiano più die per socket hanno anche la penalità (in watt) del bus serdes offchip.

bjt2
18-03-2016, 08:09
Questo il nuovo post di dresdenboy su twitter:

New #AMDZen patch: minor latency changes for znver1.md http://j.mp/1PefXsc L/S in FX cluster and not too low clocks? 4GHz 8C DT?

Sono andato a leggere la patch. Tutte le latenze dei load FP aumentati. Quello che lui ipotizza, e che è ragionevole, è che il FO4 sia stato abbassato rispetto a XV, e quindi clock più alto, lui ipotizza 8 core a 4GHz DT (dual thread, suppongo)...



Com'è possibile abbassare il FO4, causando l'aumento di alcune latenze, ma abbassare le latenze delle moltiplicazioni? La soluzione è aumentare il numeri di bit calcolati più di quanto si sia diminuito il FO4 per più che compensare... Hanno fatto un grande lavoro sui moltiplicatori. Probabilmente sugli addizionatori c'era già ampio margine per abbassare il FO4 senza dover spezzare l'addizione... E sulle moltiplicazioni hanno usato addizionatori a più porte per diminuire gli stadi, e quindi il FO4 e allo stesso tempo aumentare i bit calcolati per ciclo. Questo richiede circuiti più complessi e quindi più area...

Come hanno fatto? Supponiamo che con un disegno ad alto FO4, si riesca a calcolare 12 bit per ciclo della moltiplicazione, con il circuito non ciclico più semplice del mondo, ossia 12 addizionatori a 2 porte in cascata. Il FO4 sarà 12 volte quello di un addizionatore a 2 porte.
Se uso addizionatori a 3 porte, posso fare 24 bit per ciclo con 12 stadi o 16 bit per ciclo con 8 stadi (una porta per il risultato precedente più 2 per 2 bit alla volta, più il carry). Quindi il FO4 è 8 volte quello di un addizionatore a 3 porte che non è molto superiore a quello di uno a 2 porte.
Quindi con un po' di hardware in più (l'addizionatore a 3 porte è comunque più complicato di quello a 2) ho ridotto il FO4 e aumentato il numero di bit calcolati per ciclo...
Ma perchè fermarsi a 3 porte? :D

Ecco come è possibile diminuire il FO4 e aumentare contemporaneamente la potenza del moltiplicatore, a scapito di un aumento di area e numero di transistors consumati.


EDIT:
perché zen dovrebbe avere un FO4 addirittura minore di bd? semmai uguale o addirittura poco superiore dato che hanno accorciato la pipe di 1-2 stadi...
credo che FO4 di zen sarà di 20 non di più, per tanto l'8c ha il 99% delle possibilità di stare a 3.5ghz MT in 95watt e 4ghz Turbo
...per tanto se avesse queste frequenze stimo che in ST sarà sotto del 10% e in MT sopra del 20% a Broadwell-E a parità di Core
Dal post di dresdenboy si evince che è possibile... :D Tutte le latenze degli FP load sono aumentati... Quindi almeno la FPU ha il numero di stadi aumentato...

bjt2
18-03-2016, 12:08
...a questo punto però diventa tutto un po' più complicato, forse solo per me :D , in quanto fino a poco tempo fa si era ipotizzato da ciò che era emerso il medesimo o seppur minimo aumento del FO4 e aver tagliato 1-2 stadi nel caso delle MUL...
invece ora è l'opposto? :stordita:
http://www.hwupgrade.it/forum/showpost.php?p=43446318&postcount=779

ma forse solo quelle delle Int, mentre qua si parla di quelle FP: quindi accorciato la pipe int aumentando di poco oppure no FO, e allungato quella della fp diminuendolo?

E' possibile, con l'uso di più transistors, fare delle MUL veloci E con basso FO4... L'ho scritto nel mio post precedente... ;)

L'aumento della latenza delle FP significa che hanno diminuito il FO4 e quindi servono più stadi per fare le stesse operazioni. Poichè non ha senso diminuire il FO4 solo di una parte di CPU, perchè il restante farebbe solo da tappo, si deduce che anche le altre parti hanno visto il FO4 ridotto... Per le pipe INT le uniche unità critiche al ridurre del FO4 sono MUL e DIV, perchè le ADD e a maggior ragione le operazioni logiche che sono ancora più semplici, sono molto veloci e possono essere implementati in un solo clock anche con un FO4 basso... E per MUL e DIV ho spiegato sopra che con unità più complesse è possibile ottenere risultati in pochi cicli e con FO4 alto...

tuttodigitale
18-03-2016, 13:17
ora se sarà a 4ghz, andrà circa quanto il 10 core intel a 3ghz che però è 140w... un po' tantino, o no?
Per me, un 10 core skylake a 3 GHz sta in 110W reali (i 4+4 skylake girano a 3,2GHz in 45W di TDP)...quindi non è poi tutta questa esagerazione......:D

tuttodigitale
18-03-2016, 14:05
si ho letto dell'aumento di area occupata e di integrazione di transistors, ma ciò inciderebbe senza dubbio alcuno con l'aumento del consumo/tdp e stonerebbe quindi con i 95 watt a questo punto

quindi se non hanno fatto vaccate, come ad esempio diminuire FO4 solo di una parte come dici, anche la parte Int vedrà una riduzione di FO4 nonostante la diminuzione di 1-2 stadi negli Int? ciò vorrebbe di un bel salto avanti sugli Interi più di quel che mi aspetto.
ma l'aumento è relativo...ricordiamo che sono 4 ALU, solo due (suppongo, ma mi pare piuttosto logico) in grado di eseguire le moltiplicazione e le divisioni. Aumentare le dimensioni di queste 2 pipeline, è molto più conveniente che non aumentare il FO4 del 20-30%, per ottenere la stessa riduzione della latenza, che si traduce, approssimativamente in 20-30% di tensione in più, ovvero ogni snigolo transistor consumerà il 40-70% a parità di frequenza.:read:

Attualmente non sono del tutto convinto della riduzione del FO4, se verrà toccata la FDIV ne avremmo la conferma.

L'unica certezza è che ZEN sia una architettura ancora orientata al clock (e se il silicio lo permette potrebbe davvero raggiungere quota 5GHz in turbo boost). E pertanto, frequenze inferiori ai 2,5GHz (raggiungibili con un vcore da SoC per cellulari, a questo punto), non sono neppure ipotizzabili per il 32 core....

Speriamo che non ci faccia lo scherzo lato ipc. Pare troppo bello......:eek:

tuttodigitale
18-03-2016, 14:08
concordo
si preannuncia un ottimo anno, anche per gli intellisti...
Forza AMD

Ren
18-03-2016, 14:28
perché zen dovrebbe avere un FO4 addirittura minore di bd? semmai uguale o addirittura poco superiore dato che hanno accorciato la pipe di 1-2 stadi...
credo che FO4 di zen sarà di 20 non di più, per tanto l'8c ha il 99% delle possibilità di stare a 3.5ghz MT in 95watt e 4ghz Turbo
...per tanto se avesse queste frequenze stimo che in ST sarà sotto del 10% e in MT sopra del 20% a Broadwell-E a parità di Core

Il concetto era sul consumo TDP. Come può AMD integrare 16c/3ghz, quando intel non supera i 3.2ghz con 10c in 140w su un silicio migliore del 15%.

Per me, un 10 core skylake a 3 GHz sta in 110W reali (i 4+4 skylake girano a 3,2GHz in 45W di TDP)...quindi non è poi tutta questa esagerazione......:D

Il TDP è di 65w per 4core 3.2. Quanto assorbe la GPU (bench) ?

Ren
18-03-2016, 14:35
si preannuncia un ottimo anno, anche per gli intellisti...
Forza AMD

Finalmente AMD esce con un buon prodotto costringendo intel a muovere il cubo;)

Speriamo non facciano cartello sulle soluzioni con più core...:O

tuttodigitale
18-03-2016, 14:42
Il TDP è di 65w per 4core 3.2. Quanto assorbe la GPU (bench) ?
mi riferivo alla frequenza reale raggiunta dalla cpu in questione durante cinebench...
E comunque 65W è il TDP del 6700, frequenza base di 3,4GHz (ma da pochi test presenti sulla rete, sembrerebbe consumare meno del pentium anniversary da 53W di TDP)

Ren
18-03-2016, 14:48
mi riferivo alla frequenza reale raggiunta dalla cpu in questione durante cinebench...
E comunque 65W è il TDP del 6700, frequenza base di 3,5GHz....(ma da pochi test presenti sulla rete, sembrerebbe consumare meno del pentium anniversary da 53W di TDP)

Cinebench non è poi così stressante...

Ho controllato i dati targa intel, sono 3.4(il top) per gli i7 e 3.5 per gli i5 (HT ruba 100mhz).

bjt2
18-03-2016, 14:55
si ho letto dell'aumento di area occupata e di integrazione di transistors, ma ciò inciderebbe senza dubbio alcuno con l'aumento del consumo/tdp e stonerebbe quindi con i 95 watt a questo punto

quindi se non hanno fatto vaccate, come ad esempio diminuire FO4 solo di una parte come dici, anche la parte Int vedrà una riduzione di FO4 nonostante la diminuzione di 1-2 stadi negli Int? ciò vorrebbe di un bel salto avanti sugli Interi più di quel che mi aspetto.



concordo

ps. e comunque ricordo che deve uscire ancora il 10 core BW nel Q2 2016, e non quello SL :read:

Non è detto che gli stadi sono diminuiti. Se il checkpointing funziona bene, possono anche aumentarli...

digieffe
18-03-2016, 14:56
Finalmente AMD esce con un buon prodotto costringendo intel a muovere il cubo;)

Speriamo non facciano cartello sulle soluzioni con più core...:O

è ciò che temo di più

tuttodigitale
18-03-2016, 14:56
Ho controllato i dati targa intel, sono 3.4(il top) per gli i7 e 3.5 per gli i5 (HT ruba 100mhz).

non mi hai dato il tempo di correggere..
senza scomodare il mobile..intel mette a disposizione un 6700T, 2,8-3,6GHz da 35W.....in teoria sarebbe in grado di produrre un 16 core da 2,8GHz a 140W...non a caso prevede 24-28 core, a dispetto dei "soli" 18 attuali....

il miglioramento è imponente:
4770T 2,5GHz 45W
6700T 2,8GHz 35W...

http://ark.intel.com/it/products/75125/Intel-Core-i7-4770T-Processor-8M-Cache-up-to-3_70-GHz
http://ark.intel.com/it/products/88200/Intel-Core-i7-6700T-Processor-8M-Cache-up-to-3_60-GHz

plainsong
18-03-2016, 14:57
http://www.bitsandchips.it/9-hardware/6764-amd-ha-scelto-il-duo-glofo-amkor-per-le-prossime-apu-basate-su-zen :read:

APU+HBM :D

Notevole. Mi chiedo solo come si regoleranno con HSA (ipotizzo mantenendo per la gpu la possibilità di interfacciarsi direttamente con la ram di sistema qualora un'applicazione ne faccia richiesta).

Ren
18-03-2016, 15:15
non mi hai dato il tempo di correggere..
senza scomodare il mobile..

Scomodali che da un occhiata veloce i laptop-cpu skylake sono peggio del 6700T desktop. :eek:

edit

4722HQ 2,4GHz 37W
6700T 2,8GHz 35W

Da imponente a OTTIMO, su die molto selezionati. (20% sotto i 3ghz sul miglior 14nm del mercato)
Sopra i 3ghz il miracolo finisce...

http://ark.intel.com/it/products/78935/Intel-Core-i7-4722HQ-Processor-6M-Cache-up-to-3_40-GHz

Ren
18-03-2016, 15:35
se la piattaforma AM4 sarà a 360° vorrà dire che sono in grado di montare sia apu che cpu, ma spero che ci sia la possibilità di utilizzare le apu zen, con ipotesi 8~16GB di HBM, senza dover necessariamente installare la ram di sistema e utilizzare quella per tutto :read:

quindi: se uso l'apu non monto la ram anche se la mobo AM4 ha i banchi disponibili, se uso la cpu monto la ram come si è sempre fatto :sofico:

Non credo vedremo facilmente soluzioni hbm(oltretutto con tutti quei GB) su un APU per questioni di costo e concorrenza interna. AMD preferisce vendere GPU dedicate(laptop e non) piuttosto che tirar fuori un ottimo prodotto integrato.
Già con le APU attuali sarebbe bastato qualche chip on package di GDDR5 per avere un ottimo prodotto gaming qualità/prezzo...:mad:

ps. non credo sia economico creare un socket così versatile da ospitare di tutto(le HBM hanno parecchi pin:O )...

Ren
18-03-2016, 15:49
per fine 2016 le HBM2 ( Q2 2017 è il tempo in cui vedremo le Apu_zen e non prima) verranno prodotto sia da samsung che da hynix e la base è di 2 GB per modulo, con 4 moduli fai 8 GB...
se Intel vende un 6700k a 350~400€, un APU 4c(8th)+2048sp+8GB , AMD potrebbe venderla tranquillamente alla stessa cifra...
anche fossero HBM1, scommetto che hynix produrrà entro quest'anno con Polaris la versione da 2GB per modulo

Sai quanti pin usano le HBM, soprattutto 4 moduli...:p
Verrebbe fuori un socket molto complicato per una cpu. (costoso/poco versatile)

Non credo proprio che le HBM1 verranno aggiornate.

AMD secondo me preferisce vendere GPU polaris laptop piuttosto che produrre in APU simile.

Ren
18-03-2016, 15:58
"Ad occuparsi del packaging sarà la sud coreana Amkor, come già accaduto per Fiji, a causa della presenza delle memorie HBM."

ma quindi come intendi questa affermazione? potrebbe essere sbagliata la fonte :D

Il fornitore è corretto, il resto sono supposizioni...

Secondo me non produrranno nessuna APU HBM per gli assemblati dei comuni mortali (laptop, desktop).

Ren
18-03-2016, 16:33
quindi comunque per APU a livello Server si? ma non per noi...

Anche quella bestia per supercomputer da 32core+GPU e HBM mi lascia perplesso, soprattutto dopo che è trapelato che c'è un limite di grandezza per il silicon interposer che già con fiji è stato raggiunto. (non trovo più l'articolo :cry: )

Nvidia e IBM hanno in progetto un prodotto simile per i supercomputer, ma sono due socket distinti.

Ren
18-03-2016, 16:50
io avevo capito che con Fiji il limite del Die gpu era massimo 600mmq perché sennò non c'era più spazio per far stare le HBM ai lati del package dato il processo utilizzato per le memorie.

con le HBM2 di dimensioni ridotte questo limite dovrebbe essere superiore per tanto un APU da 32c+GPU non la trovo improbabile :stordita:

Non ricordo le dimensioni del interposer, credo intorno 800-850mm2...

Con le HBM2 hanno aumentato le dimensioni del die (sono 4 volte più dense).:sofico:

HBM1 5x7mm2 (2gigabit)

HBM2 (samsung) 12x8mm2 (8gigabit)

Intel Phi ad esempio usa un MCM classico(un lenzuolo:D ), ma con 8 moduli HMC che usano molti meno pin (sono serdes).

tuttodigitale
18-03-2016, 17:13
x REN
32 core, magari sono troppi, ma 16+2048, a spanne sarebbe decisamente più piccolo di Fiji. Conta che la sola CPU non dovrebbe superare i 120mmq ...
Con poco meno di 500mmq c'è probabilmente lo spazio per farci entrare il 32 core e 64mb di cache l3..
I 64 MB di cache l3, sui 14 nm, dovrebbe avere una dimensione compresa tra i 140-175mmq...

un ipotetico XV a 32 core+32MB L2 su 28nm sarebbe grande 304mmq...
Un core ZEN potrebbe addirittura essere un poco più complesso di un intero modulo XV e entrare ugualmente....:D

PS nella conta non ho inserito i MC e le IO, è un valore ottimistico, tuttavia sembra chiaro che ci sia la possibilità concreta che possa effettivamente esserci un 32 core + GPU da 2048sp + HBM2.

PPS le dimensioni dell'interposer di Fiji è di 1011mmq

tuttodigitale
18-03-2016, 17:41
Scomodali che da un occhiata veloce i laptop-cpu skylake sono peggio del 6700T desktop. :eek:

edit

4722HQ 2,4GHz 37W
6700T 2,8GHz 35W

Da imponente a OTTIMO, su die molto selezionati. (20% sotto i 3ghz sul miglior 14nm del mercato)
Sopra i 3ghz il miracolo finisce...

http://ark.intel.com/it/products/78935/Intel-Core-i7-4722HQ-Processor-6M-Cache-up-to-3_40-GHz
nel mobile non si possono giudicare le CPu dai loro valori nominali.

http://sm.uploads.im/d/zSnCV.jpg
questa tabella l'ho fatta grazie all'aiuto di diversi utenti e si riferisce al punteggio in cinebench R11.5
i7 4600u 2,1-3,3GHz
i7 6500u 2,5-3,1GHz

prestazioni superiori del 42%.....
per mettere le cose in prospettiva, i3 6320. 3,9 GHz, fa 4,69...
presumendo uno scaling perfetto fanno 2,83GHz effettivi....a 15W in cinebench...l'i7 4600u...sembrerebbe ancorato alla frequenza base nonostante il turbo superiore...

Viaggiare a 2,8GHz anzichè a 2,2GHz fa una enorme differenza.
Non lo so io aspeterei skylake 2.0, prima di giudicare....ovvero quando Intel deciderà di togliere il dentifricio e modificare qualche condensatore qua e la..:rolleyes: Magari la curva dell'efficienza prenderà una piega diversa.

Ren
18-03-2016, 17:45
che differenza c'è tra hbm e hmc?

L'interfaccia di collegamento delle HMC può raggiungere i 30ghz.
In breve, non è necessario l'interposer(meno pin di collegamento), ma consumano più delle HBM.

nel mobile non si possono giudicare le CPu dai loro valori nominali.

Non c'è nessun confronto da fare, si parla dei valori calcolati da intel secondo la sua scala dei consumi.

bjt2
18-03-2016, 17:47
Le memorie HBM non consumano PIN... Non sono connesse alla MB, ma solo alla CPU... Al massimo richiedono una tensione separata e quindi qualcuno dei pin non collegati sarà usato per quello oppure (meglio) qualche VRM sulla APU o esterna, ma sul package...

tuttodigitale
18-03-2016, 17:57
si parla dei valori calcolati da intel secondo la sua scala dei consumi.
vedrai che la sua scala subirà una leggera modifica :sofico: , magari consumerà 170-180W...

Ren
18-03-2016, 18:01
x REN
32 core, magari sono troppi, ma 16+2048, a spanne sarebbe decisamente più piccolo di Fiji. Conta che la sola CPU non dovrebbe superare i 120mmq ...
Con poco meno di 500mmq c'è probabilmente lo spazio per farci entrare il 32 core e 64mb di cache l3..
I 64 MB di cache l3, sui 14 nm, dovrebbe avere una dimensione compresa tra i 140-175mmq...

PS nella conta non ho inserito i MC e le IO, è un valore ottimistico, tuttavia sembra chiaro che ci sia la possibilità concreta che possa effettivamente esserci un 32 core + GPU da 2048sp + HBM2.

PPS le dimensioni dell'interposer di Fiji è di 1011mmq

La dimensione della cache mi sembra sottostimata, se consideriamo tag,bus etc...

Cmq sono quasi accordo, un 16core Zen dovrebbe stare intorno ai 300mm2.
(core+l3+mc4+4serdes)

Considerando che ogni modulo HBM2 occupa 96mm2, sono dubbioso che entrino 32core...

vedrai che la sua scala subirà una leggera modifica :sofico: , magari consumerà 170-180W...

Poco cambia ai fini del confronto consumi intel su intel.

ps. non fare il fan :p , tanto se intel viene bastonata siamo tutti contenti, soprattutto il mio portafoglio:sofico:

Ren
18-03-2016, 18:13
Le memorie HBM non consumano PIN... Non sono connesse alla MB, ma solo alla CPU... Al massimo richiedono una tensione separata e quindi qualcuno dei pin non collegati sarà usato per quello oppure (meglio) qualche VRM sulla APU o esterna, ma sul package...

Con un ballout di 5000pin :eek: per modulo (connessi e non), qualcosa finirà per forza nel socket o mi sbaglio ?

Per dire che credo non sia facile riciclare il socket AM4 per una versione HBM multi modulo. Con socket apposito ovviamente no problem.

bjt2
18-03-2016, 18:30
Con un ballout di 5000pin :eek: per modulo (connessi e non), qualcosa finirà per forza nel socket o mi sbaglio ?

Per dire che credo non sia facile riciclare il socket AM4 per una versione HBM multi modulo. Con socket apposito ovviamente no problem.

Al massimo le alimentazioni... I disegni schematici che vedi, con alcuni pin che vanno al socket e alcuni alla GPU, sono indicativi... Tutte le transazioni verso la memoria degli altri dispositivi passano comunque per il NB che è integrato nella CPU...

tuttodigitale
18-03-2016, 18:50
La dimensione della cache mi sembra sottostimata, se consideriamo tag,bus etc...

perchè ti risultano che i bus non subiscono una riduzione?:D Dico sul serio.

Mentre la riduzione della singola cella, proviene direttamente da Samsung...Da considerare il valore più alto, quello che fa riferimento alle cache 6T ad alte prestazioni..ovviamente non ho nessuna certezza.

Considerando che ogni modulo HBM2 occupa 96mm2, sono dubbioso che entrino 32core...
Se non fossi stato chiaro, sono dubbioso anch'io. :)
Se esce un altro rumors inizio a crederci. :eek: (ma mi pare che non abbia trovato seguito oltre a quella slide...)


ps. non fare il fan :p ,
in effetti sembro un fan di Intel, a forza di dire che non abbiamo ancora visto niente dei 14nm... dovrei essere bannato per questo :p

tanto se intel viene bastonata siamo tutti contenti, soprattutto il mio portafoglio:sofico:
fino adesso mi sono limitato a dire che AMD bastonerà solo i prodotti attualmente in commercio...ma si, AMD bastonerà Intel..
:eek: :read:
PS sul portafoglio, la scimmia potrebbe prendere il sopravvento con un FX degno di questo nome (correva l'anno 2003...), non ci conterei.:sofico:

Con un ballout di 5000pin :eek: per modulo (connessi e non), qualcosa finirà per forza nel socket o mi sbaglio ?

Per dire che credo non sia facile riciclare il socket AM4 per una versione HBM multi modulo. Con socket apposito ovviamente no problem.
Ancora non è uscito AM4, e già vuoi riciclarlo?:eek:
Certamente si saranno posti il problema (spero)...

Ren
18-03-2016, 19:18
perchè ti risultano che i bus non subiscono una riduzione?:D Dico sul serio.

Mentre la riduzione della singola cella, proviene direttamente da Samsung...Da considerare il valore più alto, quello che fa riferimento alle cache 6T ad alte prestazioni..ovviamente non ho nessuna certezza.

Ovvio che scalano, ma i numeri del menga delle SRAM TEST ricercano la densità assoluta, cosa ben diversa dalle cache di una CPU.
I MB al mm2 delle sram test sono sempre troppo ottimistici...

Ancora non è uscito AM4, e già vuoi riciclarlo?:eek:
Certamente si saranno posti il problema (spero)...

Scusatemi se dubito(mica di poco), ma sto AM4 può montare di tutto(BR,Zen,HBM), a momenti pure il mio tostapane... :sofico:

tuttodigitale
18-03-2016, 19:56
Ovvio che scalano, ma i numeri del menga delle SRAM TEST ricercano la densità assoluta, cosa ben diversa dalle cache di una CPU.
I MB al mm2 delle sram test sono sempre troppo ottimistici...

non è densità assoluta, tanto è vero che per raggiungere determinati obiettivi di frequenza la stessa Samsung propone un disegno 6T, con 10 finfet :rolleyes: e in quel caso ha stimato uno scaling del 2x sui 28nm...

se non scalano neppure di un fattore 2 rispetto ai 32nm, possono anche chiudere....

E stiamo parlando di L3, che gira a 2-3GHz, al MASSIMO... Sulla L2, è già diverso...e sarà già tanto avere lo scaling del 50%. E saranno, imho, proprio le cache di primissimo livello a farne maggiormente le spese, soprattutto se vorranno ottenere una frequenza di funzionamento alta..

Ma sulla l3, NON DEVONO ESSERCI PROBLEMI. Sarebbero davvero c@zz. amari.

Ren
18-03-2016, 20:01
non è densità assoluta, tanto è vero che per raggiungere determinati obiettivi di frequenza la stessa Samsung propone un disegno 6T, con 10 finfet :rolleyes: e in quel caso ha stimato uno scaling del 2x sui 28nm...

se non scalano neppure di un fattore 2 rispetto ai 32nm, possono anche chiudere....

E stiamo parlando di L3, che gira a 2-3GHz, al MASSIMO... Sulla L2, è già diverso...e sarà già tanto avere lo scaling del 50%. E saranno, imho, proprio le cache di primissimo livello a farne maggiormente le spese, soprattutto se vorranno ottenere una frequenza di funzionamento alta..

Ma sulla l3, NON DEVONO ESSERCI PROBLEMI. Sarebbero davvero c@zz. amari.

In breve e chiudo;) , non puoi spiattellare i numeri delle sram test come previsioni di densità per una CPU cache.

tuttodigitale
18-03-2016, 20:51
In breve e chiudo;) , non puoi spiattellare i numeri delle sram test come previsioni di densità per una CPU cache.
la sram viene testata alla frequenza target, anche per assaggiare le bontà del silicio e/o trovare soluzioni, silicio o architetturali, per raggiungere determinate prestazioni..
sennò pare che la SRAM, la costruiscano per diletto...invece è di quanto più attendibile (il che non vuol dire che sia attendibile)...poi non ho nessuna veggenza.
I dati scarseggiano...ma comunque i rumors danno la densità dei transistor superiore di 2,5x per la GPU Polaris....in linea con la densità stimata per le SRAM ad altà densità...

Free Gordon
18-03-2016, 23:21
Però...ci avete pensato?

Perchè "Zen"? :read:

Che cosa vogliono dirci i progettisti AMD con un nome simile?

Faccio il mio pronostico: :D
Zen sarà un'architettura estremamente equilibrata che trasformerà cose paradossali...o apparentemente impossibili...in cose ovvie e reali. :)

:sofico:

Ren
18-03-2016, 23:47
la sram viene testata alla frequenza target, anche per assaggiare le bontà del silicio e/o trovare soluzioni, silicio o architetturali, per raggiungere determinate prestazioni..
sennò pare che la SRAM, la costruiscano per diletto...invece è di quanto più attendibile (il che non vuol dire che sia attendibile)...poi non ho nessuna

Guarda stiamo dicendo la stessa cosa. Le SRAM test sono solo un metro di paragone tra processi produttivi, per determinare lo scaling.
Poi la densità delle cache (CPU) sarà per forza diversa.

Ren
18-03-2016, 23:49
Però...ci avete pensato?

Perchè "Zen"? :read:

Si, Zen come la pazienza dei fan amd...:sofico:

paolo.oliva2
19-03-2016, 00:40
non ho alcun dubbio che zen x8 possa girare a 4ghz, ma non certamente consumando 95w e probabilmente neanche 125/140w.

Secondo me... i 3GHz nei 95W per Zen X8 ci sono semplicemente perchè AMD a suo tempo aveva dichiarato di aver raggiunto le aspettative e nel contempo GF parlava di un range da 3-4GHz.

Quello che mi lascia i dubbi, è che da quanto dichiarato, Zen avrebbe un IPC inferiore all'ultima architettura di Intel, ma non così inferiore da rendere necessario per AMD arrivare a proporre proci con un +50% di core rispetto alle soluzioni Intel, anche perchè difficilmente un X32 Zen avrebbe un clock inferiore rispetto al top Intel...

Sicuramente Zen non si occherà quanto un 8350... ma non penso che si occherà di meno di un 5960X o X6 I7...
La frequenza def di Zen è indubbiamente un terno al lorro (io proporrei 3,5GHz nel modello top), ma dubito che AMD rifaccia la stessa cavolata di BD, cioè frequenze turbo che non sfruttano il TDP disponibile. Per quanto possa essere negativo il PP di Zen, dubito che da 8 core a 3GHz (supponiamo) in 95W, un overvolt/overclock sulla metà dei core (X4 da X8) possa implicare uno sforamento del TDP.
Secondo me è proprio per questa ragione che dai 6 mesi (novembre 2015 --> maggio 2016) sembra plausibile più settembre/ottobre 2016 (quindi 10-11 mesi), proprio per affinare il più possibile il silicio non tanto nella frequenza def quanto invece nella massima frequenza turbo.

P.S.
Visto e considerato che Zen X8 si porrebbe a diretto confronto con il socket 2011 e non con gli X4+4 Intel, mi sembra ovvio che dal punto di vista MT AMD di certo non fregherebbe una mazza se Zen avrebbe un clock di 2,8GHz o 3,5GHz (visto anche le voci di Zen > X8).
Il posizionamento commerciale se vogliamo sarebbe nelle mani di AMD, perchè fra grandezza die di Zen e voglia di recuperare percentuali di mercato, AMD potrebbe pure vendere Zen X8 a 200$.
e qui viene il paradosso... un Zen X8 vs i7 X6 darei per certo Zen X8 piu potente in MT e di sicuro non sfigurare in ST... quindi un Zen X8 a prezzo simile di un i7 X6 sarebbe preferibile... mentre piazzato come concorrente di un 6700K sarebbe un suicidio commerciale, nel senso che Intel dai 400$ attuali potrebbe portarlo ai 250$, ma schiacciare Zen sulla potenza ST.

Un Zen con la frequenza piu alta possibile in turbo direi che sia una cosa prioritaria, perche AMD lo potrebbe piazzare a piacere... nel senso di non perdere chissa che cosa da un 6700K ma nel contempo offrire piu forza bruta di un 5960X...

bjt2
19-03-2016, 07:46
non è densità assoluta, tanto è vero che per raggiungere determinati obiettivi di frequenza la stessa Samsung propone un disegno 6T, con 10 finfet :rolleyes: e in quel caso ha stimato uno scaling del 2x sui 28nm...

se non scalano neppure di un fattore 2 rispetto ai 32nm, possono anche chiudere....

E stiamo parlando di L3, che gira a 2-3GHz, al MASSIMO... Sulla L2, è già diverso...e sarà già tanto avere lo scaling del 50%. E saranno, imho, proprio le cache di primissimo livello a farne maggiormente le spese, soprattutto se vorranno ottenere una frequenza di funzionamento alta..

Ma sulla l3, NON DEVONO ESSERCI PROBLEMI. Sarebbero davvero c@zz. amari.

6T vuol dire 6 transistors... Se dici 10 finfet allora è 10T... E' 6T o 10T? :D

In breve e chiudo;) , non puoi spiattellare i numeri delle sram test come previsioni di densità per una CPU cache.

La cache è SRAM pura con elettronica di contorno che fa il lookup ecc... Non credo che sia poi così diversa dalla cache finale... Ci saranno solo circuiti aggiuntivi...

bjt2
19-03-2016, 07:50
Secondo me... i 3GHz nei 95W per Zen X8 ci sono semplicemente perchè AMD a suo tempo aveva dichiarato di aver raggiunto le aspettative e nel contempo GF parlava di un range da 3-4GHz.

Quello che mi lascia i dubbi, è che da quanto dichiarato, Zen avrebbe un IPC inferiore all'ultima architettura di Intel, ma non così inferiore da rendere necessario per AMD arrivare a proporre proci con un +50% di core rispetto alle soluzioni Intel, anche perchè difficilmente un X32 Zen avrebbe un clock inferiore rispetto al top Intel...

Sicuramente Zen non si occherà quanto un 8350... ma non penso che si occherà di meno di un 5960X o X6 I7...
La frequenza def di Zen è indubbiamente un terno al lorro (io proporrei 3,5GHz nel modello top), ma dubito che AMD rifaccia la stessa cavolata di BD, cioè frequenze turbo che non sfruttano il TDP disponibile. Per quanto possa essere negativo il PP di Zen, dubito che da 8 core a 3GHz (supponiamo) in 95W, un overvolt/overclock sulla metà dei core (X4 da X8) possa implicare uno sforamento del TDP.
Secondo me è proprio per questa ragione che dai 6 mesi (novembre 2015 --> maggio 2016) sembra plausibile più settembre/ottobre 2016 (quindi 10-11 mesi), proprio per affinare il più possibile il silicio non tanto nella frequenza def quanto invece nella massima frequenza turbo.

P.S.
Visto e considerato che Zen X8 si porrebbe a diretto confronto con il socket 2011 e non con gli X4+4 Intel, mi sembra ovvio che dal punto di vista MT AMD di certo non fregherebbe una mazza se Zen avrebbe un clock di 2,8GHz o 3,5GHz (visto anche le voci di Zen > X8).
Il posizionamento commerciale se vogliamo sarebbe nelle mani di AMD, perchè fra grandezza die di Zen e voglia di recuperare percentuali di mercato, AMD potrebbe pure vendere Zen X8 a 200$.
e qui viene il paradosso... un Zen X8 vs i7 X6 darei per certo Zen X8 piu potente in MT e di sicuro non sfigurare in ST... quindi un Zen X8 a prezzo simile di un i7 X6 sarebbe preferibile... mentre piazzato come concorrente di un 6700K sarebbe un suicidio commerciale, nel senso che Intel dai 400$ attuali potrebbe portarlo ai 250$, ma schiacciare Zen sulla potenza ST.

Un Zen con la frequenza piu alta possibile in turbo direi che sia una cosa prioritaria, perche AMD lo potrebbe piazzare a piacere... nel senso di non perdere chissa che cosa da un 6700K ma nel contempo offrire piu forza bruta di un 5960X...

Tutti dicono cose brutte del processo 28nm su cui è costruito BD... Il fatto che abbia un FO4 relativamente basso (ma non ovviamente al livello dei precotti) non significa che salga automaticamente. In turbo forse non si riesce a sfruttare tutto il TDP semplicemente perchè la frequenza non può andare oltre quella, pena il non funzionamento della CPU... Con i finfet, anche se avessero lasciato il FO4 invariato, e sembra che non sia così, si dovrebbero raggiungere frequenze superiori, quindi finalmente la limitante sarà solo il TDP. Basta CPU con frequenze 4GHz e 4.2 di turbo... :D

digieffe
19-03-2016, 12:37
Zen, tutto promette al meglio ma... non vorrei che poi finisse come l'ultima volta...

io mi accontenterei del 90% di IPC (vs BW) e 3ghz freq base con turbo fino a 4ghz, il che lo porterebbe a pari prestazioni dell'intel X6 (quello top da 3,6ghz)

digieffe
19-03-2016, 13:44
avesse il 90% dell'IPC di BW a 3ghz base andrebbe in MT più del 6 core e addirittura più del 8 core dato che lo scaling MT sarà al 99% superiore all'HT di Intel con i dati che abbiamo oggi su carta
Mediamente penso che l'SMT di AMD sarà come il primo BD, ~75%... non meno

dato che intel ha +30%, non è un po' tantino +75%

imho +40-45%sarà gia ottimo...

nikolis
19-03-2016, 13:56
sara un ottimo processore (vfm)

Ren
19-03-2016, 14:43
La cache è SRAM pura con elettronica di contorno che fa il lookup ecc... Non credo che sia poi così diversa dalla cache finale... Ci saranno solo circuiti aggiuntivi...

Sono diversi per densità, se non ricordo male la L3 di intel occupa il triplo delle sramtest (MB/mm2).
Probabilmente nei test usano 4T sram e bus risicati...:boh:

digieffe
19-03-2016, 16:59
non capisco, ma perché bisogna paragonarlo o comunque assomigliare per forza a quello di Intel? :)

su carta, sembra tutt'altra cosa, se poi la base di partenza è XV...

ps. capisco che Mediamente suona un po' forte come affermazione ma anche quello Intel è considerato Mediamente il 30% quando in realtà non è così in casi particolari di codice quasi perfetto... certo, sono rari casi ma non vengono conteggiati

sulla carta... si se avessimo quella carta, purtroppo la maggior parte sono speculazioni
Il fatto che ha come base di partenza XV imho, purtroppo, non indica nulla a livello ht e se veramente dovesse avere dei guadagni del +75% dall'ht vuol dire che più che probabilmente ha delle grosse inefficienze (probabilmente al branch predictor e dintorni) che compensa con l'ht. inoltre mi sembra che il power (8?) Che trae molto vantaggio dall'ht sia vicino al +50% col solo secondo thread per core.
ipotizzando il 90%ndi ipc + il 75% di ht avremmo un throughput del. 157.5% a core, il che significa un throughput totale di 12.6 core intel a parità di frequenza...Nse a questo aggiungiamo presunte frequenze a 4ghz con tutti i core siamo al livello di un 20+ core intel...

Non voglio limitare l'entusiasmo ma solo rimanere realista :)

paolo.oliva2
19-03-2016, 17:24
sulla carta... si se avessimo quella carta, purtroppo la maggior parte sono speculazioni
Il fatto che ha come base di partenza XV imho, purtroppo, non indica nulla a livello ht e se veramente dovesse avere dei guadagni del +75% dall'ht vuol dire che più che probabilmente ha delle grosse inefficienze (probabilmente al branch predictor e dintorni) che compensa con l'ht. inoltre mi sembra che il power (8?) Che trae molto vantaggio dall'ht sia vicino al +50% col solo secondo thread per core.
ipotizzando il 90%ndi ipc + il 75% di ht avremmo un throughput del. 157.5% a core, il che significa un throughput totale di 12.6 core intel a parità di frequenza...Nse a questo aggiungiamo presunte frequenze a 4ghz con tutti i core siamo al livello di un 20+ core intel...

Non voglio limitare l'entusiasmo ma solo rimanere realista :)

Onestamente credo che Intel non abbia poi chissà quanto spinto la sua architettura (evoluzione), nel senso che in 10 anni è molto più quello che ha guadagnato prestazionalmente in ST e MT dal silicio che architetturalmente in IPC.
Quindi guardando al di fuori, non sarebbe manco fantascientifico che AMD possa raggiungere Intel, a patto che il silicio non seghi Zen.

Però come ho detto altre volte... vedi Intel... si è ancorata a X2+2 e X4 +4, anche se il silicio permetterebbe di più. I proci con 8 core e più, d'accordo che Intel li produce, ma è per guadagno tirato al massimo, quindi commercialmente mi pare lampante che Intel fa un calcolo di grandezza die unito al guadagno (ovvio, tutti fanno così).
Se Zen fosse così competitivo, credo sia più remunerativo un Zen X8 vs un 5960X proposto a metà prezzo, piuttosto che un Zen X16 (esempio) allo stesso prezzo.

bjt2
19-03-2016, 17:27
sulla carta... si se avessimo quella carta, purtroppo la maggior parte sono speculazioni
Il fatto che ha come base di partenza XV imho, purtroppo, non indica nulla a livello ht e se veramente dovesse avere dei guadagni del +75% dall'ht vuol dire che più che probabilmente ha delle grosse inefficienze (probabilmente al branch predictor e dintorni) che compensa con l'ht. inoltre mi sembra che il power (8?) Che trae molto vantaggio dall'ht sia vicino al +50% col solo secondo thread per core.
ipotizzando il 90%ndi ipc + il 75% di ht avremmo un throughput del. 157.5% a core, il che significa un throughput totale di 12.6 core intel a parità di frequenza...Nse a questo aggiungiamo presunte frequenze a 4ghz con tutti i core siamo al livello di un 20+ core intel...

Non voglio limitare l'entusiasmo ma solo rimanere realista :)

L'IPC medio di codice x86 non particolarmente demanding è 1.2-1.5 istruzioni per clock. Se è FPU intensive può superare 2 di poco. Se veramente è un 10 issue, 4 INT, 4 FP e 2 AGU, solo se entrambi i thread sono memory intensive si può avere un guadagno relativamente basso... Ricordo che esistono dei carichi così leggeri da avere un +80% persino con l'HT di INTEL...

Se vedi BD era dato a un +80% con, per modulo, 4 FPU a coda unica e 2 code da 2 ALU, contro 4 FPU a coda unica e 4 ALU a coda unica. Dalla teoria delle code (ricordi di ingegneria :D) una coda da 4 serventi è meglio di 2 code da 2 serventi. L'unica incognita è che le AGU sono sempre 2... Perciò per codice poco memory intensive (diciamo meno di una istruzione su 3 e ce ne sono molti), si può avere anche più del primo BD... Però stiamo confrontando modulo versus core. E anche se i decoder sono solo 4 e non 2x4 come PD e XV, c'è comunque la cache L0 che dovrebbe mitigare il tutto...

tuttodigitale
19-03-2016, 22:43
6T vuol dire 6 transistors... Se dici 10 finfet allora è 10T... E' 6T o 10T? :D
come puoi vedere tu stesso ci sono elementi in più nella SRAM HC (high current). I famosi 10 finfet di cui parlavo...
http://www.tomshw.it/data/thumbs/3/9/4/6/samsung-10nm-finfet-01-05bb1baba003dad79386d08d821df78ff.jpg


PS Non ti fidi me?:D
Ho preso una slide che si riferisce ai 10nm, ma ti assicuro, che per i 14nm vale lo stesso.

Guarda stiamo dicendo la stessa cosa. Le SRAM test sono solo un metro di paragone tra processi produttivi, per determinare lo scaling.
Poi la densità delle cache (CPU) sarà per forza diversa.
a questo punto credo che ci sia un equivoco..ho preso le misure della l3 di BD, e usato lo scaling tra le SRAM test a 28 e 14nm..:cool:

Comunque 32core potrebbe anche non entrarci, abbiamo lasciato fuori elementi ingombranti come il pci express, il nuovo bus che sostituisce HT, e i 4MC dual channel...
Senza calcoli più precisi, tuttavia non mi azzardo neppure nella esclusione.....


in generale se ZEN ha un FO4 <=17 (basso quindi), un ipc inferiore è del tutto giustificabile se le dimensioni di un core ZEN non saranno maggiori di quello di Skylake. (non è esatto, ma prendiamolo per una semi-verità):O :p

L'uso del SMT con un Predizioni rami approssimativo compromette ulteriormente le prestazioni del primo thread. Infatti il secondo thread riduce le risorse come la cache l1-l2, ma soprattutto la l0, che non solo è piccolissima (4KB se non erro) ma contiene macro-ops, ovvero istuzioni che occupano decisamente più spazio delle equivalenti x86. Lo scaling massivo pertanto non sarebbe comunque assicurato...e comunque si perderebbe assai in efficienza, che poi è l'obiettivo principale quando si cerca di non tirare troppo la corda con la ricerca del massimo ILP. (dubito molto che il power7/8 abbiano un predittore rami pessimo)

Ho le mie perplessità sulle 2 Agu, e quindi sullo scaling..secondo me un +50% MEDIO è il massimo che si può ambire (e non è poco).

Free Gordon
20-03-2016, 03:16
Si, Zen come la pazienza dei fan amd...:sofico:

:rotfl:



si si, se ti ricordi feci la stessa domanda molti mesi fa :D
può sembrare una sciocchezza ma il nome che danno alle cpu ha il suo perché, ma sinceramente con Zen non ho ancora capito cosa possa essere... con bulldozer è stato facile capirlo :fagiano:

Ma certo! E' Zen! Non si può mai sapere dove vuole andare a parare! :asd:

Speriamo bene. :sofico: :sofico: :sofico:

bjt2
20-03-2016, 07:33
come puoi vedere tu stesso ci sono elementi in più nella SRAM HC (high current). I famosi 10 finfet di cui parlavo...
http://www.tomshw.it/data/thumbs/3/9/4/6/samsung-10nm-finfet-01-05bb1baba003dad79386d08d821df78ff.jpg


PS Non ti fidi me?:D
Ho preso una slide che si riferisce ai 10nm, ma ti assicuro, che per i 14nm vale lo stesso.


a questo punto credo che ci sia un equivoco..ho preso le misure della l3 di BD, e usato lo scaling tra le SRAM test a 28 e 14nm..:cool:

Comunque 32core potrebbe anche non entrarci, abbiamo lasciato fuori elementi ingombranti come il pci express, il nuovo bus che sostituisce HT, e i 4MC dual channel...
Senza calcoli più precisi, tuttavia non mi azzardo neppure nella esclusione.....


in generale se ZEN ha un FO4 <=17 (basso quindi), un ipc inferiore è del tutto giustificabile se le dimensioni di un core ZEN non saranno maggiori di quello di Skylake. (non è esatto, ma prendiamolo per una semi-verità):O :p

L'uso del SMT con un Predizioni rami approssimativo compromette ulteriormente le prestazioni del primo thread. Infatti il secondo thread riduce le risorse come la cache l1-l2, ma soprattutto la l0, che non solo è piccolissima (4KB se non erro) ma contiene macro-ops, ovvero istuzioni che occupano decisamente più spazio delle equivalenti x86. Lo scaling massivo pertanto non sarebbe comunque assicurato...e comunque si perderebbe assai in efficienza, che poi è l'obiettivo principale quando si cerca di non tirare troppo la corda con la ricerca del massimo ILP. (dubito molto che il power7/8 abbiano un predittore rami pessimo)

Ho le mie perplessità sulle 2 Agu, e quindi sullo scaling..secondo me un +50% MEDIO è il massimo che si può ambire (e non è poco).

Non è che non mi fidi... E' che questi sono scemi a non chiamare 10T una cella a 10 transistors... :D

Se i 32 core sono fatti con 2 die da 16 potresti avere ragione... Ma se sono fatti con 4 die da 8 siamo ancora entro le possibilità: la densità del 14nm abbiamo detto che è circa 2,5 volte, 1 core Zen a 14nm, considerando anche che ha meno cache L2, ma è più complesso di un modulo, potrebbe occupare come circa 0,5 moduli BD. La cache L3 per core è la stessa, ma i controller e la "colla" (PCI exp e link coerente) sono sempre gli stessi, ma per 8 core, quindi si riducono di 2,5 volte. In conclusione un die 8 core potrebbe essere più piccolo di uno 4 moduli BD, quindi fattibilissimo.

Per quanto riguarda lo scaling, ho scritto sopra che coda unica è meglio di code separate e che quindi per codice con pochi accessi RAM lo scaling dovrebbe essere superiore a quello di BD (ma non forse a quello di PD e XV che ha doppio decoder). Anche i codici con parecchi accessi ram potrebbero beneficiarne, se accoppiati con un altro thread normale. Perchè mentre un thread aspetta i dati (se non sono in L1) l'altro thread ha tutte le risorse per se... Quindi si ha basso scaling solo con tutti e 2 thread con accessi ram regolari e frequenti. In ogni caso lo scaling dovrebbe essere superiore a INTEL che ha molte meno porte...

digieffe
20-03-2016, 10:22
Scusate l'ignoranza: non si era sempre detto che l'ht è in multiplexing di tempo e non di spazio?
Ovvero che nel momento in cui un le pipeline di un thread sono in stallo le risorse vengono utilizzate dall'altro e non che le pipeline possono essere utilizzate contemporaneamente se non utilizzate dal primo thread.
Es. Ok: thread 1 esegue un branch errato, allora parte thread 2.
Es. No: thread 1 occupa solo 6 pipeline su 10 e thread 2 occupa le rimanenti 4.

tuttodigitale
20-03-2016, 12:01
Scusate l'ignoranza: non si era sempre detto che l'ht è in multiplexing di tempo e non di spazio?
TEcnicamente è un multithreading spaziale. Con questo si vuol intendere il fatto che i due thread possono essere eseguiti su pipeline in parallelo nello stesso istante temporale.
E più ne hai meglioi è...


Ovvero che nel momento in cui un le pipeline di un thread sono in stallo le risorse vengono utilizzate dall'altro e non che le pipeline possono essere utilizzate contemporaneamente se non utilizzate dal primo thread.
Possono essere utilizzate Contemporaneamente. Non a caso la sigla SMT, significa MultiThreading Simultaneo.

Quello che invece segue una filosofia temporale, è il front-end: il decodificatore, decodifica (o che fantasia) in cicli di clock differenti le istruzioni del primo e del secondo thread..


Es. Ok: thread 1 esegue un branch errato, allora parte thread 2.
Es. No: thread 1 occupa solo 6 pipeline su 10 e thread 2 occupa le rimanenti 4.

Entrambe sono vere.

digieffe
20-03-2016, 12:23
TEcnicamente è un multithreading spaziale. Con questo si vuol intendere il fatto che i due thread possono essere eseguiti su pipeline in parallelo nello stesso istante temporale.
E più ne hai meglioi è...


Possono essere utilizzate Contemporaneamente. Non a caso la sigla SMT, significa MultiThreading Simultaneo.

Quello che invece segue una filosofia temporale, è il front-end: il decodificatore, decodifica (o che fantasia) in cicli di clock differenti le istruzioni del primo e del secondo thread..



Entrambe sono vere.

pensavo che ciò che è valido per il frontend lo fosse per tutto il core

grazie per la spiegazione

tuttodigitale
20-03-2016, 12:39
Per quanto riguarda lo scaling, ho scritto sopra che coda unica è meglio di code separate e che quindi per codice con pochi accessi RAM lo scaling dovrebbe essere superiore a quello di BD (ma non forse a quello di PD e XV che ha doppio decoder). Anche i codici con parecchi accessi ram potrebbero beneficiarne, se accoppiati con un altro thread normale. Perchè mentre un thread aspetta i dati (se non sono in L1) l'altro thread ha tutte le risorse per se... Quindi si ha basso scaling solo con tutti e 2 thread con accessi ram regolari e frequenti. In ogni caso lo scaling dovrebbe essere superiore a INTEL che ha molte meno porte...
stau facendo un pò di confusione :) . E' chiaro che ti riferisci alle prestazioni e non allo scaling...


in effetti un'unica coda garantirebbe prestazioni superiori di due più piccole.
Ma lo scaling no, perchè la prima coda che prima era riservata ad un thread, non lo sarà più con la presenza del secondo thread...

Lo scaling sarà per forza di cose inferiore lato integer rispetto al CMT, vuoi per il front-end più piccolo, vuoi perchè tutte le risorse EX int, sono dedicate, scheduler, l1D ecc.
Sulle prestazioni non è detta l'ultima parola: e potrebbe davvero superare un modulo XV...
PD ha 4 decoder, e XV 2x4 decoder, ma:
le pipeline sembrerebbero più corte lato integer...
la cache l1-l2, sono molto più veloci
è presenta la l0, che potrebbe tagliare anche 6 cicli..
lo scheduler integer dovrebbe avere più entries della somma dei 2 integrati in un modulo excavator...

Sulla FPU, le prestazioni saranno per forza superiore, ma con un lato integer molto più veloce, già nel ST potrebbe saturare le risorse dell'intera FlexFPu di Excavator...:cool:

Ren
20-03-2016, 14:23
cmq lo scaling è poco meno di 2 per le CPU.

SRAM test
28nm GF = 0.12
28nm TSMC = 0.13
14nm Samsung = 0.065

paolo.oliva2
20-03-2016, 15:06
@tuttodigitale

Fino ad oggi si è sempre cercato di diminuire il TDP per ottenere potenze superiori a die. Lo si è cercato tramite SMT, CMT e qualsivoglia.

Adesso ti faccio un ragionamento... che può sembrare idiota (e lo può anche essere), ma mi lascia perplesso.

Dall'epoca del passaggio X1 / X2, la potenza ST sarà anche aumentata perchè allora si era sul 65nm (mi sembra), quindi si è potuto incrementare pure la frequenza del singolo core, ma è ovvio che è aumentata di moltissimo la potenza a die perchè l'abbassamento del TDP a permesso un corposo aumento di core, L'SMT e CMT sono intervenuti semplicemente per trovare un mezzo di risparmio transistor tale da permettere più TH allo stesso TDP.

Ora... se già un Zen fosse un 8+8 con 95W sul 14nm, sul 9nm o ci ritroveremmo un X12+12 a 95W o un X8+8 a 65W... ma per che cosa?

Il ragionamento può essere più che valido per proci Server a cui si richiede il numero massimo di core/TH, ma per l'uso odierno di proci desktop, non sarebbe meglio cercare addirittura di togliere SMT/CMT per far si che il core non abbia il minimo intoppo e ricercare la massima potenza, visto che comunque un X6/X8 così composto soddisferebbe alla grande?

Non so se mi spiego... ma l'SMT e CMT in fin dei conti cercano entrambi di far lavorare 2 TH su un Hardware più potente per 1 TH, ma entrambi chiaramente NON possono raddoppiare la potenza del core.
Potenziando il core per farlo lavorare con 1 solo TH, non metto in dubbio che si avrebbe un aumento del TDP rispetto a quanto elaborato con 2 TH, ma è anche vero che comunque la potenza del core aumenterebbe.

Facendo un esempio stile Intel... il TDP del core è valutato (correggimi se sbaglio) con l'SMT attivo. Senza SMT, il TDP raggiunto è per forza di cose inferiore. Ora... supponiamo di essere sul 9nm, con 140W cosa ci sarà? 20TH? Ma non sarebbe meglio in ambito desktop, limitare i TH a 12/16 ma con un core in grado di arrivare a frequenze più alte?

bjt2
20-03-2016, 16:37
stau facendo un pò di confusione :) . E' chiaro che ti riferisci alle prestazioni e non allo scaling...


in effetti un'unica coda garantirebbe prestazioni superiori di due più piccole.
Ma lo scaling no, perchè la prima coda che prima era riservata ad un thread, non lo sarà più con la presenza del secondo thread...

Lo scaling sarà per forza di cose inferiore lato integer rispetto al CMT, vuoi per il front-end più piccolo, vuoi perchè tutte le risorse EX int, sono dedicate, scheduler, l1D ecc.
Sulle prestazioni non è detta l'ultima parola: e potrebbe davvero superare un modulo XV...
PD ha 4 decoder, e XV 2x4 decoder, ma:
le pipeline sembrerebbero più corte lato integer...
la cache l1-l2, sono molto più veloci
è presenta la l0, che potrebbe tagliare anche 6 cicli..
lo scheduler integer dovrebbe avere più entries della somma dei 2 integrati in un modulo excavator...

Sulla FPU, le prestazioni saranno per forza superiore, ma con un lato integer molto più veloce, già nel ST potrebbe saturare le risorse dell'intera FlexFPu di Excavator...:cool:

Ovviamente la coda unica dovrebbe essere pari al doppio di quella di BD originale. Se così fosse, e non vedo perchè no, visto che sono il doppio delle unità, siamo nello stesso caso di BD ma un core contro un modulo (a parte la metà delle AGU). Per questo dicevo che per codice con pochi accessi in memoria si avrebbe lo stesso scaling di BD, se non meglio, per il fatto di coda unica, quindi >80%.
BD ha 16K di cache L1 e Zen sembra ne avrà 32. quindi stessa cache di un modulo...
Per tutte le altre risorse, se le raddoppiano, stessa storia di coda unica verso due code: è meglio...
Caso diverso per excavator che ha doppio decoder, ma li la cache L0 potrebbe sopperire e in più non sappiamo quanti decoder abbia Zen...

Io per scaling intendo il passaggio da 1 thread a 2 thread, forse mi sono espresso male...

bjt2
20-03-2016, 16:41
@tuttodigitale

Fino ad oggi si è sempre cercato di diminuire il TDP per ottenere potenze superiori a die. Lo si è cercato tramite SMT, CMT e qualsivoglia.

Adesso ti faccio un ragionamento... che può sembrare idiota (e lo può anche essere), ma mi lascia perplesso.

Dall'epoca del passaggio X1 / X2, la potenza ST sarà anche aumentata perchè allora si era sul 65nm (mi sembra), quindi si è potuto incrementare pure la frequenza del singolo core, ma è ovvio che è aumentata di moltissimo la potenza a die perchè l'abbassamento del TDP a permesso un corposo aumento di core, L'SMT e CMT sono intervenuti semplicemente per trovare un mezzo di risparmio transistor tale da permettere più TH allo stesso TDP.

Ora... se già un Zen fosse un 8+8 con 95W sul 14nm, sul 9nm o ci ritroveremmo un X12+12 a 95W o un X8+8 a 65W... ma per che cosa?

Il ragionamento può essere più che valido per proci Server a cui si richiede il numero massimo di core/TH, ma per l'uso odierno di proci desktop, non sarebbe meglio cercare addirittura di togliere SMT/CMT per far si che il core non abbia il minimo intoppo e ricercare la massima potenza, visto che comunque un X6/X8 così composto soddisferebbe alla grande?

Non so se mi spiego... ma l'SMT e CMT in fin dei conti cercano entrambi di far lavorare 2 TH su un Hardware più potente per 1 TH, ma entrambi chiaramente NON possono raddoppiare la potenza del core.
Potenziando il core per farlo lavorare con 1 solo TH, non metto in dubbio che si avrebbe un aumento del TDP rispetto a quanto elaborato con 2 TH, ma è anche vero che comunque la potenza del core aumenterebbe.

Facendo un esempio stile Intel... il TDP del core è valutato (correggimi se sbaglio) con l'SMT attivo. Senza SMT, il TDP raggiunto è per forza di cose inferiore. Ora... supponiamo di essere sul 9nm, con 140W cosa ci sarà? 20TH? Ma non sarebbe meglio in ambito desktop, limitare i TH a 12/16 ma con un core in grado di arrivare a frequenze più alte?

Il silicio inoperoso è silicio buttato, che consuma solo potenza. E' sempre meglio usarlo il più possibile, con SMT, strategie di predizione salti, caching e tenere sempre occupate le unità...

tuttodigitale
20-03-2016, 17:01
Io per scaling intendo il passaggio da 1 thread a 2 thread, forse mi sono espresso male...
appunto, è questo che non mi torna.
Da una parte abbiamo
1thread
XV vs ZEN
2ALU vs 4 ALU
2AGU vs 2AGU
1 ICache vs 1 ICache
4 decoder vs 4 decoder
48 entries vs 96entries(!?). (scheduler integer)

Ma XV nel multithread raddoppia buona parte delle risorse, cosa che ZEN non fa...
differenze MT vs ST, per ZEN e XV
ALU +0%, +100$
AGU +0%, +100%
I cache 0%, +100%
entries, 0%, +100%.
decoder 0%, +100%
Nel CMT buona parte delle risorse vengono duplicate, ecco perchè lo scaling di steamroller è pari al 87% di quello di un ipotetico dual core-2Moduli...

Se lo scaling di ZEN fosse equivalente a quello di XV, significherebbe che la grande coda unica, e le risorse maggiori a livello di core, non sarebbero minimamente sfruttate dal thread singolo...

plainsong
20-03-2016, 17:30
Se lo scaling di ZEN fosse equivalente a quello di XV, significherebbe che la grande coda unica, e le risorse maggiori a livello di core, non sarebbero minimamente sfruttate dal thread singolo...

Quoto il ragionamento. Imho quando lo scaling Intel con SMT si assesta sul 30% per il secondo thread è perchè, semplicisticamente, il primo thread sta "spingendo" già molto di suo, saturando buona parte delle risorse disponibili. Su queste basi mi viene da pensare che uno scaling SMT marcatamente migliore sarebbe ottenibile solo aumentando le risorse hardware dedicate ad ogni thread, che tuttavia a quel punto risulterebbero sottoutlizzate in scenari single thread (il che ricorda quanto già tentato con Bulldozer).

bjt2
20-03-2016, 17:57
appunto, è questo che non mi torna.
Da una parte abbiamo
1thread
XV vs ZEN
2ALU vs 4 ALU
2AGU vs 2AGU
1 ICache vs 1 ICache
4 decoder vs 4 decoder
48 entries vs 96entries(!?). (scheduler integer)

Ma XV nel multithread raddoppia buona parte delle risorse, cosa che ZEN non fa...
differenze MT vs ST, per ZEN e XV
ALU +0%, +100$
AGU +0%, +100%
I cache 0%, +100%
entries, 0%, +100%.
decoder 0%, +100%
Nel CMT buona parte delle risorse vengono duplicate, ecco perchè lo scaling di steamroller è pari al 87% di quello di un ipotetico dual core-2Moduli...

Se lo scaling di ZEN fosse equivalente a quello di XV, significherebbe che la grande coda unica, e le risorse maggiori a livello di core, non sarebbero minimamente sfruttate dal thread singolo...

Come ho scritto la maggior parte del software ha un IPC INT di poco superiore a 1, e comunque un buon 20-30% sono istruzioni memoria. Quelli che ne hanno 2 o più sono FP, ma comunque di istruzioni non fp sempre poco sopra una ne fanno... Quindi 4 unità INT sono quasi INUTILI, tranne casi rari o patologici. Daltronde BD ne ha solo 2 proprio per questo motivo.

Quindi nell'ST Zen vedrà una sottoutilizzazione delle 4 unità INT e con un secondo thread raddoppierà o quasi le prestazioni, da cui lo scaling superiore all'80%...

tuttodigitale
20-03-2016, 18:32
Come ho scritto la maggior parte del software ha un IPC INT di poco superiore a 1, e comunque un buon 20-30% sono istruzioni memoria. Quelli che ne hanno 2 o più sono FP, ma comunque di istruzioni non fp sempre poco sopra una ne fanno... Quindi 4 unità INT sono quasi INUTILI, tranne casi rari o patologici. Daltronde BD ne ha solo 2 proprio per questo motivo.
infatti io non mi aspettavo nulla di esaltante per la sola presenza delle 4 ALU (avevo ipotizzato un ipc nel ST complessivamente superiore del 15% figurati:D ). Anche nel P4, Intel dichiarava un utilizzo delle unità del back-end pari al 30%. (e lo scaling era del 15-25%, segno che i colli di bottiglia per il secondo thread erano altri :read:)

le unità aggiuntive servono solo per catturare i picchi di ipc, ma certamente non cambiano il quadro generale più di tanto..
Proprio per questo, il solo numero di porte da solo non ci indica lo scaling. Lo scaling dipende anche da quante risorse ruba il thread aggiuntivo.

E secondo me, non ha nessun senso in chiave SMT2, progettare un'architettura con uno scaling pari o superiore al 80%.....rischi di avere consumi superiori ad un dual core, senza comunque offrire un ipc nel ST superiore in maniera tangibile. Non ha molto senso, imho. A quel punto meglio un dual core senza SMT...(il power 7/8 è lungi dall'offrire un +80% al secondo thread e non è un caso, imho)

INvece la mia prospettiva era diversa..mettere a disposizione grossomodo le stesse risorse del front end di un core Skylake, ma senza estremizzazioni a livello di ILP deletieri per l'efficienza, ottenendo grossomodo lo stesso livello di prestazioni nel MT, pur partendo da un ipc nel ST inferiore, ma non basso, ovvero significativamente maggiore di un core XV.


Quindi nell'ST Zen vedrà una sottoutilizzazione delle 4 unità INT e con un secondo thread raddoppierà o quasi le prestazioni, da cui lo scaling superiore all'80%...
Ma la L0 e la Dcache L1, lo scheduler, maggiorati per via del SMT, non darebbero nessun contributo al primo thread, se lo scaling fosse non solo in linea ma addirittura superiore a Piledriver.
Sono convinto del contrario.:read:

bjt2
20-03-2016, 19:46
infatti io non mi aspettavo nulla di esaltante per la sola presenza delle 4 ALU (avevo ipotizzato un ipc nel ST complessivamente superiore del 15% figurati:D ). Anche nel P4, Intel dichiarava un utilizzo delle unità del back-end pari al 30%. (e lo scaling era del 15-25%, segno che i colli di bottiglia per il secondo thread erano altri :read:)

le unità aggiuntive servono solo per catturare i picchi di ipc, ma certamente non cambiano il quadro generale più di tanto..
Proprio per questo, il solo numero di porte da solo non ci indica lo scaling. Lo scaling dipende anche da quante risorse ruba il thread aggiuntivo.

E secondo me, non ha nessun senso in chiave SMT2, progettare un'architettura con uno scaling pari o superiore al 80%.....rischi di avere consumi superiori ad un dual core, senza comunque offrire un ipc nel ST superiore in maniera tangibile. Non ha molto senso, imho. A quel punto meglio un dual core senza SMT...(il power 7/8 è lungi dall'offrire un +80% al secondo thread e non è un caso, imho)

INvece la mia prospettiva era diversa..mettere a disposizione grossomodo le stesse risorse del front end di un core Skylake, ma senza estremizzazioni a livello di ILP deletieri per l'efficienza, ottenendo grossomodo lo stesso livello di prestazioni nel MT, pur partendo da un ipc nel ST inferiore, ma non basso, ovvero significativamente maggiore di un core XV.


Ma la L0 e la Dcache L1, lo scheduler, maggiorati per via del SMT, non darebbero nessun contributo al primo thread, se lo scaling fosse non solo in linea ma addirittura superiore a Piledriver.
Sono convinto del contrario.:read:

Sarebbero dettagli... Le cache e le code, se ben dimensionate per il carico massimo, al dimezzare del carico (e quindi raddoppiare le risorse per un thread) guadagni massimo 5-10%...

paolo.oliva2
20-03-2016, 20:13
Il silicio inoperoso è silicio buttato, che consuma solo potenza. E' sempre meglio usarlo il più possibile, con SMT, strategie di predizione salti, caching e tenere sempre occupate le unità...

K, ho capito (che ho scritto una minchiata) :sofico:

digieffe
20-03-2016, 21:47
@bjt2 quando parli di 1,2-1,5 oppure 2 IPC incaso di fp è riferito all'isa x86 immagino

sarebbe da capire quante uops o mops generano (int, mem e fp) e come queste occupano le pipeline.

ovvero quelle 1..2 istruzioni x86 quante pipeline va ad occupare in media?

affiu
21-03-2016, 00:22
Fino ad oggi si è sempre cercato di diminuire il TDP per ottenere potenze superiori a die. Lo si è cercato tramite SMT, CMT e qualsivoglia.



Siamo quasi sicuri?HSA lo tagliamo?ci sta quasi per avvenire questo Salto:

Apu=accelerated processor unit
''MTpu=multiplied Thread processor unit''.:D

Nessuna miniaturizzazione e nessuna architettura potrebbe far andare un programma più velocemente di se stesso di circa un 500 volte e più a parità di tdp.:eek:

Poi la PROMESSA resta sempre i 20 teraflop di potenza grafica integrata....immagina un gioco a 8k che sta dentro un tdp di circa 200w.
Oggi come sia un gioco che un altro qualsiasi programma, non potrebbe andare piu veloce di quel fattore di velocità senza il calcolo eterogeneo, è più che impossibile.

Immagina una potenza da circa 5/10 volte quella di una play di oggi in ambiente HSA maturo:read::eek:

digieffe
21-03-2016, 10:50
comunque sia anche se Zen avesse "solo" il 90% dell'IPC di BW-E con lo scaling SMT del +50% e frequenza base di 3ghz, basterebbe per stare poco sotto in MT all'8 Core BW-E (3.2ghz ? ), in quanto:

~3ghz Zen 8C = ~3.10ghz BW-E 8C

spiego:

3.00*8*1.5 = 36
36*0.90/8/1.3 = 3.10ghz

dove 0.90 è il fattore correttivo di IPC

fosse a 3.5ghz def se la giocherebbe o starebbe poco sotto addirittura al 10C in MT:

~3.5ghz Zen 8C = ~3.65ghz BW-E 8C = ~2.9ghz BW-E 10C

quindi anche a 3ghz sarebbe molto competitivo in MT Core to Core, meno in ST ma dipende dal Turbo se può salire di 1ghz o meno o se la frequenza base fosse 3.5ghz dato che il turbo si accosterebbe sicuramente ai 4ghz...

riassumendo:

IPC = 90% BW-E
SMT = +50%

3~3.5 ghz def o 3.5~4ghz Turbo

a 95 watt avrebbe un efficienza superiore agli Intel :stordita: , ma anche a 125 watt avrebbe la stessa efficienza :read:

bah, e non mi pare di aver esagerato con i conti, anzi...

Sei riuscito a sintetizzare benissimo ciò che penso da un bel po' di tempo...

Trovo realistici anche i range da min. 3.0 ghz a max 3.5 di freq base e da 3.5 a 4.0 di turbo.
per lo scaling hai messo il massimo, io considererei un min +35% ed un max +50%

Ben fatto

Piedone1113
21-03-2016, 12:19
Sei riuscito a sintetizzare benissimo ciò che penso da un bel po' di tempo...

Trovo realistici anche i range da min. 3.0 ghz a max 3.5 di freq base e da 3.5 a 4.0 di turbo.
per lo scaling hai messo il massimo, io considererei un min +35% ed un max +50%

Ben fatto

Onestamente credo che possa essere anche sopra in determinati condizioni.
Maggiore è il contributo di smt in intel (ci sono software che danno + 8% dall'smt, mentre altri + 50%, credo che su quest'ultimi un turbo efficente potrebbe dare un bel boost a zen).

bjt2
21-03-2016, 12:32
@bjt2 quando parli di 1,2-1,5 oppure 2 IPC incaso di fp è riferito all'isa x86 immagino

sarebbe da capire quante uops o mops generano (int, mem e fp) e come queste occupano le pipeline.

ovvero quelle 1..2 istruzioni x86 quante pipeline va ad occupare in media?

Beh, il 94%-96% delle istruzioni sono da una o due mop, come qualcuno ha postato qui (o su semiaccurate... Non mi ricordo... :D). Le altre sono istruzioni di sistema o codice legacy... L'IPC credo si riferisca alle MOP, ma vista questa statistica non fa molta differenza... Noi ingegneri siamo abituati ad approssimare... :p Anche un errore del 10-20% rende comunque l'idea, a questo stadio e per quello che sappiamo...

paolo.oliva2
22-03-2016, 01:16
http://wccftech.com/amd-raven-ridge-apu-14nm-glofo-amkor/

Non so se sono novità.

"Con Carrizo, AMD è riuscita a ottenere un sacco di prestazioni per watt miglioramenti. AMD ha dichiarato che questi miglioramenti sono vicini a 2.4x perf / watt, circa lo stesso di quello che AMD sta ottenendo su GPU Polaris quest'anno".
A spannella... se con Carrizo e sempre sul 28nm ha fatto 2,4X potenza a parità di Watt... se il 14nm almeno almeno dimezza i Watt rispetto al 28nm e se le implementazioni di Carrizo sono trasportabili su Zen, 95W praticamente corrisponderebbero grosso modo al doppio del TDP di un 9590 (225W x 2).
Direi che 95W si raggiungerebbero in OC :)

Ottobre 2016 data di lancio di Zen, X8 16TH

tuttodigitale
22-03-2016, 11:35
Sarebbero dettagli... Le cache e le code, se ben dimensionate per il carico massimo, al dimezzare del carico (e quindi raddoppiare le risorse per un thread) guadagni massimo 5-10%...
il 5-10% di solito è il gap per il solo dimezzamento della L2 ...devi rivedere un pò le tue stime, imho...

bjt2
22-03-2016, 12:33
il 5-10% di solito è il gap per il solo dimezzamento della L2 ...devi rivedere un pò le tue stime, imho...

Per questo ho detto se dimensionate bene...

Se BD ha x elementi per le code interne e Zen ne ha 2x, in ST guadagnerà massimo 5-10% e quindi perderà massimo 5-10% nel passaggio da ST a MT...

tuttodigitale
22-03-2016, 12:39
http://wccftech.com/amd-raven-ridge-apu-14nm-glofo-amkor/

Non so se sono novità.

"Con Carrizo, AMD è riuscita a ottenere un sacco di prestazioni per watt miglioramenti. AMD ha dichiarato che questi miglioramenti sono vicini a 2.4x perf / watt, circa lo stesso di quello che AMD sta ottenendo su GPU Polaris quest'anno".
A spannella... se con Carrizo e sempre sul 28nm ha fatto 2,4X potenza a parità di Watt... se il 14nm almeno almeno dimezza i Watt rispetto al 28nm e se le implementazioni di Carrizo sono trasportabili su Zen, 95W praticamente corrisponderebbero grosso modo al doppio del TDP di un 9590 (225W x 2).
Direi che 95W si raggiungerebbero in OC :)

Ottobre 2016 data di lancio di Zen, X8 16TH

Ho il sospetto che non ci sarà nessun 16-core monolitico...tra i vantaggi dell'interposer c'è il partizionamento dei die.... e del time-to-market accelerato...

PS 2,4x credo che si riferisca al consumo tipico dell'intera piattaforma (kaveri ha bisogno di un FCH)

tuttodigitale
22-03-2016, 12:52
Per questo ho detto se dimensionate bene...


il fatto che noi due abbiamo un concetto diverso di dimensionate bene.:D
Per me uno scaling del 80% con SMT2 vuol dire esattamente l'opposto...:p

Solo il tempo ci dirà chi tra noi due ha ragione ::O

Se BD ha x elementi per le code interne e Zen ne ha 2x, in ST guadagnerà massimo 5-10% e quindi perderà massimo 5-10% nel passaggio da ST a MT...
le risorse in più servono anche per avere (così si dice) il 40% di ipc più di XV nel ST. Lo scaling subirebbe un ribasso anche per un maggiorm E BENVENUTO, sfruttamento delle risorse nel thread singolo.

bjt2
22-03-2016, 12:57
Ho il sospetto che non ci sarà nessun 16-core monolitico...tra i vantaggi dell'interposer c'è il partizionamento dei die.... e del time-to-market accelerato...

PS 2,4x credo che si riferisca al consumo tipico dell'intera piattaforma (kaveri ha bisogno di un FCH)

Per i server il costo dell'interposer è ampiamente giustificato dai prezzi che normalmente si praticano e il vantaggio di avere die più piccoli è che si può selezionare meglio i die con meno leakage e/o di migliore qualità... Con die enormi è impossible avere tutti i core omogenei...

il fatto che noi due abbiamo un concetto diverso di dimensionate bene.:D
Per me uno scaling del 80% con SMT2 vuol dire esattamente l'opposto...:p

Solo il tempo ci dirà chi tra noi due ha ragione ::O

Ma con il 14nm c'è talmente tanto spazio che ogni core può avere tutti i transistors necessari...

tuttodigitale
22-03-2016, 14:07
Ma con il 14nm c'è talmente tanto spazio che ogni core può avere tutti i transistors necessari...
Mi pare che l'incremento delle prestazioni nel ST e nel MT, delle architetture Intel sia andato di pari passo, e considera che i 14nm di Intel sono paragonabili ai 10nm di Samsung..
buttare transistor, che poi potrebbero servire per implementare un core aggiuntivo, seguendo la logica, tanto posso, e non quella della soluzione "migliore", non mi pare furbo tanto meno se parti sulla carta, con un silicio di qualità peggiore al concorrente..
Lo scaling del 80% (lato integer) pare poco credibile, tanto valeva continuare con il CMT e ottenere gli stessi benefici nel ST...

bjt2
22-03-2016, 14:11
Mi pare che l'incremento delle prestazioni nel ST e nel MT, delle architetture Intel sia andato di pari passo, e considera che i 14nm di Intel sono paragonabili ai 10nm di Samsung..
buttare transistor, che poi potrebbero servire per implementare un core aggiuntivo, seguendo la logica, tanto posso, e non quella della soluzione "migliore", non mi pare furbo tanto meno se parti sulla carta, con un silicio di qualità peggiore al concorrente..
Lo scaling del 80% pare poco credibile, tanto valeva continuare con il CMT...o ottenere gli stessi benefici nel ST...

Nel CMT hai code separate sugli INT, AGU, cache separate... Costa più area di un SMT e se fai un core abbastanza "cicciottello" con SMT puoi ottenere prestazioni paragonabili a un modulo, con la possibilità, con poche modifiche, di passare a SMT4...

digieffe
22-03-2016, 15:20
http://www.bitsandchips.it/9-hardware/6772-il-socket-am4-sara-uopga-ed-avra-1331-pin
1331 pin :stordita:

quindi ancora con i pin nella cpu e conseguente poca corrente attraverso gli stessi?

Se così fosse mirano ad una piattaforma poco costosa, a questo punto sarà necessario vedere cosa presenteranno per l'Opteron

digieffe
22-03-2016, 17:07
perché poca corrente? tra l'altro comunque i pin aumentano del 41~42% rispetto AM3(+) 938~942 vs 1331

"Del primo prenderà la capacità di poter garantire un'elevata richiesta energetica, offrendo la possibilità di sfruttare CPU High Performance da 140Watt (o forse più)"

Overclock Garantito?

...e comunque dice che per la piattaforma server sarà utilizzato il sistema LGA

corrente intesa come Ampere.

non si è sempre detto che con i pin nel socket (lga?) può passare più corrente?


EDIT: quanti pin ha fm2?

capitan_crasy
22-03-2016, 18:18
http://www.bitsandchips.it/9-hardware/6772-il-socket-am4-sara-uopga-ed-avra-1331-pin
1331 pin :stordita:

Sembrano stranamente tanti anche per un APU che attualmente ne ha meno di una CPU classica.
Comunque il numero non è un grosso problema; basta aggiungere una media di 3 file di pin all'esterno per lato (al centro un AM3+ ha 31 pin) del package mantenendo lo stesso diametro dei pin già utilizzato per gli attuali AM3+...

bjt2
22-03-2016, 19:29
Varie ipotesi, che ritengo più verosimili (escludendo ipotesi fantasiose come 4 canali RAM) e che possono essere combinate:

1) I pin sono più sottili, quindi per la stessa corrente servono più pin.
2) TDP max aumentato, quindi servono più pin per l'alimentazione.
3) Vcore abbassato notevolmente, quindi per dissipare lo stesso TDP serve più corrente (ma quindi maggiore frequenza massima)
4) Linea/linee di alimentazione aggiuntiva/e con tensione separate e indipendenti da quelle già presenti, ad esempio per eventuale memoria HBM on chip, oppure per alimentazione di south bridge integrato (nel caso di SoC)
5) Linee pciexpress, DP, usb, sata, ecc. aggiuntive
6) Pin per le funzionalità aggiuntive del SB, come gigabit ethernet, wifi, magari addirittura audio...

EDIT: anche su semiaccurate ci discutono... (e mio tweet a dresdenboy...)

capitan_crasy
22-03-2016, 19:51
Varie ipotesi, che ritengo più verosimili (escludendo ipotesi fantasiose come 4 canali RAM) e che possono essere combinate:

1) I pin sono più sottili, quindi per la stessa corrente servono più pin.
2) TDP max aumentato, quindi servono più pin per l'alimentazione.
3) Vcore abbassato notevolmente, quindi per dissipare lo stesso TDP serve più corrente (ma quindi maggiore frequenza massima)
4) Linea/linee di alimentazione aggiuntiva/e con tensione separate e indipendenti da quelle già presenti, ad esempio per eventuale memoria HBM on chip, oppure per alimentazione di south bridge integrato (nel caso di SoC)
5) Linee pciexpress, DP, usb, sata, ecc. aggiuntive
6) Pin per le funzionalità aggiuntive del SB, come gigabit ethernet, wifi, magari addirittura audio...

EDIT: anche su semiaccurate ci discutono... (e mio tweet a dresdenboy...)

Vero...
Mi dimentico sempre che le APU ZEN sono full SoC!:doh:

paolo.oliva2
22-03-2016, 21:23
Varie ipotesi, che ritengo più verosimili (escludendo ipotesi fantasiose come 4 canali RAM) e che possono essere combinate:

1) I pin sono più sottili, quindi per la stessa corrente servono più pin.
2) TDP max aumentato, quindi servono più pin per l'alimentazione.
3) Vcore abbassato notevolmente, quindi per dissipare lo stesso TDP serve più corrente (ma quindi maggiore frequenza massima)
4) Linea/linee di alimentazione aggiuntiva/e con tensione separate e indipendenti da quelle già presenti, ad esempio per eventuale memoria HBM on chip, oppure per alimentazione di south bridge integrato (nel caso di SoC)
5) Linee pciexpress, DP, usb, sata, ecc. aggiuntive
6) Pin per le funzionalità aggiuntive del SB, come gigabit ethernet, wifi, magari addirittura audio...

EDIT: anche su semiaccurate ci discutono... (e mio tweet a dresdenboy...)

In teoria... le alimentazioni a isola hanno pin separati?

Il buono è che se parlano di 140W, mi sembra un parallelismo al socket 2011 Intel... perchè fino a ieri parlavano di 95W per Zen X8...
Secondo me... non credo che il 14nm GF vadi d'accordo con 8 core e 140W.
Per dirla breve... se Zen X8 avesse anche solamente 3GHz in 95W, mi sembra abbastanza lecito supporre un Zen X12 alla stessa frequenza nei 140W... perchè sarebbe molto competitivo sia con un 5960X 14nm 3,5GHz ma X8 e lo sarebbe pure anche con l'X10 sempre 14nm nei 3,2GHz.
Sputtanarsi stile 9590 per portare un Zen X8 a 4GHz, sarebbe bello perchè la stessa versione 95W corrisponderebbe grosso modo ad un 8320 (quindi con ampie possibilità di superare in OC la frequenza def di un Zen X8 140W, come oggi l'8320 lo fa su un 8350).

Poi ci metterei altro. Secondo me il die di Zen nativo sarebbe X8 (da qui anche l'intenzione di portare a X8 anche gli APU). Ora... dando per vero che Zen Opteron possa arrivare a X32, AMD non avrebbe problemi di concorrenza interna a portare Zen desktop anche fino a X16. Ma da 2 X8 nativi, si avrebbero 2 MC che devono avere il collegamento ai banchi ram.

Dopo 7 anni dove AMD non ha potuto fare granché per enormi limitazioni di silicio, mi sembra ovvio che sfruttarà appieno tutte le possibilità, ed ovviamente dietro pure GF avrebbe tutti gli interessi.

affiu
23-03-2016, 00:56
Ho il sospetto che non ci sarà nessun 16-core monolitico...tra i vantaggi dell'interposer c'è il partizionamento dei die.... e del time-to-market accelerato...

PS 2,4x credo che si riferisca al consumo tipico dell'intera piattaforma (kaveri ha bisogno di un FCH)

Forse nel settore desktop ci può stare, ma in quello desktop-APU(che poi diventerà la fascia ''alta'')non credo proprio, senza escluderlo chiaramente perchè tutto resta sempre possibile; io parto da un altro tipo di logica di partenza.

Partendo dalla ps4 è la APU più potente che esiste come potenza computazionale ''grafica''; viene veloce pensare se sarebbe stato meglio 4 core bulldozer e il restante gpu.
La parte grafica di un APU ha bisogno di avere una cpu che non sia potente ma che facciano un lavoro quanto ''più parallelo'' possibile, quindi è preferibile più core piccoli che si ''accollano'' circa un thread che averne più grande ma che non garantisce questa equazione: 1-1-core-thread.
Poi è tutto un discorso di miniaturizzazione, ma se volessimo rafforzare questo punto di partenza, sempre se non vado errato, i core di jaguar dovrebbero essere circa 3 mm2,... mentre quelle di bulldozer circa 9 e rotti mm2
Adesso considerando solo la superfice dei core( è giustamente bisogna considerare le dimensione delle altre unitè di un intero processore) siamo a 1 a 3 come superfice; della serie, considerando il passaggio dal 32nm(o 28nm per le console) al 14nm, 16 core monolitici sarebbe il minimo.:eek: ;)

D'altronde meglio e molti dovrebbero essere i cores; anche la gpu della ps4(sempre se non erro, corregetemi) e circa su 90mm2, roba più roba meno, quindi 1 a 3 cpu vs gpu come area dell'intero processore.....la pari potenza di una gpu ne occuperebbe come spazio circa circa 230mm2(una 7870), ma questo è un altro aspetto ancora.
Quindi per far girare un gioco a 4k od 8k bisognano, sempre come minimo:D almeno 16 core od 32 per bilanciare una gpu-APU di circa 150 mm2:eek:
In fondo e per ipotesi basta che i core siano anche un 4/5 mm2 è sempre la metà di un core bulldozer e siamo sempre a 32nm, già si potrebbero avere 16 core.
Considera che devono equilibrare la cpu e gpu( anzi per essere giustamente pignoli i cores cpu dovrebbero scomparire dentro la gpu, cioè invertire il 33% di una porzione di gpu-apu al 66% per non dire 90/95% di area occuppata dalla gpu, ma questo è un altro aspetto ancora), quindi se si allargano anche da 90 mm2 di una gpu-APU fino a 140/170mm2 siamo alla metà di circa un 300/350mm2 del die di un processore Apu spinto al max, sempre a mio avviso.
Non credo che abbandonando, almeno per il SOLO mondo apu, il cmt c'è possibilità di sostituire la solita equazione.:muro:
Perchè ci dovrebbe essere da esludere un 16 core quando invece, con molta possibilità potremmo vedere un 32 core?...vi immaginate un 8 core desktop fascia alta vs un APU-desktp a 16 core,che per forza tanti ne dovrebbe avere se no non potrebbe bilanciare la potenza di una GPU, chi dovrebbe ''vincere''?Quale comprereste voi?

paolo.oliva2
23-03-2016, 07:24
Forse nel settore desktop ci può stare, ma in quello desktop-APU(che poi diventerà la fascia ''alta'')non credo proprio, senza escluderlo chiaramente perchè tutto resta sempre possibile; io parto da un altro tipo di logica di partenza.

Partendo dalla ps4 è la APU più potente che esiste come potenza computazionale ''grafica''; viene veloce pensare se sarebbe stato meglio 4 core bulldozer e il restante gpu.
La parte grafica di un APU ha bisogno di avere una cpu che non sia potente ma che facciano un lavoro quanto ''più parallelo'' possibile, quindi è preferibile più core piccoli che si ''accollano'' circa un thread che averne più grande ma che non garantisce questa equazione: 1-1-core-thread.
Poi è tutto un discorso di miniaturizzazione, ma se volessimo rafforzare questo punto di partenza, sempre se non vado errato, i core di jaguar dovrebbero essere circa 3 mm2,... mentre quelle di bulldozer circa 9 e rotti mm2
Adesso considerando solo la superfice dei core( è giustamente bisogna considerare le dimensione delle altre unitè di un intero processore) siamo a 1 a 3 come superfice; della serie, considerando il passaggio dal 32nm(o 28nm per le console) al 14nm, 16 core monolitici sarebbe il minimo.:eek: ;)

D'altronde meglio e molti dovrebbero essere i cores; anche la gpu della ps4(sempre se non erro, corregetemi) e circa su 90mm2, roba più roba meno, quindi 1 a 3 cpu vs gpu come area dell'intero processore.....la pari potenza di una gpu ne occuperebbe come spazio circa circa 230mm2(una 7870), ma questo è un altro aspetto ancora.
Quindi per far girare un gioco a 4k od 8k bisognano, sempre come minimo:D almeno 16 core od 32 per bilanciare una gpu-APU di circa 150 mm2:eek:
In fondo e per ipotesi basta che i core siano anche un 4/5 mm2 è sempre la metà di un core bulldozer e siamo sempre a 32nm, già si potrebbero avere 16 core.
Considera che devono equilibrare la cpu e gpu( anzi per essere giustamente pignoli i cores cpu dovrebbero scomparire dentro la gpu, cioè invertire il 33% di una porzione di gpu-apu al 66% per non dire 90/95% di area occuppata dalla gpu, ma questo è un altro aspetto ancora), quindi se si allargano anche da 90 mm2 di una gpu-APU fino a 140/170mm2 siamo alla metà di circa un 300/350mm2 del die di un processore Apu spinto al max, sempre a mio avviso.
Non credo che abbandonando, almeno per il SOLO mondo apu, il cmt c'è possibilità di sostituire la solita equazione.:muro:
Perchè ci dovrebbe essere da esludere un 16 core quando invece, con molta possibilità potremmo vedere un 32 core?...vi immaginate un 8 core desktop fascia alta vs un APU-desktp a 16 core,che per forza tanti ne dovrebbe avere se no non potrebbe bilanciare la potenza di una GPU, chi dovrebbe ''vincere''?Quale comprereste voi?

Guarda, io la penso così:
il primo passo (come poi sarebbe confermato dalle info di vendita) è quello di uscire con Zen X86 e far vedere che l'architettura Zen è valida ed idem il 14nm GF.
Il secondo passo è quello di Zen APU (che del resto sarebbe proprio annunciato nel 1° trimestre 2017) con un numero massimo di core ALMENO di X8.
Questo perchè? Se lo sviluppo HSA e Huma sarà abbastanza maturo da offrire software specifico che sfrutti l'IGP all'interno del procio (se consideriamo cosa fa l'IGP di Carrizo in 7W sul 28nm, un Zen APU X8 avrebbe 45W sul 14nm..., credo supererebbe tranquillamente la fascia delle VGA discrete bassa se non media realizzate sul 28nm), il tutto unito alla potenzialità di una IGP dentro il procio rispetto a una discreta (come velocità di collegamento e/o interazione X86), la cosa sarebbe di tutto rispetto.
Uniscici pure il discorso che Intel mi sembra non potrebbe "inserire" l'IGP nella fascia socket 2011 semplicemente perchè non ha un margine TDP (dal 22nm al 14nm se inserisse una IGP non riuscirebbe a mantenere la stessa potenza X86 del 22nm), presumo dovrebbe aspettare almeno il 9nm... ma fra quanto? Un Zen APU X8 nel 2017 spiazzerebbe Intel... non ci sarebbe bisogno di X16 APU.

bjt2
23-03-2016, 07:58
In teoria... le alimentazioni a isola hanno pin separati?

Non vedo vantaggi a separare le linee. Legheresti le mani a i produttori di MB sul numero di fasi da mettere... E poi dal punto di vista dell'affidabilità è meglio avere più pin possibili in parallelo che alimentano tutto quello che deve avere la stessa tensione, così se qualche PIN o qualche VRM salta, la CPU funziona ancora...

tuttodigitale
23-03-2016, 08:17
Forse nel settore desktop ci può stare, ma in quello desktop-APU(che poi diventerà la fascia ''alta'')non credo proprio, senza escluderlo chiaramente perchè tutto resta sempre possibile; io parto da un altro tipo di logica di partenza.
il punto è che i 16 core + 2048 sp, dovrebbero occupare meno di 500 mmq....dimensione abbondantemente gestibile dall'interposer.
Non capisco invece la logica di partenza. L'interposer nelle APU HPC, ci dovrà comunque essere, soluzione monolitica o un puzzle di elementi proprio per connettere le HBM..
Infatti i rumors davano per certo che le APU HPC fossero formate da 4 die... 2xPolaris 11 e 2xZEN x8...


PS non metto in dubbio che l'APU sarà una soluzione a 16core...ma solo che non ci sarà nessun die monolitico oltre ZEN x8 e l'apu consumer. Secondo me dovremmo attendere ZEN+ per quello.


Considera che devono equilibrare la cpu e gpu( anzi per essere giustamente pignoli i cores cpu dovrebbero scomparire dentro la gpu, cioè invertire il 33% di una porzione di gpu-apu al 66% per non dire 90/95% di area occuppata dalla gpu, ma questo è un altro aspetto ancora),
il rapporto "migliore" dipende.
un altro possibile vantaggio dell'interposer e dei puzzle di die è anche quello di poter cambiare il rapporto CPU-GPU...APU HPC x8+2048sp, o x16+1024sp sarebbero possibili semplicemente togliendo pezzi interi di die, o ancora APU X24-32+1024sp, aggiungendo previa modifica dell'interposer 1-2 die ZEN, in sostituzione del die della GPU e un paio di stack di HBM...
...e non è detto che non sia possibile, spazio per HBM permettendo, di fare un apu x8-3084 sp...
Non sottovalutiamo la flessibilità che l'interposer può dare....il tutto ad una frazione del costo rispetto a vari tape out...:read:

Alla fine lato CPU, oltre al nuovo bus, sarebbe richiesta la sola presenza sul die di una coppia di MC dual channel, a fine di presentare sulla motherboard sempre 4 canali per la memoria.

bjt2
23-03-2016, 08:25
quale sarebbe? :)

https://twitter.com/bjt2marco/status/712361969936961541

ah, mi spiegheresti gentilmente il punto 3 alla veloce anche? :D

Il limite alla frequenza di una CPU, se il FO4 è abbastanza basso, dipende dalla potenza dissipabile dalla CPU. Allo scendere del processo produttivo e a parità di FO4, la tensione necessaria a una certa frequenza scende. Se poi scende anche il FO4, la tensione cala ulteriormente. Ma se un chip ha la possibilità di dissipare tot Watt con un sistema di raffreddamento, per sfruttarli tutti, siccome la tensione è diminuita, devi aumentare la corrente, aumentando i transistors (quindi chip più complesso) e/o la frequenza operativa. Ma un pin di un certo spessore può portare solo una certa quantità di corrente. Quindi più corrente, più pin sono necessari.

comunque : http://www.legitreviews.com/aida64-v5-70-released-amd-zen-intel-kaby-lake-cpu-support_180117

Visto... :D

http://www.extremetech.com/wp-content/uploads/2015/01/Carrizo-FIVR.jpg
Carrizo dovrebbe essere vicino al 2x rispetto a kaveri come efficienza e sullo stesso silicio (più prestazioni con tdp da 95 a 65watt) in più il numero dei pin aggiuntivi dovrebbe presupporre molte feature come IVR, ecc... insomma i riquadri viola tutti trasportati su Zen

Se non mi sbaglio Carrizo è un SoC e quindi ha anche il SB integrato... Speriamo che Zen sia così... Basta SB fatti a 65nm che scaldano e consumano un botto! Questo poi spiegherebbe anche i pin in più...

tuttodigitale
23-03-2016, 08:58
a tal proposito, col il socket AM3+ (quello Nero) e i Pin delle cpu AM3+ non era stata aumentato l'Area in mmq dei Pin stessi per aumentarne gli Ampere e quindi la frequenza massima possibile? di fatto il 32nm richiede le stesse tensioni dei 45nm ma sale fino a ~5ghz in confronto ai ~4ghz dei 45nm, e poi mura ad aria all'incirca...
Questa è un'anomalia...
Bulldozer a parità di processo produttivo e VCORE doveva girare a frequenze superiori del 30%....:cry: (in turbo boost probabilmente avrebbe potuto raggiungere i 5GHz sui 45nm, senza sforare il TDP)
In pratica stai affermando che i 45nm, sono più prestanti dei 32nm :O (pagine addietro avevo postato anche i ridicoli miglioramenti di ipc e frequenza dei power7+...dati forniti dalla stessa IBM, a pensare che AMD e GF si attendevano lo stesso clamoroso salto che era avvenuto dai 65 ai 45nm...)

bjt2
23-03-2016, 10:04
ah ecco, siccome non sono iscritto a twitter non mi fa vedere il tuo retweet

grazie della spiegazione, diciamo che poteva arrivarci da solo in quanto W=V x A :doh:

a tal proposito, col il socket AM3+ (quello Nero) e i Pin delle cpu AM3+ non era stata aumentato l'Area in mmq dei Pin stessi per aumentarne gli Ampere e quindi la frequenza massima possibile? di fatto il 32nm richiede le stesse tensioni dei 45nm ma sale fino a ~5ghz in confronto ai ~4ghz dei 45nm, e poi mura ad aria all'incirca e con lo stesso numero di pin totali (938 vs 942)...

quindi, ok che servono più pin, ma se i pin sono gli stessi basta farli più cicciottosi :D ed è il caso di AM3 -> AM3+

con AM4 allora ci saranno pin più snelli chiamati appunto uOPGA, ma per avere le stesse caratteristiche degli AM3+ li hanno dovuti aumentare di numero invece che in Area di sezione...

Da 45nm a 32nm probabilmente sarà diminuita la corrente a parità di frequenza, ecco pechè salgono di più...
Con i FinFet si abbassa significativamente la tensione, sopratutto rispetto ai bulk... Sullo spessore dei pin, non sono informato... :D

tuttodigitale
23-03-2016, 10:19
il che non è una novità, basta vedere llano(k10) sul 32nm quanto facesse schifo in frequenza/tdp :muro:
http://www.cpu-world.com/CPUs/K10/AMD-A8-Series%20A8-3870%20AD3870WNZ43GX.html
chi dice il contrario non è oggettivo
zitto.... ho perso metaforicamente la voce, nel vecchio thread.:ncomment:

il dato ancor più oggettivo, è che AMD nonostante che un pò tutti i giornalai, anche quelli più accreditati, davano l'architettura come inferiore a k10, non ha accantonato il progetto, ma addirittura ha fatto un ulteriore die shrink su 28nm prima, e usato le HDL, con tutti i problemi che ne conseguono a livello di layout, dopo.
Eppure AMD aveva dati oggettivi sui 45nm lowk e i 32nm, avendo costruito prototipi praticamente pronti per la commercializzazione. Intel quando si rese conto che non poteva andare da nessuna parte con netburst, ha abbandonato il progetto e preso l'alternativa migliore in casa. Evidentemente k10 non era un'alternativa degna di nota...

AMD ha continuato a spendere milioni su bulldozer anche dopo il fail.
Ho come la sensazione, magari sbaglio, che XV sia semplicemente un mostro di architettura :read: . Qualità nascoste per colpa di un silicio non proprio uscito con i fiocchi (ma indiscutibilmente migliore dei 32nm SOI, imho)

Se consideriamo il punto di partenza, efficienza di k10==Bulldozer 1, non si può trascurare l'aumento di ipc del 30-35% nel MT di excavator, unito ad abbattimento dei consumi a parità di vcore (dovuta al AVFS).
E se consideriamo che nehalem, era circa pari nel MT rispetto a k10, mi pare ad un analisi superficiale, che a livello di architettura XV sia NETTAMENTE superiore a skylake...:read:
A meno che Intel non ci abbia ingannati pubblicizzando oltremodo miglioramenti dei consumi dovuto al silicio, addirittura indicando (prima volta nella storia) dei 26nm come dei 22nm...:sofico:

Da 45nm a 32nm probabilmente sarà diminuita la corrente a parità di frequenza, ecco pechè salgono di più...
non puoi non mettere sul piatto il diversissimo FO4..:D
a10-3870k, necessitava anche di 1,5V (rock solid?)per girare a 3,5GHz...facevano meglio i phenom su 45nm...:read:

EDIT...
.leggevo che per llano il vcore default è addirittura di 1,392-1,42V a 3GHz...c'è chi addirittura per raggiungere i 3,5GHz necessita di 1,65V...E ricordo che sotto azoto liquido, salgono bene, esattamente come i cugini bulldozer(sempre considerando le abbondanti differenze relative alla lunghezza degli stadi)-

bjt2
23-03-2016, 10:58
k10 era un mostro di architettura... Aveva un IPC alto, però anche un alto FO4 e consumava molto silicio. Se si voleva salire di core e frequenza e mettere una discreta GPU, si doveva per forza fare quello che AMD ha fatto con BD. Intel ha scelto lo SMT con core cicciottelli. AMD il CMT. Se bulldozer fosse stato come XV fin dall'inizio, Intel aveva voglia a rincorrere... L'architettura INTEL è rimasta, di base, la stessa dai tempi del pentium pro. Coda unificata con poche porte specializzate. Con 5 porte che sono rimaste tali fino a poche architetture fa nonostante l'SMT... E' chiaro che così poche porte e le limitazioni del decoder (4-1-1-1 burst) sono state ovviate con AVX 256, loop cache, predittori di salto strabilianti, uop fusion, ecc...
L'architettura BD (e K7-10), con le code separate, le MOP potentissime e i decoder e il prefetch migliore di Intel, avrebbero potuto, in potenziale, battere sempre Intel... E ai tempi del K10 vs netburst e anche i primi merom/conroe lo facevano... Ma poi Intel ci ha messo i soldi, e il compilatore ICC taroccato...

tuttodigitale
23-03-2016, 12:58
k10 era un mostro di architettura... Aveva un IPC alto, però anche un alto FO4 e consumava molto silicio.
su questo non sono d'accordo, i core k10 non sono enormi...il FO4 neppure altissimo se consideriamo i 12 stadi (sotto azoto con i 32nm, ha superato i 6GHz, valori assolutamente in linea con SB che ha pipeline assai più lunghe)
BD doveva, secondo AMD migliorare le prestazioni nel ST rispetto a k10, senza aumentare la complessità per singolo core...cosa riuscita al 100% nel confronto llano - richland, +26% in cinebench :read:

tra il top di gamma AMD (il phenom 1100T) e quello INtel (965x) a 45nm, ci passava solo il 10% di prestazioni nel ST (fonte anandtech)....

Questo vuol dire che PD a livello di architettura, anche qualora considerassimo migliorie del siliciio (che ci sono state imho), PD sarebbe risultato migliore di Nehalem nel ST.
Sulla carta, per andare più di SB nel ST bastava un semplice XV con un buon silicio..:cool:

Se dici che a livello di architettura Haswell non è niente di così speciale che AMD non possa fare MOLTO meglio (Sempre che PD-SR-XV non lo siano già, ho anche questo presentimento:ciapet: ), sfondi una porta aperta.:D

io con il 955be ero stabile con 1.45~1.50v a 3.8~4.0ghz, 1.30v a 3.5ghz e 1.25v a def (3.2ghz) :asd:, nel senso che ci facevo di tutto senza mai un problema (rock solid non saprei ma semplicemente non avevo voglia e tempo per fare i testi RS completi :sofico: )
e non ero assolutamente uno dei migliori o fortunati letti qua sul forum, c'è chi faceva meglio...

il resto è storia :read:
più o meno i miei stessi risultati. (ma non c'è da gioire nell'OC, a differenza di Paolo, io mi accontento di molto meno :rolleyes: )

paolo.oliva2
23-03-2016, 18:43
su questo non sono d'accordo, i core k10 non sono enormi...il FO4 neppure altissimo se consideriamo i 12 stadi (sotto azoto con i 32nm, ha superato i 6GHz, valori assolutamente in linea con SB che ha pipeline assai più lunghe)
BD doveva, secondo AMD migliorare le prestazioni nel ST rispetto a k10, senza aumentare la complessità per singolo core...cosa riuscita al 100% nel confronto llano - richland, +26% in cinebench :read:

tra il top di gamma AMD (il phenom 1100T) e quello INtel (965x) a 45nm, ci passava solo il 10% di prestazioni nel ST (fonte anandtech)....

Questo vuol dire che PD a livello di architettura, anche qualora considerassimo migliorie del siliciio (che ci sono state imho), PD sarebbe risultato migliore di Nehalem nel ST.
Sulla carta, per andare più di SB nel ST bastava un semplice XV con un buon silicio..:cool:

Se dici che a livello di architettura Haswell non è niente di così speciale che AMD non possa fare MOLTO meglio (Sempre che PD-SR-XV non lo siano già, ho anche questo presentimento:ciapet: ), sfondi una porta aperta.:D


più o meno i miei stessi risultati. (ma non c'è da gioire nell'OC, a differenza di Paolo, io mi accontento di molto meno :rolleyes: )

A me l'architettura BD mi è piaciuta e tanto, intesa come passaggio da Thuban X6 a un BD X8, e se il silicio fosse stato "normale", probabilmente avremmo avuto un XV X12 a frequenze superiori di quelle di un Piledriver X8, e magari anche 1GHz in più di OC (umano, a OC disumani hanno comunque benchato a 7,6GHz...)

Io non ho nulla contro l'SMT e/o Zen, l'importante è che non ci facciano pagare i TH al posto dei core... cioè, Zen sarà X8, ok, avrà il suo prezzo che spero non sia quanto un X16 :), perchè a quel punto io preferirei un X16 XV al doppio di un Piledriver.
Questo perchè? Difficilmente XV X16 avrebbe un TDP superiore a Zen X8, ed idem l'architettura BD a parità di TDP avrebbe una frequenza superiore. In questo gioco, il +40% di IPC di Zen sarebbe da valutare in base alla differenza di clock con XV, e sicuramente il +40% calerebbe e non di poco. A questo, in MT anche un +30% dell'SMT poco farebbe con il +80% del secondo core del modulo... quindi...
Speriamo almeno che Zen arrivi a 5GHz in OC... e specialmente che il 14nm sia solido come il SOI, senza morti bianche.

bjt2
23-03-2016, 18:48
L'idea INTEL di code unificate è anche buona, ma ci dovrebbero essere più code e dovrebbero essere meno specializzate. Per compensare il fatto che può eseguire solo 4 istruzioni di calcolo tra int e fp, avendo porte condivise, hanno potenziato le unità con SIMD sempre più estesi (SSE, AVX), investendo sul compilatore e castrando il codice su CPU non INTEL...

Riguardo il K10 e BD... Ricordo tutti i discorsi sul fatto che LLano aveva IPC maggiore... E' vero che i vari PD e XV ORA sono migliori del vecchio K10, ma ad implementare un K10 con le HDL e il nuovo processo cosa sarebbe successo?

Sappiamo che il FO4 dei k10 era alto e solo di poco inferiore a quello INTEL, ma AMD aveva il SOI... Mi ricordo del record di OC con azoto o forse addirittura elio che superò gli 8GHz (mi pare a 8.3GHz)... Che processore era? Bulldozer?

tuttodigitale
23-03-2016, 19:49
Riguardo il K10 e BD... Ricordo tutti i discorsi sul fatto che LLano aveva IPC maggiore... E' vero che i vari PD e XV ORA sono migliori del vecchio K10, ma ad implementare un K10 con le HDL e il nuovo processo cosa sarebbe successo?
senza scomodare le HDL e i 28nm, mi pare che mediamente, a10-6800k, core piledriver, sia superiore al a8-3870, k10, entrambi su 32nm SOI, proprio in virtù delle prestazioni mediamente superiori nel ST, per l'architettura con più basso ipc (gira oltre 1GHz in più scusa se è poco:cool: )

Mi dispiace, io sono convinto che un Phenom x8 3,6GHz, come suggerito da alcuni, era semplicemente impossibile sul 32nm SOI: considera che prove di OC di llano a questa frequenza, hanno constatato un consumo attribuibile alla sola CPU (GPU discreta) di circa 180W, ed è un quad core. Con tutti i miglioramenti del silicio immaginabile, è difficilmente ipotizzabile un miglioramento di tale entità,

Posto una vecchia slide
http://www.hwupgrade.it/articoli/cpu/2376/llano_1.jpg
frequenza >3GHz:
AMD debutta con 6 mesi di ritardo con una cpu da 2,9GHz, priva di turbo core,

vcore 0,8-1,3V
il 3850/3870k hanno un vcore default che può raggiungere anche i 1,42V...

Che si aspettavano ben altro, è evidente:
con la semplice matematica, si può ottenere la frequenza minima di funzionamento che poteva avere llano secondo AMD
1,42->1,3Vcore= -20% TDP
che tradotta in frequenza: 3*1,2= 3,6GHz di base...
Questa è la peggiore delle ipotesi. Nella migliore delle ipotesi quel vcore è riferito al turbo boost (e perchè non dovrebbe?)...

bjt2
23-03-2016, 20:15
Ma io infatti intendevo un K10 a 28nm, con le HDL e tutti i miglioramenti di questi anni: ci sono stati avanzamenti nel clock gating, nel gating in generale, il turbo che mi pare non ci sia sui phenom, il branch prediction, gli algoritmi di prefetch.
Inoltre non era necessario arrivare a un x8 3.6GHz, visto il maggiore IPC, sopratutto in MT...

digieffe
23-03-2016, 22:02
brutte notizie sull imc di Zen? http://www.bitsandchips.it/52-english-news/6781-some-news-about-summit-ridge-and-again-am4-socket

capitan_crasy
23-03-2016, 22:33
brutte notizie sull imc di Zen? http://www.bitsandchips.it/52-english-news/6781-some-news-about-summit-ridge-and-again-am4-socket

Ce la news in italiano:
Clicca qui... (http://www.bitsandchips.it/9-hardware/6782-altre-news-sul-socket-am4-e-la-cpu-summit-ridge)
Ho qualche dubbio che AMD si affiderebbe ad soggetti esterni per il controller dopo tutta l'esperienza accumulata fino adesso...
Inoltre AMD per evitare problemi ha sempre seguito le certificazioni JEDEC che attualmente per le DDR4 sono ferme alle frequenze 2400Mhz...

tuttodigitale
23-03-2016, 22:36
Ma io infatti intendevo un K10 a 28nm, con le HDL e tutti i miglioramenti di questi anni: ci sono stati avanzamenti nel clock gating, nel gating in generale, il turbo che mi pare non ci sia sui phenom, il branch prediction, gli algoritmi di prefetch.
Inoltre non era necessario arrivare a un x8 3.6GHz, visto il maggiore IPC, sopratutto in MT...

llano ha il turbo core, fatta eccezione per il modello di punta (abbastanza indicativo imho)...non credo che da questo punto di vista ci siano sostanziali differenze con PD, visto che le maggiori criticità, vedi core in idle alimentati alla stessa tensione del core attivo, presente in thuban, è venuta meno..
Mi pare di ricordare che AMD abbia stimato una riduzione del 16% del consumo energetico in full load, clock to clock a parità di silicio...nonostante non sia stato un semplice die shrink, llano fa abbastanza schifo :rolleyes:

il problema del silicio, non si può nascondere...
AMD aveva pubblicizzato un +50% secco (e non un generico fino a) in cinebench su un 1100T e un i7 950, nel MT per Bulldozer. Facendo rapidi calcoli avevo ottenuto un valore della frequenza di 4,8GHz....invece dei 3,6GHz del debutto ...

Ma io infatti intendevo un K10 a 28nm, con le HDL e tutti i miglioramenti di questi anni: ci sono stati avanzamenti nel clock gating, nel gating in generale, il turbo che mi pare non ci sia sui phenom, il branch prediction, gli algoritmi di prefetch.
Inoltre non era necessario arrivare a un x8 3.6GHz, visto il maggiore IPC, sopratutto in MT...
Ma se gira a 2,8-3GHz i vantaggi rispetto ad un corrispettivo quattromoduli a 4GHz, sarebbero nulli nel MT, e nel ST potrebbe non reggere il passo...

in termini di frequenza massima, non c'è stato nessun vantaggio con il passaggio con i 28nm e le HDL...Anzi è già mezzo miracolo se gira prossimo ai 4GHz con librerie utilizzate tradizionalmente per i SoC degli smartphone e le gpu...

Infine, le tecnologie per il risparmio energetico, sembrano funzionare meglio con numerosi stadi come suggeriscono diversi studi.

tuttodigitale
23-03-2016, 22:46
Ho qualche dubbio che AMD si affiderebbe ad soggetti esterni per il controller dopo tutta l'esperienza accumulata fino adesso...
questo vorrebbe dire che il MC di Carrizo è...:rolleyes:

capitan_crasy
23-03-2016, 23:49
questo vorrebbe dire che il MC di Carrizo è...:rolleyes:

Quello di Kaveri ma più evoluto...

paolo.oliva2
24-03-2016, 06:07
Che io ricordi, Llano si pensava potesse girare sui 4GHz def.
La differenza coinciderebbe con BD previsto per 5GHz e poi uscito a 3,6GHz.

Ma ancora più lampante con BD sarebbe la logica turbo, cosa evidente che tra il progetto su carta e la resa del silicio c'è una differenza abissale.
BD doveva avere un turbo sulla frequenza su tutti i core tra X e X+/-500MHz a cui andava sommato +500MHz con il turbo su 4 core che avrebbe portato X a + 1GHz.
A tutt'oggi BD si è fermato a X +300MHz come turbo massimo su metà core...:doh, cosa che già Zambesi con l'8150 prevedeva per tutti e 8 i core.
Di per sè, il 9590, con 225W TDP, con 4,7GHz forse forse avrebbe la frequenza def di quello che sarebbe stato BD sulle aspettative silicio, ma sicuramente il turbo a 5GHz è inferiore.
La cagata della commercializzazione degli FX 9590, la si potrebbe interpretare, forse giustificandola, come "se il silicio fosse stato come aspettative, questo sarebbe stato BD), perchè non dimentichiamoci che BD era previsto a 95W X8, e siccome un solo modello era previsto a 125W, mi sembra ovvio pensare che fosse quel BD X10 cestinato.

paolo.oliva2
24-03-2016, 06:31
Se ho xapito bene il discorso del socket AM4/MC e massima frequenza DDR4.
In fin dei conti AM3+/MC BC non sono dichiarati 1866 o al più 2133 (se sono rimasto indietro) mentre arrivano a 2400 (io 2500 testato con l'OC delle 2400), non vedo perchè da un supporto dichiarato di DDR4 2400 (forse discorso Jdec) non possa supportare le 2800.
Facendo poi una considerazione... AMD avrebbe investito in cache inclusive e ridotto latenze e aumentato le velocità, per poi castrare tutto con un MC che non vedrebbe DDR4 >2400? Suvvia... :sofico:

tuttodigitale
24-03-2016, 11:07
Quello di Kaveri ma più evoluto...
ma anche no. :D
il MC di kaveri è compatibile con DDR3/GDDR5, ma non con DDR4...
Sbaglio?

paolo.oliva2
24-03-2016, 11:11
infatti nella news dice in OC fino a 2933

ma il discorso è un altro, cioè che già oggi tra prendere delle memorie ddr4 a 2400 o 3200 cambio davvero poco come prezzo, ed alle APU serve banda a meno che non abbiano una sorta di L4 (hbm?) su cui appoggiarsi con la igpu :read:

magari avranno pensato di risparmiare un po' su l'IMC di Zen perché tanto a livello x86 cambio nulla come prestazioni (+1%?) e a livello di APU avranno le HBM di fianco al DIE e tanti saluti alle ddr4...

ma bisogna anche vedere Zen quanti core ha come massimo a die nativo.

Si potrebbe supporre che Zen sia X4 nativo (e non X8), per svariati motivi... il primo è che partendo da X4 una soluzione desktop X12 sarebbe già possibile (X4 * 3) mentre se fosse X8 nativo, X16 dubito possibile nei 140W.
La seconda è che partendo da X4 rientrerebbe nella filosofia AMD di progettare e produrre un unico die per accelerare l'affinamento, ridurre i costi e semplificare la selezione.
Inoltre secondo me sarebbe molto probabile che Zen+ sarà esclusivamente APU quindi si accorperebbe la produzione mobile/desktop/Opteron.

Ora... il discorso di velocità MC e supporto DDR4 è pur sempre legato alla quantità di core che devono essere supportati. E' ovvio che se il die Zen nativo fosse X4, con un suo MC, un Zen X8 avrebbe 2 MC.

Se fai un passo indietro nell'AM3+, tra single channel e double channel c'è differenza di prestazioni (anche se marginale), ma tra il montare 1 double channel e 2 double channel, prestazionalmente non cambia nulla se non il raddoppio di RAM.

L'AM4 potrebbe tranquillamente anche non richiedere obbligatoriamente 4 banchi di DDR4, ma semplicemente far lavorare in single channel 2 moduli di DDR4, cioè 1 per MC se un Zen X8 avesse 2 MC.

paolo.oliva2
24-03-2016, 11:14
ma anche no. :D
il MC di kaveri è compatibile con DDR3/GDDR5, ma non con DDR4...
Sbaglio?

Ma da quello che sapevo, l'MC rimane sostanzialmente lo stesso (vedi DDR2-->DDR3), l'unica cosa è "l'adattamento" e certificazione dei parametri DDR4. Non so se le DDR4 stravolgerebbero tutto, ma credo di no.

capitan_crasy
24-03-2016, 11:16
ma anche no. :D
il MC di kaveri è compatibile con DDR3/GDDR5, ma non con DDR4...
Sbaglio?

Tecnicamente anche quello di Kaveri potrebbe gestire le DDR4 ma come era successo con il K10 a 65nm (in quel caso si parlava di DDR3) questo primo supporto era solo per lo sviluppo futuro...
Carrizo ha il controller di Kaveri ma con il supporto attivo delle DDR4 e le future APU ZEN dovrebbero avere l'evoluzione di quello di Carrizo...

tuttodigitale
24-03-2016, 11:33
Per Paolo, sono arrivato alla conclusione che con un silicio decente avremmo avuto
llano 4GHzdefault - 4,2GHz turbo 100W
PD 4,8GHz-5,6GHz 125W
PD x10 4,3-5,6GHz 125W, valori non sparati a caso (o forse si :p ). Posterò le mie riflessioni sul thread apposito....
Tecnicamente anche quello di Kaveri potrebbe gestire le DDR4 ma come era successo con il K10 a 65nm (in quel caso si parlava di DDR3) questo primo supporto era solo per lo sviluppo futuro...
Carrizo ha il controller di Kaveri ma con il supporto attivo delle DDR4 e le future APU ZEN dovrebbero avere l'evoluzione di quello di Carrizo...
grazie, per la dritta.

tuttodigitale
24-03-2016, 11:45
conta che da 3 a 4ghz mediamente raddoppi quasi l'efficienza di una cpu
non proprio...
un fx8370 da 3,3GHz (versione E) a 4GHz (versione liscia) migliora l'efficienza del 8%...

Theodorakis
24-03-2016, 12:15
Tecnicamente anche quello di Kaveri potrebbe gestire le DDR4 ma come era successo con il K10 a 65nm (in quel caso si parlava di DDR3) questo primo supporto era solo per lo sviluppo futuro...
Carrizo ha il controller di Kaveri ma con il supporto attivo delle DDR4 e le future APU ZEN dovrebbero avere l'evoluzione di quello di Carrizo...

KAveri ha un doppio IMC DDR3 & GDDR5. ;)

http://www.bitsandchips.it/hardware/9-hardware/5104-appunti-sui-memory-controller-di-kaveri-e-beema-mullins

capitan_crasy
24-03-2016, 12:24
KAveri ha un doppio IMC DDR3 & GDDR5. ;)

http://www.bitsandchips.it/hardware/9-hardware/5104-appunti-sui-memory-controller-di-kaveri-e-beema-mullins

Si esatto...
Qualche tempo fa qualcuno a cercato nei documenti tecnici riguardanti Kaveri (non ricordo se quelli legati al bios oppure quelli sulla "revision").
In una nota assieme al supporto alle GDDR5 c'erano anche una descrizione riguardante le DDR4.
Purtroppo non trovo più il link, ma provo a rifare una ricerca nei miei vecchi files...

paolo.oliva2
24-03-2016, 13:25
un X16 Desktop in 140w sarebbe fattibilissimo se Zen X8 fosse a 125~140watt a 4 ghz def, ma anche a 3.5ghz a 95watt, se invece X8 sarà def 3ghz a 95 watt allora no.

conta che da 3 a 4ghz mediamente raddoppi quasi l'efficienza di una cpu

Bisogna inquadrare il tutto.
Ad esempio... se il 5960X non si occasse pressappoco quanto i fratelli X6, sarebbe giustificabile solamente come procio server e non desktop.
Chiarisco, l'avere il 33% in più di core (X8 vs X6) è giusto se lo stesso guadagno non è menomato da una frequenza operativa differente. E' ovvio che se non per motivi strettamente di lavoro e/o sicurezza di non occare il procio, tra l'avere un X6 a 3,5GHz e un X8 a 3GHz di certo non si guadagna il 33% di prestazioni tanto quanto l'aumento dei core.

La paura su Zen è che il silicio abbia caratteristiche di un TDP basso fino ad una frequenza X, ma oltre quella frequenza un innalzamento del TDP esponenziale rispetto alla frequenza. Alla fine sarebbe più fattibile un X16 che viaggiasse a -500MHz rispetto ad un X8 di quanto lo potrebbe essere un X8 @4,5GHz :), ma il discorso sarebbe tale ed uguale al 5960X vs 5830K sopra... e siccome per me AMD/GF cercheranno di più il minimo TDP ad una frequenza X che la massima frequenza a 95W/125W TDP, perchè Zen principalmente sarà Opteron e mobile ed entrambe le situazioni prediligono il minor consumo/prestazioni, sarebbe assurdo affinare il silicio per la massima frequenza (come vorrebbe il desktop), probabilmente l'opzione Zen >X8 sarebbe appetibile solamente se l'incremento di core fosse ALMENO +50% con una perdita di frequenza non superiore al 20%.

tuttodigitale
24-03-2016, 14:22
il problema dei nuovi processi produttivi (non è una novità) è che all'aumento del voltaggio corrisponde ad una minor aumento della reazione del transistor...a Vcore sempre più elevati la differenza con i processi planari si assottiglia...

Poniamo ad esempio, che i finfet lavorano bene fino a 1,2V: questo si traduce (grossomodo) in "appena" 3,8 GHz per skylake e ben 5,3GHz per ZEN...A 3GHz ZEN, potrebbe funzionare con le stesse tensioni di un SoC da smartphone e di un Core M :read:
Ad 1,1V in giu si iniziano a sfruttare i vantaggi dei finfet in maniera tangibile....a spanne siamo a circa 4.7GHz per ZEN...questa potrebbe essere la frequenza base per qualche sku...e probabilmente (per non dire quasi certamente) il turbo core di molte altre..
In teoria, ZEN potrebbe girare a 4GHz con 1,0V :read: ...Andare molto sotto, non è che sia tutta questa convenienza....

Nella scelta del tipo di transistor, si deve trovare il giusto compromesso tra quelli lenti e veloci. In certe condizioni limite, un transistor lento, anche se è in grado di operare ad una certa frequenza di clock offrirà un leakage superiore.... in pratica con un processo low-power, i consumi possono esssere bassissimi, anche a frequenze RELATIVE elevate, ed esplodere quando si cerca di superare una certa soglia. In piccolo quello che succede con il bulk a 28nm vs 32nm...
Da questo punto di vista il processo low power, non dovrebbe impedire a ZEN di girare allegramente alle stesse frequenze di skylake...:sofico:

In pratica per essere ottimisti basta non pensare ai 28/32nm...:O (Certo devo decidermi, bjt2 mi ha tolto molte convinzioni a livello di ipc... :muro:)

paolo.oliva2
24-03-2016, 16:03
solo? :stordita:
forse ho sbagliato a dire efficienza, sembra comparata con le prestazioni nel senso che il tdp scende di parecchio ma anche le prestazioni, ma in TDP puro il salto da 4 a 3 ghz sarebbe molto più del 8%...
ho chiesto ad un mio collega di prestarmi un wattmetro, scrauso eh niente di eccezionale :p , faccio test a 3ghz e poi a 4ghz con vcore più o meno ottimizzati (l'8320-e mi gira a 4ghz def con 1.25v testato con occt, ibt, e memtest) e metto giù i numeri di picco richiesti dalla rete, da un idea del TDP e non del consumo effettivo finale.


ma in generale il silicio perde molta efficienza vicino ai 4ghz rispetto ai 2.5~3, la stessa arch intel a 2.5ghz ottiene l'efficienza massima

guarda intel, sul 14nm il 6700k (skylake mainstream) viagga a 4ghz def in 91watt mentre il futuro 14nm broadwell-e 6900k 8c dalle SKU è dato per 3.2ghz def in 140watt (reali saranno meno? ) ed il 6950x 10c a 3.0ghz def...
a 22nm il 5960x haswell-e è 1ghz meno al 4790k haswell "DC" a def 88vs140watt 8c vs 4c (+HT)

un ipotetico x16 zen non penso abbia solo -500mhz rispetto ad un x8 zen se quest'ultimo fosse def a 4ghz

(secondo me) l'affinamento del silicio Intel è differente da quello che potrebbe essere quello di Zen. In primis Intel, seppur con la stessa architettura di core, a tutti gli effetti i proci 1155 non sono gli stessi del socket 2011, ed Intel ha i dindi per affinare il silicio in base al specifico die/architettura e non solo, mi sembrava che anche a stesso numero di core (negli Xeon) realizzi 2 differenti affinamenti silicio, uno per il minor consumo e l'altro per la massima frequenza.

Zen (tralascio il discorso 2017 perchè quello che uscira a settembre sarà X86) avrebbe la STESSA architettura, lo stesso PP e lo stesso (si suppone) die nativo, quindi con le stesse distanze dei transistor calcolate su una frequenza che ovviamente sarebbe la migliore come Opteron.
Guarda BD... un 8350 è 125W 4GHz, ma perde solamente 1,2GHz con il raddoppio non dei core, ma del die (con 1 MC in più). Si passa da 125W per X8 a 137W per X16, e il TDP degli Opteron è calcolato su carichi da server che sono basati differentemente da quelli desktop.

P.S.
Magari stiamo discutendo sul nulla... nel senso che non sto sparando un Zen X8 a 4GHz def... io stesso spero in 3,5GHz (quindi direi nulla di stra-aspettativa), ma dico solamente che probabilmente il PP di Zen permetterebbe un aumento di core senza un crollo di frequenza o aumento del TDP... se un Zen X8 fosse 95W sui 3,5GHz, un X12 potrebbe avere la stessa frequenza rimanendo nei 125W/140W, e sarebbe un gran bel procio qualsiasi sarebbe l'IPC.

paolo.oliva2
24-03-2016, 16:08
il problema dei nuovi processi produttivi (non è una novità) è che all'aumento del voltaggio corrisponde ad una minor aumento della reazione del transistor...a Vcore sempre più elevati la differenza con i processi planari si assottiglia...

Poniamo ad esempio, che i finfet lavorano bene fino a 1,2V: questo si traduce (grossomodo) in "appena" 3,8 GHz per skylake e ben 5,3GHz per ZEN...A 3GHz ZEN, potrebbe funzionare con le stesse tensioni di un SoC da smartphone e di un Core M :read:
Ad 1,1V in giu si iniziano a sfruttare i vantaggi dei finfet in maniera tangibile....a spanne siamo a circa 4.7GHz per ZEN...questa potrebbe essere la frequenza base per qualche sku...e probabilmente (per non dire quasi certamente) il turbo core di molte altre..
In teoria, ZEN potrebbe girare a 4GHz con 1,0V :read: ...Andare molto sotto, non è che sia tutta questa convenienza....

Nella scelta del tipo di transistor, si deve trovare il giusto compromesso tra quelli lenti e veloci. In certe condizioni limite, un transistor lento, anche se è in grado di operare ad una certa frequenza di clock offrirà un leakage superiore.... in pratica con un processo low-power, i consumi possono esssere bassissimi, anche a frequenze RELATIVE elevate, ed esplodere quando si cerca di superare una certa soglia. In piccolo quello che succede con il bulk a 28nm vs 32nm...
Da questo punto di vista il processo low power, non dovrebbe impedire a ZEN di girare allegramente alle stesse frequenze di skylake...:sofico:

In pratica per essere ottimisti basta non pensare ai 28/32nm...:O (Certo devo decidermi, bjt2 mi ha tolto molte convinzioni a livello di ipc... :muro:)

Azzo, mi fai sperare in clock alti per Zen.
Ma mi fai pensare... non è che un BD XV nel 14nm FF sarebbe una favola?
:sofico:

bjt2
24-03-2016, 18:53
il problema dei nuovi processi produttivi (non è una novità) è che all'aumento del voltaggio corrisponde ad una minor aumento della reazione del transistor...a Vcore sempre più elevati la differenza con i processi planari si assottiglia...

Poniamo ad esempio, che i finfet lavorano bene fino a 1,2V: questo si traduce (grossomodo) in "appena" 3,8 GHz per skylake e ben 5,3GHz per ZEN...A 3GHz ZEN, potrebbe funzionare con le stesse tensioni di un SoC da smartphone e di un Core M :read:
Ad 1,1V in giu si iniziano a sfruttare i vantaggi dei finfet in maniera tangibile....a spanne siamo a circa 4.7GHz per ZEN...questa potrebbe essere la frequenza base per qualche sku...e probabilmente (per non dire quasi certamente) il turbo core di molte altre..
In teoria, ZEN potrebbe girare a 4GHz con 1,0V :read: ...Andare molto sotto, non è che sia tutta questa convenienza....

Nella scelta del tipo di transistor, si deve trovare il giusto compromesso tra quelli lenti e veloci. In certe condizioni limite, un transistor lento, anche se è in grado di operare ad una certa frequenza di clock offrirà un leakage superiore.... in pratica con un processo low-power, i consumi possono esssere bassissimi, anche a frequenze RELATIVE elevate, ed esplodere quando si cerca di superare una certa soglia. In piccolo quello che succede con il bulk a 28nm vs 32nm...
Da questo punto di vista il processo low power, non dovrebbe impedire a ZEN di girare allegramente alle stesse frequenze di skylake...:sofico:

In pratica per essere ottimisti basta non pensare ai 28/32nm...:O (Certo devo decidermi, bjt2 mi ha tolto molte convinzioni a livello di ipc... :muro:)

Io credevo che il processo finfet, riempendo meglio il canale con la zona di svuotamento, avesse sia una tensione di soglia inferiore, che una transconduttanza differenziale superiore... Entrambe significano minore Vcore a parità di frequenza e FO4. Non ne sono sicuro, ma mi sembra sia così...

Riguardo l'IPC di Zen... Perchè sei preoccupato? :D Ci sono tante novità in Zen che l'IPC dovrebbe essere stratosferico... :D

bjt2
24-03-2016, 18:55
non è che un BD XV nel 14nm FF sarebbe una favola?
:sofico:

Quello è sicuro... :D Però forse con Zen riescono ad avere un FO4 basso come BD ma con un IPC superiore... Inoltre con l'SMT sfrutti meglio i transistors... :D

tuttodigitale
24-03-2016, 20:19
come trai queste conclusioni? :stordita:
Nessuna conclusione, mi sono servito della semplice relazione di proporzionalità inversa tra FO4 e la frequenza a parità di vcore, usate dai ricercatori IBM.

Per il FO4 ho invece cercato nella rete e diverse fonti danno un fo4 17 per BD e 24 per SB.

Azzo, mi fai sperare in clock alti per Zen.
Ma mi fai pensare... non è che un BD XV nel 14nm FF sarebbe una favola?
:sofico:

L'esempio, serviva per far riflettere che visto ZEN è un'architettura a basso FO4 (oramai la prendiamo come verità), non richiede risorse esagerate in termini di velocità di commutazione, i transistor possono essere il 30% più lenti.
Se riuscisse a lavorare sotto ai 1.1 V a 4GHz potrebbe usare transistor con un canale più corto, per un leakage nettamente inferiore. Quindi, consumare poco non solo per il ridotto vcore, ma pure meno....:read:
MA questo ammazzerebbe in parte anche il clock massimo, ma su un processo dichiaratamente low power, seppur plus, non mi illudo che possa raggiungere ne tantomeno superare i 5GHz..


PS con un processo degno di questo nome, in teoria XV sarebbe li li nel ST con skylake....:rolleyes:, resta pur sempre una cpu progettata per volare abbondantemente oltre i 5GHz... nel MT ti lascio immaginare quello che penso (ma in questo caso il merito più che a XV va alle HDL e AVFS e su questo dò pieno appoggio a bjt2).... La superiorità di Intel, sull'architettura non esiste (e probabilmente non è mai esistita, il confronto k10 conroe era viziato anche dai compilatori un pochino di parte) assolutamente secondo me.:sofico:

tuttodigitale
24-03-2016, 20:47
Io credevo che il processo finfet, riempendo meglio il canale con la zona di svuotamento, avesse sia una tensione di soglia inferiore, che una transconduttanza differenziale superiore... Entrambe significano minore Vcore a parità di frequenza e FO4. Non ne sono sicuro, ma mi sembra sia così...

Riguardo l'IPC di Zen... Perchè sei preoccupato? :D Ci sono tante novità in Zen che l'IPC dovrebbe essere stratosferico... :D
NI. Nel senso che hai ragione. :D Tuttavia manipolando la geometria si possono ottenere transistor veloci o con basso leakage.

in estrema sintesi
canale-breve && gate-lungo == basso leakage, lento
canale-lungo && gate-breve == alto leakage, veloce.

sono ovviamente approssimazimazioni, ci sono anche situazioni di funzionamento dove un transistor del primo tipo, ha correnti di perdita maggiore del secondo.
Poi di processi produttivi (e di tante altre cose) che non ci capisco niente è un dato di fatto :eek:

Ren
24-03-2016, 20:56
Io credevo che il processo finfet, riempendo meglio il canale con la zona di svuotamento, avesse sia una tensione di soglia inferiore, che una transconduttanza differenziale superiore... Entrambe significano minore Vcore a parità di frequenza e FO4. Non ne sono sicuro, ma mi sembra sia così...

Considera che si passa da un gate delay del +37%/0.75v ad un misero 18%/1v. (32 vs 22FF)
Non oso immaginare con 1.1/1.2v...:p

paolo.oliva2
24-03-2016, 21:30
Comunque ci sarà uno svarione di mobo AM4 con diverse potenze di alimentazione... da una parte il socket AM4 praticamente accorperebbe quello che in Intel è socket 1155 e similari e socket 2011, dall'altra... spero VIVAMENTE che i produttori non facciano la cresta e cattiva informazione...
Facendo un parallelismo.... quanti hanno acquistato una mobo AM3+ in base al prezzo e poi, invogliati idem dal prezzo, anzichè un FX X6 o al limite un 8320 hanno optato per un 8350? Con che risultati?

Facendo un calcolo a spannella... con 1,55V (Vcore def 9590) ed un TDP di 220W, la corrente risulterebbe 142A circa.
Se il 14nm GF avesse 1V, 140W TDP già corrisponderebbero a 140A, e le mobo AM3+ che la casa garantisce per un 9590 non superano le dita della mano.
Anche con Vcore def più alti di 1V, non è che cambierebbe molto... nel senso che un Zen dato per 140W TDP nominali, in OC almeno 170W si raggiungerebbero, quindi anche con 1,2V comunque si arriverebbe ad una corrente superiore sia di un 9590 def che di un 8350 in OC, con la differenza che una mobo AM4 supporterebbe anche Carrizo e quindi teoricamente avere una corrente massima pure inferiore alla più scrausa delle AM3+

Grizlod®
24-03-2016, 21:32
L'interasse di ancoraggio per il socket s'è allargato di 6mm ed accorciato di 6mm, per cui risulta incompatibile coi precedenti:

http://s26.postimg.org/4pvqqjebt/Socket_am2_AM3.jpg (http://postimage.org/)

Meccanicamente IMO è meglio quest'ultimo da 54mm x 90mm.

Riguardo l'IMC "limitato" @ DDR4 2400 MHz, direi che l'importante siano i vari 'bottlenecks' risolti.
La concorrenza non ha (necessariamente) bisogno di RAM veloci ;)

tuttodigitale
24-03-2016, 23:34
Ren
Non mettere il dito nella piaga...:sofico:

Però forse con Zen riescono ad avere un FO4 basso come BD ma con un IPC superiore...
Cavolo, pensavo che fosse l'unica cosa certa :sob:

Ren
25-03-2016, 00:14
Ren
Non mettere il dito nella piaga...:sofico:

Che il silicio è ormai al capolinea non è una novità...:p

In AMD sono stati dei folli a pensar di sfornare un 32nm dei miracoli...:doh:

Alla fine il loro 32nm ad 1v performa come quello di intel(sotto 1v anche meglio).

Cavolo, pensavo che fosse l'unica cosa certa :sob:

Se per questo non siamo certi nemmeno che usino nuovamente le HDL:boh:

bjt2
25-03-2016, 06:26
Considera che si passa da un gate delay del +37%/0.75v ad un misero 18%/1v. (32 vs 22FF)
Non oso immaginare con 1.1/1.2v...:p
Quindi minore soglia, ma anche minore transconduttanza differenziale, giusto? Questo significa che il processo è ottimo alle basse frequenze, ma un po' meno alle alte... Però questo è 14 o 16nm e non 22, quindi c'è da sperare...

Prendiamo il caso di 1V. Che frequenza si ha con un PD a 1V? Se il FO4 è lo stesso, basta aumentarla del 18% e voilà... Otteniamo la frequenza di un ipotetico Zen a 22nm... Ma a 14nm dovrebbe essere ancora meglio...

bjt2
25-03-2016, 06:32
Ren
Non mettere il dito nella piaga...:sofico:


Cavolo, pensavo che fosse l'unica cosa certa :sob:

Certa è solo la morte... :D
Diciamo che non mi piace sparare sentenze, lascio sempre il dubitativo... :D

Diciamo che ci sono buone probabilità di avere basso FO4 nonostante il maggiore IPC... :D

La sicurezza non ce l'ho perchè l'aumento della latenza delle FP move potrebbe essere dovuto ad altro (ora c'è l'SMT anche sugli interi, quindi magari c'è qualcosa da controllare quando si passano i dati dalla FPU alle unità di memoria che sono sempre nel core INT) e la diminuzione delle latenze di MUL e DIV si può anche spiegare con il maggiore FO4...
Ma confido nella bontà degli ignegneri AMD... :D
Il motivo per tenere basso il FO4 è proprio le scarse prestazioni del silicio al salire del Vcore... Basso FO4 => Minor Vcore necessario alla stessa frequenza => Minore leakage...

paolo.oliva2
25-03-2016, 07:28
Quindi minore soglia, ma anche minore transconduttanza differenziale, giusto? Questo significa che il processo è ottimo alle basse frequenze, ma un po' meno alle alte... Però questo è 14 o 16nm e non 22, quindi c'è da sperare...

Prendiamo il caso di 1V. Che frequenza si ha con un PD a 1V? Se il FO4 è lo stesso, basta aumentarla del 18% e voilà... Otteniamo la frequenza di un ipotetico Zen a 22nm... Ma a 14nm dovrebbe essere ancora meglio...

Ho provato.
Con l'8370 a 1V ho provato:
a 2400GHz CPU-Z 253/8063 = +18% --> 2,832GHz
a 2500GHz CPU-Z 257/8828 = +18% --> 2,950GHz
a 2600GHz CPU-Z 258/8740

Praticamente non ho fatto OCCT ma ho valutato il fatto che il 32nm con una tensione Vcore insufficiente cala le prestazioni, e visto che il calo l'ho avuto a 2,6GHz, il mio 8370 con 1V i 2,5GHz dovrebbe essere RS.

Ma non ho capito una cosa... praticamente se prendiamo PD e 32nm con +18% si avrebbe il passaggio a 22nm a cui andrebbe aggiunto ulteriore guadagno per il passaggio 22nm --> 14nm... però questo caso sarebbe di Zen senza HDL... mentre se si prendesse Carrizo sul 28nm Bulk GF si avrebbe un metro con le HDL e di qui Zen + HDL. In ambedue i casi con architettura BD.

Sempre se ho capito bene...
Sommando il 18% dal 32nm SOI al 22nm e solamente il 10%, dal 22nm al 14/16nm (ma mi sembra che Intel abbia guadagnato di più, seppur con un 14nm con PP peggiore del 22nm), in ogni caso avremmo frequenze superiori ai 3GHz, oltretutto escludendo un Zen con le HDL, quindi prendendo tutte situazioni negative.
Però da questo discorso non viene considerato la diminuzione del TDP tra 32nm e 14/16nm... nel senso che se accorpassimo frequenza e TDP, ne risulterebbe un Zen >3GHz ma almeno X12.

Sbaglio?

P.S.
Comunque sembra coincidere su quanto riferito da AMD/GF, cioè AMD ha riportato Zen che ha confermato le aspettative (X8/95W), ma GF ha anche dichiarato che il 14nm ha rispettato le aspettative di un range di frequenza 3GHz/4GHz (che può essere considerato in vari modi, cioè 3GHz def e 4GHz turbo, come invece il range della frequenza def).
Ma se vogliamo inquadrare al minimo, un Zen X8 95W 3GHz ci sta tutto, e se il 14nm non scalasse bene in frequenza cioè con un aumento del TDP esponenziale, mi sembra ovvio che un socket AM4 con 140W confermerebbe l'intenzione di AMD di non fermarsi a Zen X8 come offerta desktop.

el-mejo
25-03-2016, 07:58
Ma se vogliamo inquadrare al minimo, un Zen X8 95W 3GHz ci sta tutto, e se il 14nm non scalasse bene in frequenza cioè con un aumento del TDP esponenziale, mi sembra ovvio che un socket AM4 con 140W confermerebbe l'intenzione di AMD di non fermarsi a Zen X8 come offerta desktop.

Oppure significa che Zen x8 non riescono a farlo andare a 95w tdp senza sacrificare troppo le frequenze. :ops:
Oppure che il top di gamma sarà un x8 @ 3,6ghz di default + turbo, seppur con tdp maggiore dei previsti 95w massimi.:sofico:

bjt2
25-03-2016, 07:58
Ho provato.
Con l'8370 a 1V ho provato:
a 2400GHz CPU-Z 253/8063 = +18% --> 2,832GHz
a 2500GHz CPU-Z 257/8828 = +18% --> 2,950GHz
a 2600GHz CPU-Z 258/8740

Praticamente non ho fatto OCCT ma ho valutato il fatto che il 32nm con una tensione Vcore insufficiente cala le prestazioni, e visto che il calo l'ho avuto a 2,6GHz, il mio 8370 con 1V i 2,5GHz dovrebbe essere RS.

Ma non ho capito una cosa... praticamente se prendiamo PD e 32nm con +18% si avrebbe il passaggio a 22nm a cui andrebbe aggiunto ulteriore guadagno per il passaggio 22nm --> 14nm... però questo caso sarebbe di Zen senza HDL... mentre se si prendesse Carrizo sul 28nm Bulk GF si avrebbe un metro con le HDL e di qui Zen + HDL. In ambedue i casi con architettura BD.

Sempre se ho capito bene...
Sommando il 18% dal 32nm SOI al 22nm e solamente il 10%, dal 22nm al 14/16nm (ma mi sembra che Intel abbia guadagnato di più, seppur con un 14nm con PP peggiore del 22nm), in ogni caso avremmo frequenze superiori ai 3GHz, oltretutto escludendo un Zen con le HDL, quindi prendendo tutte situazioni negative.
Però da questo discorso non viene considerato la diminuzione del TDP tra 32nm e 14/16nm... nel senso che se accorpassimo frequenza e TDP, ne risulterebbe un Zen >3GHz ma almeno X12.

Sbaglio?

P.S.
Comunque sembra coincidere su quanto riferito da AMD/GF, cioè AMD ha riportato Zen che ha confermato le aspettative (X8/95W), ma GF ha anche dichiarato che il 14nm ha rispettato le aspettative di un range di frequenza 3GHz/4GHz (che può essere considerato in vari modi, cioè 3GHz def e 4GHz turbo, come invece il range della frequenza def).
Ma se vogliamo inquadrare al minimo, un Zen X8 95W 3GHz ci sta tutto, e se il 14nm non scalasse bene in frequenza cioè con un aumento del TDP esponenziale, mi sembra ovvio che un socket AM4 con 140W confermerebbe l'intenzione di AMD di non fermarsi a Zen X8 come offerta desktop.

Supponendo un +40% totale (32nm->14nm FF + HDL) siamo a 3.5GHz... I consumi a 1V dovrebbero essere bassi a sufficienza da poter permettere almeno 8 core... Io credo che un X8 base 3.5Ghz @ 1V ci starebbe tutto, forse anche 95W... Ciò non toglie che andando a 1.1 - 1.2 non si arrivi anche a 4.5-5Ghz...
Mi fai qualche prova a 1.1 e 1.2 (e magari anche più su se te la senti, ma max 1.4) e vedi fino a che frequenza arriva? Perchè se l'aumento di frequenza è meno che lineare, ciò spiega anche perchè a tensioni più alte il guadagno è inferiore: perchè siamo al limite di entrambi i processi...

paolo.oliva2
25-03-2016, 10:12
Supponendo un +40% totale (32nm->14nm FF + HDL) siamo a 3.5GHz... I consumi a 1V dovrebbero essere bassi a sufficienza da poter permettere almeno 8 core... Io credo che un X8 base 3.5Ghz @ 1V ci starebbe tutto, forse anche 95W... Ciò non toglie che andando a 1.1 - 1.2 non si arrivi anche a 4.5-5Ghz...
Mi fai qualche prova a 1.1 e 1.2 (e magari anche più su se te la senti, ma max 1.4) e vedi fino a che frequenza arriva? Perchè se l'aumento di frequenza è meno che lineare, ciò spiega anche perchè a tensioni più alte il guadagno è inferiore: perchè siamo al limite di entrambi i processi...

allora... credo che l'8370 abbia un RCM più esasperato dell'8350 e quindi nel test Vcore/frequenza produce valori totalmente sballati, tanto da sembrare che all'aumentare della frequenza il Vcore occorrente risulti inferiore :mc:.

a 1V mi viene 2,5GHz... quindi 0,1V per ogni 250MHz.

a 1,1V (rilevati 1,092V) ha un range fino a 3GHz, ma ha comportamenti strani:
a 2,6GHz perde in MT ma guadagna in ST... tra 2,7GHz e 2,8GHz il comportamento è normale in ST e MT, a 2,9GHz e 3GHz non guadagna in ST ma guadagna in MT. A 3,1GHz perde in ST e MT quindi direi sia il limite.

A 1,2V (rilevati 1,2V) ho gli stessi valori a 3GHz di quanto ottenuto alla stessa frequenza a 1,1V, quindi il Vcore non è incisivo, però bisogna che faccio in un altro modo... perchè sono arrivato a 3,6GHz ma ha un comportamento come sopra e quindi non riesco a capirlo...

Il mio 8370 è RS roccia a 1,28V 4,4GHz, quindi:
0,1V = 343,75MHz

Facendo una linearità (non so se sparo una vaccata) mi ritrovo:

1V, 2,5GHz = 0,1V ogni 250MHz
1,1V, supponendo 3GHz, 0,1V corrisponderebbe 272MHz
1,2V, supponendo 3,5GHz, 0,1V corrisponderebbero 291,6MHz

A 1,28V il mio 8370 è RS a 4,4GHz ma questo vorrebbe dire che a 0,1V corrisponderebbero 343,75MHz.

Al che ho settato 1,2V e prendendo per buono 330MHz 0,1V (valore intermedio tra 318MHz/1,1V/3GHz e 344MHz/1,28V/4,4GHz) ho provato a 3,8GHz e a benchato senza riscontrare problemi di Vcore basso...

Al che non ci capisco una mazza.:sofico: perchè posso immaginare una certa soglia di Vcore per l'eccitazione del transistor, ma una volta eccitato ci dovrebbe essere una linearità via via peggiore, mentre praticamente c'è un crescendo credo sino a 4,5/4,6GHz di maggiore frequenza in base al Vcore (ignoro la corrente) per poi presumibilmente subire un crollo (questo riferito all'8370 vs 8350).
Zen, anche senza HDL e features stile Carrizo, se implementasse anche solamente l'RCM di BD, sballerebbe tutti i calcoli della frequenza minima, perchè da Zambesi a Piledriver (release 8370), praticamente lo stesso silicio ha concesso 1GHz in più a parità di TDP, perchè l'8150 era piuttosto ficino al TDP 125W nominale con 3,6GHz, mentre ad esempio Tom's quando ha testato l'8320E a 4,5GHz stava ancora a 95W TDP. Ma io stesso, con l'8150 per non superare 60° avevo disabilitato il Turbo e settato il procio a 3,5GHz con il minor Vcore possibile, mentre ora con l'8370 sto a 4,4GHz con 1,28V con temp almeno 5° inferiori.

bjt2
25-03-2016, 10:41
Ok. Quindi 4GHz @ 1.1V dovrebbe essere fattibile. Resta da vedere con che consumo e quindi determinare quanti core per 95/125W... Supponendo che 1 core Zen abbia il numero di transistors come 1 modulo BD e che il consumo a parità di frequenza, vcore e transistors sia -50% da 32nm SOI a 14nm FF, abbiamo:

2 core Zen a 3GHz e 1.1V consumano massimo quanto un modulo BD (-50%), quindi un x8 Zen dovrebbe consumare al massimo quanto tua CPU a 1.1V e 3GHz... Ma Zen dovrebbe reggere 4GHz a 1.1V, quindi 8 core Zen a 4GHz a 1.1V dovrebbero consumare al massimo 4/3 di quanto stai consumando tu a 3GHz e 1.1V... CPUID HWMonitor, almeno sulle CPU INTEL, ha anche una lettura dei Watt consumati (immagino V*I)... Se potessi installare questo software e vedere se legge tali valori anche per le CPU AMD ci potremmo fare dei calcoli...

Questi valori, comunque, sono sovrastimati perchè:
1) Non credo che Zen abbia i transistors di un modulo intero, se non altro perchè la L2 è più piccola.
2) Credo e spero che il guadagno dal 32nmSOI a 14nm FF sia più di un -50%... Sono 2 nodi interi!

Ovviamente se queste supposizioni sono sbagliate e troppo ottimistiche, la potenza aumenta di conseguenza...

tuttodigitale
25-03-2016, 11:55
la linearità tra vcore e velocità, è una approssimazione, che possiamo ritenere a mio giudizio valida per le frequenze operative delle cpu su finfet.

il grafico di intel a cui si riferiva REN, porta un'aumento della velocità del 13%, affronte di un aumento di vcore del 11%, nell'ultimo pezzo di linea che va da 0,9-1V....
con i vcore non si dovrebbe andare molto oltre....

Per avere un quadro più preciso, non resta che attendere le GPU polaris, e vedere come è variato il rapporto frequenza-vcore con i 14nm Finfet rispetto ai 28bulk di TSMC....non dovrebbe mancare molto.

paolo.oliva2
25-03-2016, 12:41
come fai ad essere RS con 4.4@1.28v? :stordita:

io ho fatto fatica ad esserlo con la saber1 + 16gb ram 1866 cl9-10-1T + 8320e a 4@1.25v Core + 2.4@1.25 NB_Core

E' l'8370. Poi sto di Vcore largo... Isoman mi sembra stia a 1,29V a 4,6GHz...
Comunque è difficile da capire rispetto all'8350, sballa tutto inverosimilmente verso il Vcore basso. Esempio... le DDR3 a 2,4GHz VOGLIONO il Vcore MC a 1,25V e Vcore DDR3 a 1,65V. nell'9350 avevo problemi di stabilità (finchè non l'avevo scoperto) anche con Vcore NB a 1,22V. addirittura con Vcore NB <1,2V il procio non parte. Con l'8370, con Vcore NB def, 1,15V, le DDR3 a 2,4GHz non solo partono, ma sembrano pure RS.
Non riesco a provare oltre i 4,5GHz/4,6GHz perchè con il dissi stock, seppur a 1,3V/1,35V le temp mi salgono e sotto stree sforo i 60°, ma a naso mi sembra che scali molto peggio dell'8350.... dubito perfino di superare i 4,8GHz a liquido.

bjt2
25-03-2016, 13:59
prima ho fatto test velocissimi con occt e poi CB15 e sono arrivato a 3ghz@1.05v Core e 2ghz@1.05v NB_Core e 16GB/1866mhz@1.50v : temp massima occt 40° in 10 minuti e CB15 scalava perfettamente, 640p a 4.03ghz e 478p a 3.01ghz, quindi nessuno stallo di frequenza o cose strane...

non appena riesco a procurarmi un wattmetro prendo le misure di picco che dovrebbero dare un idea di quanto scala il TDP dai 4ghz ai 3ghz (OTTIMIZZATI ambo le soluzioni).

conta che a 4ghz@1.25v Core e 2.4ghz@1.25v NB_Core 1866mhz@1.55v : temp massima occt 50° in 10 minuti

poi proverò pure a fare una prova simile stock 8350, cioè 4(4.2)ghz@1.35v... stay tuned :cool:

Lo so che non è molto precisa, ma su CPU INTEL HWMonitor ha una sezione sulla potenza assorbita dalla sola CPU... Su AMD sono presenti questi "sensori"?

tuttodigitale
25-03-2016, 14:09
Dategli ciò che vuole :incazzed:

è bjt2 :ave:

paolo.oliva2
25-03-2016, 15:13
Lo so che non è molto precisa, ma su CPU INTEL HWMonitor ha una sezione sulla potenza assorbita dalla sola CPU... Su AMD sono presenti questi "sensori"?

Ho HWmonitor sia su Intel che su AMD. Su AMD non esistono voci tipo:

Powers
- Package
- IA Cores
- GT
- Uncore
- DRAM

paolo.oliva2
25-03-2016, 15:29
prima ho fatto test velocissimi con occt e poi CB15 e sono arrivato a 3ghz@1.05v Core e 2ghz@1.05v NB_Core e 16GB/1866mhz@1.50v : temp massima occt 40° in 10 minuti e CB15 scalava perfettamente, 640p a 4.03ghz e 478p a 3.01ghz, quindi nessuno stallo di frequenza o cose strane...

non appena riesco a procurarmi un wattmetro prendo le misure di picco che dovrebbero dare un idea di quanto scala il TDP dai 4ghz ai 3ghz (OTTIMIZZATI ambo le soluzioni).

conta che a 4ghz@1.25v Core e 2.4ghz@1.25v NB_Core 1866mhz@1.55v : temp massima occt 50° in 10 minuti

poi proverò pure a fare una prova simile stock 8350, cioè 4(4.2)ghz@1.35v... stay tuned :cool:

Io non potevo provare sotto i 2,4GHz perchè con le DDR3 2,4GHz l'NB non può essere più bassa delle ram e di cascata la frequenza CPU non può essere inferiore alla frequenza NB (ma non mi vorrei sbagliare con Phenom).

comunque rispetto a me, a 1,05V stai a 3GHz, io a 1V avevo postato 2,5GHz e a 1,1V 3GHz... alla fine vai meglio tu di quanto ho postato io (giusto per evidenziare che non ho postato test a bandiera :))

Ma per 4GHz che Vcore dai? 1,25V? Mi sembra che anche io a prima botta avevo dato quel Vcore, poi ero salito sui 4,2GHz ma non mi sembrava stabile... a quel punto ho steccato 1,3V e l'ho portato a 4,5GHz... poi ho visto l'ottimale 1,28V/4,4GHz. Il Vcore NB a me è sembrato che l'8370 sia MOLTO meno esoso... praticamente circa -0,1V na pari frequenza.

P.S.
Comunque sono un po' (MOLTO) arrugginito... cercherò di mettermi al passo con Zen :sofico:

isomen
25-03-2016, 19:02
E' l'8370. Poi sto di Vcore largo... Isoman mi sembra stia a 1,29V a 4,6GHz...
Comunque è difficile da capire rispetto all'8350, sballa tutto inverosimilmente verso il Vcore basso. Esempio... le DDR3 a 2,4GHz VOGLIONO il Vcore MC a 1,25V e Vcore DDR3 a 1,65V. nell'9350 avevo problemi di stabilità (finchè non l'avevo scoperto) anche con Vcore NB a 1,22V. addirittura con Vcore NB <1,2V il procio non parte. Con l'8370, con Vcore NB def, 1,15V, le DDR3 a 2,4GHz non solo partono, ma sembrano pure RS.
Non riesco a provare oltre i 4,5GHz/4,6GHz perchè con il dissi stock, seppur a 1,3V/1,35V le temp mi salgono e sotto stree sforo i 60°, ma a naso mi sembra che scali molto peggio dell'8350.... dubito perfino di superare i 4,8GHz a liquido.

Il mio é un 8370E e per passare occt a 4,6 devo dare 1,33

http://thumbnails114.imagebam.com/47323/8f7359473223313.jpg (http://www.imagebam.com/image/8f7359473223313)

e a 4ghz devo dare 1,16

http://thumbnails114.imagebam.com/47323/bd05c4473222828.jpg (http://www.imagebam.com/image/bd05c4473222828)

;) ciauz

paolo.oliva2
25-03-2016, 21:05
Il mio é un 8370E e per passare occt a 4,6 devo dare 1,33

http://thumbnails114.imagebam.com/47323/8f7359473223313.jpg (http://www.imagebam.com/image/8f7359473223313)

e a 4ghz devo dare 1,16

http://thumbnails114.imagebam.com/47323/bd05c4473222828.jpg (http://www.imagebam.com/image/bd05c4473222828)

;) ciauz

A parte i test che ho fatto per Bjt2, mi sono più orientato su un Vcore a cavallo di 1,3V (per i prb di temp) e su quello cercare la massima frequenza RS.
Mi sembra che per 4GHz il tuo procio sia migliore del mio... e nemmeno di poco... però sui 4,5GHz mi sembra che al mio bastino 1,3V, però non l'ho messo sotto stress e tra 100MHz in più e l'RS solido, è possibile che anche io arrivi a 1,35V.

tuttodigitale
26-03-2016, 10:15
a 1,16, secondo me, rientri abbondantemente nei 95W di TDP ..:O
se per fantasia, un core ZEN fosse grande quanto un modulo XV-1 core SandyBridge.
E se ci fosse un aumento dell'efficienza offerta dal silicio di 1,9x (rispetto al tuo caso fortunato), e se ZEN avesse lo stesso FO4 (ho mancato qualche se?), 4GHz a default su 8 core in 95W sarebbe nelle corde...

isomen
26-03-2016, 11:51
A parte i test che ho fatto per Bjt2, mi sono più orientato su un Vcore a cavallo di 1,3V (per i prb di temp) e su quello cercare la massima frequenza RS.
Mi sembra che per 4GHz il tuo procio sia migliore del mio... e nemmeno di poco... però sui 4,5GHz mi sembra che al mio bastino 1,3V, però non l'ho messo sotto stress e tra 100MHz in più e l'RS solido, è possibile che anche io arrivi a 1,35V.

direi che questo combacia perfettamente con l'ipotesi che gli E siano ottimizzati per vcore più bassi

a 1,16, secondo me, rientri abbondantemente nei 95W di TDP ..:O
se per fantasia, un core ZEN fosse grande quanto un modulo XV-1 core SandyBridge.
E se ci fosse un aumento dell'efficienza offerta dal silicio di 1,9x (rispetto al tuo caso fortunato), e se ZEN avesse lo stesso FO4 (ho mancato qualche se?), 4GHz a default su 8 core in 95W sarebbe nelle corde...

devo ammettere che così scalda veramente poco, ma se rientra nei 95w a default dovrebbe essere molto abbondantemente sotto al TDP nominale... avrebbero potuto assegnargli una frequenza leggermente più alta (invece di soli 100mhz più dell'8320E).

;) ciauz

tuttodigitale
26-03-2016, 14:21
@tuttodigitale, preparati :cool:

per cosa? :stordita:
sono curioso dei numeri che butterà fuori bjt2...:sofico:

devo ammettere che così scalda veramente poco, ma se rientra nei 95w a default dovrebbe essere molto abbondantemente sotto al TDP nominale... avrebbero potuto assegnargli una frequenza leggermente più alta (invece di soli 100mhz più dell'8320E[B]).

ti ricordi quanto era il vcore del fx8370e a default?

isomen
26-03-2016, 14:34
@isomen io a 4ghz sono già tirato con 1.25v :(
nel senso che già 4.1v non li regge devo dargli 1.30v

Neanche gli 8350 sono tutti uguali, avendone 3 posso dirti che uno ha vcore a 1,275 e 2 a 1,375... ma di questi ultimi mentre 1 é stabile a 4ghz con 1,25 l'altro sotto ~1,325 nn boota... poi nonostante ogni cpu faccia storia a se, fra 8320E e 8370E la differenza nn può essere solo 100mhz di clock (anche se nn capisco perchè nn abbiano assegnato al fratello maggiore una frequenza almeno pari all'8320 da 125w... oltretutto vedo che adesso le versioni E costano uguale alle corrispondenti lisce).

;) ciauz

tuttodigitale
26-03-2016, 15:15
dico subito che i valori di HWmonitor sono poco credibili..(non ci voleva tanto....) non tanto per i 77W in full, ma per i 33W in idle (è tanto se la CPU consumi 3W...).

Faccio un confronto con i risultati teorici e quelli pratici, giusto per avere un'idea di quanto le nostre approssimazioni possono essere efficaci:

VALORI TEORICI
4,1GHz 1.35V 125W
= = 2,2x 3 GHz 1,05V ->TDP 56W
== 1,2x 4GHz 1,25V -> TDP 105W

e la supercpu di isomen:
== 1,39x 4GHz 1,16V -> TDP 90W

da ignorante quale sono, non so quale sia il motivo che spinga la CPU a consumare di più in idle...e non sono neppure convinto che sia la CPU: 6W sono troppi e sono pure in più, sempre se il 5% non rientri nel margine di errore dello strumento :D, e anche hwmonitor per quanto non sia affidabilissimo, un'aumento pari al quadruplo del consumo della cpu dovrebbe segnalarlo imho..

Ma tantè:
EDIT: secondo techpowerup che ha misurato la potenza assorbita sui pin, il fx8350 consuma 4 WATT in idle, aumento di questo valore tutti i risultati.

VALORI MISURATI
abbiamo (dalla più efficiente a quella che consuma di più)
occt: 80W, 146, 186,

differenza 2,33x, 1,27x
la formula ha portato un errore di approssimazione pari al 5,7%-6,1%, rispettivamente..


cb15: 62W, 127W, 151W
differenza 2,44x, 1,19x...
la formula ha portato un errore di approssimazione pari al 10,6-(-0,8)%, rispettivamente..

aggiungo i valori di TDP delle cpu (Secondo i test)..
occt : 54W e 98W
CB15: 51W e 105W

Aspettando bjt2

isomen
26-03-2016, 16:17
per cosa? :stordita:
sono curioso dei numeri che butterà fuori bjt2...:sofico:

ti ricordi quanto era il vcore del fx8370e a default?

Hwinfo a corevid riporta 1,113 ma in windows éra ~1,13 e per i 4ghz ho solo impostato LLC CPU su ultra high.

;) ciauz

paolo.oliva2
26-03-2016, 17:10
Il Vcore def del mio 8370 è 1,35V....:doh:

bjt2
26-03-2016, 17:24
Non c'ho capito una mazza... :sofico: Sarà il chianti... :asd:

Comunque, prendendo per buono i 186W di occt a 4.1Ghz (8350 stock), anche se mi sembra esagerato perchè la CPU è 125W, considerandolo il caso peggiore, e supponendo un -50% di consumo a parità di frequenza, con Vcore sicuramente inferiore, e un -15% dato dalle HDL e supponendo che un core Zen abbia un numero di transistors e lo stesso FO4 di un BD, avremo che 4 core a 4.1GHz, Vcore sconosciuto, consumano 65W e 8 core 130W. Considerando che il controller della memoria e il NB sono compresi nei 186W e che questi non sono raddoppiati, possiamo essere ragionevolmente sicuri di rientrare nei 125W con 8 core e diciamo 4GHz... Poichè le HDL scendono di più di consumo al calare di frequenza e Vcore, possiamo ragionevolmente supporre che per avere 95W (-25%) basta scendere di 300Mhz (-8% e riduzione conseguente di Vcore) e quindi avere un 3.7Ghz base Zen x8 a 95W... Questo però se si verificano le condizioni di sopra e a processo maturo...

Per verificare i 95W, mi servirebbe un computo del consumo a un clock di 300 Mhz inferiore e con il Vcore minimo e verificare che per 300Mhz e discesa conseguente del Vcore, la potenza cali del 25%...

tuttodigitale
26-03-2016, 17:40
OMG, preso dai numeri relativi non ho guardato quelli assoluti...:D

tuttodigitale
26-03-2016, 20:45
eh eh eh, furbetto: mi avevi corretto ad una riposta a paolo sullo scaling dovuto alla frequenza e alla efficienza quando avevo scritto che da 4 a 3ghz si ha un raddoppio di efficienza quanto meno nel TDP se non proprio nelle prestazioni (ho di picco metà del TDP ma finisco anche dopo l'esecuzione del programma)
è una ripicca! :)
comunque c'è un'aumento dell'efficienza 36-54%, a seconda se si considerano i risultati in occt o in cinebench, e non del 100%.:read:
Sono più vicino io che ho detto che l'efficienza aumenta del 9% passando da 4 a 3,3GHz che tu :sofico: .Magari sono quei 300MHz in più che mi hanno fatto sballare:sbonk:
:Prrr:

PS a parte gli scherzi, mi pare di averlo detto che mi ero basato sui valori nominali. Ma non ho certo sbagliato di molto...
http://techreport.com/r.x/amd-fx8370e/power-task-energy.png
efficienza aumentata del 9,5-13,1% nei confronti del fx8350/70 (in questo test il fx8370e sembra lavorare a 3,4GHz medi). In pratica sembrerebbe che AMD sia stata di manica ancora più larga nei confronti delle soluzioni da 95W .

bjt2
26-03-2016, 20:51
puoi spiegarmi meglio cosa dovrei fare? :D

Trovare il Vcore minimo a 4GHz e misurare la potenza.
Poi trovare il Vcore minimo a 3,7GHz e misurare la potenza.
Entrambi sotto OCCT.
Verificare che la potenza assorbita a 3,7GHz sia circa il 25% in meno.
Se non è il 25% in meno, provare frequenza vicine fino ad avere -25%, eventualmente aggiustando il Vcore.
Da 4 a 3,7 GHz sono il -8%. Supponendo che la potenza vada con il cubo della frequenza (perchè aumenta anche il Vcore), -25% sarebbe il 7% in meno... Arrotondando ai 100Mhz più vicini viene 3,7GHz...

tuttodigitale
26-03-2016, 20:59
a bjt2 gli serve un test a 3,7GHz,
ovviamente per quanto possibile servirebbe una prestazione quanto meno SEMI rock solid (30 minuti di occt basta e avanza)

EDIT,la pagina non era aggiornata :doh:

EDIT2
Mi pare eccessivo chiedere, la verifica della resistenza interna del wattmetro. (anche se è stato più forte di me,se hai un multimetro e VUOI farlo ti aiuto, non ci sono problemi.). Probabilmente quel wattmetro non ha nessun meccanismo di compensazione...
prendendo i valori di occt, supponendo che il fx8350 stock consumi 125W in occt, scopriamo che c'è un consumo extra di 61W. con semplici passaggi ottengo 93 ohm, che approssimo a 90.

quindi per tutte le configurazioni mi calcolo
la corrente e le perdite da idle a full load dovute al wattmetro
test----3GHz 1,05V----4GHz 1,25V-----stock
occt----0,348A--------0,664A---------0,808A
P.Persa--10,9W---------39,7W----------58,8W

delta idle-load occt
totale---80--------------146-----------186
cpu-----69,1------------106,3----------127,2

credo che questi valori siano realistici

paolo.oliva2
26-03-2016, 22:25
Capisco la metodologia di Bjt2, però non comprendo una cosa:

PD è sul 32nm SOI, Zen sarebbe sul 14nm FF. Fino a qui il metro di test silicio per fare una prospettiva sul 14nm l'ho capito... ma:

Facendo un esempio velocissimo, Trinity è un PD ed è praticamente la versione APU X4 di un FX. Sappiamo il suo TDP sul 32nm... si potrebbe ipotizzare il TDP sul 28nm Bulk. Benissimo... Kaveri praticamente rappresenta il passaggio dal 32nm SOI al 28nm Bulk, di cui conosciamo il TDP/frequenze. Noi stiamo facendo il calcolo per Zen esattamente come faremmo da Trinity a Kaveri. C'è solo un punto... il passaggio Kaveri/Carrizo e Carrizo 2 rappresenta di fatto quanto abbia guadagnato AMD implementando tutte le features.

Ma AMD penso che implementi su Zen quanto ha acquisito su Carrizo, quindi in teoria credo sia più esatto partire da un Carrizo 28nm e di qui il salto sul 14nm che da PD 32nm senza HDL e senza alcuna features e solamente l'RCM.

Da come ho postato sembra quasi che faccio il saccente (lungi da me), ho scritto per evidenziare che salvo tonfi silicio, il calcolo di Bjt2 di per sè sarebbe conservativo perchè calcolato unicamente sul salto 32nm SOI/14nm FF, ma su una architettura che sicuramente è meno efficiente di SR, che a sua volta lo è meno di XV, mentre Zen, per dichiarazioni AMD, sarebbe ancor più efficiente di XV.

O c'è qualche cosa che non conosco che avvicina il 14nm più al 32nm SOI che al 28nm Bulk?

tuttodigitale
26-03-2016, 22:28
ps secondo i dati riveduti e corretti da 4 a 3GHz si guadagna solo il 15% di efficienza :read:. Quindi AMD non è di manica larga con le soluzioni da 95W più di quanto non lo sia con quelle a 125W. In effetti mi pareva troppo bello meno di 60W..

digieffe
26-03-2016, 22:50
.... Supponendo che la potenza vada con il cubo della frequenza (perchè aumenta anche il Vcore)...


Potenza o frequenza?

Perché cubo?

grossolanamente ho sempre applicato il quadrato e, in genere, mi son sempre trovato bene anche in grossi salti es 2.8 -> 4 ghz.

Vorrei soo capire meglio quali sono i tre fattori che concorrono a formare il cubo, grazie :)

tuttodigitale
26-03-2016, 23:29
Perché cubo?

credo che abbia pensato che il vcore, aumenti in modo proporzionale con il clock (vero per i finfet intel oltre il Volt).

sgrinfia
27-03-2016, 11:13
BUONA PASQUA a tutti ;)

digieffe
27-03-2016, 19:39
a pag 8 i consumi di excavator

http://excavator.looncraz.net/

bjt2
27-03-2016, 20:30
a bjt2 gli serve un test a 3,7GHz,
ovviamente per quanto possibile servirebbe una prestazione quanto meno SEMI rock solid (30 minuti di occt basta e avanza)

EDIT,la pagina non era aggiornata :doh:

EDIT2
Mi pare eccessivo chiedere, la verifica della resistenza interna del wattmetro. (anche se è stato più forte di me,se hai un multimetro e VUOI farlo ti aiuto, non ci sono problemi.). Probabilmente quel wattmetro non ha nessun meccanismo di compensazione...
prendendo i valori di occt, supponendo che il fx8350 stock consumi 125W in occt, scopriamo che c'è un consumo extra di 61W. con semplici passaggi ottengo 93 ohm, che approssimo a 90.

quindi per tutte le configurazioni mi calcolo
la corrente e le perdite da idle a full load dovute al wattmetro
test----3GHz 1,05V----4GHz 1,25V-----stock
occt----0,348A--------0,664A---------0,808A
P.Persa--10,9W---------39,7W----------58,8W

delta idle-load occt
totale---80--------------146-----------186
cpu-----69,1------------106,3----------127,2

credo che questi valori siano realistici

Ecco, ora mi trovo! :D Ma non capisco perchè il wattmetro misura di più... :confused:

Capisco la metodologia di Bjt2, però non comprendo una cosa:

PD è sul 32nm SOI, Zen sarebbe sul 14nm FF. Fino a qui il metro di test silicio per fare una prospettiva sul 14nm l'ho capito... ma:

Facendo un esempio velocissimo, Trinity è un PD ed è praticamente la versione APU X4 di un FX. Sappiamo il suo TDP sul 32nm... si potrebbe ipotizzare il TDP sul 28nm Bulk. Benissimo... Kaveri praticamente rappresenta il passaggio dal 32nm SOI al 28nm Bulk, di cui conosciamo il TDP/frequenze. Noi stiamo facendo il calcolo per Zen esattamente come faremmo da Trinity a Kaveri. C'è solo un punto... il passaggio Kaveri/Carrizo e Carrizo 2 rappresenta di fatto quanto abbia guadagnato AMD implementando tutte le features.

Ma AMD penso che implementi su Zen quanto ha acquisito su Carrizo, quindi in teoria credo sia più esatto partire da un Carrizo 28nm e di qui il salto sul 14nm che da PD 32nm senza HDL e senza alcuna features e solamente l'RCM.

Da come ho postato sembra quasi che faccio il saccente (lungi da me), ho scritto per evidenziare che salvo tonfi silicio, il calcolo di Bjt2 di per sè sarebbe conservativo perchè calcolato unicamente sul salto 32nm SOI/14nm FF, ma su una architettura che sicuramente è meno efficiente di SR, che a sua volta lo è meno di XV, mentre Zen, per dichiarazioni AMD, sarebbe ancor più efficiente di XV.

O c'è qualche cosa che non conosco che avvicina il 14nm più al 32nm SOI che al 28nm Bulk?

Visto che avevate CPU solo 32nm ho supposto un -50% di potenza dal passaggio 32nm SOI => 14nm FF e -15% per l'HDL

Potenza o frequenza?

Perché cubo?

grossolanamente ho sempre applicato il quadrato e, in genere, mi son sempre trovato bene anche in grossi salti es 2.8 -> 4 ghz.

Vorrei soo capire meglio quali sono i tre fattori che concorrono a formare il cubo, grazie :)

Si approssima con il cubo perchè all'aumentare della frequenza devi aumentare anche la tensione. In realtà la tensione da dare sarebbe Vt+kf (Vt è la tensione di soglia dei transistors, che dipende dal processo produttivo, mi pare che per i FF sia intorno ai 0,4-0,5 Volt), quindi aumenta si linearmente, ma con un offset, quindi al raddoppiare della frequenza raddoppia solo la componente variabile... Ma all'aumentare della potenza, aumenta la temperatura e quindi il leakage (esponenzialmente) e all'aumentare della tensione aumenta ancora il leakage (sempre esponenzialmente), quindi si approssima con il cubo, perchè nel range utilizzabile l'approssimazione più o meno vale... Oltre il range, aumenta tutto esponenzialmente ed è per questo che non si può overvoltare più di tanto una CPU...

credo che abbia pensato che il vcore, aumenti in modo proporzionale con il clock (vero per i finfet intel oltre il Volt).

Questo è interessante.

BUONA PASQUA a tutti ;)

BUONA PASQUA!

digieffe
28-03-2016, 01:58
Zen avrà il controller di memoria a 2400mhz per 8 core
quindi 1200 per 4 core, un po' poco?

paolo.oliva2
28-03-2016, 08:06
AIDA64 v5.70 Released With AMD Zen Summit Ridge and Intel Kaby Lake CPU Support
Read more at http://www.legitreviews.com/aida64-v5-70-released-amd-zen-intel-kaby-lake-cpu-support_180117#hgmLR8khhYyXXFKL.99

New features & improvements of AIDA64 v5.70:
– AVX and FMA accelerated FP32 and FP64 ray tracing benchmarks
– Vulkan graphics accelerator diagnostics
– Microsoft Windows 10 Redstone RS1 Insider Preview support
– Improved support for AMD Zen Summit Ridge CPU
– Improved support for Intel Kaby Lake CPU
– Corsair AXi power supply unit sensor support
– Corsair Link sensor support
– Corsair Strafe, Logitech G13, Logitech G19, Logitech G19s RGB LED keyboard support
– Corsair, Logitech, Razer RGB LED mouse support
– Improved support for Koolance and T-Balancer sensor devices
– Multiple pages support for Logitech Arx and RemoteSensor
– ACPI 6.1 support
– Kingston SSDNow UV300, Samsung CM871, Samsung PM871 SSD support
– GPU details for AMD Radeon R5 340X and Radeon R7 350X
– GPU details for nVIDIA GeForce 920MX, GeForce 930MX, GeForce 940MX

paolo.oliva2
28-03-2016, 08:20
Zen avrà il controller di memoria a 2400mhz per 8 core
quindi 1200 per 4 core, un po' poco?

Non ho capito perchè dimezzando i core dimezzi pure la frequenza?
Comunque (personalmente) credo che il confronto di frequenza a parità di RAM sia valido sullo stesso MC/architettura.
Non mi ricordo perfettamente, ma ad esempio sul Phenom II X4, Phenom II X6, pur con lo stesso MC e stessa architettura, il Thuban con un NB meno occato riusciva ad alimentare 6 core (+50%) e occando di più (NB/MC) non si guadagnava nulla, mentre la versione X4 più si occava NB/MC/DDR più guadagnava. Idem il discorso BD... dove con DDR3 1600 si alimentano 8 core che complessivamente richiedono almeno un +15% di banda.

Non è che difendo AMD, ma penso che oltre al clock bisogna anche valutare l'interfaccia MC/core per comprendere la potenzialità.

Sempre considerando che il supporto 2400 e non superiori, sia per motivi Jdec e non come con BD che si ferma a 1866 o 2133 ma in realtà si supera anche i 2500.

digieffe
28-03-2016, 10:26
Non ho capito perchè dimezzando i core dimezzi pure la frequenza?


Zen 8 core con ddr4 2400 (dual channel) equivale ad uno zen 4 core con ddr 1200 (2 ch)

allora mi chiedo se un ipotetico 4 core con delle ipotetiche memorie 1200 non sia limitato.

Mister D
28-03-2016, 11:46
Zen 8 core con ddr4 2400 (dual channel) equivale ad uno zen 4 core con ddr 1200 (2 ch)

allora mi chiedo se un ipotetico 4 core con delle ipotetiche memorie 1200 non sia limitato.

Basta che ti guardi la recensione di anadtech su skylake ddr3L vs ddr4. Non cambia una mazza a parte quando usano la grafica integrata (ed è normale che sia così). Il collo di bottiglia è da un po' che non sono più le ram a parte pochissimi casi.;)

digieffe
28-03-2016, 11:59
Basta che ti guardi la recensione di anadtech su skylake ddr3L vs ddr4. Non cambia una mazza a parte quando usano la grafica integrata (ed è normale che sia così). Il collo di bottiglia è da un po' che non sono più le ram a parte pochissimi casi.;)

ddr3l@1600 sono più che sufficienti per skylake, il problema si porrebbe se fossero @1200

Mister D
28-03-2016, 12:07
ddr3l@1600 sono più che sufficienti per skylake, il problema si pone se fossero @1200

Scusami ma stai facendo confusione. Quando per amd si parla di ddr4 2400 si intende 1200 MHz ma questo vale per tutte le ddr, ergo anche le ddr3l 1600 sono in realtà 800 MHz.;)

Grizlod®
28-03-2016, 12:36
Zen 8 core con ddr4 2400 (dual channel) equivale ad uno zen 4 core con ddr 1200 (2 ch)

allora mi chiedo se un ipotetico 4 core con delle ipotetiche memorie 1200 non sia limitato.IMO stai confondendoti, il DRAM Controller (PHY) alimenta alla stessa frequenza la CPU, indipendentemente da quanti cores abbia.
Se sarà 2400 MHz, viaggerà @ 2400 MHz, poi è il (cosidetto) CPU/NB ad alimentare (distribuire) i dati ai vari cores presenti (attivi)...punto.

Logicamente non è obbligatorio installare moduli RAM @ 2400 MHz, ma questo è un altro discorso...

digieffe
28-03-2016, 12:40
Scusami ma stai facendo confusione. Quando per amd si parla di ddr4 2400 si intende 1200 MHz ma questo vale per tutte le ddr, ergo anche le ddr3l 1600 sono in realtà 800 MHz.;)

si, hai ragione sulla confusione frequenza ecc

questo non toglie il "problema" che ddr4 2400@1200mhz 2 ch possano essere insufficienti per un 8 core esattamente come lo sono ddr3 1200@600mhz 2ch per un 4 core skylake

spero di non aver fatto confusione :)