[Thread Ufficiale] Aspettando ZEN - Pagina 535

george_p · 23-12-2016, 22:52

Quote:

Originariamente inviato da tuttodigitale

la mia chiave di lettura è proprio questa...
consumo::= 2 core ZEN 14nm = 1 Modulo XV 28nm

ma il primo è su finfet...(-35/55% rispetto al 28nm)
2core ZEN = 1 modulo XV +55% (caso -35%) , ovvero sarebbe da paragonare : ZEN x8/16t vs XV 12 core CMT
2 core ZEN = 1 modulo XV +120% (caso -55%), ovvero sarebbe da paragonare : ZEN x8/16t vs XV 18 core CMT

quando paolo.oliva, dice che per misurare il reale beneficio dell'architettura ZEN, a netto dei finfet, bisognerebbe paragonarlo ad un ipotetico XV con lo stesso numero di thread non ha tutti i torti.

mi pare difficile, assai difficile da credere che ZEN X4 @3GHz possa consumare 35W sui 28nm.

mi sono mantenuto basso....
la verità, può anche non piacere per chi vede il progetto BD nato male ed evoluto peggio, che stando a quanto dichiarato da AMD, ZEN a parità di frequenza, thread e watt migliorerebbe mediamente l'efficienza nel MT del 15% (caso pessimistico -35%), ma potrebbe portare guadagni pari a 0% se non addirittura una leggerissima regressione, se consideriamo che le gpu hanno visto più che dimezzato i consumi a parità di frequenza, di quanto possibile con XV...

in sostanza i progressi resi pubblici fino ad oggi, sembrerebbero praticamente solo merito dei finfet e non di ZEN...."aspettando le prove nel ST"

dicevi che ZEN dovesse essere molto più efficiente di XV anche sui 28nm, dando la colpa al CMT... i core non sono tutti uguali...non hanno lo stesso consumo (e ahimè neppure le stesse prestazioni)

Più che altro intendo che Zen ha dalla sua un ipc maggiore rispetto a quanto aveva BD appena uscito. Ma soprattutto BD aveva un ipc ben inferiore alla sua precedente.
Quindi, oggi con il silicio adeguato anche se non eccellente possiamo disporre di un buon ipc alla stessa frequenza di thuban e BD, mica noccioline.

Quindi un pò per logica mi viene da pensare che se Zen davvero raggiunge queste frequenze con otto core a 95 w di tdp sul 14 perché non dovrebbe come esacore anche a 125 sul 32 o sul 28nm?

Semplice logica, e visto che tanto speculazione per speculazione.

Poi, gli ingegneri di Zen hanno progettato l'architettura basandosi sui pp più piccoli di 28. Ma ciò che conta è che hanno aumentato di nuovo l'ipc mentre in BD hanno riportato indietro di 4 anni all'epoca.

Grizlod® · 23-12-2016, 23:29

Quote:

Originariamente inviato da george_p

Più che altro intendo che Zen ha dalla sua un ipc maggiore rispetto a quanto aveva BD appena uscito. Ma soprattutto BD aveva un ipc ben inferiore alla sua precedente.
Quindi, oggi con il silicio adeguato anche se non eccellente possiamo disporre di un buon ipc alla stessa frequenza di thuban e BD, mica noccioline.

Quindi un pò per logica mi viene da pensare che se Zen davvero raggiunge queste frequenze con otto core a 95 w di tdp sul 14 perché non dovrebbe come esacore anche a 125 sul 32 o sul 28nm?

Semplice logica, e visto che tanto speculazione per speculazione.

Poi, gli ingegneri di Zen hanno progettato l'architettura basandosi sui pp più piccoli di 28. Ma ciò che conta è che hanno aumentato di nuovo l'ipc mentre in BD hanno riportato indietro di 4 anni all'epoca.

Non credo ci sarebbe stato lo stesso quantitativo di L3 e forse neppure l'HW per l'SMT.

Inoltre, maggior area, quindi minor resa sul wafer ed anche problemi a salire in OC.

IMO interessantissima la feature dell' overclock automatico rilevando la temperatura (*), ed in ambito server, se non ricordo male, il minichip ARM di cifratura.

* pensando alla stragrande maggioranza di utenti che neppure ci pensano o neanche ne hanno mai sentito parlare.

paolo.oliva2 · 23-12-2016, 23:29

Quote:

Originariamente inviato da tuttodigitale

la mia chiave di lettura è proprio questa...
consumo::= 2 core ZEN 14nm = 1 Modulo XV 28nm

ma il primo è su finfet...(-35/55% rispetto al 28nm)
2core ZEN = 1 modulo XV +55% (caso -35%) , ovvero sarebbe da paragonare : ZEN x8/16t vs XV 12 core CMT
2 core ZEN = 1 modulo XV +120% (caso -55%), ovvero sarebbe da paragonare : ZEN x8/16t vs XV 18 core CMT

quando paolo.oliva, dice che per misurare il reale beneficio dell'architettura ZEN, a netto dei finfet, bisognerebbe paragonarlo ad un ipotetico XV con lo stesso numero di thread non ha tutti i torti.

Comunque la si gira, se XV dal 32nm (ipotetico) al 14nm raddoppierebbe i core, è ovvio che Zen li dimezzerebbe, quindi più di Zen X4+4 sul 32nm cosa ci scapperebbe? Anche perchè Zen, essendo a multipli di X4, o ci sta un X8 o ci sta X4, X6 non può esistere... nativamente. Sarebbe come ipotizzare un BD X9.

Ancora non è detta l'ultima parola per le frequenze finali e per il top magari con una selezione plus, stile 9590.

Comunque ancora non ho capito i reali margini (o limiti

) del 14nm... da 3,5GHz def a 3,9GHz Turbo, ci sono +500MHz, va bene che è un X8 e quindi il margine di TDP è molto (da X8 a X1 o X2...), ma in fin dei conti il margine è inferiore rispetto ad Intel, perchè comunque il funzionamento è 95W massimi, in Intel è 140W, eppure da frequenza def alla massima ci sarebbe sempre un range di 500MHz.

Comunque io sono convinto che AMD voglia piazzare Zen come 95W per far risaltare = TDP degli i7 X4, ma io ho un X8. Altrimenti, se volesse piazzare un Zen vs gli E Intel, avrebbe potuto impostare Zen 140W, se proprio il PP silicio facesse perdere efficienza, giocare la carta di 3 CCX.

Io spero, per AMD, che non faccia un procio né carne nè pesce. Cioè, se castri un X8 a 95W, si può correre il rischio di un TDP troppo basso per competere con gli E Intel, ma frequenze troppo inferiori agli i7 X4, rischierebbe di perdere in marketing, perchè Intel la promozione ai propri proci la sa fare e bene, li intorterebbe più che bene.
Se rinuncia a Zen X4 X86 nativo, la carta prezzo la gioca di sicuro.

paolo.oliva2 · 23-12-2016, 23:43

Quote:

Originariamente inviato da bjt2

Beh, se la prima infornata avrà 3.5-3.6 base, metti le seconde infornate, metti il 14nmHP, metti il 7nm GF, metti Zen+ con ulteriori migliorie e l'SMT4, hai voglia a strada che deve fare INTEL per recuperare...

Prevedo che già sul 14nm si arrivi a superare i 4GHz base (magari solo sull'HP) e sul 7nm qualcosina in più... Poi un po' di IPC in più con zen+

Per quello che si è visto, penso più che AMD abbia fatto vedere dove Zen è più performante rispetto a che abbia giocato a nascondino facendo vedere meno potenzialità, ma alla fine, sembra equo un Zen +10% di frequenza e -10% di IPC, con risultato finale abbastanza simili... il che è una vittoria, considerando l'architettura Zen acerba e il 14nm GF inferiore a quello Intel.

Ora è tutta nelle mani AMD, se commercializzasse Zen ai prezzi dei rumors, non basterebbe GF e Samsung, dovrebbe far produrre anche a TSMC

.

Certo che se promuovesse Zen con abbianata una RX 480, come ha fatto per gli i5... Lo sai che pensando male... il fatto di fare un pacchetto i5 + RX480, mi sa tanto di messaggio tipo "non calare troppo il prezzo dei proci ed io in cambio ti faccio vendere un tot di VGA in bandle ai miei proci...".

george_p · 24-12-2016, 01:36

Quote:

Originariamente inviato da Grizlod®

Non credo ci sarebbe stato lo stesso quantitativo di L3 e forse neppure l'HW per l'SMT.

Inoltre, maggior area, quindi minor resa sul wafer ed anche problemi a salire in OC.

IMO interessantissima la feature dell' overclock automatico rilevando la temperatura (*), ed in ambito server, se non ricordo male, il minichip ARM di cifratura.

* pensando alla stragrande maggioranza di utenti che neppure ci pensano o neanche ne hanno mai sentito parlare.

Speculazione personale la mia, e ogni progetto ha una sua storia dietro, se Keller e soci avessero lavorato al posto di Meyer avrebbero tirato fuori una cpu diversa da BD e Zen non sarebbe mai esistito.

Ciò che conta oggi è che Zen sia competitivo sul processo per il quale è stato progettato, tutto il resto è solo speculazione che non vedrà mai luce.

bomkill · 24-12-2016, 02:06

[quote=paolo.oliva2

Certo che se promuovesse Zen con abbianata una RX 480, come ha fatto per gli i5... Lo sai che pensando male... il fatto di fare un pacchetto i5 + RX480, mi sa tanto di messaggio tipo "non calare troppo il prezzo dei proci ed io in cambio ti faccio vendere un tot di VGA in bandle ai miei proci...".[/QUOTE]

A questo non avevo pensato anche se sarebbe suicida per Amd tenere i prezzi allineati o poco inferiori a Intel,certo che un bundle zen+polaris/vega con un sostanziale sconto non sarebbe male

fabius21 · 24-12-2016, 02:06

Quote:

Originariamente inviato da Grizlod®

IMO interessantissima la feature dell' overclock automatico rilevando la temperatura (*), ed in ambito server, se non ricordo male, il minichip ARM di cifratura.

* pensando alla stragrande maggioranza di utenti che neppure ci pensano o neanche ne hanno mai sentito parlare.

Il mio amico non mi permette di overcloccargli il suo q6600 ed ha un noctua girantesco

cdimauro · 24-12-2016, 05:56

Quote:

Originariamente inviato da bjt2

Beh, a memoria, ho ricordi vaghi che le unità non erano fully pipelined. Ora mi ricordo che basta vedere le tabelle del PDF di Agner Fog e guardare la colonna del 1/throughput. Se è dello stesso ordine di grandezza della latenza (o qualche ciclo meno) allora non è pipelined, perchè vuol dire che deve terminare tutta l'esecuzione prima di poterne fare un'altra (e ovviamente blocca tutta la pipeline)

Le DIV (intere) a 64 bit (e solo queste) non sono pipelined (su Broadwell e Skylake), e probabilmente anche le SQRT (SIMD; ma Skylake fa molto meglio di Broadwell, e sembra non pipelined solo la versione vettoriale a doppia precisione e a 256 bit) ma non il loro reciproco.

Quote:

Beh, penso che una volta pubblicate le informazioni di instlat86, tempo un paio di giorni e ci sarà la nuova patch...

Sì, ma la cosa strana è che sarebbe dovuta essere AMD a fornire fin da principio la patch corretta: se non lo sa lei qual è la latenza (e throughput) delle sue istruzioni.

Quote:

Penso che sia per un fatto di uniformità: nel manuale di Fog ci sono tante CPU, comprese low power, knight xxx, mi pare anche il pentium 4 e magari per loro la distinzione ha senso.

Vedi sopra: l'unica ipotesi è che utilizzino le DIV per differenziare. E' l'unico caso in cui le versioni a 64 bit si comportano peggio (sembrano non pipelined, appunto) delle versioni con meno bit.

Quote:

VHDL l'ho studiato all'università (e anche il dimensionamento dei MOS), ma non ricordo granchè...

Azz. Pensavo di averti adescato, e m'è andata buca.

Quote:

Ma è una specie di subset/superset di x86?

Superset, perché include tutte le istruzioni x86, più diverse altre (e parecchie altre modalità d'indirizzamento: ho perfino pre-post incremento e decremento, e l'aggiornamento del registro base. E altro ancora

).

Subset nell'implementazione, perché quasi tutte quelle legacy le ho relegate in un settore "low-performance": le eseguo, ma a velocità molto minore.

L'obiettivo è di garantire comunque l'esecuzione di qualunque tipo di istruzione, ma per il vecchiume c'è una penalità da pagare.

L'architettura è anche compatibile al 100% in assembly con x86 e x64, a patto di rimanere interamente a livello di sorgente. Ergo: niente uso di codice binario inserito nell'assembly (DB etc.) o facendo assunzioni sulla struttura degli opcode, ecc.

Quindi è possibile ricompilare tranquillamente quasi tutte le applicazioni x86 e x64 esistenti, e girano senza problemi (molto meglio. Densità nettamente migliore per codice a 64 bit, comparato a x64. E solo leggermente superiore con codice a 32 bit, comparato con x86). Fatta eccezione per quelle che ricadono nei casi di cui sopra (es: che fanno uso di JITer che generano ed eseguono dinamicamente codice macchina).

Quote:

Le mie elugubrazioni erano più per una CISC (ovviamente con motore RISC) completamente ortogonale dove ogni operando aveva il tipo annesso ed erano automaticamente emesse le uop di conversione se il tipo dei vari operandi era diverso. Istruzioni a 0-4 operandi, dove ogni operando aveva campi di bit per tipo, modo indirizzamento e dati, avevo anche calcolato i bit ecc...

Troppo complicato, e non sarebbe abbastanza performante. Certo, nei soli casi in cui ha una conversione di tipo, guadagneresti, ma non sono casi comuni. Sicuramente non tali da giustificare una notevole complessità per implementare i tuoi core.

Da questo punto di vista ho preferito utilizzare un approccio più conservativo / tradizionale: l'ISA è molto simile alle attuali x64, ARM64, POWER.

Non è ortogonale, perché non potevo "ortogonalizzare" tutto, ma ritengo che da questo punto di vista sia un ottimo compromesso. Le eccezioni che i compilatori devono gestire sono poche, anche se alcune sono particolari.

Quote:

Già dall'abstract vedo che mi ha copiato l'indirizzamento...

Anche a me è sempre stata antipatica la paginazione e pensavo di dividere in range lo spazio, il tutto da mettere in registri interni del processore... La PTE coalescing è l'adattamento della mia idea alla paginazione, senza modificare i SO correnti, quindi con granularità 4KB, ma limite di 8 pagine alla volta...
Suggerirei ad AMD di modificare le TLB in modo da mettere pagina iniziale e finale e quindi non limitarsi a range di 8 pagine...

Abbiamo le stesse idee. Io adoro la segmentazione per questo.

Ma mentre per codice e segmento di dati le dimensioni sono GENERALMENTE (vedi jiter et similia) statici, per l'heap e lo stack non è così: si espandono e contraggono. E la paginazione qui è veramente comoda.

Oltre al fatto che con la paginazione è più facile gestire la memoria virtuale (swap et similia) e fare altre cosucce interessanti.

Purtroppo non c'è una soluzione universale per tutto: segmentazione e paginazione hanno i loro pregi e difetti, e ha senso che esistano entrambe.

Comunque l'idea di accorpare le pagine è buona. Ma generalizzarla a qualunque dimensione (non solo 8 pagine alla volta) la vedo complicata a livello implementativo.

Quote:

Qualcuna ce n'è:
Ad esempio:
Pag 67:
DIV r8/m8 9 17-22 13-17 EX0
DIV r16/m16 7 15-25 15-25 EX0
IDIV r8/m8 9 17-22 13-17 EX0
IDIV r16/m16 7 14-25 14-24 EX0

9 e 7 MOPs

Pag 68:
Varie istruzioni di shift rotazione (non riesco ad incollare...)

Pag 69-75
Molte istruzioni di mascheramento e floating point...

Sì, è vero. Ma prima ti rispondevo solo sulla SQRT.

Quote:

Hai ragione. Il contributo è minimo. Ma almeno in AMD non hai uop cache pollution perchè è una sola uop. In INTEL, se non usi questo trucco, quando incontri qualche mostro di questo ti può svuotare parte della cache uop.

Non è un problema proprio per il contesto di cui parlavo prima: la cache verrebbe comunque ripulita immediatamente dopo l'uso, perché il processore farebbe altro.

Quote:

Beh, se i 4 decoder possono sparare 4 puntatori alla rom per ciclo, non è che impatta molto: vai di microcodice e via... Forse è per questo che l'hanno fatto questa genialata...

AMD ha molti più casi di questo tipo (perché ha un massimo di 2MOP per istruzioni), ed è anche per questo che ha 4 decoder complessi. Per cui ha senso quest'approccio.

Quote:

Non mi toccare la FPU x87!

Già ora 64 bit mi stanno stretti...

E anche 80...

Power 9 avrà i 128 bit, anche se leggendo il reference manual (si! ho fatto la pazzia di leggerlo tutto!

) per questa versione è tutto o quasi in trap, ossia emulazione software, ma hanno gettato le basi per una futura versione hardware. D'altronde anche gli 80 bit su x87 sono più lenti e sulle CPU di bassa potenza (mi pare ad esempio le bobcat e jaguar) addirittura la denormalizzazione è demandata a routine di microcode ROM...

Tranquillo: non te li tocco i 128 bit. So bene quanto sia importante poter eseguire calcoli con una precisione più elevata.

Infatti l'unità SIMD della mia architettura è completamente ortogonale da questo punto di vista, e supporta float a 16/32/64/128 bit e interi a 8/16/32/64, in versione packed o scalare.

Questo proprio in previsione di supportare i settori HPC (128 bit) e machine learning / AI (16 bit spesso sono sufficienti qui).

E come densità di codice è leggermente inferiore ad AVX (che ha max 16 registri), ma meglio di AVX-512 (32 registri), ma usando 64 registri (fino a 128 con un altro meccanismo, comunque trasparente, ma che fa aumentare la dimensione delle istruzioni).

Buondì a tutti.

Piedone1113 · 24-12-2016, 08:23

Quote: