Torna indietro   Hardware Upgrade Forum > Componenti Hardware > Processori

Volkswagen ID.4, SUV elettrico per la famiglia che convince
Volkswagen ID.4, SUV elettrico per la famiglia che convince
La declinazione SUV elettrica per Volkswagen prende il nome di ID.4 e abbiamo avuto l'occasione di provarla. Ecco le nostre impressioni, test prestazionali, consumi e tante considerazioni che non sono mai troppe per un settore ancora difficile da digerire per l'utente abituato alle care e vecchie auto con motore termico.
iPad mini 6 contro iPad 9: il più piccolo contro il più economico. La recensione
iPad mini 6 contro iPad 9: il più piccolo contro il più economico. La recensione
Due tablet molto diversi accomunati da un sistema operativo uguale sempre più completo e professionale. iPad mini 6 e iPad 9 sono agli antipodi: uno piccolo, fortemente portatile e con processore di ultimissima generazione. L’altro con il prezzo più basso tra i tablet di Apple e con il supporto alla Apple Pencil di prima generazione. Quale scegliere e perché?
Recensione FIFA 22: ecco com'è su Google Stadia
Recensione FIFA 22: ecco com'è su Google Stadia
FIFA 22 introduce la nuova tecnologia HyperMotion, presente però solo sulle console di nuova generazione e nella versione Google Stadia, non in quella Windows PC. Ecco perché abbiamo deciso di provarlo su Stadia, incontrando però qualche limitazione...
Tutti gli articoli Tutte le news

Vai al Forum
Discussione Chiusa
 
Strumenti
Old 23-12-2015, 16:15   #1
tuttodigitale
Senior Member
 
Iscritto dal: Sep 2010
Messaggi: 3943
[Thread Ufficiale] Aspettando ZEN

ZEN è l’architettura ad alte prestazioni di AMD, la quale andrà a sostituire l’attuale tecnologia “Bulldozer




Un po’ di Storia

Nero, questo è il colore del periodo che ha trascorso AMD dopo il burrascoso passaggio al SOI 32nm HMKG.
Da quel momento, AMD ha iniziato a perdere, per via della mancata competitività delle sue soluzioni, importanti quote di mercato.
Non sapremo mai quali siano state le vere cause di questo clamoroso débâcle. Una cosa era certa, le cose non potevano continuare così.
Era giunta l’ora da parte di AMD, guidata dal neo CEO Lisa Su, di alzare la testa e salire dal fondo in cui era precipitata.

Agosto 2012, Jim keller entra a far parte della lista dei dipendenti di AMD. Il suo è un gradito ritorno.
Era stato il co-autore di due tecnologie, che nonostante gli anni trascorsi sono ancora attualissime: l’isa x86-64 e il bus HyperTransport.
Tecnologie che hanno debuttato con l’eccellente progetto Hammer di cui Keller era il Lead Architect. Le aspettative, sono dunque altissime.

Il 5 Maggio 2014 AMD dichiara al mondo di avere in cantiere non una, ma ben due architetture.
In quella occasione viene reso pubblico solo il nome k12, quella della prima architettura made in Sunnyvale con ISA ARMv8,
Intanto keller, nelle sue poche uscite pubbliche ammette la stretta parentela tra le 2 architetture (“gemelli diversi”), fatto confermato anche da i numerosissimi brevetti. “k12.. ha un motore più grande”, poche parole che lasciano ampio spazio all’interpretazione e all’immaginazione.
Solo il 27 Gennaio 2015 viene reso noto al grande pubblico il nome di battesimo della soluzione x86: ZEN. bastano 3 lettere per identificare la futura architettura ad alte prestazioni di AMD.
I chip desktop basati su architettura Zen appartengono alla famiglia indicata con il nome di Summit Ridge e saranno costruiti con un avanzato, ma ad oggi non ben precisato, processo produttivo FINFET.

OBIETTIVI
L’obiettivo neanche a dirlo, è quello di eliminare il segno meno dai bilanci che si sono susseguiti negli ultimi anni. AMD ha idee piuttosto chiare sul da farsi: puntare sul mercato ad alto margine, data-center e HPC su tutti.

È ZEN lo strumento che userà la casa di Sunnyvale per cercare di riconquiste le quote di mercato perdute.
L’architettura costruita da zero, che stando a quanto dichiarato da AMD è in grado di offrire in un confronto core-to-core, il 40% di IPC in più rispetto a l’ultima incarnazione dell’architettura bulldozer, conosciuta con il nome di Excavator.
Zen nonostante le ambizioni in campo HPC, non è solo un’architettura destinata a CPU ad alte prestazioni, ma un progetto general purpose, in grado di bilanciare, all’occorrenza, consumi ridotti con buone prestazioni, per un incremento di efficienza che, secondo quanto affermato da AMD, ha dell’incredibile.


25x20, questo recita la slide, in parole, un’efficienza migliorata di un fattore 25 in 6 anni nel periodo 2014-2020, dove ZEN nelle sue varianti “+” sarà l’ingrediente fondamentale di questo “miracolo” tecnologico.

La commercializzazione prevista per l'ultimo trimestre del 2016.


ZEN IN DETTAGLIO (in progress)
Generalità

L’architettura ZEN, già ad un’analisi superficiale, si differenzia tanto dalla precedente.

L’approccio CMT di Bulldozer è stato accantonato in favore di una più tradizionale soluzione SMT a 2 vie. Ora tra le risorse contese dai due thread ci sono anche le unità integer, quelle che nella nomenclatura di AMD, vengono a costituire il core. Come vedremo nel seguito il back-end è molto più ampio rispetto a quanto visto nel recente passato.

Anche con ZEN, AMD fa riferimento ad un modulo, costituito in questo caso da 4 core + una cache L3 condivisa. Chi scrive pensa che la dizione, sia stata usata per sotto-intendere una unità funzionale indivisibile, ovvero che non sarebbero previsti, nemmeno in futuro, moduli ZEN con quantitativi di cache integrate sul silicio diverse da quella che saranno presenti nella prima incarnazione, conosciuto con il nome in codice SUMMIT BRIDGE.

Per questa famiglia, che condividerà con l’APU BRISTOL RIDGE la piattaforma AM4, AMD prevede un die monolitico costituito da 2 moduli da 4 core ciascuno, per un totale di 8 core e 16 thread,

Sopra l’immagine presente nelle slide di AMD (AMD Investor Presentation).
Sotto l’interpretazione del CPU Architect Han de Vries, dove compaiono 2 bus GMI, un bus coerente ad alta velocità la cui esistenza è stata resa nota da Raja Koduri (Senior Vice President and Chief Architect, Radeon Technologies Group), a Gennaio 2016, attraverso il sito giapponese pcwatch vedi qui) e riportate anche da questa slide


I Memory Controller, sempre secondo l'interpretazione di Han de Vries, sarebbero distinti e Single Channel, in netta controtendenza, al doppio MC dual channel di trinity/Carrizo/Bristol Ridge.


La piattaforma AM4
AMD ha confermato l'uscita di una piattaforma chiamata AM4, che sostituirà FMx, AM3+, AM1. Le CPU Summit Ridge e le APU desktop Bristol Ridge, condivideranno la stessa piattaforma.


“Tutta nuova”, così il reparto marketing AMD definisce la nuova creatura, e a ragione.
In AM4, ci sarà un unico chipset battezzato Promontory, un cambiamento netto rispetto alla vecchia piattaforma AM3+, caratterizzata da un northbridge e southbridge sulla piastra. Un sistema con Summit Bridge non richiede necessariamente il chipset. Il “miracolo” è reso possibile dall’integrazione nel die delle CPU e APU AM4, di bus ad alta e bassa velocità, che caratterizzano un comune PC.

Nota: le linee PCI express 3.0 saranno 8 per le APU Bristol Ridge

sono 5 i chipset che saranno disponibili per la nuova piattaforma:




Ovviamente l’integrazione nel die di tutte queste componenti di I/O, richiede una piedinatura molto più generosa. Il numero di pin del socket AM4, secondo i rumors, passa dai 942 della precedente piattaforma AM3+, a 1331 mantenendo il formato uopga ([bitsandchips] 1331 pin per AM4).
Cambiano anche le misure dell’interasse dei fori di montaggio (fonte Bitsandchips)
come da tabellina:

Fonte: bitsandchips

Con AM4 compatibile con le DDR4, non finisce la “tradizione” oramai decennale, di far corrispondere il numero che segue le lettere “AM” la versione delle memorie DDR supportate, in configurazione dual channel. La frequenza operativa massima certificata per Bristol Ridge, le APU basate su core excavator, è di 2400MHz ([bitsandchips] Bristol Ridge Desktop), il massimo attualmente previsto da Jedec. E’ ragionevole supporre che questo valore sarà condiviso anche per i prodotti basati sui core ZEN. Voci di corridorio affermano che ZEN sia in grado di lavorare in assoluta stabilità con memorie a 2933 MHz (ddr4 fino a 2933 MHz su AM4).


Altri prodotti basati su ZEN.
I confini di utilizzo dell’architettura ZEN vanno ben aldilà del solo panorama desktop:


Al momento non ci sono state fughe di notizie sulle caratteristiche delle piattaforme low-power e pertanto ci concentreremo sul mercato server.


Le specifiche trapelate della CPU di punta, nome in codice NAPLES, sono da panico: 32 core /64 thread ottenute mediante MCM. Si fa sempre più insistente la voce che la creatura super-high-end sia composta da 4 die ZENx8 sul package , ([Fudzilla] 4 die x8 per Naples)
quest’ultima soluzione ricorda molto da vicino quanto fatto da IBM diversi anni or sono sulle sue cpu server

foto: Power7, 45nm, 4 die in configurazione MCM, 32/128thread totali

A dare man forte, a questa indiscrezione, sono le informazioni sul numero di canali indipendenti dei Memory Controller: 8, il doppio delle soluzione XEON Broadwell-based…e anche le altre caratteristiche salienti risultano essere moltiplicate per 4, e la data del debutto non tanto distante da quella di Summit Bridge. Il tutto in un TDP che non dovrebbe superare i 180W.
([Fudzilla] Naples 32 core, 180W TDP max)
Dopo aver raschiato il fondo del barile, acquistando 10 anni fa ATI Technologies, questo sembra l’anno buono per il calcolo non specifico su gpu. Con l’arrivo di GCN prima, di kaveri poi, il paradigma HSA può prendere piede nel mercato che conta…


Particolare cura è stata posta al bus che interconnette la GPU alla CPU. A fare le vece del PCI express, fino ad oggi impiegato, ci pensa il nuovo bus GMI. Questo bus a bassa latenza è poliedrico, in quanto sostituisce anche HyperTransport.
Le specifiche anche in questo caso si preannunciano mostruose: 16 core, dovute secondo indiscrezioni sull’utilizzo di 2 die ZEN. Il bandwidth necessario per far sprigionare gli oltre 4 TFLOPs di potenza sarebbero garantiti da 2 stack di memorie HBM, per una capacità di 8/16GB.
Al momento non è chiaro quale sia la GPU HBM-ready sarà utilizzata…


Processo produttivo
La possibilità di stipare sempre più transistor con caratteristiche elettriche migliorate, ha consentito miglioramenti prestazionali ed efficienza incredibili, basti pensare che la potenza degli attuali smartphone supera quella dei comuni personal computer di soli dieci anni fa.
Tuttavia, negli ultimi anni abbiamo assistito ad una battuta d’arresto di tali progressi. Processi produttivi sempre più avanzati hanno portato un beneficio assai modesto rispetto a quanto è lecito attendersi da un salto di nodo, e in taluni condizioni operative, addirittura una regressione.

La soluzione che hanno trovato le fonderie al problema della miniaturizzazione, sono i FINFET.
Nei finfet, invece di avere un layer di inversione planare, si hanno 1-3 alette avvolte dal gate, creando un layer di inversione con una superficie molto più ampia.

In giallo, lo strato di inversione.

La maggior superficie permette un maggior flusso di corrente quando il transistor è on, con il conseguente riduzione del consumo dinamico, importante per i prodotti caratterizzati da una più alta frequenza di clock. Con i Finfet l’altezza della pinna è vincolata dal processo di fabbricazione

La lungimiranza di Intel ha fatto si che questa tecnologia sia debuttata con i 26nm Bulk finfet, meglio noti, per motivi di marketing, come 22nm.

Il resto dell’industria, come si può vedere dalla slide sopra ha seguito l’approccio di Intel..

Il processo utilizzato da ZEN saranno i 14nm LLP prodotti da Global Foundries su licenza Samsung,

Con i 14nm LPP è stata aumentata l’altezza della pinna rispetto ai 14nm LPE. È rimasta invece invariata l’ampiezza.

Le librerie dei 14nm LPP
Samsung classifica le librerie come segue

Nota: T sta per Tracks e CPP per Contacted Poly Pitch

Un uso possibile è il seguente
• SoC per gli smartphone: alta densità
• GPU: alte prestazioni
• CPU ad alte prestazioni: Ultra High-Performance

Per capire cosa sono le librerie vi rimando al post di FazzoMetal


Secondo uno studio indipendente (https://selantek.com/wp-content/uplo...-11-2014-1.pdf) sarebbe del 15-20% più economico del ononimo processo Intel.

Nella slide di AMD, datata Marzo 2015, è possibile notare 2 cose. La prima è che il costo per transistor dei 14nm non è molto inferiore ai 28nm. La seconda è l’aumento della densità, inferiore anche a quanto era stato reso possibile nel recente passato da un salto di nodo.

Nonostante ciò, i finfet di Samsung, promettono prestazioni eccezionali rispetto ai 28nm bulk utilizzati da Carrizo/Bristol Ridge.



Queste slide si riferiscono alle FPU di un core a9, CPU sintetizzata caratterizzata da un FO4 lordo >30

Quote:
Originariamente inviato da bjt2
Ok, 3 cose buone e una cattiva:
Buone:
1) Guadagno (transconduttanza differenziale) maggiore: non ne ero sicuro.
2) Bassa off state current: minore leakage
3) Bassa resistenza parassita: migliore come spiegato sopra (rumore minore e velocità superiore)
Cattive:
4) However, the overlap capacitance is increased.
Io intendevo le capacità parassite, ma questa potrebbe essere comunque deleteria, ma può essere bilanciato dal basso leakage.

In sostanza:
1) guadagno maggiore significa minore tensione necessaria a parità di frequenza
2) minore leakage: minore potenza dissipata
3) minore resistenza parassita => minore rumore => minore margine richiesto ai segnali => maggiore frequenza possibile a parità di altre condizioni (ad esempio Vcore)
4) Questa capacità non so che effetti abbia, ma nel peggiore dei casi serve più corrente (e quindi tensione) a parità di frequenza, probabilmente più che bilanciato dai precedenti 3 punti


Resta solo da vedere il Vt...

La 1 e la 2 se sono veramente LARGE come dicono sono un BEL vantaggio! Il primo alle alte frequenze e il secondo per le basse potenze (mobile)...

Ultima modifica di tuttodigitale : 13-02-2017 alle 23:10.
tuttodigitale è offline  
Old 23-12-2015, 16:15   #2
tuttodigitale
Senior Member
 
Iscritto dal: Sep 2010
Messaggi: 3943
QUESTO È ZEN: Architettura (non ufficiale)




CPU COMPLEX

Il CPU Complex è costituito da quattro core interconnessi ad una cache L3. All’interno del modulo ogni core può accedere alle 4 fette di cache l3, 8 MB e 8-vie, con la stessa latenza media. la porzione di L3 più vicina al core avrà una latenza inferiore a causa del metodo low-order address interleave.
zen octa-core sarà costituito da 2 CCX.


Basta una rapida lettura per rendersi conto che ZEN è un core molto più grande, complesso e potente dei core excavator all’interno di un modulo CMT. Se questo era prevedibile per la parte integer, per il quantitativo doppio di ALU e thread gestiti dal singolo core, meno ovvio è per la sezione floating point. In ZEN non solo a parità di core viene raddoppiato il quantitativo di unità FP, ma viene potenziato in modo abbastanza massivo, la quantità di istruzioni gestiti dallo scheduler FP, che passano dai 60 visti in Steamroller/excavator a 96.

Quote:
Originariamente inviato da bjt2
Questa è la slide più succosa e pregna di informazioni! Punto per punto:
- Two threads per core: lo sapevamo già... Ma ora è confermato: SMT2
- Branch misprediction improved: questo può essere dovuto a pipeline più corte (e quindi avremo un clock relativamente più basso) oppure al checkpointing... Speriamo la seconda...
- 2 BTB per entry: questo deve essere un brevetto di AMD. Mi sembra una cosa stranissima, comunque tu is megl che uan...
- Large op cache: vabeh, ma quanto?
- Wider uop dispatch 6 vs 4. Questo da solo può aumentare del 50% le prestazioni
- larger instruction scheduler: vabeh, questo aiuta con 2 thread per ordinare meglio le istruzioni
- Larger retire: 8 vs 4. QUESTO E' IMPORTANTISSIMO! Questo da solo può raddoppiare le prestazioni sui due thread. Con questo, l'SMT può veramente guadagnare come il CMT in casi fortunati e sicuramente più del 25-30% in media
- Quad issue FPU: questo ci conferma la PUTEEEEENZA della FPU. (era 3 in BD, mi pare)
- Larger retire queue: anche qui aiuta nell'SMT
- Larger load e store queue: migliore riordinamento delle istruzioni e aiuta nell'SMT
- Writeback l1 cache: è meglio di quella di BD
- faster L3 e L3: vabeh
- Faster load to FPU: 7 vs 9. Questo può essere dovuto al fatto che non è più CMT e quindi non si devono più sincronizzare e arbitrare i due core int
- better l1 e l2 prefetch: vabeh.
- Close to l1 & l2 bw: sulla L1 non vedo come si raddoppi, perchè il bus è lo stesso (forse bus a 256 bit? ma non mi pare). Sulla L2 può darsi che il bus sia raddoppiato, magari era 16+16bytes in BD. Ma close to 2x può voler dire che il clock non è superiore...
- L3 BW 5x: anche qui 4x bus e +25% frequenza
- Aggressive clock gating: ok
- Stack engine: probabilmente non si usano le AGU per lo stack, quindi anche miglioramenti delle prestazioni
- Move elimination: non si usano le ALU per i MOVE
- Power focus: si sono sbattuti sul risparmio energetico fin dal principio
- Low power methodologies: ok

DECODER
Dalla slide sopra, sembra che i decoder in ZEN differiscano in maniera sostanziale da quelli viste nelle precedenti architetture AMD. Un core steamroller/excavator ha 4 decoder, ognuno dei quali è in grado di eseguire una fastpatch. Basandoci sulle (poche informazioni) offerte dalla slide sembrerebbe che i 4 decoder, una prima assoluta per AMD nell'epoca post k7, forniscano in uscita le microop. La gestione delle uop da parte dello scheduler potenzialmente è in grado di fornire un maggior parallelismo a livello istruzione.
La scelta (non confermata) permette da una parte di contenere più istruzioni nella cache l0, a causa del ridotto numero di bit richiesto per la rapprentazione delle micro-op rispetto alle macro-op, e dall'altra aumenterebbe la probabilità di richiedere con maggior frequenza la stessa micro-op.




vi rimando ad alcuni commenti di bjt2, alcuni sono riferiti a BD
Quote:
Originariamente inviato da bjt2
Primo vantaggio di AMD: le unità RISC interne sono più complesse ed hanno più porte e ci sono molte più istruzioni di INTEL che sono traducibili in una sola microop. Ad esempio per INTEL basta che si usino 4 operandi ed è richiesto il microcodice (ecco perchè hanno FMA3 e non FMA4).

Secondo vantaggio AMD: prima di usare il microcodice, AMD può generare anche 2 microop (le cosiddette fastpath double) con i decoder semplici. Invece INTEL appena serve una istruzione più complessa deve usare la microcode ROM.

Terzo vantaggio AMD: INTEL può decodificare in burst di 4-1-1-1. Fuori da questo schema le cose si rallentano molto.

Quote:
Originariamente inviato da bjt2
Il decoding può essere fatto in vari modi e AMD ha una tecnica innovativa (e penso brevettata, visto che INTEL non la usava) di memorizzare il predecoding in bit aggiuntivi della L1 istruzioni, come limiti di istruzione e informazioni di branch predicition, velocizzando il decoding e la previsione per le istruzioni già in cache e accorciando le pipeline. Per il resto le operazioni da fare in serie sono abbastanza definite... Resta solo da definire dove spezzare per formare gli stadi..
Quote:
Originariamente inviato da bjt2
4 decoder, non è specificato i limiti. Ne sapremo di più domani.
Stack engine con una sorta di cache L0: la rilettura di dati scritti da poco è processata subito (sul MEMFILE).
4 uop alla FP e 6 alla unità intera. Domani sapremo se sono 6+4 per ciclo o ci sono delle limitazioni
Inline istruction length decoder è interessante: nelle vecchie CPU, AMD le calcolava e le inseriva nella L1 al posto dei bit di ECC/parità e se non erano calcolati (perchè erano istruzioni appena caricate), si perdeva qualche ciclo per calcolarli...
Con questa soluzione, non solo non si perde tempo ulteriore a calcolarli, ma si può anche usare i bit ECC per quello per cui sono stati progettati: l'ECC!

UOP CACHE, BUFFER UOP E CHECKPOINT
La presenza di una cache L0 posta ad un livello gerarchico superiore alla L1 è stata anticipata dal Cern. Tuttavia dalle patch le cache sarebbero 2: uop cache e buffer uop. Ad oggi non sono noti i dettagli sul loro funzionamento, tuttavia sappiamo quale è la loro funzione, essendo la cache uop presente nelle architetture Intel da Sandy Bridge.
Il nome uop è dovuto al fatto che in questa porzione di memoria vengono memorizzate le uop, le micro-operazioni elementari che le unità del back-end sono in grado di eseguire. Le istruzioni decodificate vengono memorizzate in questa piccola cache, e rese disponibile anche per l’esecuzione di istruzioni successive permettendo di saltare la fase di decodifica, che in una moderna architettura può richiedere anche più di 5 cicli.
I vantaggi sono duali: saltare la fase di decodifica permette di ridurre la potenza dissipata. Un vantaggio, per così dire minore ma comunque importante, è throughput massimo più alto.
Nel caso specifico di ZEN, sappiamo che può emettere 6 uop (come skylake), sfruttando i 4 decoder e la cache uop. Quest’ultima, infine, è in grado di supportare 2048 micro-ops (contro i 1536 di skylake) e una associatività ad 8 vie (come il rivale).

Sul checkpoint, la cui presenza è stata ancora una volta confermata dalla patch, oltre al nome si sa veramente poco, se non il fatto che dalle slide del HOT CHIPS pubblicate da AMD, questa è una tecnologia pensata per aumentare le prestazioni, nulla a che vedere con il checkpoint delle architetture Power, una tecnologia atta a correggere eventuali anomalie in sistemi data-center.

Quote:
Originariamente inviato da cdimauro
Riguarda al checkpoint, un meccanismo che ha lo stesso nome si ritrova nei database transazionali, dove transazioni lunghe possono essere suddivise in checkpoint, nelle quali vengono eseguite dei commit "parziali" (non ancora definitivi) delle operazioni fino ad allora eseguite. L'idea è quella di evitare di accumulare troppe operazioni in sospeso nella transazione in corso, la cui chiusura porterebbe via troppo tempo alla fine. Coi checkpoint alcune operazioni vengono "quasi completate", liberando risorse (ed eventuali lock, in particolare), ma che possono essere annullate più velocemente in caso di rollback (se la transazione fallisce).

Una cosa del genere si potrebbe applicare anche a una CPU, sebbene non abbia idea di come, ma il principio di funzionamento fra database e CPU, a livello astratto, è esattamente lo stesso.
Quanto detto da cdimauro, sembra essere confermato dal fatto che AMD nel 2009 ha proposto una estensione dell’ISA x86, che prevedeva il supporto alla memoria transazionale in HW.
http://developer.amd.com/community/b...specification/





CACHE L1 & L2 & L3


Radicali i cambiamenti. È stata cambiata la gestione della cache: la tecnica exclusive che ha caratterizzato per 3 lustri le architetture della casa di Sunnyvale, fa spazio a quella inclusive, che prevede la copia di tutti i dati contenuti nelle cache di livello gerarchico superiore in quelle inferiori, più lontane dal core.
Tuttavia va segnalata una importante differenza rispetto a quanto visto nelle architetture Intel a partire da Nehalem: in ZEN la cache L3 è di tipo victim, una cache che contiene i blocchi che sono stati cancellati dalla L2. In ZEN, il quantitativo di informazioni gestibile dal sistema di caching nel suo complesso, che si interpone tra i core e la lenta ram di sistema, è determinata non solo dalle dimensioni dell’ultimo livello di cache LLC (Last Level Cache), ma anche dalla L2.


i quantitativi di cache L1d, L1i, L2 , sono pari rispettivamente 32KB, 64KB e 512 KB per core. La cache L1d è una 8-way 2R1W, con 4 cicli di latenza.
Si registra, un raddoppio di banda di 2x, per le cache l1 ed l2, mentre per la L3 addirittura di un 5x…questo dato starebbe a significare un aumento consistente della velocità di clock per Northbridge, che potrebbe passare dai 2200 MHz attuali a 2800MHz.

Per la cache L3 si prevede un quantitativo di 16MB complessivi.

Quote:
Originariamente inviato da bjt2
GERARCHIA DI CACHE:

la cache esclusiva utilizzata da AMD fino ad ora aveva l'unico vantaggio che le capacità si sommavano. Poteva andare bene quando le cache erano piccole. Ma ora con cache enormi gli svantaggi che andrò ad elencare, ampiamente superano il vantaggio di avere una cache effettiva maggiore.

1) Maggiore latenza: con la cache inclusiva bisogna cercare solo nella LLC (in genere la L3). So dove sono i dati e non devo ravanare anche nelle L1 e L2 di tutti gli altri core. Utile sopratutto nei server dove gli altri core sono lontani.
2) Maggiore consumo: con la esclusiva se un core va in risparmio energetico devo tenere accesa la L1 e la L2 per rispondere alle richieste degli altri core. Se voglio spegnere le L1 e le L2 le devo prima svuotare, scrivendo i dati modificati, con conseguente consumo di energia. Con una cache inclusiva spengo tutto e basta.
3) minori spostamenti: con una cache esclusiva, i dati condivisi vengono continuamente spostati tra i core. Con una cache inclusiva ognuno ha le sue copie che tiene aggiornate alle modifiche degli altri core spiando la LLC senza necessariamente dover segnalare agli altri core nulla.

Quindi il passaggio a questa gerarchia di cache farà fare un balzo alle prestazioni.

BACK-END
MOLTO AMPIO, con ben 10 porte di esecuzione contro le 8 del predecessore. Il cambiamento più vistoso è il raddoppio delle ALU che passano da 2 a 4.

Come è possibile vedere dallo schema, solo 2 unità su 4, eseguono operazioni complesse come DIV e MUL, questo ha permesso di aumentare la complessità della singola MUL, come dimostra la latenza ridotta di 3 cicli rispetto a BD, in netto contrasto di quanto visto per l’esecuzione di un altro tipo di istruzione (ZEN è un’architettura dalle pipeline decisamente lunghe)
Quote:
Originariamente inviato da bjt2
Sono andato a leggere la patch. Tutte le latenze dei load FP aumentati.

Com'è possibile abbassare il FO4, causando l'aumento di alcune latenze, ma abbassare le latenze delle moltiplicazioni? La soluzione è aumentare il numeri di bit calcolati più di quanto si sia diminuito il FO4 per più che compensare... Hanno fatto un grande lavoro sui moltiplicatori. Probabilmente sugli addizionatori c'era già ampio margine per abbassare il FO4 senza dover spezzare l'addizione... E sulle moltiplicazioni hanno usato addizionatori a più porte per diminuire gli stadi, e quindi il FO4 e allo stesso tempo aumentare i bit calcolati per ciclo. Questo richiede circuiti più complessi e quindi più area...

Come hanno fatto? Supponiamo che con un disegno ad alto FO4, si riesca a calcolare 12 bit per ciclo della moltiplicazione, con il circuito non ciclico più semplice del mondo, ossia 12 addizionatori a 2 porte in cascata. Il FO4 sarà 12 volte quello di un addizionatore a 2 porte.
Se uso addizionatori a 3 porte, posso fare 24 bit per ciclo con 12 stadi o 16 bit per ciclo con 8 stadi (una porta per il risultato precedente più 2 per 2 bit alla volta, più il carry). Quindi il FO4 è 8 volte quello di un addizionatore a 3 porte che non è molto superiore a quello di uno a 2 porte.
Quindi con un po' di hardware in più (l'addizionatore a 3 porte è comunque più complicato di quello a 2) ho ridotto il FO4 e aumentato il numero di bit calcolati per ciclo...
Ma perchè fermarsi a 3 porte?

Ecco come è possibile diminuire il FO4 e aumentare contemporaneamente la potenza del moltiplicatore, a scapito di un aumento di area e numero di transistors consumati.


FPU
È sicuramente uno degli elementi più interessanti. Questa unità è formata da 4 pipeline da 128 bit, di cui 2 FMUL e 2 FADD. Le FMA sono eseguite con l’uso congiunto di una pipeline FADD e una FMUL.


La latenza è di 3 cicli per l’accesso alla cache (quindi 7 cicli totali, se consideriamo i 4 cicli propri della l1)

Quote:
Originariamente inviato da bjt2
Il moltiplicatore è fatto per il massimo risparmio energetico. Fa 32 bit alla volta (ricordate il mio esempio di 8 e 12 bit?) e quindi per 64 e 80 bit è più lento.
Rispetto a BD, la FMA è fatta con una FMUL+FADD con la lettura ritardata a dopo la moltiplicazione dell'addendo. Questo cosa comporta? Meno porte sui registri FPU, quindi potenzialmente più veloci. Consumo più distribuito nel tempo. Questo è importantissimo. Perchè? Le FMA implementate in BD sono affamatissime di corrente e causano un alto voltage droop. In Carrizo e Bristol Ridge questo è stato risolto con l'AVFS. Ecco perchè con il 28nm bulk ciofeca si raggiungono comunque 4.3GHz. Senza l'AVFS BD e steamroller sono limitati in base clock. E' stato fatto un esperimento su Orochi solo abbassando il throughput delle istruzioni FMUL e si è riusciti a salire di frequenza base di oltre 400MHz!
Poi sono discussi altri brevetti per ridurre le latenze delle istruzioni FPU, travasando i risultati intermedi.
Insomma in sintesi la nuova FPU dovrebbe essere molto meno ingorda di corrente e quindi consentire clock più alti, anche se un po' più lenta. Ma con il nuovo brevetto, se implementato, si dovrebbe controbilanciare questa lentezza...
Quote:
Originariamente inviato da bjt2 Guarda i messaggi
C'è una cosa non visibile nei diagrammi a blocchi della FPU (leggendo anand)...
La coda delle microop è doppia: una per le istruzioni schedulabili e una per quelle non schedulabili. La prima credo di aver capito che contiene le istruzioni prontamente eseguibili perchè i dati sono già pronti, mentre la seconda contiene istruzioni che aspettano dati dalla memoria e immagino anche dalla unità intera (penso alle istruzioni di move/conversione da int a FP)
Il vantaggio è che non si spreca spazio e potenza nella coda a più alta velocità e si divide il lavoro perchè la coda secondaria può fare, con calma e poca potenza, il lavoro in parallelo alla coda primaria...

SMT secondo AMD
In Zen abbiamo la prima implementazione della logica SMT2 in una cpu della casa di Sunnyvale. Questa prevede la capacità di un core di gestire 2 thread, condividendo alcune risorse all’interno del core.
Di vitale importanza è la gestione delle stesse. Dare lo stesso tempo di esecuzione per eseguire entrambi i thread, non è sempre la politica corretta, soprattutto quando si ha un thread dominante o che crea un sacco di stalli o in cui la latenza è di vitale importanza.
In alcune metodologie un thread principale, può essere etichettato o determinato, e questo è ciò che avviene in ZEN, anche se per alcune strutture del core si deve comunque ricorrere ad un modello base.


In Zen viene eseguita un analisi interna sul flusso dati per determinare quale thread ha la priorità. Ciò significa che alcuni thread richiederanno più risorse, o che ad una predizione errata debba cessare una eventuale priorità a fine di evitare lunghi stalli.
Gli elementi in blu (branch prediction, INT/FP Rename) operano su questa metodologia.

Un thread può anche essere etichettato con priorità più alta. Questo è importante per le operazioni sensibili alla latenza. Translation Lookside Buffer (TLB) lavora in questo modo, dando la priorità alla ricerca degli ultimi indirizzi virtuali mappati.
La load queue opera in maniera analoga, come tipicamente carichi di lavoro a bassa latenza richiedono dati il prima possibile.

Alcune parti del core sono staticamente partizionati, dando ad ogni thread la stessa quantità di risorse. Questo viene implementato soprattutto per tutto ciò che è in genere elaborato in order, come qualsiasi cosa che esce dalla micro-op, store e retire queue.



Il livello di condivisione dei 2 thread all’interno di un core ZEN, non ha eguali nel panorama x86.
A partire dal front-end, si registra la capacità, assente nelle CPU skylake, di decodificare nello stesso ciclo di clock istruzioni di 2 thread distinti. I 4 decoder possono decodificare da 0-4 istruzioni per singolo thread a seconda della distribuzione del carico tra i 2 thread. In skylake, così come in Bulldozer/Piledriver, viene utilizzato il temporal multi-threading, che prevede la decodifica dei 2 thread in cicli di clock distinti. Questo dovrebbe permettere all’architettura ZEN di sfruttare per intero il potere di decodifica.
E’ giusto segnalare che la small page iTLB è anch'essa partizionata staticamente nelle architetture Intel.
Addirittura le risorse per il RENAME, la large page iTLB e il Load buffer sono DEDICATE nelle CPU della casa di Santa Clara.

Quote:
Originariamente inviato da bjt2 Guarda i messaggi
Quì è interessante. INTEL ci è arrivata con varie iterazioni a questo punto: le prime iterazioni dell'HTT avevano quasi tutto partizionato. Qui invece AMD ha quasi tutto condiviso dinamicamente. E in modalità ST è tutto a disposizione di quel thread.
Cosa è partizionato staticamente?
1)La microop queue: se la coda è abbastanza grande ha senso, perchè farla partizionata dinamicamente avrebbe rallentato il clock massimo.
2)La retire queue: stessa cosa di sopra. Tenere il critical path semplice aiuta ad avere clock alto
3)La store queue: questa non è critica perchè una volta messi in coda gli store si può proseguire e comunque la coda è più grande di BD

Da notare i blocchi in blu, che non mi pare sia presente in INTEL, dove è possibile dare priorità ai thread. Non so se sotto il controllo del SO o se è automatico, ma è interessante!

Niente di interessante qui se non una cache L0 piccola e veloce, probabilmente per avere la massima velocità. Hash percetron mi sembra un termine di inteligenza artificiale, quindi presumo che il branch predictor sia molto inteligente...
NUOVE ISTRUZIONI
Insieme alla nuova ISA standard, ci sono alcune nuove istruzioni personalizzate che sono compatibili solo con la nuova architettura di AMD.



Alcuni dei nuovi comandi sono collegati con quelli che Intel utilizza già, come RDSEED per la generazione di numeri casuali, o SHA1 / SHA256 per la crittografia. Le due nuove istruzioni sono CLZERO e PTE coalescing.
Il primo, CLZERO, si propone di cancellare una linea di cache ed è più finalizzato al mercato data center e HPC. Questo permette ad un thread di cancellare una riga di cache (in un ciclo) in preparazione di una zero data structure. Esso consente anche un livello di ripetibilità quando la linea di cache viene riempita con dati previsti.
PTE (Page Table Entry) coalescing è la capacità di cassociarele piccole 4K page tables nelle più grandi 32K , ed è una implementazione trasparente del software. Questo è utile per ridurre il numero di voci nella TLB e nelle code.



CONFRONTO CARATTERISTICHE E LATENZE




post di BJT2

Previsioni prestazioni

mini guida

Ultima modifica di tuttodigitale : 06-03-2017 alle 15:17. Motivo: Aggiornamenti dalla rete
tuttodigitale è offline  
Old 23-12-2015, 16:16   #3
tuttodigitale
Senior Member
 
Iscritto dal: Sep 2010
Messaggi: 3943
Notizie dalla rete

SLIDE UFFICIALI
13.12.16 RYZEN, 3,4GHz+ base, 25MHz boot step
23.08.16 HOT CHIPS 2016
01.06.16 COMPUTEX 2016: ZEN
20.05.16 AMD Investor Presentation
07.01.16 GlobalFoundries 14nm FINFET
06.05.15 Financial Analist Day


LINK UTILI
https://twitter.com/dresdenboy
http://dresdenboy.blogspot.it

RUMORS

17.11.16 [TECHPOWERUP] versioni e prezzi delle cpu Summit Ridge a partire da 220 dollari
Quote:
Originariamente inviato da techpowerup
Recent reports peg AMD's upcoming line of microprocessors based on Zen micro-architecture as being labelled SR3, SR5 and SR7 for different hardware tiers (with the SR3 being the lowest-performing, and SR7 being, naturally, the highest-performing). A recent post on Chip hell claims that a leaked slide from an AMD presentation give us these insights, with further information on pricing: it's shown in the roadmap that all Zen SR (Summit Ridge) processors will sell for higher than RMB 1500 ($220).

28.10.16 [Bitsandchips] previste 2 versioni di Raven Bridge
Quote:
Originariamente inviato da bitsandchips
However, according to our sources, at the present moment there are two version of Raven Ridge under development, one with a 12CUs GPU and one with a 16CUs GPU. You can see the main differences in the table below.

09.08.16 [Planet3dnow]Primi bench ES ZEN 2,8/3,2GHz
Quote:
Originariamente inviato da capitan_crasy

scaling

06.08.16 [bitsandchips] IMC ddr4 di RAMBUS
Quote:
Originariamente inviato da bitsandchips
L’IMC DDR4 di Zen potrebbe essere di Rambus Technology

20.07.16 Frequenze per ZEN 4, 8, 24, 32 core
Quote:
Originariamente inviato da guru3d
The engineering samples currently are set at revision A0. The user who spread the details talks about four chips with 4, 8, 24 and 32 of cores. The first two SKUs would be for the AM4-socket, while the last two were intended for servers.

The two AM4 chips are quad-core and octa-core with 8 and 16 threads. The quad-core would be get 2 MB L2 cache and 8MB L3 cache, while the octa-core would get double that amount. Both engineering samples currently run a clock speed of 2.8 GHz, with a maximum boost up to 3.2 GHz. The TDP of the two would be 65 watts for the chip with four cores and 95 watts for the octa-core. In idle the clock speed can throttle down back to 550 MHz with an amzing power consumption 2.5 and 5 watts idle power.

For servers there is the SP3 platform. The leaker has details on a 24-core and 32-core chip. The boost clock speed is at the 24-core 2.75 GHz and the 32-core 2.9 GHz. The idle-clock rate is 400 MHz here with even lower. The TDP of the two is 150 and 180 watts respectively.

02.06.16 [techpowerup] Nessun FCH per AM4
Quote:
Originariamente inviato da techpowerup
The AM4 socket sees AMD completely relocate the core-logic (chipset) to the processor's die. Socket AM4 motherboards won't have any chipset on them.


25.03.16 [bitsanchips] nuovo interasse dei fori di montaggio
Quote:
Originariamente inviato da bitsanchips
Se le informazioni giunte in nostro possesso dovessero rivelarsi veritiere (abbiamo fiducia nella nostra fonte, ma errare è umano!), i dissipatori che non fanno parte della categoria dei dissipatori con clip (come il nuovo AMD Wraith) saranno incompatibili con il nuovo Socket AM4.


22.03.16 [bitsandchps]1331 pin per AM4
Quote:
Originariamente inviato da bitsandchips
Ci è stato confermato che il futuro Socket AM4 di AMD sarà di tipo µOPGA, e non LGA (soluzione relegata alle versioni Opteron di Zen), e che avrà ben 1331 pin.


29.02.16 [Dresdenboy] Nuovi dettagli da Dresdenboy
Quote:
Originariamente inviato da dresdenboy
The interconnect subsystem is called "Data Fabric", which knows so called coherent slaves according to the last enumeration list.
There is a new L0 ITLB, which is the only level 0 thing being mentioned so far, while VR World mentioned level 0 caches (besides other somewhat strange rumoured facts like no L3 cache in the APU variant - while this has been shown on the leaked Fudzilla slide). The only thing resembling such a L0 cache is a uOp cache, which has clearly been named in the new patch in a section related to the decode/dispatch block (indicated by "de"):

There are strings for both a "uop cache" and a "uop buffer". So far I knew about this uop buffer patent filed by AMD in 2012, which describes different related techniques aimed at saving power, e.g. when executing loops or to keep the buffer physically small by leaving immediate and displacement data of decoded instructions in an instruction byte buffer ("Insn buffer") sitting between instruction fetch and decode. The "uop cache" clearly seems to be a separate unit. Even without knowing how many uops per cycle can be provided by that cache, it will help to save power and remove an occaisional fetch/decode bottleneck when running two threads. The next interesting block is about the execution units:

Here is a first confirmation of a checkpoint mechanism. This has been described in several patents and might also be an enabler for hardware transactional memory, which has been proposed in the form of ASF back in 2009. Another use case is the quick recovery from branch mispredictions, where program flow can be redirected to a checkpoint created right before evaluating a difficult to predict branch condition.

There is a confirmation of the "GMI link".

Notable changes are:
uOp Cache has been added based on the new patch
FMUL/FADD for FMAC pairing removed, based on some corrections of the znver1 pipeline description.
4x parallel Page Table Walkers added, based on US20150121046
128b FP datapaths (also to/from the L1 D$) based on "direct" decode for 128b wide SIMD and "double" decode for 256b AVX/AVX2 instructions
32kB L1 I$ has been mentioned in some patents. With enough ways, a fast L2$ and a uOp cache this should be enough, I think.
issue port descriptions and more data paths added
2R1W and 4 cycle load-to-use-latency added for the L1 D$ based on info found on a LinkedIn profile and the given cylce differences in the znver1 pipeline description
Stack Cache speculatively added based on patents and some interesting papers. This doesn't help so much with performance, but a lot with power efficiency


12.02.16 [CERN]32 core, 6-wide & cache L0
Quote:
Originariamente inviato da CERN

ZEN High End ‘Exascale’ CPU, 1-4 Socket (1P-4P) – specs as per CERN

Multi-Chip Module (2×16-core)
32 ZEN x86 Core, 6-wide
128 KB L0 Cache (4KB per core)
2 MB L1 D-Cache (64KB per core)
2 MB L1 I-Cache (64 KB per core)
16 MB L2 Cache (512 KB per core)
64 MB L3 Cache (8MB cluster per quad unit)
576-bit Memory Controller (two times 4×72-bit, 64-bit + 8-bit ECC)
204.8 GB/s via DDR4-3200 (ECC Off, 102.4 GB/s per die)
170.6 GB/s via DDR4-2666 (ECC On, 85.3 GB/s per die)

16.01.16 [AMD-Raja koduri]AMD Ultra Wide-Band
Quote:
Originariamente inviato da wccftech.com
PCI-Express is already seen as a bottleneck when connecting several nodes in high-performance sectors. AMD sees their current PCI-e and CrossFire solutions not working with next generation machines hence they have to design a new coherent fabric. The interconnect will offer speeds of 100 GB/s across multiple GPUs and APUs that are featured inside AMD powered compute machines and will deploy some open standards. Asking if the interconnect will also maintain memory coherency and sharing between the GPUs and CPUs, Raja stated that he can’t reveal that right now but will definitely have a detailed showcase of their coherent fabric later on as coherency between their several chip designs is being kept in mind.
Quote:
Originariamente inviato da slide fudzilla

03.11.15 [Dresdenboy] 10 Pipelines per core
Quote:
Originariamente inviato da Dresdenboy
As heard earlier this year, Zen will use SMT and an improved cache subsystem while being designed from scratch with new ideas combined with reusing existing components (to reduce the effort). This might even include already existing and somewhat developed ideas not realized in previous designs. A lot of the new functionality has been filed for patenting. For example there was a mention of checkpointing, which is good for quick reversion of mispredicted branches and other reasons for restarting the pipelines. Some patents suggest, that Zen might use some slightly modified Excavator branch prediction.

Here are some quotes of the patch file:

+;; Decoders unit has 4 decoders and all of them can decode fast path
+;; and vector type instructions.
+;; Integer unit 4 ALU pipes.
+;; 2 AGU pipes.
+;; Floating point unit 4 FP pipes.
+ 32, /* size of l1 cache. */
+ 512, /* size of l2 cache. */

Excerpt:
4 wide decoders
4 integer ALUs
2 AGUs (for 2R 1W L1 cache according to a LinkedIn profile)
4 FP pipelines
That makes z ten pipelines with a general four wide design.

20.04.15 [Fudzilla] Opteron 32 core ZEN
Quote:
Originariamente inviato da Fudzilla
Just like the 16 Zen core high performance market APU, each core has 512KB of L2 cache and four processors share 8MB L3 cache. The highest end part will come with eight clusters of 4 cores and if you do the math this server oriented CPU will come with 64MB of L2 cache and 16MB of L2 cache for its CPU cores.

A few other notable features for the next generation server parts include a new platform security processor that enables secure boot and crypto coprocessor. The next generation Opteron has eight DDR4 memory channels capable of handling 256GB per channel. The chipset supports PCIe Gen 3 SATA, 4x10GbE Gig Ethernet and Sever controller HUB. Of course, there will be a SMP, dual socket version.

The next generation Opteron will have 32 CPU cores in its highest end iteration, and we expect some Stock Keeping Units (SKUs) with fewer cores than that for inexpensive solutions.

10.04.15 [Fudzilla]APU HPC 16 core ZEN
Quote:
Originariamente inviato da Fudzilla
The new APU platform has everything AMD fans could wish for - four channel DDR4 support, PCIe3, up to 16 Zen cores and Greenland GPU, paired with High Bandwidth Memory (HBM). The ability to add up to 16 Zen CPU cores suggests that AMD plans to use this chip for the compute market too, as the marriage of 16 Zen processors and HBM powered Greenland graphics can probably score some amazing compute performance numbers

Ultima modifica di tuttodigitale : 11-01-2017 alle 15:01.
tuttodigitale è offline  
Old 23-12-2015, 17:19   #4
kock90
Member
 
Iscritto dal: Oct 2015
Messaggi: 46
presente

se son rose fioriranno
kock90 è offline  
Old 23-12-2015, 17:29   #5
tuttodigitale
Senior Member
 
Iscritto dal: Sep 2010
Messaggi: 3943
benvenuto
tuttodigitale è offline  
Old 23-12-2015, 18:21   #6
sgrinfia
Senior Member
 
L'Avatar di sgrinfia
 
Iscritto dal: Jan 2013
Messaggi: 4222
Eccomi
sgrinfia è offline  
Old 23-12-2015, 18:51   #7
Mister D
Senior Member
 
L'Avatar di Mister D
 
Iscritto dal: Jun 2011
Città: Forlì
Messaggi: 8158
Eccomi tuttodigitale, pensa che quando avevo letto che il capitano ti chiedeva di rispondere al pm mi sono immaginato che era molto probabile una sua richiesta per farti condurre il nuovo thread e speravo avessi accettato! Che dire in bocca al lupo e che la forza scorra forte in..... ZEN
Mister D è offline  
Old 23-12-2015, 18:52   #8
Mister D
Senior Member
 
L'Avatar di Mister D
 
Iscritto dal: Jun 2011
Città: Forlì
Messaggi: 8158
Riporto subito mio stra-lungo post dall'altro thread

Quote:
Originariamente inviato da paolo.oliva2 Guarda i messaggi
Basta che vai alla base dell'SMT e capirai che non è così.

L'SMT che fa? Sfrutta le parti logiche quando non utilizzate dall'altro TH.
Quindi comunque sarebbero 2 TH.
I programmi di test IPC non sparano 100 TH ma sul singolo TH gli fanno fare operazioni INT/FP e d qui il calcolo dei TH.

Facendo un esempio banale, prendi Cinebench. Se fai il test ST, quello grosso modo sarebbe simile all'IPC, se fai il test MT con 2 TH su un core disabilitando gli altri, grosso modo sarebbe tipo IPC + SMT sul singolo core.

P.S.
non voglio difendere Zen, ma se ipotizziamo che l'SMT dovrebbe/potrebbe arrivare ad un 30% di performances in più, che Zen guadagni il 40% di IPC su Excavator sarebbe ridicolo, perchè Excavator è pur sempre un modulo, quindi formato da 2 core, quindi il modulo Excavator risulterebbe inferiore in ST di quel 40% (a parità di frequenza) ma il modulo Excavator comunque risulterebbe sempre più veloce e non di poco (Zen = ((100+40%IPC)+30%SMT) vs Excavator (modulo 2 core = 100*2).
Addirittura in MT il modulo Piledriver pareggerebbe con il core Zen + SMT, e se lato TDP 1 core Zen dovrebbe avere una circuiteria simile al modulo Piledriver, guadagno efficienza = zero.
Ciao Paolo,
guarda che non ho mai scritto che il SMT aumenta l'IPC in single thread ma bensì aumenta l'ipc di un core fisico, in multithread (aggiungo ora per essere ancora più preciso anche se basta esplicitare la sigla Simultaneus Multi Threading).
Per cui un core Zen con SMT a 2 vie è capace di processare fino a 2th simultaneamente, cioè quando una o più pipeline del core integer/fp sono in stallo (o in attesa se vi piace di più). I doppi registri servono proprio apposta a tenere i dati in memoria del primo th (quello in attesa perché cache miss o perché deve attendere un dato da un'altra operazione) e del secondo th (quello che viene messo in coda e fatto processare quando il primo è in attesa).
https://cseweb.ucsd.edu/classes/fa11...es1/11_SMT.pdf
Questa serie di slide è fatta molto bene per far capire come funziona il SMT e perché è stato utilizzato e quali sono i suoi punti negativi (pochi e di piccola entità in ST).
Il core (non modulo) di xv è capace di processare solo un thread alla volta. Il modulo di 2 thread nello stesso momento perché composto esattamente da due core integer.
Fin qui per capirci e anzi mi scuso se nello spiegarmi nei precedenti post non sono stato capace di farmi capire.

Detto ciò ho pensato che i modi per interpretare quella benedetta slide di amd sono solo due:
1) un core integer xv vs un core integer Zen con SMT disattivato.
2) un modulo xv (2 th) vs un core integer Zen con SMT attivato (2th).

Prendo per semplicità i dati di cinebench di un fx8350 da qua:
http://cbscores.com/
a 4 GHZ ST 100 MT 640 (ho usato l'arrotondamento scientifico, quindi più vicino alla decina).
Considerando che in ST va a 4,2 GHz il risultato a 4 GHz sarebbe di 95 circa in ST e infatti lo scaling del secondo core del modulo era del 80% rispetto al primo ergo 95+76=171 che per 4 darebbe 684 cosa che invece non è e che ci fa dire che il risultato all'aumentare dei core/moduli scala ancora di meno. Prendiamo cmq 95 e 640 usando come correzione 0.94 (640/684).
Nel caso 1 il confronto quindi sarebbe:
ST 95 vs 95*1.4= 133
MT 4 moduli/8 core vs 4 core/8th: (95+76)*4*0.94= 640 vs 133*1.30*4*0.94= 650
MT 2 fx8350 vs zen 8c/16th: 1280 vs 1300

Un fx composto da 2 fx8350 consumerebbe oltre 250 watt a parità di frequenza mentre la cpu zen è ipoteticamente a 95 watt anche se sicuramente non avrà la stessa frequenza quindi mettiamo pure che in oc arrivi anche a 125 watt ergo sarebbe un buonissimo risultato già così ma andiamo al secondo caso.
Caso 2 sarebbe:
ST 95+76=171 vs 171*1,4= 240 circa
MT 4m/8c vs 4c/8th: 171*4*0.94= 640 vs 240*4*0.94= 900 circa
MT 8m/16c vs 8c/16th: 1280 vs 1800

Mi pare molto meglio o no? Quindi meglio che amd abbia considerato così il vantaggio di IPC o no?
Non ho sbagliato a fare i conti e nel secondo caso potete osservare come il fattore 1,4 (incremento del +40%) comprende già il smt perché confronto il valore di un modulo (2th) con il valore ipotetico di un core zen (sempre 2 th).
Tenete conto che il confronto che ho appena fatto avviene a parità di frequenza (4 GHz) e che probabilmente una cpu zen con 8 core 16 thread difficilmente in 95 watt avrà, ergo prendete quei valori e scalateli con la frequenza che pensate potrebbe avere (per me 3,6 GHz).

EDIT: Mi sono ricordato che ho dimenticato di correggere i calcoli di un buon 10% dovuto al fatto che il valore di cinebench riferendosi ad un fx8350 si riferisce a piledriver, mentre nella slide di amd viene esplicitato il 40% rispetto ad excavator. Excavator lo abbiamo purtroppo solo nella variante apu ergo senza cache L3 però se mettiamo un 10% in più dovrebbe andare bene.
Per cui i valori sono:
Caso 1
ST 95 per il 8350 e ZEN core smt disattivo 95*1,1*1,4= 146
MT 2c/2th un modulo fx8350 95+76= 171 vs Zen core smt attivo 146*1.3=190
MT 4c/8th 640 vs 714
MT 8c/16th ZEN 1428

Caso 2
ST 171 per modulo FX8350 ZEN 171*1.1=188*1,4 = 263
MT 4c/8th 640 vs 989
MT 8c/16th 1978 punti.

Vedendo i risultati forse è più corretto applicare quel 40% in più ad un core/th di xv e poi aggiungere il 30% del smt che applicare il 40% al modulo/2th di xv. Staremo a vedere quando uscirà Zen se era giusto la prima interpretazione o la seconda

Ultima modifica di Mister D : 24-12-2015 alle 12:49. Motivo: Aggiunto in caso 1 (edit) il confronto modulo cmt vs core zen
Mister D è offline  
Old 23-12-2015, 20:26   #9
epimerasi
Member
 
Iscritto dal: Apr 2013
Messaggi: 247
Consiglio di tenere d'occhio lui:
https://twitter.com/dresdenboy
http://dresdenboy.blogspot.it/
epimerasi è offline  
Old 23-12-2015, 20:31   #10
RedPrimula
Senior Member
 
L'Avatar di RedPrimula
 
Iscritto dal: May 2012
Messaggi: 1811
Seguirò con piacere ed interesse... Dopo una serie di "prove" son tornato ad un FX e per ora sto bene così. Naturalmente la curiosità verso la nuova architettura ZEN è altissima
__________________
ASUS Prime X470-PRO | AMD Ryzen R7 2700 @4.025Ghz | ARCTIC Freezer 34 eSports DUO | POWERCOLOR RX 5600 XT Red Devil | CORSAIR Vengeance (2x8gb) @3000Mhz CL16 | SAMSUNG 840 EVO 120GB | CRUCIAL MX500 1TB | EVGA Supernova 750 GQ | NZXT H510 | ACER Nitro XV240YP 165Hz
RedPrimula è offline  
Old 23-12-2015, 21:04   #11
tuttodigitale
Senior Member
 
Iscritto dal: Sep 2010
Messaggi: 3943
Quote:
Originariamente inviato da epimerasi Guarda i messaggi
Neppure il tempo di chiedere...
Ho inserito i link nel terzo post.
Se avete suggerimenti mi potete contattare in privato. Nessun disturbo.

Ultima modifica di tuttodigitale : 23-12-2015 alle 21:12.
tuttodigitale è offline  
Old 23-12-2015, 22:16   #12
george_p
Senior Member
 
L'Avatar di george_p
 
Iscritto dal: Sep 2005
Messaggi: 2177
Embè... aprite il nuovo thread e non lo pubblicizzate nel vecchio?

AUM
__________________
__________
Configurazione:
Mainboard Gigabyte G1.Sniper A88X (rev. 3.0) ; APU A10 7850K ; HDD Western Digital SATA III  WD Blue 1 TB ; Ram Corsair 1866 mhz 16 gb ; OS Seven premium 64 bit
george_p è offline  
Old 23-12-2015, 23:32   #13
FazzoMetal
Senior Member
 
L'Avatar di FazzoMetal
 
Iscritto dal: Feb 2012
Città: Torino
Messaggi: 534
Seguirò anche io con piacere, sperando di poter contribuire costruttivamente alla discussione
__________________
"E' più ragionevole credere in Babbo Natale che nel beta di un transistor"

FX6300@4700MHz, Noctua U14S, Asus M5A99FX PRO R2, 2x4GB Corsair 2133MHz CL9, Sapphire R9 270X 2GB Dual-X, CM 690 II, Corsair HX650, Crucial MX500 500GB, Win 10

Dell Vostro V131, Core i5 2430M@2.4GHz, 8GB DDR3, Samsung 840 EVO 250GB, Win 7 Pro x64
FazzoMetal è offline  
Old 23-12-2015, 23:56   #14
capitan_crasy
Senior Member
 
L'Avatar di capitan_crasy
 
Iscritto dal: Nov 2003
Messaggi: 23998
Un augurio e un ringraziamento a tuttodigitale per aver aperto questo thread...
__________________
AMD Ryzen 3600|Thermalright Macho Rev. B|Gigabyte GA-AX370-Gaming 5 (bios F50E)|2x8GB Corsair Vengeance LPX 3200 @ 3200Mhz|1 M.2 NVMe ADATA SX8200PNP 250GB (OS)|1 SSD Crucial MX500 1TB + 1 SSD Crucial MX300 750MB (Games)|1 HDD SEAGATE IronWolf 2TB|Sapphire【RX480 NITRO】8GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Corsair CS 750M|Case In Win 509|Fans By Noctua
capitan_crasy è offline  
Old 24-12-2015, 01:49   #15
fracama87
Senior Member
 
Iscritto dal: Oct 2007
Messaggi: 2690
Seguirò anch'io con piacere continuando a capire un decimo delle cose che dite Dai scherzo forse alla metà ci arrivo
__________________
Sony A7II| Voight 15mmF4.5, Samyang AF 18mm F2.8, Sony FE28mm f2, Minolta CL 40mm f2, Sony FE 90mm f1.8, Jupiter37A 135mm f3.5, Nikon AIS 180mm f2.8
fracama87 è offline  
Old 24-12-2015, 02:47   #16
tuttodigitale
Senior Member
 
Iscritto dal: Sep 2010
Messaggi: 3943
Forse un grafico vale più di mille parole.




confronto 1 core+HT vs 1 modulo CMT


ZEN1: è il caso 1 illustrato da MisterD: 40% di ipc su XV STM compreso, così partizionati +15% nel ST e +20% SMT
ZEN2: è il caso 2, sempre illustrato da MisterD. +40% nel ST, +30% SMT, sempre su Excavator.

L'ipc è normalizzato alle prestazioni di Piledriver.
A titolo di curiosità, 2 core k10 nel MT fanno segnare 124.

Ultima modifica di tuttodigitale : 24-12-2015 alle 03:07.
tuttodigitale è offline  
Old 24-12-2015, 06:24   #17
unnilennium
Senior Member
 
L'Avatar di unnilennium
 
Iscritto dal: Jan 2005
Città: ichnusa
Messaggi: 15343
Devo iscrivermi anche qui... la cpu mi incuriosisce parecchio... speriamo rispettino i tempi d'uscita

Inviato dal mio K010 utilizzando Tapatalk
unnilennium è offline  
Old 24-12-2015, 08:39   #18
el-mejo
Senior Member
 
L'Avatar di el-mejo
 
Iscritto dal: Mar 2006
Città: Rovigo
Messaggi: 1203
Eccomi quà!
__________________
CASE: Zalman Z11 PLUS HF1 | MB: Asrock 970 pro3 r2.0 | CPU: AMD FX 6350 | COOLER: Noctua NH-C14S | PSU: XFX Pro Series 450W | RAM: Crucial Ballistix Elite 2x8gb ddr2133 | SSD: Samsung 850 Evo 500GB | HDD: WD Green 500GB | Seagate Barracuda ST4000DM004 VGA: XFX Radeon RX 580 GTS XXX Edition | OS: Windows 10 Pro
STEAM
el-mejo è offline  
Old 24-12-2015, 08:45   #19
tuttodigitale
Senior Member
 
Iscritto dal: Sep 2010
Messaggi: 3943
SMT != software non ottimizzato

L'ottimizzazione è un processo costoso, per tanto viene facile pensare che ci sia una mancanza di volontà da parte delle software house di investire.
In un mondo dove i prodotti sono perennemente in beta, come darvi torto.
Tuttavia il SMT, tra l'altro nelle varianti a 4-8 vie, è diventata un'esigenza nel mercato HPC, dove pochi punti percentuali possono fare la differenza, e ridurre sensibilmente i costi di gestione.
Per quanto il software sia ottimizzabile, c'è sempre un certo margine di imprevedibilità nel codice.
Se il codice fosse prevedibile non esisterebbe l'esigenza di un branch-prediction hardware.
Vi posto uno studio.





Dal confronto tra i due grafici, la predizione rami HW, è sempre superiore alla predizione software.

Quote:
Originariamente inviato da conclusioni dello studio
At present, all the branch prediction strategies are quite simple. If some AI algorithms can be combined into them, then we can expect even higher prediction accuracy. That is, we can use the AI algorithms to adjust the parameters of the branch prediction strategies (such as the size of the branch history register table, the size of the branch history pattern table, and the length of the branch history register). Then we can ensure the most proper training time to achieve the highest performance.
Le mie conclusioni sono queste: il software è importante ma l'hardware non è un elemento secondario. E il SMT è solo un sistema come un altro per nascondere anche le lacune della CPU.

link: http://pages.cs.wisc.edu/~guo/projects/752.pdf
tuttodigitale è offline  
Old 24-12-2015, 09:07   #20
kock90
Member
 
Iscritto dal: Oct 2015
Messaggi: 46
non puo toppare ancora non ci posso credere

ZEN sia in ST che in MT andrà una via di mezzo tra Sandy Bridge e Haswell,il che mi sembra ottimo almeno per me,considerando che Sandy Bridge è ancora una ottima CPU x giocare (tralasciando gorilla vari....) io un Quad Zen sui 3 giggi lo vedo a 150 euro nuovo
kock90 è offline  
 Discussione Chiusa


Volkswagen ID.4, SUV elettrico per la famiglia che convince Volkswagen ID.4, SUV elettrico per la famiglia c...
iPad mini 6 contro iPad 9: il più piccolo contro il più economico. La recensione iPad mini 6 contro iPad 9: il più piccolo...
Recensione FIFA 22: ecco com'è su Google Stadia Recensione FIFA 22: ecco com'è su Google ...
Sony rinnova il 70-200mm F2.8: più leggero e veloce, con la qualità dei GMaster Sony rinnova il 70-200mm F2.8: più legger...
Sapphire Pulse RX 6600 8GB, piccolissima ma con ciò che serve per giocare in Full HD Sapphire Pulse RX 6600 8GB, piccolissima ma con ...
Call of Duty: Vanguard, la modalit&agrav...
VivoBook Pro e Pro X, ASUS porta in Ital...
Bonus Rottamazione TV: erogati più...
Latitude Rugged, i nuovi portatili 'estr...
Pochi giorni allo spegnimento dei canali...
Colpo di reni del Governo: rifinanziati ...
Axiom Space continua lo sviluppo della s...
TSMC conferma l'impianto produttivo in G...
Tesla Model S Plaid torna al Nürbur...
Pubblicato il secondo teaser della mirro...
Virgin Galactic ferma le missioni con cl...
Microsoft annuncia il supporto a Qiskit ...
La Bilancia Smart di Xiaomi a un prezzo ...
Auto elettriche e test dei 1.000 km, del...
Pamu Z1 Pro: alla prova gli auricolari t...
K-Lite Mega Codec Pack
K-Lite Codec Pack Full
K-Lite Codec Pack Standard
K-Lite Codec Pack Basic
K-Lite Codec Pack Update
Opera Portable
Opera 80
SmartFTP
LibreOffice 7.2.2
PCMark 10 Basic Edition
Prime95
Skype
Advanced SystemCare
ZoneAlarm Antivirus + Firewall
Dropbox
Tutti gli articoli Tutte le news Tutti i download

Strumenti

Regole
Non Puoi aprire nuove discussioni
Non Puoi rispondere ai messaggi
Non Puoi allegare file
Non Puoi modificare i tuoi messaggi

Il codice vB è On
Le Faccine sono On
Il codice [IMG] è On
Il codice HTML è Off
Vai al Forum


Tutti gli orari sono GMT +1. Ora sono le: 02:48.


Powered by vBulletin® Version 3.6.4
Copyright ©2000 - 2021, Jelsoft Enterprises Ltd.
Served by www2v