|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#881 | |
|
Senior Member
Iscritto dal: Mar 2004
Città: Eporedia
Messaggi: 13454
|
![]() Quote:
![]() Speriamo bene.
__________________
AMD Ryzen 1700 - Asrock B450 GAMING-ITX/AC - G-Skill RipjawsV 2X8GB 2660mhz - Sapphire Pulse RX 570 ITX - Crucial MX500 m.2 - Corsair Vengeance 500W - Sharkoon Shark Zone C10 Mini ITX |
|
|
|
|
|
#882 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
Se i 32 core sono fatti con 2 die da 16 potresti avere ragione... Ma se sono fatti con 4 die da 8 siamo ancora entro le possibilità: la densità del 14nm abbiamo detto che è circa 2,5 volte, 1 core Zen a 14nm, considerando anche che ha meno cache L2, ma è più complesso di un modulo, potrebbe occupare come circa 0,5 moduli BD. La cache L3 per core è la stessa, ma i controller e la "colla" (PCI exp e link coerente) sono sempre gli stessi, ma per 8 core, quindi si riducono di 2,5 volte. In conclusione un die 8 core potrebbe essere più piccolo di uno 4 moduli BD, quindi fattibilissimo. Per quanto riguarda lo scaling, ho scritto sopra che coda unica è meglio di code separate e che quindi per codice con pochi accessi RAM lo scaling dovrebbe essere superiore a quello di BD (ma non forse a quello di PD e XV che ha doppio decoder). Anche i codici con parecchi accessi ram potrebbero beneficiarne, se accoppiati con un altro thread normale. Perchè mentre un thread aspetta i dati (se non sono in L1) l'altro thread ha tutte le risorse per se... Quindi si ha basso scaling solo con tutti e 2 thread con accessi ram regolari e frequenti. In ogni caso lo scaling dovrebbe essere superiore a INTEL che ha molte meno porte...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
|
|
|
|
|
#883 |
|
Senior Member
Iscritto dal: Oct 2003
Città: Milano
Messaggi: 4080
|
Scusate l'ignoranza: non si era sempre detto che l'ht è in multiplexing di tempo e non di spazio?
Ovvero che nel momento in cui un le pipeline di un thread sono in stallo le risorse vengono utilizzate dall'altro e non che le pipeline possono essere utilizzate contemporaneamente se non utilizzate dal primo thread. Es. Ok: thread 1 esegue un branch errato, allora parte thread 2. Es. No: thread 1 occupa solo 6 pipeline su 10 e thread 2 occupa le rimanenti 4. |
|
|
|
|
#884 | ||
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
E più ne hai meglioi è... Quote:
Quello che invece segue una filosofia temporale, è il front-end: il decodificatore, decodifica (o che fantasia) in cicli di clock differenti le istruzioni del primo e del secondo thread.. Entrambe sono vere. |
||
|
|
|
|
#885 | |
|
Senior Member
Iscritto dal: Oct 2003
Città: Milano
Messaggi: 4080
|
Quote:
grazie per la spiegazione Ultima modifica di digieffe : 20-03-2016 alle 13:34. |
|
|
|
|
|
#886 | |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
in effetti un'unica coda garantirebbe prestazioni superiori di due più piccole. Ma lo scaling no, perchè la prima coda che prima era riservata ad un thread, non lo sarà più con la presenza del secondo thread... Lo scaling sarà per forza di cose inferiore lato integer rispetto al CMT, vuoi per il front-end più piccolo, vuoi perchè tutte le risorse EX int, sono dedicate, scheduler, l1D ecc. Sulle prestazioni non è detta l'ultima parola: e potrebbe davvero superare un modulo XV... PD ha 4 decoder, e XV 2x4 decoder, ma: le pipeline sembrerebbero più corte lato integer... la cache l1-l2, sono molto più veloci è presenta la l0, che potrebbe tagliare anche 6 cicli.. lo scheduler integer dovrebbe avere più entries della somma dei 2 integrati in un modulo excavator... Sulla FPU, le prestazioni saranno per forza superiore, ma con un lato integer molto più veloce, già nel ST potrebbe saturare le risorse dell'intera FlexFPu di Excavator... |
|
|
|
|
|
#887 |
|
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
cmq lo scaling è poco meno di 2 per le CPU.
SRAM test 28nm GF = 0.12 28nm TSMC = 0.13 14nm Samsung = 0.065 Ultima modifica di Ren : 20-03-2016 alle 15:29. |
|
|
|
|
#888 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 32064
|
@tuttodigitale
Fino ad oggi si è sempre cercato di diminuire il TDP per ottenere potenze superiori a die. Lo si è cercato tramite SMT, CMT e qualsivoglia. Adesso ti faccio un ragionamento... che può sembrare idiota (e lo può anche essere), ma mi lascia perplesso. Dall'epoca del passaggio X1 / X2, la potenza ST sarà anche aumentata perchè allora si era sul 65nm (mi sembra), quindi si è potuto incrementare pure la frequenza del singolo core, ma è ovvio che è aumentata di moltissimo la potenza a die perchè l'abbassamento del TDP a permesso un corposo aumento di core, L'SMT e CMT sono intervenuti semplicemente per trovare un mezzo di risparmio transistor tale da permettere più TH allo stesso TDP. Ora... se già un Zen fosse un 8+8 con 95W sul 14nm, sul 9nm o ci ritroveremmo un X12+12 a 95W o un X8+8 a 65W... ma per che cosa? Il ragionamento può essere più che valido per proci Server a cui si richiede il numero massimo di core/TH, ma per l'uso odierno di proci desktop, non sarebbe meglio cercare addirittura di togliere SMT/CMT per far si che il core non abbia il minimo intoppo e ricercare la massima potenza, visto che comunque un X6/X8 così composto soddisferebbe alla grande? Non so se mi spiego... ma l'SMT e CMT in fin dei conti cercano entrambi di far lavorare 2 TH su un Hardware più potente per 1 TH, ma entrambi chiaramente NON possono raddoppiare la potenza del core. Potenziando il core per farlo lavorare con 1 solo TH, non metto in dubbio che si avrebbe un aumento del TDP rispetto a quanto elaborato con 2 TH, ma è anche vero che comunque la potenza del core aumenterebbe. Facendo un esempio stile Intel... il TDP del core è valutato (correggimi se sbaglio) con l'SMT attivo. Senza SMT, il TDP raggiunto è per forza di cose inferiore. Ora... supponiamo di essere sul 9nm, con 140W cosa ci sarà? 20TH? Ma non sarebbe meglio in ambito desktop, limitare i TH a 12/16 ma con un core in grado di arrivare a frequenze più alte?
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CPU-Z 19207 - CB23 49265 - CB24 2593 |
|
|
|
|
#889 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
BD ha 16K di cache L1 e Zen sembra ne avrà 32. quindi stessa cache di un modulo... Per tutte le altre risorse, se le raddoppiano, stessa storia di coda unica verso due code: è meglio... Caso diverso per excavator che ha doppio decoder, ma li la cache L0 potrebbe sopperire e in più non sappiamo quanti decoder abbia Zen... Io per scaling intendo il passaggio da 1 thread a 2 thread, forse mi sono espresso male...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! Ultima modifica di bjt2 : 20-03-2016 alle 17:39. |
|
|
|
|
|
#890 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
|
|
|
|
|
#891 | |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
Da una parte abbiamo 1thread XV vs ZEN 2ALU vs 4 ALU 2AGU vs 2AGU 1 ICache vs 1 ICache 4 decoder vs 4 decoder 48 entries vs 96entries(!?). (scheduler integer) Ma XV nel multithread raddoppia buona parte delle risorse, cosa che ZEN non fa... differenze MT vs ST, per ZEN e XV ALU +0%, +100$ AGU +0%, +100% I cache 0%, +100% entries, 0%, +100%. decoder 0%, +100% Nel CMT buona parte delle risorse vengono duplicate, ecco perchè lo scaling di steamroller è pari al 87% di quello di un ipotetico dual core-2Moduli... Se lo scaling di ZEN fosse equivalente a quello di XV, significherebbe che la grande coda unica, e le risorse maggiori a livello di core, non sarebbero minimamente sfruttate dal thread singolo... |
|
|
|
|
|
#892 |
|
Senior Member
Iscritto dal: Feb 2010
Messaggi: 1166
|
Quoto il ragionamento. Imho quando lo scaling Intel con SMT si assesta sul 30% per il secondo thread è perchè, semplicisticamente, il primo thread sta "spingendo" già molto di suo, saturando buona parte delle risorse disponibili. Su queste basi mi viene da pensare che uno scaling SMT marcatamente migliore sarebbe ottenibile solo aumentando le risorse hardware dedicate ad ogni thread, che tuttavia a quel punto risulterebbero sottoutlizzate in scenari single thread (il che ricorda quanto già tentato con Bulldozer).
Ultima modifica di plainsong : 20-03-2016 alle 18:35. |
|
|
|
|
#893 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
Quindi nell'ST Zen vedrà una sottoutilizzazione delle 4 unità INT e con un secondo thread raddoppierà o quasi le prestazioni, da cui lo scaling superiore all'80%...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
|
|
|
|
|
#894 | ||
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
)le unità aggiuntive servono solo per catturare i picchi di ipc, ma certamente non cambiano il quadro generale più di tanto.. Proprio per questo, il solo numero di porte da solo non ci indica lo scaling. Lo scaling dipende anche da quante risorse ruba il thread aggiuntivo. E secondo me, non ha nessun senso in chiave SMT2, progettare un'architettura con uno scaling pari o superiore al 80%.....rischi di avere consumi superiori ad un dual core, senza comunque offrire un ipc nel ST superiore in maniera tangibile. Non ha molto senso, imho. A quel punto meglio un dual core senza SMT...(il power 7/8 è lungi dall'offrire un +80% al secondo thread e non è un caso, imho) INvece la mia prospettiva era diversa..mettere a disposizione grossomodo le stesse risorse del front end di un core Skylake, ma senza estremizzazioni a livello di ILP deletieri per l'efficienza, ottenendo grossomodo lo stesso livello di prestazioni nel MT, pur partendo da un ipc nel ST inferiore, ma non basso, ovvero significativamente maggiore di un core XV. Quote:
Sono convinto del contrario.
Ultima modifica di tuttodigitale : 20-03-2016 alle 19:35. |
||
|
|
|
|
#895 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
|
|
|
|
|
#896 | |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 32064
|
Quote:
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CPU-Z 19207 - CB23 49265 - CB24 2593 |
|
|
|
|
|
#897 |
|
Senior Member
Iscritto dal: Oct 2003
Città: Milano
Messaggi: 4080
|
@bjt2 quando parli di 1,2-1,5 oppure 2 IPC incaso di fp è riferito all'isa x86 immagino
sarebbe da capire quante uops o mops generano (int, mem e fp) e come queste occupano le pipeline. ovvero quelle 1..2 istruzioni x86 quante pipeline va ad occupare in media? Ultima modifica di digieffe : 20-03-2016 alle 23:16. |
|
|
|
|
#898 | |
|
Senior Member
Iscritto dal: Jan 2010
Messaggi: 2858
|
Quote:
Apu=accelerated processor unit ''MTpu=multiplied Thread processor unit''. Nessuna miniaturizzazione e nessuna architettura potrebbe far andare un programma più velocemente di se stesso di circa un 500 volte e più a parità di tdp. Poi la PROMESSA resta sempre i 20 teraflop di potenza grafica integrata....immagina un gioco a 8k che sta dentro un tdp di circa 200w. Oggi come sia un gioco che un altro qualsiasi programma, non potrebbe andare piu veloce di quel fattore di velocità senza il calcolo eterogeneo, è più che impossibile. Immagina una potenza da circa 5/10 volte quella di una play di oggi in ambiente HSA maturo ![]() |
|
|
|
|
|
#899 | |
|
Senior Member
Iscritto dal: Oct 2003
Città: Milano
Messaggi: 4080
|
Quote:
Trovo realistici anche i range da min. 3.0 ghz a max 3.5 di freq base e da 3.5 a 4.0 di turbo. per lo scaling hai messo il massimo, io considererei un min +35% ed un max +50% Ben fatto |
|
|
|
|
|
#900 | |
|
Senior Member
Iscritto dal: Jul 2015
Messaggi: 5619
|
Quote:
Maggiore è il contributo di smt in intel (ci sono software che danno + 8% dall'smt, mentre altri + 50%, credo che su quest'ultimi un turbo efficente potrebbe dare un bel boost a zen). |
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 14:35.














)
, ma anche a 125 watt avrebbe la stessa efficienza








