|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#4161 |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
esattamente, se lo scheduler è stato progettato in modo da non permettere di estrarre un livello di parallelismo molto alto, è inutile avere la terza ALU, tanto più se non hai un altro thread da servire. Consumeresti solo energia...margine termico che potresti sfruttare per salire un poco di clock.
|
|
|
|
|
#4162 | ||||||||||||
|
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
Quote:
Quote:
Quote:
Quote:
Quote:
Esempio: metti che devi ordinare un vettore. Se non ci sono molti elementi, la CPU può farlo molto prima del roundtrip CPU->GPU->CPU, e usare immediatamente i dati elaborati. Quote:
Quote:
Quote:
Col coprocessore la CPU doveva inviare l'opcode all'FPU, ed eventualmente presentare sul bus pure l'indirizzo di memoria dal quale leggere o scrivere il dato referenziato. L'FPU continuava quindi a lavorare, e lo stesso poteva fare la CPU. Quest'ultima doveva poi sincronizzarsi con un'istruzione FWAIT prima di inviare una nuova istruzione all'FPU (l'FWAIT, comunque, non è sempre necessaria: dipende dall'istruzione). La CPU si occupava anche delle eccezioni che venivano eventualmente segnalate dall'FPU, e quest'ultima ha un apposito registro per memorizzare l'istruzione fallace. Non mi pare che il modello sia lo stesso di quello adottato da AMD per il K7 e i più nuovi processori. Inoltre pipeline e porte dedicate mi sembra le abbiano pure i processori Intel, per cui la differenza sarebbe rappresentata dal solo scheduler dedicato. Quote:
Quote:
Quote:
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
||||||||||||
|
|
|
|
#4163 | ||||||
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
Quote:
Quote:
Quote:
Quote:
Quote:
Daltronde all'ITIS facevo solo il codice x86 intero... ![]() INTEL ha 4 porte dedicate alle istruzioni elaborative ma su ognuna (o quasi) sono allocate sia istruzioni INT che FPU... Se leggi nel thread si è sempre detto che INTEL può fare 4 istruzioni tra int e FP (4+0, 1+3, 2+2, ecc, ed è da vedere gli incastri con le porte, ad esempio una certa istruzione può essere instradata solo in una porta e quindi obbligare altre istruzioni che usano quella porta, anche quelle che fanno cose diverse e quindi non usano la stessa pipeline, ad aspettare), mentre AMD con i suoi scheduler separati, 4+4 (oltre alle AGU, simili per entrambi) è più libera di smistare le istruzioni e estrarre parallelismo... E' per questo che sospetto che l'SMT su CPU AMD faccia guadagnare più di intel: ci sono più porte. Se ho un thread con calcoli interi e uno con calcoli FP, teoricamente potrei perdere pochissimo...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
||||||
|
|
|
|
#4164 | |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
quando parlo di complessità, mi riferisco al livello di ipc che si sono prefissati in casa di AMD...perchè poi è notevolmente complesso trovare le migliori soluzioni per fare lo stesso lavoro (ne più nè meno) con il minor numero di risorse. se viene limitato, da buon progettista limiti anche lo scheduler. E questo vale per tutti gli altri componenti della CPU. Ultima modifica di tuttodigitale : 07-07-2016 alle 21:39. |
|
|
|
|
|
#4165 | |||||||||||
|
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
Quote:
Quote:
Quote:
Quote:
Così, per esempio. Quote:
Quote:
Intel non ha tutte le ALU mappate su porte che possono eseguire operazioni dell'FPU: ne ha una completamente libera, e un'altra con un piccolo vincolo (solo operazioni vettoriali sugli interi, che però con codice vettoriale possono benissimo essere smistate sulle prime due porte, tenendo libera questa), come si può vedere dallo schema di Haswell. Ecco gli schemi di Bulldozer, PileDriver, Steamroller, ed Excavator (quasi, in questo caso: ci sono solo le differenze da Steamroller, che però non incidono sul discorso delle porte). Anche l'ultima soluzione di AMD su applicazioni single-threaded rimane limitata dal fatto di poter eseguire fino a 4 operazioni, ma vincolate nella scelta fra 2 AGLU + 2 Load/Store + 3 FPU (da 128-bit massimo ciascuna). Su multithread le cose vanno molto meglio, perché hai la possibilità di eseguire più istruzioni (ma solo a partire da Steamroller), perché ne vengono decodificate 4 + 4 = 8, però comunque con 3 sole porte per le FPU (di cui solo 2 per operazioni a 128 bit) rimani limitato nelle scelte. In buona sostanza, l'approccio CMT di AMD, suddividendo rigidamente certe porte/unità di calcolo, pone troppi vincoli. Quote:
Un design con meno porte, ma ben calibrate, può benissimo fare lo stesso lavoro. Quote:
Quote:
Però, come già detto, un'approccio del genere potrebbe andare bene in ambito server (e dipende sempre dagli obiettivi: Facebook & co. preferiscono soluzioni con un IPC elevato / ottime prestazioni su single-thread), ma non in quello desktop e mobile. Quote:
IMO hanno commesso grossi errori di valutazione col modello CMT.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
|||||||||||
|
|
|
|
#4166 |
|
Senior Member
Iscritto dal: Sep 2005
Messaggi: 2177
|
Ciò che scrivo da tempo anche io e in ogni caso evidentissimo sia dai risultati visti su strada sia dalla scelta di amd di tornare ad un approccio diverso, e quest'ultimo fatto dal 2012 praticamente a ridosso il debutto di BD.
__________________
__________ Configurazione: Mainboard Gigabyte G1.Sniper A88X (rev. 3.0) ; APU A10 7850K ; HDD Western Digital SATA III WD Blue 1 TB ; Ram Corsair 1866 mhz 16 gb ; OS Seven premium 64 bit |
|
|
|
|
#4167 | ||||||
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
Quote:
Quote:
Quote:
Quote:
Quote:
EDIT: poi vedo quindi peggio ancora dallo schema di Haswell... Può fare 4 istruzioni INT e due delle 4 porte int possono fare le FPU, quindi 4+0, 3+1 o 2+2... Non può fare più di 2 istruzioni FP per ciclo?!?!? E se fai delle istruzioni SIMD intere o un branch o la divisione ti freghi la possibilità di 1 o 2 istruzioni FP?!?!?! E' una strage! Ecco perchè l'SMT non guadagna tanto... Se Zen riuscirà a fare veramente 4 istruzioni FP + 4 int, per l'SMT sarebbe una manna! Altro che +25%... Ritratto il mio +30% e ritorno al mio +50/60% di un paio di mesi fa! Se INTEL con quelle limitazioni fa +25% Zen dovrebbe volare!
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! Ultima modifica di bjt2 : 08-07-2016 alle 10:08. |
||||||
|
|
|
|
#4168 |
|
Senior Member
Iscritto dal: Mar 2012
Città: Padova | Trattative mercatino: troppe!
Messaggi: 2538
|
seguo!
|
|
|
|
|
#4169 | |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
NI. Questo è vero se si opera con lo stesso Vcore, ovvero se si ottiene frequenze superiori pari alla riduzione della complessità dello stadio...ma è possibile anche avere frequenza superiore e vcore inferiori. Non è automatico dire chi consuma di più...
se la questione fosse così semplice, non ti pare che AMD avrebbe puntato fin da subito ad una soluzione SMT2, che da diversi anni è custodita nei loro cassetti? (dai tempi di k8) Avevo nei post dietro, riportato i vantaggi di vcore offerti dai 32nm Bulk di Intel rispetto ai 28nm di GF. Quindi ancora oggi non sappiamo quanto sia davvero merito dell'architettura e quanto del silicio (non che la cosa sia piovuta dall'alto, visti gli enormi investimenti di Intel)... Kaveri/Carrizo, girano con vcore pazzeschi (dovuto anche all'uso di transistor a più alta tensione di soglia) Quote:
Bulldozer e derivati migliorano, a livello di architettura, proprio le prestazioni ST: non si può non considerare l'altissima frequenza di clock che un architettura del genere teoricamente è in grado di raggiungere anche a scapito dell'efficienza. Poi sui problemi del silicio, se non bastasse llano, c'è la testimonianza del cambio di roadmap...dal 10 core Piledriver siamo passati ad 8 core. Ultima modifica di tuttodigitale : 08-07-2016 alle 11:52. |
|
|
|
|
|
#4170 | |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 32018
|
Quote:
Mi sembra ovvio che il progetto Buldozer nel suo insieme ha messo l'ancora per quanto riguarda la potenza MT (intesa come n° di core massimo a parità di TDP sullo stesso die) al 32nm SOI pure al di sotto delle aspettative, e per APU al 28nm Bulk GF che indubbiamente è distante anni luce dal 22nm/14nm Intel. Ti vorrei chiedere una cosa che non mi è chiara... qual'è il rapporto di incidenza sulla frequenza massima di un PP silicio in rapporto all'FO4? Facendo un esempio, un 6700K ha Vcore superiori a 1,3V per 4GHz, e se un BD con FO4 17 fosse realizzato sullo stesso silicio, quanto si potrebbe alzare la frequenza massima e quanto potrebbe l'abbassamento del Vcore alla stessa frequenza? C'è qualche formula? Quello che vorrei dire è che un BD forse potrebbe girare a 5GHz def con il suo FO4 17 rispetto ad un core Intel con FO4 diverso, ed ovviamente essendo la potenza ST data da IPC * frequenza, un +33% di frequenza ammortizzerebbe parecchio la differenza di IPC (rapportando BD nel 32nm SOI a 4GHz max def, è ovvio che con meno frequenza = meno potenza ST, che però ERRONEAMENTE la si vuole additare in esclusiva all'IPC). P.S. Oggi mi sono preso 3 RX 480 (tutte le altre VGA defunte, grazie alla tamb equatoriale), poi farò una prova di OC e nel contempo una prova di Vcore minimo per valutare l'intuizione di Free Gordon.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CPU-Z 19207 - CB23 49265 - CB24 2593 Ultima modifica di paolo.oliva2 : 08-07-2016 alle 15:45. |
|
|
|
|
|
#4171 | |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
se ipotizziamo, che il FO4 di BD lordo fosse del 25% più corto di Skylake (e imho lo è), significa un +33% di clock massimi TEORICI.. Ovviamente è da illusi pensare che si possa consumare uguale. |
|
|
|
|
|
#4172 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
|
|
|
|
|
#4173 |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
|
|
|
|
|
#4174 | ||||||||||||||
|
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
Sia chiaro che qui non mi riferisco al famigerato "legacy", che rimane ben confinato in determinati parametri di area occupata, e consumi. Quote:
Quote:
Ma prima non s'era detto che erano simili?Quote:
Quote:
Quote:
Quote:
Quote:
Quote:
Quote:
Poi ci sono un altro paio di considerazioni da fare. Intanto non è detto che si debba impiegare per forza un mux. Poi avere scheduler separati complica l'unità di issue, quella di retire, ed eventuali meccanismi tipo l'LSD di Intel o la cache L0. Quote:
Quote:
Quote:
L'unico problema concreto capita con la divisione intera, che però capita molto raramente, per cui è trascurabile il fatto che si trovi nella porta più grossa/complessa. Quote:
Infine devi tenere conto anche la tipologia di codice eseguito. Le porte non sono disposte a caso, ma IMO gli ingegneri di Intel avranno certamente tenuto conto di quanto e come vengano utilizzate dal codice reale. Detto in altri termini, parlare astrattamente di 4 istruzioni FP + 4 Int lascia il tempo che trova, quando il codice che viene realmente eseguito si comporta e sfrutta le unità di calcolo in maniera diversa.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
||||||||||||||
|
|
|
|
#4175 | |||||
|
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
Quote:
Solo che poi, però, non si sono avverate. Quote:
Quote:
D'altra parte con le macroalu disposte con quei vincoli, l'IPC non poteva che essere basso. E le frequenze non puoi tirarle su quanto vuoi, perché aumenti i consumi (a parità di vcore, ovviamente). Quote:
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
|||||
|
|
|
|
#4176 | |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 32018
|
Quote:
Zen con un range dal -10% al -15% di IPC inferiore ad Intel. Il 14nm FinFet GF ~-15% come qualità rispetto a quello Intel, con il PP da verificare perchè quello Intel non sembrerebbe riuscito bene per le frequenze massime (almeno in accoppiata con l'FO4 Intel) Zen con un range di frequenze def superiore dal +20% al +35% rispetto alle frequenze def Intel (praticamente valutando l'FO4 di Zen ~BD con una approssimazione PP 14nm GF inferiore/migliore del PP 14nm Intel). SMT ~+25% e >+30%. Le riflessioni di Bjt2 sulla potenzialità SMT di Zen io le trovo coerenti semplicemente perchè a tutt'oggi considerando esclusivamente la parte ST di Zen, concordo che la potenza ST aumenterebbe, ma bisogna considerare l'insieme. La discussione sulle frequenze massime di Zen si basa principalmente sul fatto che Zen se avesse lo stesso FO4 di BD si dubita sul >+40% di IPC su XV, e quindi con un FO4 ~= ad Intel, Zen non potrebbe avere frequenze superiori ad Intel. Facciamo un passo indietro... allora. Se BD come XV sul 28nm arriva a frequenze di 4,3GHz in turbo, mi pare ASSOLUTAMENTE CERTO che il passaggio al 14nm GF non solo porterebbe ad un -50% e superiore del TDP a parità di transistor, ma anche ad un aumento delle frequenze massime. Il mio ragionamento è semplicissimo... dal punto di vista efficienza, a parità di silicio, in MT il CMT (XV) non ha una efficienza inferiore all'SMT. --- (considerando che il 14nm GF permetterebbe un XV X16 e se un 6900K andrebbe in MT tanto quanto due 8350, e due XV X8 andrebbero il +20% di due 8350, mi sembra ovvio che un XV X16 sarebbe più vicino ad un 6950X di quanto lo sarebbe verso un 6900K. Fermo restando che PD è 2 architetture addietro di XV e PD ha meno set di istruzioni native rispetto a XV) --- Certo, in ST Zen avrebbe +>40% di IPC, ma guardiamo la cosa nel dettaglio. Nei forum si legge di frequenze Zen addirittura inferiori a quelle Intel. Quindi, se Intel per un X8 arriva a 3,5GHz come massimo, saremmo già a -20% rispetto alla frequenza BD XV sul 28nm Bulk GF, il che porterebbe Zen a SOLAMENTE +12% su XV sull'ST (100 + 40% Zen = 140, -20% = 112) In questo solamente +12%, va incluso: - 14nm GF NON migliore in frequenza massima rispetto al 28nm Bulk GF - Tutte le modifiche apportate in Zen circa implementazione cache L0, cache più veloci e cache inclusive che sicuramente se implementate in BD XV ne aumenterebbero l'IPC. --- Ad esempio BD perdeva nel saltello dei TH da core a core semplicemente perchè se il TH si spostava da un modulo ad un altro, di fatto il core dell'altro modulo doveva aspettare che i dati si spostavano dalla L2 del modulo es 1, alla L3 e di qui alla L2 del modulo facente parte il core a cui è spostato il TH. --- Io non capisco l'interno dei proci... ma intuitivamente mi sembra che sarebbe stato molto più semplice cercare di aumentare ulteriormente l'IPC di BD/XV e magari potenziarne l'FP per far si che XV con il suo FO4 e frequenze * IPC uguagliassero Zen e nel contempo sfruttare l'MT dato dalla maggiore efficienza del CMT vs SMT. Ma è ovvio che questo discorso è valido a patto che l'SMT di Zen abbia le stesse potenzialità dell'SMT Intel, perchè se risultasse > del 30%, è ovvio che Zen SMT risulterebbe migliore di XV CMT.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CPU-Z 19207 - CB23 49265 - CB24 2593 Ultima modifica di paolo.oliva2 : 09-07-2016 alle 10:12. |
|
|
|
|
|
#4177 |
|
Senior Member
Iscritto dal: Mar 2004
Città: Eporedia
Messaggi: 13454
|
Ragazzi, da ignorantone vi porterei a considerare una cosa che forse vi è sfuggita: l'esordio dei 14nm GF non è dei migliori, le RX480 salendo di tensione e frequenze (1500mhz), hanno consumi che sfiorano le vecchie Hawaii sui 28nm..
Se queste sono le premesse... anche se i transistor di Zen saranno diversi, anche se l'architettura sarà straottimizzata per avere consumi bassi... (è un'ipotesi), non aspettiamoci che GF possa rivaleggiare faccia a faccia con le fonderie Intel. Già non riesce a farlo ora con TSMC (e i suoi 16nm), perdendo qualcosina in efficienza rispetto a loro. Certo, i costi per die resteranno magari bassi.. e con tensioni basse i consumi saranno anche ottimi. Ma rendiamoci conto già da ora, che GF non sarà il partner che farà spiccare il volo a Zen. Perlomeno non nel 2016... Se Zen lo farà, lo farà essenzialmente grazie ad un'architettura perfettamente ritagliata sui punti di forza di quel processo (primo fra tutti credo la densità) e grazie all'architettura interna molto all'avanguardia. O perlomeno è quello che spero...
__________________
AMD Ryzen 1700 - Asrock B450 GAMING-ITX/AC - G-Skill RipjawsV 2X8GB 2660mhz - Sapphire Pulse RX 570 ITX - Crucial MX500 m.2 - Corsair Vengeance 500W - Sharkoon Shark Zone C10 Mini ITX |
|
|
|
|
#4178 | |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
PS le 10.5T, vengono chiamate Ultra high-Performance Library...un indizio? |
|
|
|
|
|
#4179 | |
|
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24171
|
Quote:
Visto da uno (io me Polaris sostituisce Tonga e mediamente va come Hawaii (a volte di più di una 390) consumando molto meno e considera che la versione a 4GB sul mercato tedescoso la trovavi a 219/229 euro. Inoltre te lo dico ancora una volta non puoi confrontare le CPU con le GPU e anche se hanno lo stesso silicio non sono direttamente paragonabili soprattutto quando una di essa non è ancora (ma forse no
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright |
|
|
|
|
|
#4180 | |||||||||
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
La verità è che ci sono tante incognite... Dalle misure ad occhio sulle foto del die di Zen, si è stimato da 150 a 250mmq il die di 8 Zen. Come vedi è una forbice piuttosto ampia. Siccome sappiamo che l'IPC ST è +40% e quello MT dovrebbe essere pari o poco superiore, si è supposto che in AMD non sappiano fare miracoli e che quindi il numero di transistors di un core Zen sia pari a quello di un modulo XV... Ma la L2 è inferiore e mancano 2 AGU e, forse, 4 decoder... Quindi il dubbio viene... Quote:
Quote:
Quote:
Quote:
Quote:
Perchè mischiare int e fp porta problemi nell'SMT Lo so... Ma sul codice legacy vedi che Zen (e anche BD) possono avere un vantaggio... Quote:
Quote:
Quote:
E' ovvio che le 4+2+4 unità di Zen non saranno simmetriche... Ma più porte mi fanno sperare per meno vincoli e più potenziale IPC...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! Ultima modifica di bjt2 : 09-07-2016 alle 14:47. |
|||||||||
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 00:25.











Daltronde all'ITIS facevo solo il codice x86 intero...
Ma prima non s'era detto che erano simili?







