|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#3821 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
E perché ? Non capisco cosa intendi. A livello di singolo thread uno dei due core INT è come se non esistesse. Con due thread un core INT processa un thread e un altro core INT processa un secondo thread. Se non ci fosse come potrebbe processare il secondo thread ?
|
|
|
|
|
#3822 | ||
|
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
Ci DEVE essere qualcos'altro sotto, ne sono convinto. Conta poi che se avessi un fetch e ed un decode "comune" tra i due core ma in grado di "servire" entrambi i cores contemporaneamente avresti da gestire gli indirizzi ed i threads in maniera separata, il che vorrebbe dire avere una complessita' architetturale ed algoritmica notevole. Non sarebbe allora piu' facile (a livello di implementazione) fare un singolo core con un unico scheduler ma con 2 unita' intere a cui smistare alternativamente le micro-ops, per poi mettere tutto insieme in un'unica retire-unit? Si avrebbe IL DOPPIO di prestazione intera in mono-th, si avrebbe una superficie del modulo ancora piu' piccola (sarebbe praticamente tutto condiviso), e quindi si potrebbe senza problemi fare ALMENO un 6 moduli desktop, no? Non mi quadra: c'e' assolutamente qualcosa che non va nelle info che abbiamo, secondo me. Quote:
vabbe' tutta questa nuova architettura "solamente" (si fa per dire, eh..) per risparmiare silicio e rischiare di avere prestazioni addirittura peggiori del k10 in monocore? bah, vedremo.. Io rimango della duplice teoria che o AMD confrontera' core vs modulo (prendendole ancora di piu' in mono-TH ma rischiando di essere forse leggermente superiore in multi), oppure ogni modulo sara' di fatto un core con una doppia unita' int operativa in grado quindi di processare un solo thread alla volta (potendo virtualmente essere superiore in ogni ambito), oppure.. se non fosse nessuno dei due casi praticamente avrebbe gia' virtualmente perso in partenza, in ogni ambito prestazionale, secondo me. Visto che non penso che i loro progettisti siano assolutamente degli sprovveduti, deve sicuramente esserci qualcosa sotto. ok, mi zittisco qui. vedremo..
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 Ultima modifica di Gigamez : 04-10-2010 alle 17:41. |
||
|
|
|
|
#3823 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Come farebbero ad essere peggiori con 400-600 Mhz in più a parità di processo produttivo e TDP ?
|
|
|
|
|
#3824 | |
|
Senior Member
Iscritto dal: Oct 2001
Messaggi: 14737
|
Quote:
Se poi come ipotizzato BD dovesse usare, nel caso di pochi thread (intendendo per pochi, non più del numero dei moduli) ogni modulo per processare un singolo thread, allora anche il problema del mono-thread non sussisterebbe, dato che ogni core non dovrebbe condividere più le risorse del modulo ma averle tutte a disposizione (oltretutto sovrabbondanti, dato che pensate per gestire due core int). |
|
|
|
|
|
#3825 | |
|
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
Bd 4Moduli (8cores) Vs SB 10 Cores + ht? Sinceramente spero davvero non sia cosi', altrimenti vorrebbe dire senza ombra di dubbio che AMD si sarebbe definitivamente rassegnata ad essere eterna seconda (e che perde pure terreno di generazione in generazione) per quello che riguarda la battaglia prestazionale con Intel..
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 |
|
|
|
|
|
#3826 | |
|
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
Praticamente il thread rimane sempre uno solo e dato che Fech e Decode possono accedere indistintamente ad una qualsiasi delle due int passare i dati da elaborare all'unità che sta a spasso senza attendere che scuoti la cache e le pipeline, di conseguenza si ridurrebbero i cicli a vuoto in alcune condizioni. Che questo possa essere realizzabile (come spero) o che tipo di incremento porti in single th (1, oppure il 20%) non importa, nel caso fosse possibile si risparmierebbe comunque sui cicli a vuoto aumentando i cicli utili e di conseguenza l'ipc. |
|
|
|
|
|
#3827 | |
|
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
|
|
|
|
|
|
#3828 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
|
|
|
|
|
|
#3829 |
|
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Protremmo parlare di IPS per la valutazione prestazionale ed IPC per valutare l'efficenza architetturale (anche se quest'ultima andrebbe misurata in gflop/watt)
|
|
|
|
|
#3830 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
L'unica operazione da fare in più sarebbe quella di invalidare la dL1, ma non mi sembra un così grande spreco. Dopo tutto ci sarà un circuito per invalidare tutti i bit V contemporaneamente. |
|
|
|
|
|
#3831 | |
|
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
Poi che lo faccia usando il secondo core per calcolarsi i branch, che lo faccia secondo uno schema "simil-SLI" o che lo faccia secondo qualunque altra tecnica al livello sostanziale non cambia la storia (ed e' qui che volevo arrivare.. il resto erano solo ipotesi riguardanti il fatto di come sarebbe stato meglio prestazionalmente parlando gestire un reverse-HT). AMD deve avere qualcosa in serbo, questo e' sicuro! La architettura cosi' come e' stata presentata fino ad ora da sola non sembrerebbe prestazionalmente parlando nulla di rilevante, eppure Intel sta addirittura avendo un certo timore e cerca di anticipare i 22nm, annunciando gia' un SB x10. C'e' sicuramente qualcosa di piu': LARGO ALLE IPOTESI! Ora ritorno con le mie domande (e lasciate perdere le ipotesi che fino ad ora ho fatto estendendo questa possibilità). Un reverse-HT come risposta prestazionale si tratterebbe di fantascienza? Se cosi' non fosse come si potrebbe immaginare una implementazione di reverse-HT partendo da una architettura modulare di questo tipo? quale sarebbe secondo voi la modalità piu' efficiente da ogni punto di vista (prestazione, silicio, consumi)? Fin'ora ho solo espresso appunto la mia personale ipotesi (basata appunto sulla ripartizione alternata delle micro-ops sui due moduli INT) riguardo a quella che sarebbe a mio parere l'implementazione migliore per un reverse-HT, tutto qui! I discorsi sull'SMT e sul silicio sono tutti giusti, ma molto poco inerenti rispetto a quello di cui stavo parlando, ovvero quale sia il "possibile segreto" che AMD sta celando dietro a tutto cio'.. :S (e qualcosa deve esserci per forza) O.T. Azz, non solo non ho rispettato la mia promessa del post precedente, ma mi sa che sto scrivendo pure troppo
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 Ultima modifica di Gigamez : 04-10-2010 alle 18:22. |
|
|
|
|
|
#3832 | |
|
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
La l1 data con il core in idle dovrebbe gia essere vuota. Se tutta questa manovra porterebbe ad abbassare il peso di un prefetch fault da 20 a 19 cicli non credi che sia tutto grasso che cola? |
|
|
|
|
|
#3833 | |
|
Senior Member
Iscritto dal: Oct 2001
Messaggi: 14737
|
Quote:
Ma tornando al discorso del "reverse HT", anche io qualche tempo fa mi ero chiesto se il modulo fosse in grado di usare le "alu" (in senso generale) di entrambe le unità int per generare un "super core" da 8 alu (le 4 del primo core int e le 4 del secondo core int). La risposta era stata abbastanza precisa: inutile fare un core con millemila alu, perchè statisticamente se ne sfruttano insieme al più 3 o 4. Scartiamo quindi l'ipotesi del "supercore", scartiamo quella dello "sli", dato che nelle GPU il codice è altamente parallelo mentre quello di un'elaborazione monothread no, scartiamo l'ipotesi dell'uso del secondo core in caso di predizione sbagliata per quanto elencato da Cionci qui sopra. Morale della favola: se il codice è poco parallelizzabile, c'è poco da fare: aggiungere potenza bruta non aiuta, ma bisogna muoversi in altre direzioni. Ultima modifica di calabar : 04-10-2010 alle 18:34. |
|
|
|
|
|
#3834 | ||
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31868
|
Quote:
1 core = 1 INT (ottica Phenom II) Modulo = 2 core = 3 INT (BD). Mi sembra chiaro che non sto parlando dell'INT dedicato esclusivamente all'altro core, ma dell'INT condiviso. Quote:
Quindi se riporti "A livello di singolo thread uno dei due core INT è come se non esistesse" è la stessa cosa che a livello di 2TH il 3° INT è come se non esistesse. Se con 2 TH il 3° INT viene usato (altrimenti cosa le metterebbero a fare?) non capisco la diffrerenza. Con la stessa logica con la quale in base a 2 TH viene usato il 3° INT, non vedo il perché con 1 TH dovrebbe essere usato solo 1 INT e non utilizzato l'INT condiviso... Rifacendomi a quanto postato da Bjt2, il 3° INT dovrebbe essere sfruttato sia che il modulo sia con 1 TH che con 2 TH (come posta Bjt2, infatti, le operazioni eseguite a parità di clock sarebbero superiori sia nei confronti di un Phenom II che nei confronti dell'i7). Se il 3° incrementa la velocità di esecuzione, tale incremento lo si avrebbe maggiore in modalità 1 TH, perché con 2 TH sarebbe condiviso e potrebbe essere "occupato".
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 Ultima modifica di paolo.oliva2 : 04-10-2010 alle 19:51. |
||
|
|
|
|
#3835 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
|
|
|
|
|
#3836 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31868
|
Il Modulo BD ha 3 INT?
1 per core (esclusivo) = 2 core = 2 INT + un 3° INT condiviso.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
|
|
|
#3837 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
|
|
|
|
|
#3838 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31868
|
Grrrr... allora ho preso un abbaglio....
.Ma non si diceva all'inizio che c'era un'unità INT condivisa in più tra i 2 core?
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
|
|
|
#3839 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
|
|
|
|
|
#3840 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Dunque posto una frase di un ing amd: http://www.semiaccurate.com/forums/s...?t=3443&page=2 What you're looking at today is at a processor through a terrible telescope and trying to make determinations on how it might perform. Obviously, you can tell that the planet is red and several obvious other cues, but often times the little details are what is required to make a proper performance determination. As JF as already pointed out, you only see the big picture. The little details are extremely important, and IMHO, the most important. There's several big big cards not shown yet Dunque ti faccio un esempio terra terra poichè io non sono esperto in queste due cose: I c2q hanno 4 alu , i PhII ne hanno 3, hai mai visto un c2q che vada il 33% in più rispetto ad un phII? Io dico che hanno lo stesso ipc in molte applicazioni con alcune che privilegiano i c2q ed altre i PhII. BD avrà il 33% in meno di alu del k10, andrà meno? No, ci sono svariati motivi: K10 retirement buffer di 3mop, BD 4 mop, 33% teorico di vantaggio sulle mop ritirate (mop= uop matematico\logico più op di memoria o load\store) Inoltre il 60% di istruzioni x86 contiene op load e store nel rapporto di 2:1 tra di loro, il k10 può eseguire queste istruzioni in modo quasi in order, ovvero con poche possibilità di esecuzione OoO, ad es dopo 3 cicli la alu 0 è pronta a sfornare un Imul, toh, manca l'operando, pipeline stallata poichè il processore non ha precaricato gli operandi ma ha eseguito le op di memoria quasi in ordine del codice che ha eseguito. Con Bd le memory pipelines sono completamente OoO ed altri ancora di cui alcuni postati nelle varie slides. come prefetcher migliorati ed aggressivi nuovi branch predictors, scheduler più efficiente, caches più efficienti (si spera)
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 16:34.



















