|
|
|
![]() |
|
Strumenti |
![]() |
#3781 |
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31799
|
Facciamo un attimo di riflessione:
Comunque, non c'è correlazione tra la frase di AMD "proporremo TH fisici a TH logici" in un procio che con 4 moduli può gestire al max 8 TH contro già un i7 980X che ne può gestire 12. Le uniche uscite da questo ragionamento che vedrei sono 2: 1a ------------------------------------------------------------------- che l'affermazione sia per l'ambito server: SB X8 con 16 TH = BD X16. Per il desktop rimane solo BD X8, magari reputandolo già sufficiente almeno sino all'arrivo di SB X8 previsto sul finire anno prox. Nel momento in cui Intel proporrà un X10, tra affinamenti e quant'altro, penso probabile che AMD proporrà un BD X10 e a quel punto non credo problematica l'"emigrazione" pure nel desktop. -------------------------------------------------------------------- 2a. Il desktop, ha altre prerogative. E' importante l'IPC del singolo core (ed in questo l'esempio è l'i7 e successivamente SB, in questo Intel al momento è nettamente prima). Se BD incrementa l'IPC singolo core, facendo lavorare il modulo come X1, risolve ampiamente il problema, aiutato inoltre dal clock di per sé almeno del 25-30% superiore a quello Intel. Il numero di TH è secondario... e comunque, diciamo che AMD anche con un numero di TH inferiore, essendo i TH fisici, non ha problemi a contrastare un numero di TH superiore da parte di Intel, visto che sono logici ma che si basano su n core logici/2 = core fisici, quindi anche in caso di SB X6 e X8, che comunque arriveranno sul finire anno prox., AMD avrebbe tutto il tempo sia per un nuovo step di silicio, sia per aggiungere il low-k se non presente all'uscita, e, tra CTI e processo a regime, miglioramenti di TDP tali da permettere l'aggiunta di 2 core non vedrei il tutto problematico. Inoltre, il desktop può contare su clock sicuramente più alti che nel server, può contare su proci B.E. per la gioia di tutti.... ci mancherebbe solo un listino alla Thuban e vivremmo tutti felici e contenti.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 Ultima modifica di paolo.oliva2 : 03-10-2010 alle 20:38. |
![]() |
![]() |
#3782 | |
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31799
|
Quote:
![]() Inoltre... JF con quel 13% in più... non è attendibile nel desktop, perché lui parlava di server, quindi tutto il "nostro" discorso che si basa sul modulo inteso come X1 esula dalla sua affermazione. Per finire... se cominciano ad essere sempre di più chi afferma che a parità di clock BD sarà sotto ma di poco a SB, ciò è ottenibile unicamente con sopra il 30% di IPC, cosa che mi sembra non sia giustificata da un INT in più e una doppia FP e L2 da 2MB. Un qualche cosa ci deve essere, e penso sia quella che abbiamo nasato....
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
![]() |
![]() |
#3783 |
Senior Member
Iscritto dal: Jul 2006
Messaggi: 1071
|
Appoggio Gigamez, infatti l'argomento non è nuovo ma ne parlammo già nel mese di luglio, e fui proprio io ad avanzarla
![]() Sono ancora convinto che ci sarà la sorpresa dei BD X4/4moduli/8thread fisici ed X8/8moduli/16thread fisici che però all'occorrenza possono lavorare solo su 4 ed 8 thread rispettivamente nel caso di programmi poco propensi al multi-thread in modo da ottimizzare le risorse.
__________________
1°Pc: AMD Athlon II X4 630@3.4GHz - Asus M4A78T-E-2*2gb Kingston ddr3 1333MHz CL9@1620MHz 7-8-8-20-1T - SAPPHIRE HD4850 512mb - hd Segate sata2 400gb-hd maxtor ide 80gb-Ali modulare Perdoon 500W - IIYAMA ProLite B2403WS 2°Pc: AMD Opteron 1210- MSI K9AGM3-2*1Gb ddr2 800mhz Corsair xms2 DHX-hd WD 160gb-X850XT PE |
![]() |
![]() |
#3784 |
Senior Member
Iscritto dal: Feb 2010
Città: Fabriano
Messaggi: 1096
|
comunque i SB di fascia alta su lga 2011 sono previsti per il Q3 2011, quindi BD dovrà fronteggiarli ben presto dopo la sua uscita.
|
![]() |
![]() |
#3785 | |
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
Effettivamente funzionerebbe un pò meglio in un'ottica "intel HT", "saltando" sul secondo core solamente quando il primo core attende qualcosa e va in stallo. Sarebbe tuttavia estremamente poco efficiente avere un core FISICO chiamato in causa solamente nelle situazioni di fallimento, e quindi con un utilizzo molto distante dal massimo teorico (100%), non credi? Sarebbe di certo piu' conveniente a livello di ottimizzazione ed utilizzo delle risorse (avendo due veri e propri cores FISICI) creare due threads (permettetemi il gioco di parole) "logici" partendo da un unico "thread fisico"! Mi spiego: intendo "threads logici" in quanto a partire da un'unico thread "fisico" (il vero e proprio programma "monocore") si dovrebbero creare due percorsi logici di micro-ops da eseguire simultaneamente nei due cores INT. Ecco che pero' arriviamo alla mia precedente ipotesi, non credi? ![]()
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 |
|
![]() |
![]() |
#3786 |
Senior Member
Iscritto dal: Oct 1999
Messaggi: 3780
|
il prediction fault si avvera quando una istruzione condizionale ha un risultato diverso da quello predetto.
Di norma questo avviene all' uscita dai loop , se ho un loop che per 100 volte ha continuato a girare la branch prediction prevedera' che anche alla 101 esecuzione dopo l'istruzione condizionale vennga eseguita una determinata istruzione e quindi manda in pipeline questa istruzione prima ancora che venga completata l'esecuzione dell' istruzione condizionale. L'idea proposta e' che nel caso di istruzioni condizionali un core int eseguirebe il ramo (true) mentre l'altro il ramo (false) , in questo modo indipendentemente dal risultato della condizionale ci sarebbe comunque un core gia' pronto con i dati correti in pipeline. A mio parere pero' questa soluzione sebbene permetta di migliorare le performance non e' una risposta intelligente perche' raddoppia il consumo elettrico e perche' impedisce ad un unita' Int di occuparsi di altro ( o di stare spenta in idle) |
![]() |
![]() |
#3787 | |
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
immaginate una sorta di "SLI/crossfire" tra due unità INT: nel multi GPU, la scena da renderizzare e' la stessa, ma un frame viene dato in pasto alla prima GPU, e durante l'esecuzione di questi calcoli viene dato il frame successivo alla seconda GPU, avvicinandosi ad un guadagno vicino a quello teorico, nel migliore dei casi. Ora.. immaginate la stessa cosa, ma tra le due unità INT: Il thread da eseguire e' lo stesso, ma una micro-op viene data in pasto alla prima unità INT, e durante l'esecuzione dei calcoli viene data la micro-op successiva alla seconda unità INT. Molto semplice, ma potrebbe anche funzionare, no? Magari si spiegano anche quelle 4 unita' di decode ed il fetch unificato nei moduli.. ![]() Tutte ipotesi, ehhhh ![]()
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 Ultima modifica di Gigamez : 03-10-2010 alle 21:27. |
|
![]() |
![]() |
#3788 | |
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 Ultima modifica di Gigamez : 03-10-2010 alle 21:36. |
|
![]() |
![]() |
#3789 | |
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
Se ho abbastanza thread da riempire i singoli core questo reverseht non avrebbe luogo, mentre in caso di inattività innalzerebbe l'ipc del singolo th perchè eseguito alternativamente sui due core. Sul discorso delle micro-ops credo che si avrebbero problemi di latenza nel gestire la cache L1 del singolo core (che anche se in presenza di cache esclusiva porterebbe danno il non utilizzarla) |
|
![]() |
![]() |
#3790 | |
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
|
|
![]() |
![]() |
#3791 | ||
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
![]() No, perche' se fosse solamente come SMT avresti appunto un guadagno molto piccolo, e se fosse un vero dualcore penso proprio non dovresti avere unita' come fetch e branch prediction in comune.. ![]() Quote:
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 Ultima modifica di Gigamez : 03-10-2010 alle 22:33. |
||
![]() |
![]() |
#3792 | |
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
ma semplicemente lasciato in c1 state) |
|
![]() |
![]() |
#3793 | |
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
![]()
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 |
|
![]() |
![]() |
#3794 | |
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
Io non faccio un core fisico in più per avere un 8% in più di ipc. Io faccio un core in più per avere un thread reale in più, ma che quando questo sta a rigirarsi i pollici lo uso per avere un ipc maggiore del 5-8-20% (quello che sia insomma) prendendolo in prestito. 4 moduli possono essere visti come 8 core reali in ambito multi th o come 4 supercore in ambito single th. L'SMT di intel dal canto suo utilizza i tempi morti dovuti a codice malamente ottimizzato per poter raddoppiare i th logici. Per curiosità domani provo a lanciare un cinebench su i7 975 senza smt attivo (con smt on ho 6,02) per vedere la perdita di performance in sua assenza. |
|
![]() |
![]() |
#3795 | |
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
Ma come faresti a gestire un modulo come 2 cores reali (nel caso tu non debba gestire dei prediction), sapendo di avere moltissime unità condivise tra cui appunto fetch e decode? ![]() Inoltre: ogni volta che avresti una "biforcazione" del tuo programma dovresti gestire simultaneamente le due possibili soluzioni, cosi' come faceva notare Athlon. Sarebbe veramente la cosa piu' ottimizzata, al livello di prestazioni? Non sarebbe allora piu' facile fare come ha fatto Intel, ovvero un modulo con un solo core molto potente in grado di implementare un SMT? avresti sicuramente consumi minori, costi minori, tdp minore ed ottimizzazione delle risorse hardware maggiore! Secondo me non puo' essere questa l'ipotesi su cui si basa un modulo BD..
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 |
|
![]() |
![]() |
#3796 |
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24169
|
Ho ricevuto una notizia da confermare.
E' sotto esame il nuovo step produttivo di Llano cioè lo step B0 (quello che in pratica ha portato il posticipo a quest'estate); il primo step funzionante di Llano è stato A0....
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright |
![]() |
![]() |
#3797 | |
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
Bd è massimizzato per avere le massime prestazioni in multith. L'smt di intel occupa diciamo il 3% di superfice in relazione al core. il 2 core occupa il 12% in relazione al modulo. Adesso cosa ti faccia pensare che un core + smt sia più efficente in multith di un modulo? la densita di core per superfice è nettamente a favore di bd e presumibilmente dove SB avrà 8 core reali Bd avrà almeno 6 moduli (ma forse ci sarebbe lo spazio anche per 7) Il modulo di amd serve ad aumentare la densità dei core. Tutto il discorso sul reverse HTT sono solo speculazioni e se questo fosse reale sarebbe solo un opzional (che peraltro sarebbe del tutto inutile in ambito server) |
|
![]() |
![]() |
#3798 | |
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31799
|
Quote:
Se fosse il 32nm liscio, da A0 dovrebbe passare ad A1. B0, cioè cambiare la lettera iniziale, dovrebbe essere un cambio radicale di trattamento, cioé... dovrebbe equivalere all'introduzione low-k. (vedi Soi 45nm C2, C3... altro trattamento D0 D1, introduzione low-k E0). Se proprio non fosse il low-k, comunque dovrebbe essere qualche cosa di importante, visto il posticipo.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
![]() |
![]() |
#3799 | |
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 |
|
![]() |
![]() |
#3800 | |
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31799
|
Quote:
Il problema di AMD è quello di recuperare IPC nel monocore in desktop. Nell'ambito server praticamente sarebbe bastato portare un Magny-C sul 32nm per guadagnare quei 0.5-1GHz di clock. BD diciamo che sarebbe ottimizzato per sfruttare il 32nm sia sul lato clock (con pipeline idonee) che sul lato monocore inteso come IPC. Inoltre aggiungerei una cosa... da notare che il livello di spegnimento core è inteso a livello di modulo. Quindi viene da sé che coinciderebbe con l'ipotesi di modulo visto come 1 super-core nel caso il modulo non debba servire 2 TH ma 1 TH. E poi, semplificando, abbiamo visto che il modulo con sia l'INT in più che la FP raddoppiata sono un'ottimizzazione per ridurre la superficie del die ed ottimizzare il TDP/IPC al massimo. Ma questo non toglie che se il modulo lavora con 1 singolo TH, praticamente avrebbe a quel punto un raddoppio di INT ed una FP doppia. Il TDP non importerebbe, perché comunque non può arrivare al livello di 2 core che funziano. Insomma, anche senza complicarci la vita con 2 pipeline simultanee o qualsivoglia, mi pare innegabile che un modulo fatto lavorare con 1 TH sarebbe un super-core. Oltretutto, riducendo lo spazio a modulo (per 2 core), la potenza del multicore si troverebbe sempre e ugualmente semplicemente perché con meno TDP e con meno spazio a die, aggiungere più moduli risulterebbe comunque cosa facile. Con questo non è che dico che Gigamez abbia torto... cerco soltanto di semplificare il concetto.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 00:05.