|
|
|
![]() |
|
Strumenti |
![]() |
#2501 |
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Mi sa che Paolo faccia confusione tra ipc ed istruzioni al secondo: un ipc del 20% inferiore unito ad un clock del 40% maggiore certamente ci da una capacità di calcolo maggiore.
|
![]() |
![]() |
#2502 | |
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Scusami, ma perchè? Solo perchè sono sol 2 agu e 2 alu? Se fosse cosi si potrebbe gia dire che nel k10 ci potevano essere 40 agu e 320 alu ma alla fine se tutto andava bene ritirava tra alu-agu ed unità di fp 3 macro-op..
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
![]() |
![]() |
#2503 |
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Stiamo parlando di un dual core K10. Quindi le istruzioni che ritira sono 6, non tre.
|
![]() |
![]() |
#2504 |
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Ragionando su ALU e AGU, nel K10 non potevano essere occupate contemporaneamente 3 AGU e 3 ALU, perché ogni coppia di ALU e AGO condivideva parte della pipeline.
Quindi la possibilità di ritirare fino a 3 macro-ops per ciclo di clock è assolutamente ben dimensionata. In BD, le unità AGU e ALU sono completamente distinte. Ci sono due ALU e due AGU per ogni unità di interi. In teoria per avere la possibilità di sfruttare tutte le unità di calco, dovrebbe poter ritirare ben 8 macro-ops per ciclo di clock. Ora bisogna vedere bene come sono organizzate le cose, perché questo significa che la Load/Store unit (sarà condvisa ? vedendo come è posizionata la L1 direi di no) dovrebbe essere capace di elaborare ben 8 istruzioni per ciclo di clock. Il che mi sembra un tantinello esagerato. |
![]() |
![]() |
#2505 | |
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
certo, sono 6, se ci riesce, contro le probabili 8 di un modulo di bd? Non penso che il retirement buffer sia condiviso da 2 core, perchè ciò vorrebbe dire che i 2 core stanno processando lo stesso thread......
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
![]() |
![]() |
#2506 |
Senior Member
Iscritto dal: Aug 2009
Città: Prov. Savona
Messaggi: 802
|
Secondo me il punto è nel capire se AMD intenderà un quad core con 2 Moduli o... 4 Moduli, io rimango dell'idea che userà 4 Moduli poi Imho!!!
__________________
-Case CMSTACKER-Corsair RM850X-Asus SABERTOOTH 990FX R2.0-AMD FX 8370 4.75Ghz 1.356V ![]() ![]() 27/12/10 Mi mancherai per sempre Mamma!!! |
![]() |
![]() |
#2507 | |
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Scusami ho visto ora il tuo ultimo post. In effetti pare esagerato che un modulo bd possa ritirare 8 macro-op, però alla fine dei conti nehalem (ed il suo papà anche se con minor successo) riuscivano ad avvicinarsi a 4 mop ritirate per ciclo, in nehalem grazie a vari tweak e l'HT più che nei core 2. Per la L\S unit, perchè dovrebbe essere capace di elaborare 8 mop? Scusami la L\S unit si limita a caricare(load) o scrivere(store) dati\operandi sulla cache necessari per l'esecuzione di molte istruzioni. Almeno cosi è quello che ho capito. ![]()
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
![]() |
![]() |
#2508 | |
Senior Member
Iscritto dal: Oct 2004
Messaggi: 2827
|
Quote:
1)Quando ti riferisci al K10, le macro ops son intese per core? 2)Per BD, le 8 sono riferite per modulo? cioè 4+4 se si ragiona dal punto di vista dei core, giusto? Danke.
__________________
trattative a buon fine ![]() |
|
![]() |
![]() |
#2509 |
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31803
|
Magari nella foga potrò anche sbagliare, ma io per IPC intendo istruzioni per clock, per potenza IPC x clock (inteso come frequenza)
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
![]() |
![]() |
#2510 |
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Ogni macro-op è una istruzione ALU/AGU/FPU + una LOAD/STORE, quindi per poter completare 8 macro-ops bisogna essere in grado di completare 8 L/S per ciclo di clock.
|
![]() |
![]() |
#2511 |
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
|
![]() |
![]() |
#2512 | |
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31803
|
Quote:
Allora... il modulo BD ha parti in condivisione, il che = -20% Il modulo BD ha un INT in più, negli INT incrementerebbe (che poi era il punto debole verso l'i7, in quanto in FP non aveva nulla da invidiare, quindi, a livello teorico, mi sembra un passo avanti per uguagliare l'IPC nel senso totale con l'i7) Ora, la perdita del 20% per la condivisione, non bisogna trattarla fine a sè stessa, perchè comunque comporta una diminuzione di TDP e quindi quel -20% bisogna anche proporzionarlo al clock risultante, cioé... se si perdono 20% di IPC, potrebbe pure essere che si guadagnano, a parità di silicio, forse anche il 10% di clock, quindi bisogna comunque ridimensionarla al 10%. ------------------------- Quindi secondo me, a tutto questo, bisogna anche considerare se BD faccia ancora 3 mops a ciclo o passi a 4, bisogna vedere le latenze per ogni istruzione. Questo era il quadro precedente: ![]() Come si cambiano le latenze io non ne ho la minima idea, ma credo che dagli schemi visti sino ad ora, nessuno può dire se siano le stesse. Comunque una L2 di 2MB condivisa nel modulo, di per sé sarebbe un bel magazzino dati, se poi fosse addirittura più aggressiva. Poi mi viene il dubbio... con una L2 così grossa, il core è così piccolo? cacchio, comunque da 512KB+512KB di 2 core K10... --------------------------------------------- Alla fine della minestra, entra in funzione la frequenza. Ormai dovunque attribuiscono a BD notevoli incrementi di clock. Anche considerando un IPC inferiore nel totale, se prendiamo un Thuban 3,2Ghz stock e pensiamo ad un BD a 4GHz, saremmo sull'ordine del + 30% solo nel clock, aggiungiamoci un 33% nel numero dei core, arriveremmo a +72%. Vogliamo toglierci un 10% per minor IPC? saremmo ad un +65% ma con un procio più bilanciato nel discorso INT verso Intel e più potente di prima nell'FP. Nel discorso monocore le cose sarebbero MOLTO migliori. Perché il modulo di BD avrebbe l'SMT HARDWARE, quindi DOVREBBE incrementare l'IPC e non di poco rispetto al singolo core K10. Uniscici clock sicuramente superiori di almeno 500MHz rispetto a quelli di SB... e lo scenario è fatto. P.S. Io non mi intendo di SMT, però vedo nel TH di Cinebench, che i proci senza SMT hanno risultati inferiore a parità di frequenza con gli i7 con SMT pure nel monocore, quindi ho teorizzato che possa aiutare pure nel monocore... e poi comunque bisogna vedere se nel modulo BD possa comunque esserci qualche miglioria.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 Ultima modifica di paolo.oliva2 : 31-08-2010 alle 12:37. |
|
![]() |
![]() |
#2513 | |
Senior Member
Iscritto dal: Aug 2000
Messaggi: 17963
|
Quote:
alla fine son solo nomi
__________________
. |
|
![]() |
![]() |
#2514 | |
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Non per forza, le macrop vengono nel k10 splittate nelle microop corrispettive(ad es macro op 1= add r.r1+store) nelle primitive micro ops (in questo caso add + load eseguite in 2 pipe diverse in modo OoO). Il retirement buffer ritira le micro ops. Scusami erroneamente ho scritto nel post precedente macro ops, negli issue slot delle alu\agu esse vengono splittate nelle micro ops, ho causato un pò di confusione ![]() Quindi sempre prendendo per buono le minchiate che ho scritto si tretterebbe, visto che ancora dei dettagli importanti non se ne sa nulla di 4 microops ritirate per core in bd vs le 3 (magari) del k10
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
![]() |
![]() |
#2515 | |
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! ![]() ![]() ![]() |
|
![]() |
![]() |
#2516 | |
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
Devi considerare anche il cambio di processo produttivo. Un Thuban a 32 nm girerebbe sicuramente almeno 400 Mhz più veloce con il semplice die-shrink. Il discorso può andare bene dal punto di vista degli interi, ma sulla FPU non vedo possibile un aumento così marcato. Soprattutto se si considerano situazioni in cui i due thread dello stesso modulo eseguono entrambi istruzioni FP. |
|
![]() |
![]() |
#2517 | |
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
I motivi di questa "speranza" sono molteplici: esistenza di un brevetto AMD che descrive la possibile scissione di una FMAC per fare ADD e MUL in parallelo, la inutilità di una FMAC, considerando che INTEL non ce l'ha, il codice compilato con compilatore INTEL e il codice legacy non avrà FMAC e che le XOP (che sfruttano le FMAC) non credo saranno supportate estensivamente e comunque non subito.
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! ![]() ![]() ![]() Ultima modifica di bjt2 : 31-08-2010 alle 14:37. |
|
![]() |
![]() |
#2518 | |
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
![]() Grazie per l'intervento, in pratica bd pur con un numero minore di ex unit sarebbe più efficiente del k10 nell'esecuzione di calcoli. Un altre cosa, anche intel splitta le macro op in micro op cosi da avere più flessibilità ed efficienza?
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
![]() |
![]() |
#2519 | |
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Quote:
Mi viene spontaneo chiedere se i due thread basteranno ad occupare le due FMAC... Secondo te le legacy si occuperanno dei calcoli fp non vettoriali (x87) o si limiteranno alle istruzioni intere previste dalle estensioni medesime ? |
|
![]() |
![]() |
#2520 |
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31803
|
Perché logici? BD ha 4 moduli con 2 core ciascuno... con delle parti in comune, ma sono sempre fisici.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 00:59.