[Thread Ufficiale] CPU serie FX: AMD Bulldozer/Piledriver - Aspettando Steamroller - Pagina 899

ippo.g · 13-06-2013, 12:15

Quote:

Originariamente inviato da animeserie

Cribbio, interessante questa simulazione !
scalderà, sarà inefficiente, consumerà ma... in X264 si è sbranato il 4770 Intel..

quella versione di x264 non ha ancora il supporto alle AVX2, le ultime versioni si, quindi ci andrei cauto

digieffe · 13-06-2013, 12:21

Quote:

Originariamente inviato da appleroof

Già postato? http://crazyworldofchips.blogspot.it...ot-leaked.html

scommetto che nessuno ha letto questo link ne tanto meno l'originale sul forum di SemiAccurate.

Io ho capito bene le modifiche riportate, ciò che non ho capito è se l'immagine da cui hanno fatto le deduzioni sia di steamroller o altro o fake!
Attendo vostri responsi in proposito.

Nel caso ciò che "gli ing." stanno deducendo sia vero, la situazione sarebbe questa: di fatto un raddoppio di tutte le parti int e di tutte le parti fpu il che farebbe pensare ad un modulo con 2 core e "udite udite udite" 4 thread.

Io sono molto dubbioso, perché le performance sulla carta non sarebbero di questo mondo... allora prima di far funzionare troppo la fantasia riuscite a capire se la fonte (l'immagine) è realmente quella di SR?

a mio avviso potrebbe essere un post excavator

EDIT: qui il thread su SA http://semiaccurate.com/forums/showt...t=6145&page=91

capitan_crasy · 13-06-2013, 12:28

Quote:

Originariamente inviato da AnonimoVeneziano

Scusate, non riesco a capire quando sto Steamroller dovrebbe uscire, qualcuno puo' delucidarmi?

Thanks

Kaveri a fine 2013(?), per le CPU un generico 2014(

)...

paolo.oliva2 · 13-06-2013, 12:29

Quote:

Originariamente inviato da tuttodigitale

Quoto te Paolo, ma spero di fare cosa gradita se vi spiego come opera il MC a livello basico in una cpu.
Un microprocessore per ragione di efficienza non opera sui dati presenti sulla RAM. E come potrebbe con quelle latenze assurde (in senso relativo)?
Quando il processore (gpu e cpu) ha bisogno di un dato contenuto nella RAM, chiede al memory controller il dato. Il MC riceve quindi in ingresso l'indirizzo della locazione di memoria e fornisce in uscita il dato. Ma attenzione il dato non ha un estensione programmabile, sempre per le ragioni di efficienza e semplicità, ma ha una lunghezza fissa.
In modalità dual channel, il MC fornisce in uscita SEMPRE 128bit di dati a partire dall'indirizzo di memoria indicato dal microprocessore, anche nel caso si richieda una variabile char da 8 bit.
Quindi in realtà non è vero concettualmente che 64 bit sono riservati alla gpu e 64 alla cpu...
Alla luce delle mie conoscenze sarebbe impensabile riservare dinamicamente bus di dimensioni diverse: pensa ad HDD in configurazione RAID0. Non puoi certo prelevare una volta il dato da un solo HDD o un'altra da 2HDD. Sarebbe complicatissimo per il microprocessore usare un array non uniforme. E si sa più il microprocessore è idiota (pardon semplice) meglio è
Imho sarebbe più giusto parlare di bus "equivalente"termine tanto in voga. In base a quanto tempo la cpu e la gpu impegnano il MC...ma il discorso è fuorviante.
Detto questo se la banda passante del MC non basta c'è sempre la configurazione Tri-Channel...

In AMD ci sono 2 canali, ognuno con 2 banchi, ed ognuno supporta il single-channel o dual-channel a seconda se ci monti 1 banco o 2 banchi di RAM.

La differenza è che se io monto 1 banco su un canale, ho il sigle-channel, con tutta la perdita di potenza, se monto 2 banchi su un canale, ho il dual-channel. Montare altri 2 banchi non comporta alcun aumento di banda e un vantaggio infinitesimale, dovuto, penso io, a più spazio per chiamate.

Infatti, il 90% di utenti AMD non monterà mai 4 banchi ma solamente 2 semplicemente perchè non ce n'è bisogno, e vale per tutti i proci X4, X6 e X8. Io, ad esempio, ho 16GB di ram su 2 banchi con un 8350.

Se ribalti quello che dico sulle APU, la cosa è ben diversa. Il mio Trinity mobile ha 2 banchi di RAM dalla casa e con 4 banchi va molto meglio, come altri hanno fatto, semplicemente perchè TUTTE le chiamate (IGP e X86) passano per quell'unico canale. Montare altri 2 banchi significa in via teorica che 1 canale sarebbe interamente dedicato all'X86 e l'altro all'IGP.

Intel un 2-channel ha una banda inferiore rispetto al 3-cannel, come il 4-channel l'ha doppia rispetto al 2-channel.
Il RAID 0 assomma 2 bande di dati perchè legge da 2 HD che ognuno ha una sua banda.
L'AMD è un DUAL-dual-channel, ognuno indipendente dall'altro.

epimerasi · 13-06-2013, 12:45

Quote:

Originariamente inviato da paolo.oliva2

....

Se ribalti quello che dico sulle APU, la cosa è ben diversa. Il mio Trinity mobile ha 2 banchi di RAM dalla casa e con 4 banchi va molto meglio, come altri hanno fatto, semplicemente perchè TUTTE le chiamate (IGP e X86) passano per quell'unico canale. Montare altri 2 banchi significa in via teorica che 1 canale sarebbe interamente dedicato all'X86 e l'altro all'IGP.

Intel un 2-channel ha una banda inferiore rispetto al 3-cannel, come il 4-channel l'ha doppia rispetto al 2-channel.
Il RAID 0 assomma 2 bande di dati perchè legge da 2 HD che ognuno ha una sua banda.
L'AMD è un DUAL-dual-channel, ognuno indipendente dall'altro.

L'APU con quattro banchi va meglio semplicemente perche` alla memoria deve accedere anche la GPU, quindi hai bisogno di piu` memoria.
Tutto qui.

Ti ha spiegato come funziona e che quello che dici e` sbagliato, perche` non stai semplicemente ad ascoltarlo?

lulic · 13-06-2013, 12:51

Quote:

Originariamente inviato da shellx

Ognuno ha il suo cilindro nel cappello, non è che gli ingegneri amd fanno p2p di informazioni con quelli intel e di ibm.

Beh guarda non nomimare Haswell, quello piu che un cilindro nel cappello, è un mattone dentro un pacco. Se Zambesi nell'Ottobre 2011 fu per tutti un epic fail dovuto a uan commercializzazione affrettata e confusa e causata pure dal pp latrinoso, haswell non è latrinoso, è proprio un MEGA EPIC FAIL, e la cosa piu buffa sia qual'è ? Che amd debuttava BD nel 2011 con NEW ARCHITECTURE E NEW PP (quindi aldila dei risultati pessimi è piugiustificata), Intel invece su un pp rodato (22nm) un architettura migliore, piu denaro ecc ecc è risultato piu fail di bd nel 2011. E che non mi vengano a dire che le versioni mobile sono migliori e la igp è migliore, perchè haswell fa cagare in tutte le piattaforme (desktop e mobile), e l'igp è si migliorata, peccato pero che sta sempre dietro a trinity (non disturbo neppure richland) e soprattutto (e te lo dice uno che sa cosa è il software) ha un parco driver specie per linux che fa vomitare. Supporto pari a zero. Per non paralre dell'overclock: pietosi, scandalosi proprio, cioè credimi chi ha un 2600k ha la cpu migliore del mondo. Chi ha un 3770k e cambia per il 4770k è solo per per cambiare piattaforma, altrimenti ha pure oc inferiori. In totos le perfomance globali aumentao del 8-9% di ipc, e fa un 8 secco a cinebench. Na chiavica...e tu sai bene che io sono si simpatizzante amd, ma sono coerente andando molte volte pure contro amd e difendendo intel. Ma se ti dico che a syo giro fa schifo fa proprio pietà e misericordia. Meno male che esiste il socket LGA2011 altrimenti intel con haswell avrebbe prodotti pessimi, e questa volta si che i prezzi non sono giustificati (e no quelli di sb che erano giustificatissimi per le performance rispetto zambesi). Ora che vengano da me i troller intel (perchè sono sicurto chei pro intel coerenti non lo faranno) che gli rispondo io a suon di troll.

Ops scusate

mi ero dimenticato non è il thread intel vs amd...non lo faccio piu ve lo giuro

no prima spiegami oltre noi geek malati mentali chi caxxo guardo il tdp quando compra un computer ? Se guardano la frequenza è pure troppo, giusto il piu "so tutto io" guarda i "gigaherzi". Alcuni addirittura dicono "mi sono fatto un computer Asus... e io: "che cpu monta" e lui: "ma sei idiota ? ti dico asus..." e io: " aaaaahhh ho capito tutto... e me lo potevi dire subito che eri noob" e lui: "eh .. eeh ?" e io: "niente

"

il bello è che ancora escono proci YB guarda l'i3 3240/45/50

haswell non serviva proprio!

lulic · 13-06-2013, 12:53

Quote:

Originariamente inviato da epimerasi

L'APU con quattro banchi va meglio semplicemente perche` alla memoria deve accedere anche la GPU, quindi hai bisogno di piu` memoria.
Tutto qui.

Ti ha spiegato come funziona e che quello che dici e` sbagliato, perche` non stai semplicemente ad ascoltarlo?

sorry ma non ci arrivo nemmeno io,non è la stessa cosa 8gb divisa in 2 o 4 banchi?

lulic · 13-06-2013, 13:02

@ paolo.oliva2

scusa ma...le main fm2 a55 hanno solo 2 slot come la mettiamo?

paolo.oliva2 · 13-06-2013, 13:08

Scusate la mia ignoranza ma dovevo capire il perchè AMD riporta un +30% di aumento in MT che per me sarebbe enorme.

Ho fatto delle prove incrociate circa la scalabilità di un 8350. In OC cioè aumentando la frequenza, la scalabilità è perfetta al 100%. Con Winrar ho provato il classico bench utilizzando anche l'affinità e ho scoperto una cosa nuova... magari la sapete tutti ed io ero l'unico a non saperla.

Tra 1TH a modulo e 2TH, la differenza è maggiore del 6%, e questo si sapeva per il CMT.
Ma quello che io non mi ero accorto, è la perdita della scalabilità aumentando i moduli.
Ogni modulo aggiuntivo perde un 8% rispetto alla potenza del singolo modulo, arrivando praticamente che un 4 moduli ha prestazioni addirittura inferiori a quello che darebbe un 3 moduli senza perdita.

Comincio a capire il perchè AMD non ha aumentato i moduli con Vishera (ammesso e concesso che il silicio lo avesse permesso), perchè diminuire o annullare questa perdita, avrebbe portato un incremento simile tanto quanto aumentare i moduli ma a parità di dimensione die, senza l'aggiunta di alcun transistor.
Quello che non mi torna, è che il +30% dichiarato da AMD sarebbe di poco inferiore rispetto alla perdita di 4 moduli vs 1 modulo, ma non si potrebbe generalizzare... perchè la perdita sarebbe dell'8% a modulo, quindi un X6 guadagnerebbe l'8% su un X4, non certamente il 30%.

La mia domanda...

Secondo me Buldozer, per come la vedo io, è come se prendessimo un Phenom II X4, al posto dei core ci mettessimo il modulo, e conserverebbe di fondo lo stesso scheletro I/O di un Phenom II, cioè HT, NB, L3, MC, ovviamente con tutte le migliorie, tipo eliminata la dipendenza HT/NB, aumentata la L3, potenziato l'MC, e simili, ma la logica sarebbe quella.
Ora... il Phenom II aveva una scalabilità perfetta, perchè ricordo l'incremento MT tra un X4 e un X6.
Perchè BD invece perderebbe? Ok che dentro il modulo influiscano le latenze delle cache, i decoder, il prefetch, le pipeline e quant'altro... ma le perdite dentro il modulo sarebbero dovute al CMT ancora acerbo, ma non c'è alcun CMT fuori dai moduli.
La mia impressione era che il margine di guadagno di BD fosse esclusivamente dentro il modulo, quindi il range di miglioramento era da 160 a 200, con chiaramente 200 impossibile perchè il CMT per quanto perfezionato non potrà mai dare quanto 2 core separati, quindi al più da 160 si sarebbe potuti arrivare a 190, con una potenza finale sul 18% abbondante superiore a quella attuale di Vishera, chiaramente senza alcun potenziamento alla parte logica.
Ma abbiamo una perdita extra del 32% nella scalabilità di 4 moduli.

Quello che voglio dire, è che l'IPC riporta la potenza elaborativa di 1 core e in una architettura sfruttata al 100%, praticamente l'aumento di IPC è ottenibile unicamente potenziando la parte elaborativa del procio.

Quando JF parlava di potenze simili a core (tra Stars e BD), poteva essere giustificato in quanto la frequenza di Zambesi era segata di 1GHz rispetto all'aspettativa del silicio, quindi un +30% di frequenza avrebbe annullato con gli interessi il -20% di IPC, nel discorso core to core. Il modulo avrebbe certamente una perdita dovuta al CMT, ma che sarebbe dovuta essere inferiore in quanto, sempre per il CMT, i core erano 8 anzichè 6.

Schematizzando:

Core:
BD con una frequenza massima turbo prossima ai 5GHz avrebbe avuto una frequenza maggiore del 35% abbondante rispetto ad un 1100T con Turbo a 3,7GHz, quindi al -20% di IPC si avrebbe avuto un valore finale di +8% di BD.

Modulo:
Al 160 al posto di 200 del modulo a causa del CMT si avrebbe avuto il +33% di core grazie al CMT, quindi rispetto a 200 x 3, si avrebbe avuto 160 x 4, quindi 640 vs 600 (+6,5%), unito poi alle frequenze operative di 4GHz di un 8350 vs 3,3GHz di un 1100T (+21,21%), avremmo dovuto avere un +29% finale di un attuale 8350.

Il problema è che quel -32% sulla scalabilità dei moduli praticamente vanificherebbe i 2 core in più, perchè sarebbe un risultato da BD X6 e non X8.

pandyno · 13-06-2013, 13:13

il 5Ghz mi stuzzica l'appetito della scimmia. Mi sa che lasso perdere però

AnonimoVeneziano · 13-06-2013, 13:24

Quote:

Originariamente inviato da capitan_crasy

Kaveri a fine 2013(?), per le CPU un generico 2014(

)...

Oh, quindi per le CPU di una certa capacita' bisognera' vedere l'anno prossimo

Mister D · 13-06-2013, 13:28

Quote:

Originariamente inviato da digieffe

scommetto che nessuno ha letto questo link ne tanto meno l'originale sul forum di SemiAccurate.

Io ho capito bene le modifiche riportate, ciò che non ho capito è se l'immagine da cui hanno fatto le deduzioni sia di steamroller o altro o fake!
Attendo vostri responsi in proposito.

Nel caso ciò che "gli ing." stanno deducendo sia vero, la situazione sarebbe questa: di fatto un raddoppio di tutte le parti int e di tutte le parti fpu il che farebbe pensare ad un modulo con 2 core e "udite udite udite" 4 thread.

Io sono molto dubbioso, perché le performance sulla carta non sarebbero di questo mondo... allora prima di far funzionare troppo la fantasia riuscite a capire se la fonte (l'immagine) è realmente quella di SR?

a mio avviso potrebbe essere un post excavator

EDIT: qui il thread su SA http://semiaccurate.com/forums/showt...t=6145&page=91

Sarebbe più realistico per excavator l'aumento delle unità int e fp. E se ci pensi il loro percorso sarebbe a step:
I step: aumento IPC e miglioramento frequenze - Piledriver
II step: aumento IPC per miglioramento latenze cache e scheduling, miglioramento sfruttamento modulo quando interamente caricato grazie al doppio decode - Steamroller
III step: raddoppio delle unità INT e FP (ogni modulo 4 unità int e 2 fp, 2+1 per decode).
E il terzo step mi sembrerebbe plausibile grazie al passaggio dai 28/20 FD-SOI planari a 14 nm FD-SOI FinFet.
Mi sembra strano che riescano già con i 20 FD-SOI ad aumentare così tanto le unità INT e FP.

Il dopo excavator lo vedo solo con un super modulo con tante INT e la parte FP rimpiazzata dagli stream processor di una gpu e così si arriverebbe alla nascita di una vera APU

paolo.oliva2 · 13-06-2013, 14:00

@Capitano

Manco chiedere...

animeserie · 13-06-2013, 14:31

Io comunque ancora vorrei capire perchè in un modulo debbano starci 2 unità di calcolo INT ed una sola FP

Io, ad esempio, un FX4300 non lo chiamerei quadcore alla luce di questo

Qual è il motivo di quella scelta in fase di progettazione ?

paolo.oliva2 · 13-06-2013, 14:32

Quote:

Originariamente inviato da epimerasi

L'APU con quattro banchi va meglio semplicemente perche` alla memoria deve accedere anche la GPU, quindi hai bisogno di piu` memoria.
Tutto qui.

Mi sa che del discorso hai capito poco o meglio nulla.

Primo, il prb con Trinity non lo risolvi se al posto di 4GB ci metti 16GB, perchè se usi 2 banchi il prb rimane, ma lo risolvi semplicemente mettendo 4 banchi al posto di 2.

Quote:

Ti ha spiegato come funziona e che quello che dici e` sbagliato, perche` non stai semplicemente ad ascoltarlo?

Se ci fosse guadagno utilizzando 4 banchi, io avrei 4 banchi. Perchè ne ho 2? Perchè con 2 banchi ho le stesse performances che si hanno con 4, ma elimino gli sporadici prb che a volte l'MC AMD ha con 4 banchi e non limito l'OC come invece i 4 banchi fanno. La minore spesa rispetto a 4 banchi la puoi utilizzare per DDR3 più veloci e con timing più aggressivi.
Di certo la banda richiesta da un Trinity 2,4GHz def 2,9GHz turbo, pur avendo l'IGP, non potrebbe essere superiore a quella richiesta da un X8 8350@5,2GHz (il doppio di core e il doppio di frequenza elaborativa), utilizzando 1 canale al posto di 2 ed addirittura utilizzando delle DDR3 1600 al posto di clock superiori (ho delle 2400). Quindi mi sembra più che chiaro che il problema non sia certamente la banda, oltretutto, ripetendo, che tra avere 2 banchi e 4 la banda non aumenta.

La tua ultime frase la commento a parte, perchè non ha nulla a che vedere con la discussione con l'altro utente.
Io ragiono con la mia testa, che non vuole dire di certo che non sbaglierò mai, ma di certo che non sbaglierò per colpa d'altri. Se per te è più semplice utilizzare la testa degli altri, va pure avanti per la tua strada che di certo è differente dalla mia.

digieffe · 13-06-2013, 16:15

Quote:

Originariamente inviato da animeserie

Io comunque ancora vorrei capire perchè in un modulo debbano starci 2 unità di calcolo INT ed una sola FP

Io, ad esempio, un FX4300 non lo chiamerei quadcore alla luce di questo

Qual è il motivo di quella scelta in fase di progettazione ?

il vantaggio di utilizzare il CMT é che all'interno del modulo i componenti, che sarebbero sottosfruttati in un core singolo, sono condivisi: quindi meno transistors, spazio ecc.
Se implementato bene porta il vantaggio che 1 modulo da prestazioni quasi identiche a 2 core.

Per quanto riguarda la singola FP condivisa tra le due parti INT, questa è di potenza doppia.

io credo che Steamroller (doppio decoder, cache ecc) lo potrai considerare "più" quadcore di piledriver

.

digieffe · 13-06-2013, 16:27

Quote:

Originariamente inviato da paolo.oliva2

Scusate la mia ignoranza ma dovevo capire il perchè AMD riporta un +30% di aumento in MT che per me sarebbe enorme.

Ho fatto delle prove incrociate circa la scalabilità di un 8350. In OC cioè aumentando la frequenza, la scalabilità è perfetta al 100%. Con Winrar ho provato il classico bench utilizzando anche l'affinità e ho scoperto una cosa nuova... magari la sapete tutti ed io ero l'unico a non saperla.

Tra 1TH a modulo e 2TH, la differenza è maggiore del 6%, e questo si sapeva per il CMT.
Ma quello che io non mi ero accorto, è la perdita della scalabilità aumentando i moduli.
Ogni modulo aggiuntivo perde un 8% rispetto alla potenza del singolo modulo, arrivando praticamente che un 4 moduli ha prestazioni addirittura inferiori a quello che darebbe un 3 moduli senza perdita.

Paolo, ho un sospetto ... che il problema sia winrar (che man mano che viene meno la banda di memoria già utilizzata non scala linearmente).

Perché non rifai i test con altri bench che non impattino in modo così significativo sulla memoria?

Ares17 · 13-06-2013, 17:02

Quote:

Originariamente inviato da paolo.oliva2

Mi sa che del discorso hai capito poco o meglio nulla.

Primo, il prb con Trinity non lo risolvi se al posto di 4GB ci metti 16GB, perchè se usi 2 banchi il prb rimane, ma lo risolvi semplicemente mettendo 4 banchi al posto di 2.

Se ci fosse guadagno utilizzando 4 banchi, io avrei 4 banchi. Perchè ne ho 2? Perchè con 2 banchi ho le stesse performances che si hanno con 4, ma elimino gli sporadici prb che a volte l'MC AMD ha con 4 banchi e non limito l'OC come invece i 4 banchi fanno. La minore spesa rispetto a 4 banchi la puoi utilizzare per DDR3 più veloci e con timing più aggressivi.
Di certo la banda richiesta da un Trinity 2,4GHz def 2,9GHz turbo, pur avendo l'IGP, non potrebbe essere superiore a quella richiesta da un X8 8350@5,2GHz (il doppio di core e il doppio di frequenza elaborativa), utilizzando 1 canale al posto di 2 ed addirittura utilizzando delle DDR3 1600 al posto di clock superiori (ho delle 2400). Quindi mi sembra più che chiaro che il problema non sia certamente la banda, oltretutto, ripetendo, che tra avere 2 banchi e 4 la banda non aumenta.

La tua ultime frase la commento a parte, perchè non ha nulla a che vedere con la discussione con l'altro utente.
Io ragiono con la mia testa, che non vuole dire di certo che non sbaglierò mai, ma di certo che non sbaglierò per colpa d'altri. Se per te è più semplice utilizzare la testa degli altri, va pure avanti per la tua strada che di certo è differente dalla mia.

Paolo semplicementi ti confondi.
La velocità tra 2 e 4 banchi aumenta solo se aumenti i canali.
Se aggiungi banchi sullo stesso canale peggiori (o nel migliore dei casi rimane inalterata) la velocità dei trasferimenti (a causa dell'aumento della letanza).
Se il canale A ha una capacità di connessione massima teorica data dall'ampiezza del bus (128 bit) per i cicli di clock della ram.
Va da se che all'aumentare dei banchi di ram su quel canale (fossero anche 10 banchi) il massimo teorico rimane sempre quello.
Per aumentare il bandwidth devi o aumentare i canali (ad oggi massimo 2 su AMD) o aumentare l'ampiezza del bus (portarlo a 256 bit per esempio).
Dovresti ricordare che le edoRam avevano 64 bit per banco e per essere utilizzati dovevano sempre funzionare in coppia (per coprire l'ampizza di banda di 128 bit).
Quindi quando aumenti i banchi da 1 a 2 per canale il controller considera la ram sul canale come un unico banco di bimensioni uguali alla somma dei banchi.
Utilizzare 2 banchi sullo stesso canale ha l'unico vantaggio di avere la possibilità di abilitare l'"interleave" (praticamente l'accesso alternato al singolo panco di ram sul canale) che porta nel migliore dei casi un aumente prestazionale massimo dell'8% dovuto solo alla diminuzione della latenza di accesso alla ram (invece la scrittura e lettura nella ram subisce una leggera perdita di prestazioni).

animeserie · 13-06-2013, 17:25

Quote:

Originariamente inviato da digieffe

il vantaggio di utilizzare il CMT é che all'interno del modulo i componenti, che sarebbero sottosfruttati in un core singolo, sono condivisi: quindi meno transistors, spazio ecc.
Se implementato bene porta il vantaggio che 1 modulo da prestazioni quasi identiche a 2 core.

Per quanto riguarda la singola FP condivisa tra le due parti INT, questa è di potenza doppia.

io credo che Steamroller (doppio decoder, cache ecc) lo potrai considerare "più" quadcore di piledriver

.

grazie x la delucidazione

FroZen · 13-06-2013, 18:51

Quote:

Originariamente inviato da Ares17

Utilizzare 2 banchi sullo stesso canale ha l'unico vantaggio di avere la possibilità di abilitare l'"interleave" (praticamente l'accesso alternato al singolo panco di ram sul canale) che porta nel migliore dei casi un aumente prestazionale massimo dell'8% dovuto solo alla diminuzione della latenza di accesso alla ram (invece la scrittura e lettura nella ram subisce una leggera perdita di prestazioni).

Quindi in un dual channel come quello di AMD l'optimum sarebbero 2 banchi in dual + interleave + frequenza alta con buoni timings per compensare la perdita in transfer rate su scrittura e lettura?

13-06-2013, 13:08	#17969
paolo.oliva2 Senior Member Iscritto dal: Jan 2002 Città: Urbino (PU) Messaggi: 30256	Scusate la mia ignoranza ma dovevo capire il perchè AMD riporta un +30% di aumento in MT che per me sarebbe enorme. Ho fatto delle prove incrociate circa la scalabilità di un 8350. In OC cioè aumentando la frequenza, la scalabilità è perfetta al 100%. Con Winrar ho provato il classico bench utilizzando anche l'affinità e ho scoperto una cosa nuova... magari la sapete tutti ed io ero l'unico a non saperla. Tra 1TH a modulo e 2TH, la differenza è maggiore del 6%, e questo si sapeva per il CMT. Ma quello che io non mi ero accorto, è la perdita della scalabilità aumentando i moduli. Ogni modulo aggiuntivo perde un 8% rispetto alla potenza del singolo modulo, arrivando praticamente che un 4 moduli ha prestazioni addirittura inferiori a quello che darebbe un 3 moduli senza perdita. Comincio a capire il perchè AMD non ha aumentato i moduli con Vishera (ammesso e concesso che il silicio lo avesse permesso), perchè diminuire o annullare questa perdita, avrebbe portato un incremento simile tanto quanto aumentare i moduli ma a parità di dimensione die, senza l'aggiunta di alcun transistor. Quello che non mi torna, è che il +30% dichiarato da AMD sarebbe di poco inferiore rispetto alla perdita di 4 moduli vs 1 modulo, ma non si potrebbe generalizzare... perchè la perdita sarebbe dell'8% a modulo, quindi un X6 guadagnerebbe l'8% su un X4, non certamente il 30%. La mia domanda... Secondo me Buldozer, per come la vedo io, è come se prendessimo un Phenom II X4, al posto dei core ci mettessimo il modulo, e conserverebbe di fondo lo stesso scheletro I/O di un Phenom II, cioè HT, NB, L3, MC, ovviamente con tutte le migliorie, tipo eliminata la dipendenza HT/NB, aumentata la L3, potenziato l'MC, e simili, ma la logica sarebbe quella. Ora... il Phenom II aveva una scalabilità perfetta, perchè ricordo l'incremento MT tra un X4 e un X6. Perchè BD invece perderebbe? Ok che dentro il modulo influiscano le latenze delle cache, i decoder, il prefetch, le pipeline e quant'altro... ma le perdite dentro il modulo sarebbero dovute al CMT ancora acerbo, ma non c'è alcun CMT fuori dai moduli. La mia impressione era che il margine di guadagno di BD fosse esclusivamente dentro il modulo, quindi il range di miglioramento era da 160 a 200, con chiaramente 200 impossibile perchè il CMT per quanto perfezionato non potrà mai dare quanto 2 core separati, quindi al più da 160 si sarebbe potuti arrivare a 190, con una potenza finale sul 18% abbondante superiore a quella attuale di Vishera, chiaramente senza alcun potenziamento alla parte logica. Ma abbiamo una perdita extra del 32% nella scalabilità di 4 moduli. Quello che voglio dire, è che l'IPC riporta la potenza elaborativa di 1 core e in una architettura sfruttata al 100%, praticamente l'aumento di IPC è ottenibile unicamente potenziando la parte elaborativa del procio. Quando JF parlava di potenze simili a core (tra Stars e BD), poteva essere giustificato in quanto la frequenza di Zambesi era segata di 1GHz rispetto all'aspettativa del silicio, quindi un +30% di frequenza avrebbe annullato con gli interessi il -20% di IPC, nel discorso core to core. Il modulo avrebbe certamente una perdita dovuta al CMT, ma che sarebbe dovuta essere inferiore in quanto, sempre per il CMT, i core erano 8 anzichè 6. Schematizzando: Core: BD con una frequenza massima turbo prossima ai 5GHz avrebbe avuto una frequenza maggiore del 35% abbondante rispetto ad un 1100T con Turbo a 3,7GHz, quindi al -20% di IPC si avrebbe avuto un valore finale di +8% di BD. Modulo: Al 160 al posto di 200 del modulo a causa del CMT si avrebbe avuto il +33% di core grazie al CMT, quindi rispetto a 200 x 3, si avrebbe avuto 160 x 4, quindi 640 vs 600 (+6,5%), unito poi alle frequenze operative di 4GHz di un 8350 vs 3,3GHz di un 1100T (+21,21%), avremmo dovuto avere un +29% finale di un attuale 8350. Il problema è che quel -32% sulla scalabilità dei moduli praticamente vanificherebbe i 2 core in più, perchè sarebbe un risultato da BD X6 e non X8. __________________ 7950X - X670E Asrock PG - Aio 360 Thermaltake - RS/DU TDP max 230W - CB23 39.117 https://ibb.co/M9j2bV7 - CPU-Z 815/16427 https://valid.x86.fr/jdgu90 - No overdrive - OCBench NO RS CB23 40.697 https://ibb.co/W0qnRQB - Efficienza 7950X https://ibb.co/mGBpvgK - Codifica video https://ibb.co/Jm5Zj0M

13-06-2013, 13:13	#17970
pandyno Senior Member Iscritto dal: Jun 2002 Messaggi: 9553	il 5Ghz mi stuzzica l'appetito della scimmia. Mi sa che lasso perdere però __________________ Via EH1/S3 Chrome 5400E + S3 Chrome 430GT + Via Quadcore @1,46Ghz all your base are belong to us

13-06-2013, 14:00	#17973
paolo.oliva2 Senior Member Iscritto dal: Jan 2002 Città: Urbino (PU) Messaggi: 30256	@Capitano Manco chiedere... __________________ 7950X - X670E Asrock PG - Aio 360 Thermaltake - RS/DU TDP max 230W - CB23 39.117 https://ibb.co/M9j2bV7 - CPU-Z 815/16427 https://valid.x86.fr/jdgu90 - No overdrive - OCBench NO RS CB23 40.697 https://ibb.co/W0qnRQB - Efficienza 7950X https://ibb.co/mGBpvgK - Codifica video https://ibb.co/Jm5Zj0M

13-06-2013, 14:31	#17974
animeserie Senior Member Iscritto dal: Nov 2004 Città: TE Messaggi: 3987	Io comunque ancora vorrei capire perchè in un modulo debbano starci 2 unità di calcolo INT ed una sola FP Io, ad esempio, un FX4300 non lo chiamerei quadcore alla luce di questo Qual è il motivo di quella scelta in fase di progettazione ? __________________ Ho concluso positivamente con: Theninja1, Palu15, Dario2, GiovanniCT, Kolzig12, nino.nino, river, LupinRS, Tazmania,RedPrimula,avware,netcrusher,Riki90,tenebrio,athlon87,fausto61

13-06-2013, 13:02	#17968
lulic Bannato Iscritto dal: Jun 2013 Messaggi: 129	@ paolo.oliva2 scusa ma...le main fm2 a55 hanno solo 2 slot come la mettiamo?

Strumenti
Mostra una versione stampabile Invia questa pagina per email