[Thread Ufficiale] Aspettando Bulldozer *leggere prima pagina con attenzione* - Pagina 120

29-08-2010, 12:25

@capitan_crasy

Ciao Boss

Hai info sulle caratteristiche del socket AM3+?

sarà possibile montarci le attuali CPU, es. thuban oppure si cambia tutto?

Grazie

cionci · 29-08-2010, 12:27

Quote:

Originariamente inviato da paolo.oliva2

Se sarà confermato che BD ha una pipeline 17 FO4, deve avere per forza un clock sopra il PIV Willamette (20) e Prescott (31).

Difficile fare un confronto di questo tipo.
Comunque ho trovato che il Prescott aveva un FO4 di 12.5, mentre il Willamette un FO4 pari a 16.3. Quindi molto vicini ai 17 stimati per il Bulldozer. Di fatto indicherebbe una pipeline, non certo a 20 stadi, dato che la complessità è sicuramente aumentata, ma probabilmente intorno ai 16-18 stadi.

calabar · 29-08-2010, 12:32

@paolo.oliva2
Secondo me non sbagli, e infatti nonostante il calo di prestazioni per gli elementi condivisi tra i due core, si parla di un aumento di ipc.

paolo.oliva2 · 29-08-2010, 12:39

Quote:

Originariamente inviato da dark.halo

Infatti JF non si è mai sbilanciato così ha detto solo che con il 33% di core aggiuntivi si ha il 50% si troughput.
Analizziamo nel dettaglio 33% di core in più, ok ma noi sappiamo che lo scaling non è perfetto; facciamo che ogni core in più scala dello 0.80%,

33%* 0.80 = 26.4 %
quindi aumentando i core del 33% otteniamo il 26,4 % di prestazioni in più all'incirca come Thuban ( paolo chiedo conferma a te che hai più esperienza sul campo).
Quindi in totale l'ipc dovrebbe essere compreso in un valore di 20/23% in più.

Io sinceramente nel Thuban vedo un guadagno del 50%, però io non tengo i proci a parametri def, cerco di ottimizzarli al massimo.
Però in Cinebench ho praticamente il 51% di guadagno rispetto ad un X4 (probabile che l'NB lavori meglio) e nelle conversioni grafiche pure.

Però, probabilmente il Thuban lavora meglio perché il low-k ha concesso migliorie pure alla parte NB, facendola lavorare meglio.

Inoltre, credo che ormai bisogna pensare ad un BD con l'ottica modulo= core+SMT hardware più che BD = core.

Se diamo peso alle parole di AMD cioè di offrire core fisici in egual numero rispetto alla concorrenza di fisici + logici, allora mi sembra chiaro che non possiamo pensare all'IPC a core ma a modulo, e certamente non saremmo nell'ordine del 10% di IPC ma ben superiore. Se a questo aggiungiamo poi il notevole incremento di clock...

dany700 · 29-08-2010, 12:40

premesso che sono un niubbo...per quanto riguarda gli aspetti profondamente tecnici delle architetture SB, BD o quant'altro

e che mi accontento di illuminarmi solo sugli elementi fondamentali...o perlomeno quelli più evidenti e comunque che permettano un'analisi tendenzialmente plausibile della situazione, che troverà riscontro o meno, dalle opportune prove pratiche e dalle scelte del mercato.

Detto questo...in questi ultimi 30 post...ho lette parecchie "stranezze".

In primo luogo...che essendo BD esclusivamente AM3+ costerà meno. Gran stupidata! Considerando inoltre che non ingloberà il NB così come lo conosciamo oggi...Costerà parecchio di più...soprattutto al lancio. Altro che meno...parecchio in più rispetto ad una dichiarata retrocompatibilità.

un bd 8x (4 moduli) forse competerà con un SB 4x? A prescindere dalla mancanza di bench...ma che razza di tabacco vi fumate???

io mi domando...come si fa a paragonare un bd 8x con un sb 4+4??? da dove le tirate fuori queste affermazioni da politicanti???

solo per la FPU?? ricordo che Amd l'FPU l'ha sostituita con l'FMA...ovvero una tecnologia superiore in ambito virgola mobile...che SB ed Intel si possono scordare fino al 2013. E già solo questo la dice lunga.

Se a ciò aggiungiamo altre variabili sostanziali come il SOI e il dielettrico low-k di Amd...rispetto ad un penoso BULK di Intel, ancora mi domando come si faccia, se pur a priori e senza certezze...a paragonare un BD ad un semplice SB.

IPC migliore in SB e contestuale minore TDP??...forse...ma non aspettiamoci rivoluzioni, l'architettura è quella che è...più di tanto non può evolversi.

E' comunque inequivocabile...che SB non sarà appannaggio degli smanettoni, vista la scarsità delle prestazioni oltre i 4ghz. Amd permetterà almeno i 5ghz ad aria...e non si tratta solo di quantità ma anche di proporzionalità. In tal senso...nel 2011 qualsiasi SB è già perdente.

Sulla carta e solo so quella...mi sento di affermare che ad Intel probabilmente...non basterà un SB 6x per contrastare un bd8x...SMT e HT benchè siano una grande trovata architetturale, non sono sufficienti a contrastare l'efficienza superiore di BD.

Se poi vogliamo spostarci in ambito APU...ancora più facile è il discorso. Intel non possiede di certo il know-how per poter competere con Amd...ovvero è una sconfitta già persa in partenza...e per parecchi anni se non per sempre.

SB+GPU...nella migliore delle ipotesi...dico migliore...possono competere con Bobcat. Ricordiamoci che il valore di questi agglomerati tecnologici non si misura solo dai dati di targa, ma sull'implementazione del software...se a qusto aggiungiamo che non si può più utilizzare un compilatore Intel (forzatamente)...e che quest'ultima fa acqua in ambito GPU...Di fatto, è impensabile paragonarla ad Amd.

per chiudere....aspetto curioso di vedere il rapporto prestazioni/prezzo sia di SB che BD...come dire...altra sfida già ampiamente persa in partenza.

E a priori...senza il minimo dubbio.

GT82 · 29-08-2010, 12:46

Quote:

Originariamente inviato da cionci

La cosa che ancora mi è più oscura è come le unità floating point verranno condivise fra i due thread allocati nel singolo modulo Bulldozer.
La FPU sarà ad uso esclusivo di un solo thread ? O la FPU avrà una specie SMT che permetterà di "mescolare" le istruzioni dei due thread in modo da poter sfruttare al minimo una unità FMAC per ogni thread ? bjt2: sai niente riguardo a questo punto ?

Se può essere utile Anandtech ha scritto questo:

Quote:

The 4-wide decode engine feeds three independent schedulers: two for the integer cores and one for the shared floating point hardware.

While there are two integer schedulers in a single Bulldozer module (one for each thread), there’s only one FP scheduler. There’s some hardware duplication at the FP scheduler to allow two threads to share the execution resources behind it. While each integer core behaves like an independent core, the FP resources work as they would in a SMT (Hyper Threading) system.

The FP scheduler has four ports to its FPUs. There are two 128-bit FMAC pipes and two 128-bit packed integer pipes. Like Sandy Bridge, AMD’s Bulldozer will support SSE all the way up to 4.2 as well as Intel’s new AVX instructions. The 256-bit AVX ops will be handled by the two 128-bit FMAC units in each Bulldozer module.

Each Bulldozer module has its own private L2 cache shared by both integer cores and the FP execution hardware.

Techreport fa pure un confronto con la FPU di Sandy Bridge

Quote:

[...]Although each module has only a single floating-point unit, that FPU should be substantially more capable than past AMD FPUs. You can see the dual integer MMX and 128-bit FMAC units in the diagram above. In a sort of quasi-SMT arrangement, the FPU can track two hardware threads, one for each "parent" core on the module.

The FPU supports nearly all the alphabet-soup extensions to the x86 ISA, up to and including SSSE3, SSE 4.1, 4.2, and Intel's new Advanced Vector Extensions (AVX). AVX allows for higher-throughput processing of graphics, media, and other parallelizable, floating-point-intensive workloads by doubling the width of SIMD vectors from 128 to 256 bits. Bulldozer's 128-bit FMAC units will work together on 256-bit vectors, effectively producing a single 256-bit vector operation per cycle. Intel's Sandy Bridge, due early in 2011, will have two 256-bit vector units capable of producing a 256-bit multiply and a 256-bit add in a single cycle, double Bulldozer's AVX peak.

Bulldozer's FPU has an advantage in another area, though, as the presence of two 128-bit FMAC units indicates. FMAC is short for "fused multiply-accumulate," an operation that's sometimes known as FMA, for "fused multiply-add," instead. Whatever you call it, a single operation that joins multiplication with addition is new territory for x86 processors, and it has two main benefits.

The first, pretty straightforwardly, is higher performance. The need to multiply two numbers and then add the result turns out to be very common in graphics and media workloads, and fusing them means the processor can achieve twice the throughput for those operations. We've seen multiply-add instructions in GPUs for ages, which is why each ALU in a GPU shader can produce two ops per clock at peak. With dual 128-bit FMACs, Bulldozer's peak FLOPS throughput should be comparable to Sandy Bridge's peak with AVX and 256-bit vectors.

Second, because an FMA operation feeds the result of the multiply directly into the adder without rounding, the mathematical precision of the result is higher. For this reason, the DirectX 11 generation of GPUs adopted FMA as their new standard, as well.

Crucially, Intel's Sandy Bridge will not support an FMA operation. Instead, FMA support is slated for Haswell, the architectural refresh coming a full "tick-tock" generation beyond Sandy Bridge, likely in 2013. Earlier this year, Intel architect Ronak Singhal told us the choice to leave FMA out of Sandy Bridge was driven by the fact that it's "not a small piece of logic" since it requires more sources, or operands, than usual. Intel chose to double the vector width first with AVX and push FMA down the road.

Thus, Bulldozer will be the first x86 processor with FMA capability. That distinction won't come without controversy, though. Bulldozer supports an AMD-sanctioned four-operand form of FMA operation, whereas Haswell will use a three-operand version. Both instructions will require compiler support and freshly compiled binaries, so we may see yet another fracture in the x86 ISA until Intel and AMD can settle on a single, preferred solution.

bjt2 · 29-08-2010, 12:50

Quote:

Originariamente inviato da Pihippo

Ciao Bjt2. Sei un grande

Letta la discussione linkata, Posto cosa dice Mitchaslup

The issue was that the 3rd unit was used a lot, only to run into the
dual-only ported DataCache. This caused sequencing issues.

Inoltre un tizio gli chede: The third ALU is of more concern, Intel will standardize benchmarks to
make this look bad, even though I know it was used 1% on average

E lui risponde:
So what else is new?

C'è da ridere o da piangere? Ci potresti illuminare anche sulla parte della terza unità?

L'architettura corrente può fare 2 load e 1 store ma la cache è solo dual ported. Credo che questo intenda. Solo che non capisco. In scrittura c'è la coda...

paolo.oliva2 · 29-08-2010, 12:51

Quote:

Originariamente inviato da dany700

premesso che sono un niubbo...per quanto riguarda gli aspetti profondamente tecnici delle architetture SB, BD o quant'altro

e che mi accontento di illuminarmi solo sugli elementi fondamentali...o perlomeno quelli più evidenti e comunque che permettano un'analisi tendenzialmente plausibile della situazione, che troverà riscontro o meno, dalle opportune prove pratiche e dalle scelte del mercato.

Detto questo...in questi ultimi 30 post...ho lette parecchie "stranezze".

In primo luogo...che essendo BD esclusivamente AM3+ costerà meno. Gran stupidata! Considerando inoltre che non ingloberà il NB così come lo conosciamo oggi...Costerà parecchio di più...soprattutto al lancio. Altro che meno...parecchio in più rispetto ad una dichiarata retrocompatibilità.

Sappiamo che per quello che riguarda il costo produzione, non credo vi siano differenze tra un Thuban odierno che costa dai 140€ ai 240€ al BD X8. Oltre a questo, il listino lo decide il mercato e chi vende.

Quote:

un bd 8x (4 moduli) forse competerà con un SB 4x? A prescindere dalla mancanza di bench...ma che razza di tabacco vi fumate???

io mi domando...come si fa a paragonare un bd 8x con un sb 4+4??? da dove le tirate fuori queste affermazioni da politicanti???

solo per la FPU?? ricordo che Amd l'FPU l'ha sostituita con l'FMA...ovvero una tecnologia superiore in ambito virgola mobile...che SB ed Intel si possono scordare fino al 2013. E già solo questo la dice lunga.

Beh... confontare un BD X8 a SB 4+4 dove BD perdesse, sarebbe inimmaginabile. A quel punto un semplice Thuban portato sul 32nm, con un clock sui 4GHz basterebbe a confrontarsi con un SB X4

Quote:

Se a ciò aggiungiamo altre variabili sostanziali come il SOI e il dielettrico low-k di Amd...rispetto ad un penoso BULK di Intel, ancora mi domando come si faccia, se pur a priori e senza certezze...a paragonare un BD ad un semplice SB.

IPC migliore in SB e contestuale minore TDP??...forse...ma non aspettiamoci rivoluzioni, l'architettura è quella che è...più di tanto non può evolversi.

E' comunque inequivocabile...che SB non sarà appannaggio degli smanettoni, vista la scarsità delle prestazioni oltre i 4ghz. Amd permetterà almeno i 5ghz ad aria...e non si tratta solo di quantità ma anche di proporzionalità. In tal senso...nel 2011 qualsiasi SB è già perdente.

Sulla carta e solo so quella...mi sento di affermare che ad Intel probabilmente...non basterà un SB 6x per contrastare un bd8x...SMT e HT benchè siano una grande trovata architetturale, non sono sufficienti a contrastare l'efficienza superiore di BD.

Se poi vogliamo spostarci in ambito APU...ancora più facile è il discorso. Intel non possiede di certo il know-how per poter competere con Amd...ovvero è una sconfitta già persa in partenza...e per parecchi anni se non per sempre.

SB+GPU...nella migliore delle ipotesi...dico migliore...possono competere con Bobcat. Ricordiamoci che il valore di questi agglomerati tecnologici non si misura solo dai dati di targa, ma sull'implementazione del software...se a qusto aggiungiamo che non si può più utilizzare un compilatore Intel (forzatamente)...e che quest'ultima fa acqua in ambito GPU...Di fatto, è impensabile paragonarla ad Amd.

per chiudere....aspetto curioso di vedere il rapporto prestazioni/prezzo sia di SB che BD...come dire...altra sfida già ampiamente persa in partenza.

E a priori...senza il minimo dubbio.

Azzo, non ho più editato, questo mi sorpassa nell'ottimismo... con me sfonderebbe una porta aperta

.

papafoxtrot · 29-08-2010, 12:52

Quote:

Originariamente inviato da dark.halo

Infatti JF non si è mai sbilanciato così ha detto solo che con il 33% di core aggiuntivi si ha il 50% si troughput.
Analizziamo nel dettaglio 33% di core in più, ok ma noi sappiamo che lo scaling non è perfetto; facciamo che ogni core in più scala dello 0.80%,

33%* 0.80 = 26.4 %
quindi aumentando i core del 33% otteniamo il 26,4 % di prestazioni in più all'incirca come Thuban ( paolo chiedo conferma a te che hai più esperienza sul campo).
Quindi in totale l'ipc dovrebbe essere compreso in un valore di 20/23% in più.

Questa è un'ipotesi interessante. Magari non +0,8 a core, dato anche che si parla di settore server, dove i core vengono irrimediabilmente usati tutti, ma 0,85 - 0,9.

0,33*0,9=0,297
0,297+1=1,297
1,5/1,297=1,15

0,33*0,85=0,2805
1,5/1,2805=1,17

Poi si può tener conto del fatto che probabilmente lew prestazioni negli interi sono cresciute più delle prestazioni in virgola mobile. Dunque nel settore desktop l'IPC potrebbe apparire cresciuto più che nel settore server.
Ad ogni modo io sono propenso a credere ad un IPC cresciuto di una quantità massima del 20%. Già questo, tenendo conto della resa del modulo (80% di un dual core), comporterebbe un IPC della singola pipeline itnera, senza considerare il modulo, cresciuto del
1,2/0,8=1,5.
Cioè un 50% di IPC in più per la pipeline intera, moltiplicato per la resa del modulo (0,8) da un IPC complessivo per i due core del 20% superiore a K10.
Secondo me è già tantissimo, non credete? Fare +50% di pc in un colpo solo è tanto, soprattutto considerando che la pipeline si è allungata e dunque è tendenzialmente meno efficiente.

Quote:

Originariamente inviato da cionci

Sì, sono legati. Diciamo che si allunga la pipeline con l'obiettivo di ottenere un critical path più corto e quindi un FO4 più basso.
FO4=13 per il P4 Willamette o Prescott ? Willamette aveva la pipline degli interi a 20 stadi, mentre Prescott l'aveva a 31 stadi.

Grazie Cionci. Si 13 per Prescott.

Quote:

Originariamente inviato da paolo.oliva2

Se sarà confermato che BD ha una pipeline 17 FO4, deve avere per forza un clock sopra il PIV Willamette (20) e Prescott (31).

Non si può realizzare un'architettura che va solo se il clock è alto e poi avere un clock del 10% superiore a Thuban.
Indi se il PIV ha sfiorato i 4GHz (mi sembra) ma non oltre per prb di leakage, questo prb AMD non l'ha, quindi contando la pipeline ancora più propensa a clock maggiori, ci si dovrebbe aspettare al 101% clock sopra ai 4GHz in condizione non turbo.
Sbaglio?

La lunghezza della pipeline influisce sul F04, ma devi sempre considerare che la pipeline del P4 prescott, quello che è arrivato a 3,8GHz, era di 31 stadi, contro i 20 circa di bulldozer.
Williamett aveva F04 di 17 e una pipeline di 20 stadi, quindi i conti tornano.
Però williamette è arrivato a 1,8GHz se non sbaglio... Certo era ancora a 180nm

Quote:

Originariamente inviato da Labview

@capitan_crasy

Ciao Boss

Hai info sulle caratteristiche del socket AM3+?

sarà possibile montarci le attuali CPU, es. thuban oppure si cambia tutto?

Grazie

Si, sull'AM3+ entreranno i K10. Di qui la mia idea che AMD potrebbe continuare a vendere, almeno nel primo periodo, i thuban e forse i deneb, come CPU di fascia bassa per AM3+. Bulldozer, a quanto è stato dichiarato all'Hotchip, sarà prodotto solo a 6 e 8 core. Niente quad core bulldozer.

Quote:

Originariamente inviato da cionci

Difficile fare un confronto di questo tipo.
Comunque ho trovato che il Prescott aveva un FO4 di 12.5, mentre il Willamette un FO4 pari a 16.3. Quindi molto vicini ai 17 stimati per il Bulldozer. Di fatto indicherebbe una pipeline, non certo a 20 stadi, dato che la complessità è sicuramente aumentata, ma probabilmente intorno ai 16-18 stadi.

Credo invece che la pipeline di Bulldozer sia proprio attorno ai 20 stadi, ma forse mi ricordo un 18. E' possibile? Se ne era parlato mesi fa! Credo sia 2-3 stadi più lungha di quella di k10.

Insomma il conto torna perfettamente con il williamette. Magari sono riuscitia d ottenere FP04=17 (come williamette) con una pipeline più corta (18?). Ciò è possibile?

Scusate una domanda: Intel chiederebbe ad AMD una roiality per l'uso del suo Hyper Threading. AMD quindi preferisce di certo farne a meno.
Ma AMD non può fare uso della tecnologia sviluppata da IBM, che ha un SMT a 4 vie? Senza quindi pagare roiality a Intel?
Perché alla fine SMT non costa quasi nulla in silicio (duplicazione dei soli registri) e alla fine della fiera tutto fa brodo!
Ma l'SMT di IBM (vedi power 7) è analogo a quello di intel? Cioè, i task vengono processati alternativamente nella stessa pipeline per recuperare i vuoti dati dagli stalli, o vengono processati contemporaneamente? Perché se fosse così la cosa avrebbe molto più a che fare con i moduli di AMD (più pipeline in parallelo) che non con l'Hyper threading di intel.

Ringrazio BJT2 per il chiarimento sulle cache 8C (non sapevo che intel le usasse) e sulla ZRAM.

bjt2 · 29-08-2010, 12:53

Quote:

Originariamente inviato da paolo.oliva2

STRAIN engineering has become one of the main con-
- [ Traduci questa pagina ]
16 ago 2010 - for 32-nm SOI CMOS technology with HKMG. Performance .... technology with enhanced stress, porous low-k BEOL and immersion lithography,” in IEDM Tech. ...
ieeexplore.ieee.org/iel5/16/5491381/05467180.pdf?tp=&arnumber...

Porc zocc, ci vuole la password

Però li riporta pure low-k.
Se il 32nm HKMG AMD esce alla partenza con il low-k, sono caxxi... andrebbe a palla.

Porous low-k è quello che è stato applicato per il Thuban... Però BEOL potrebbe voler dire Before End Of Life (del processo)... Quindi forse non ci sarà all'inizio...

cionci · 29-08-2010, 12:55

Quote:

Originariamente inviato da dany700

solo per la FPU?? ricordo che Amd l'FPU l'ha sostituita con l'FMA...ovvero una tecnologia superiore in ambito virgola mobile...che SB ed Intel si possono scordare fino al 2013. E già solo questo la dice lunga.

FMAC: Fused Multiply-Accumulate

Questa alla fine è una delle cose che cambia meno rispetto all'architettura K10. Significa che ogni unità di calcolo è capace di eseguire una istruzione floating point quasliasi, sia essa basata su moltiplicazione che su somma.
Prima invece le due unità di calcolo erano suddivise per compiti, una per la moltiplicazione ed un per la somma.
Alla fine questa cosa può comportare un leggerissimo aumento di performance sul singolo thread (nel caso non fosse possibile schedulare in modo alternato istruzioni basate su somma e su moltiplicazione), ma può anche essere il tallone di achille di Buldozer: nel caso si abbiano entrami i thread che usano l'unità floating point le prestazioni rispetto ad un dual core sarebbero di fatto quasi dimezzate.

Quote:

Originariamente inviato da dany700

Amd permetterà almeno i 5ghz ad aria...e non si tratta solo di quantità ma anche di proporzionalità. In tal senso...nel 2011 qualsiasi SB è già perdente.

Io credo che la prima incarnazione di Bulldozer si attesterà intorno ai 3.8 Ghz con 4 moduli e 8 CPU logiche, 4.2 Ghz con 3 moduli e 6 CPU logiche. 4.6 Ghz con 2 moduli e 4 CPU logiche.

29-08-2010, 12:58

Quote:

Originariamente inviato da papafoxtrot

Si, sull'AM3+ entreranno i K10. Di qui la mia idea che AMD potrebbe continuare a vendere, almeno nel primo periodo, i thuban e forse i deneb, come CPU di fascia bassa per AM3+. Bulldozer, a quanto è stato dichiarato all'Hotchip, sarà prodotto solo a 6 e 8 core. Niente quad core bulldozer.

Quindi, volendo è possibile vedere mobo AM3+ prima dell'uscita di BD? oppure no?

dany700 · 29-08-2010, 13:01

Quote:

Originariamente inviato da paolo.oliva2

Azzo, non ho più editato, questo mi sorpassa nell'ottimismo... con me sfonderebbe una porta aperta

.

Sono solo speculazioni...sulla carta.

Si sà...generalmente...la realtà è sempre ben diversa, dalla carta

bjt2 · 29-08-2010, 13:01

Quote:

Originariamente inviato da cionci

Attenzione, AMD non sta intraprendendo la stessa strada di Intel, non ha creato un'architettura a pipeline profonde

O almeno non sembra da quanto attualmente fatto vedere.

Lo stallo della pipeline non si può ovviare, bisogna perfezionare gli algoritmi di branch prediction

E' questa è una cosa che appunto è stata fatta in Bulldozer.

La cosa che ancora mi è più oscura è come le unità floating point verranno condivise fra i due thread allocati nel singolo modulo Bulldozer.
La FPU sarà ad uso esclusivo di un solo thread ? O la FPU avrà una specie SMT che permetterà di "mescolare" le istruzioni dei due thread in modo da poter sfruttare al minimo una unità FMAC per ogni thread ? bjt2: sai niente riguardo a questo punto ?

A quanto sembra lo scheduler è uno e unificato. Il decoder unico ci versa le istruzioni con un tag per dire a che thread appartiene (il tag serve per sapere a quale dei due core rivolgersi per le operazioni di load, a quale dei due banchi di registri rivolgersi, o forse è unificato e per il retire). Le micro op sono da 128 bit e una eventuale istruzione AVX è spezzata in 2 da 128 bit. Io penso che l'esecuzione delle micro op sia completamente OOO e quindi ad esempio una istruzione AVX può essere comunque eseguita se l'altra CPU ha mandato del codice FP: semplicemente l'istruzione è eseguita in due cicli successivi.

bjt2 · 29-08-2010, 13:07

Quote:

Originariamente inviato da cionci

Sì, sono legati. Diciamo che si allunga la pipeline con l'obiettivo di ottenere un critical path più corto e quindi un FO4 più basso.
FO4=13 per il P4 Willamette o Prescott ? Willamette aveva la pipline degli interi a 20 stadi, mentre Prescott l'aveva a 31 stadi.

Io avevo letto 16FO4 per la parte non dual pumped e 8 FO4 per la parte dual pumped... Presumo si parli del Willamette. 13 FO4 a questo punto il Prescott... E la parte dual pumped 6 FO4 (!).
Siccome il Power 6 con un FO4 di 13 è arrivato a 6 GHz anche con il magnifico processo AMD, INTEL ha fatto benissimi a cestinare Netburst...

dany700 · 29-08-2010, 13:08

Quote:

Originariamente inviato da cionci

FMAC: Fused Multiply-Accumulate

Questa alla fine è una delle cose che cambia meno rispetto all'architettura K10. Significa che ogni unità di calcolo è capace di eseguire una istruzione floating point quasliasi, sia essa basata su moltiplicazione che su somma.
Prima invece le due unità di calcolo erano suddivise per compiti, una per la moltiplicazione ed un per la somma.
Alla fine questa cosa può comportare un leggerissimo aumento di performance sul singolo thread (nel caso non fosse possibile schedulare in modo alternato istruzioni basate su somma e su moltiplicazione), ma può anche essere il tallone di achille di Buldozer: nel caso si abbiano entrami i thread che usano l'unità floating point le prestazioni rispetto ad un dual core sarebbero di fatto quasi dimezzate.

da neofita...non sò in quante e quali situazioni, dal lato pratico, possa diminuire le prestazioni del modulo rispetto ad un dualcore classico...Quel poco che ho letto su FMA...ripeto da niubbo...poneva l'enfasi sia in ambito multi-thread (superando un dualcore) che in singola operazione (garantendo prestazioni simili ma inferiori)...

Di fatto...finchè non vedo con i miei occhi...non credo a nulla...le variabili da considerare sono molteplici. Le mie sono sono considerazioni in funzione del "potenziale"...non certo su una scontata certezza.

Quote:

Originariamente inviato da cionci

Io credo che la prima incarnazione di Bulldozer si attesterà intorno ai 3.8 Ghz con 4 moduli e 8 CPU logiche, 4.2 Ghz con 3 moduli e 6 CPU logiche. 4.6 Ghz con 2 moduli e 4 CPU logiche.

concordo...infatti con i 5ghz, mi riferivo all'overclock.

carlottoIIx6 · 29-08-2010, 13:12

Quote:

Originariamente inviato da cionci

Attenzione, AMD non sta intraprendendo la stessa strada di Intel, non ha creato un'architettura a pipeline profonde

O almeno non sembra da quanto attualmente fatto vedere.

Lo stallo della pipeline non si può ovviare, bisogna perfezionare gli algoritmi di branch prediction

E' questa è una cosa che appunto è stata fatta in Bulldozer.

La cosa che ancora mi è più oscura è come le unità floating point verranno condivise fra i due thread allocati nel singolo modulo Bulldozer.
La FPU sarà ad uso esclusivo di un solo thread ? O la FPU avrà una specie SMT che permetterà di "mescolare" le istruzioni dei due thread in modo da poter sfruttare al minimo una unità FMAC per ogni thread ? bjt2: sai niente riguardo a questo punto ?

a forze deve essere disponibile per tutte e due i thread!
seno il vantaggio crolla...
per forza di logica deve lavorare in maniera da evitare l'ingorgo
che si quando due thread vengono processati sullo stesso core integer.
bulldozer è ciò che chiamiamo modulo (l'unità indivisibile che si può replicare)
quando hanno avuto l'idea, devono aver pensato come ovviare il problema.
@bj2 se fosse eseguita in due cicli, dov'è il vantaggio?

bjt2 · 29-08-2010, 13:17

Quote:

Originariamente inviato da papafoxtrot

Questa è un'ipotesi interessante. Magari non +0,8 a core, dato anche che si parla di settore server, dove i core vengono irrimediabilmente usati tutti, ma 0,85 - 0,9.

0,33*0,9=0,297
0,297+1=1,297
1,5/1,297=1,15

0,33*0,85=0,2805
1,5/1,2805=1,17

Poi si può tener conto del fatto che probabilmente lew prestazioni negli interi sono cresciute più delle prestazioni in virgola mobile. Dunque nel settore desktop l'IPC potrebbe apparire cresciuto più che nel settore server.
Ad ogni modo io sono propenso a credere ad un IPC cresciuto di una quantità massima del 20%. Già questo, tenendo conto della resa del modulo (80% di un dual core), comporterebbe un IPC della singola pipeline itnera, senza considerare il modulo, cresciuto del
1,2/0,8=1,5.
Cioè un 50% di IPC in più per la pipeline intera, moltiplicato per la resa del modulo (0,8) da un IPC complessivo per i due core del 20% superiore a K10.
Secondo me è già tantissimo, non credete? Fare +50% di pc in un colpo solo è tanto, soprattutto considerando che la pipeline si è allungata e dunque è tendenzialmente meno efficiente.

Grazie Cionci. Si 13 per Prescott.

La lunghezza della pipeline influisce sul F04, ma devi sempre considerare che la pipeline del P4 prescott, quello che è arrivato a 3,8GHz, era di 31 stadi, contro i 20 circa di bulldozer.
Williamett aveva F04 di 17 e una pipeline di 20 stadi, quindi i conti tornano.
Però williamette è arrivato a 1,8GHz se non sbaglio... Certo era ancora a 180nm

Si, sull'AM3+ entreranno i K10. Di qui la mia idea che AMD potrebbe continuare a vendere, almeno nel primo periodo, i thuban e forse i deneb, come CPU di fascia bassa per AM3+. Bulldozer, a quanto è stato dichiarato all'Hotchip, sarà prodotto solo a 6 e 8 core. Niente quad core bulldozer.

Credo invece che la pipeline di Bulldozer sia proprio attorno ai 20 stadi, ma forse mi ricordo un 18. E' possibile? Se ne era parlato mesi fa! Credo sia 2-3 stadi più lungha di quella di k10.

Insomma il conto torna perfettamente con il williamette. Magari sono riuscitia d ottenere FP04=17 (come williamette) con una pipeline più corta (18?). Ciò è possibile?

Scusate una domanda: Intel chiederebbe ad AMD una roiality per l'uso del suo Hyper Threading. AMD quindi preferisce di certo farne a meno.
Ma AMD non può fare uso della tecnologia sviluppata da IBM, che ha un SMT a 4 vie? Senza quindi pagare roiality a Intel?
Perché alla fine SMT non costa quasi nulla in silicio (duplicazione dei soli registri) e alla fine della fiera tutto fa brodo!
Ma l'SMT di IBM (vedi power 7) è analogo a quello di intel? Cioè, i task vengono processati alternativamente nella stessa pipeline per recuperare i vuoti dati dagli stalli, o vengono processati contemporaneamente? Perché se fosse così la cosa avrebbe molto più a che fare con i moduli di AMD (più pipeline in parallelo) che non con l'Hyper threading di intel.

Ringrazio BJT2 per il chiarimento sulle cache 8C (non sapevo che intel le usasse) e sulla ZRAM.

SMT del Power 7 è simile a quello INTEL. Per la precisione è simile a quello dell'Atom, perchè il Power 7 ha pipeline in order. Solo che invece di avere 2 pipeline come atom, ne ha 12...

bjt2 · 29-08-2010, 13:20

Quote:

Originariamente inviato da cionci

FMAC: Fused Multiply-Accumulate

Questa alla fine è una delle cose che cambia meno rispetto all'architettura K10. Significa che ogni unità di calcolo è capace di eseguire una istruzione floating point quasliasi, sia essa basata su moltiplicazione che su somma.
Prima invece le due unità di calcolo erano suddivise per compiti, una per la moltiplicazione ed un per la somma.
Alla fine questa cosa può comportare un leggerissimo aumento di performance sul singolo thread (nel caso non fosse possibile schedulare in modo alternato istruzioni basate su somma e su moltiplicazione), ma può anche essere il tallone di achille di Buldozer: nel caso si abbiano entrami i thread che usano l'unità floating point le prestazioni rispetto ad un dual core sarebbero di fatto quasi dimezzate.

Io credo che la prima incarnazione di Bulldozer si attesterà intorno ai 3.8 Ghz con 4 moduli e 8 CPU logiche, 4.2 Ghz con 3 moduli e 6 CPU logiche. 4.6 Ghz con 2 moduli e 4 CPU logiche.

Potrebbero esserci delle sorprese...

Dresdenboy, sulla base di un brevetto AMD di qualche anno fa, ha speculato che l'unità FMAC possa fare per ogni ciclo di clock o una FMAC o una MUL + una ADD anche di thread diversi...

Daltronde se ci pensi una FMAC adesso non sarebbe mai usata, specialmente con il codice legacy...

cionci · 29-08-2010, 13:28

Quote:

Originariamente inviato da bjt2

Potrebbero esserci delle sorprese...

Dresdenboy, sulla base di un brevetto AMD di qualche anno fa, ha speculato che l'unità FMAC possa fare per ogni ciclo di clock o una FMAC o una MUL + una ADD anche di thread diversi...

Daltronde se ci pensi una FMAC adesso non sarebbe mai usata, specialmente con il codice legacy...

Le motivazioni alla base dell'uso di FMAC al posto di unità specifiche potrebbero anche essere altre:
- nell'uso con due thread, un thread non dovrebbe aspettare che si liberi una unità specifica
- magari una istruzione AVX, invece che essere suddivisa in due istruzioni a 128 bit, occupa entrambe le unità di calcolo contemporaneamente

29-08-2010, 12:40	#2385
dany700 Senior Member Iscritto dal: Dec 2005 Messaggi: 1113	premesso che sono un niubbo...per quanto riguarda gli aspetti profondamente tecnici delle architetture SB, BD o quant'altro e che mi accontento di illuminarmi solo sugli elementi fondamentali...o perlomeno quelli più evidenti e comunque che permettano un'analisi tendenzialmente plausibile della situazione, che troverà riscontro o meno, dalle opportune prove pratiche e dalle scelte del mercato. Detto questo...in questi ultimi 30 post...ho lette parecchie "stranezze". In primo luogo...che essendo BD esclusivamente AM3+ costerà meno. Gran stupidata! Considerando inoltre che non ingloberà il NB così come lo conosciamo oggi...Costerà parecchio di più...soprattutto al lancio. Altro che meno...parecchio in più rispetto ad una dichiarata retrocompatibilità. un bd 8x (4 moduli) forse competerà con un SB 4x? A prescindere dalla mancanza di bench...ma che razza di tabacco vi fumate??? io mi domando...come si fa a paragonare un bd 8x con un sb 4+4??? da dove le tirate fuori queste affermazioni da politicanti??? solo per la FPU?? ricordo che Amd l'FPU l'ha sostituita con l'FMA...ovvero una tecnologia superiore in ambito virgola mobile...che SB ed Intel si possono scordare fino al 2013. E già solo questo la dice lunga. Se a ciò aggiungiamo altre variabili sostanziali come il SOI e il dielettrico low-k di Amd...rispetto ad un penoso BULK di Intel, ancora mi domando come si faccia, se pur a priori e senza certezze...a paragonare un BD ad un semplice SB. IPC migliore in SB e contestuale minore TDP??...forse...ma non aspettiamoci rivoluzioni, l'architettura è quella che è...più di tanto non può evolversi. E' comunque inequivocabile...che SB non sarà appannaggio degli smanettoni, vista la scarsità delle prestazioni oltre i 4ghz. Amd permetterà almeno i 5ghz ad aria...e non si tratta solo di quantità ma anche di proporzionalità. In tal senso...nel 2011 qualsiasi SB è già perdente. Sulla carta e solo so quella...mi sento di affermare che ad Intel probabilmente...non basterà un SB 6x per contrastare un bd8x...SMT e HT benchè siano una grande trovata architetturale, non sono sufficienti a contrastare l'efficienza superiore di BD. Se poi vogliamo spostarci in ambito APU...ancora più facile è il discorso. Intel non possiede di certo il know-how per poter competere con Amd...ovvero è una sconfitta già persa in partenza...e per parecchi anni se non per sempre. SB+GPU...nella migliore delle ipotesi...dico migliore...possono competere con Bobcat. Ricordiamoci che il valore di questi agglomerati tecnologici non si misura solo dai dati di targa, ma sull'implementazione del software...se a qusto aggiungiamo che non si può più utilizzare un compilatore Intel (forzatamente)...e che quest'ultima fa acqua in ambito GPU...Di fatto, è impensabile paragonarla ad Amd. per chiudere....aspetto curioso di vedere il rapporto prestazioni/prezzo sia di SB che BD...come dire...altra sfida già ampiamente persa in partenza. E a priori...senza il minimo dubbio. __________________ X79A-GD45 , 3820K , 32Gb G.SKILL 2400, Sapphire 5850 , Antec 650W, HP 27ES

29-08-2010, 12:25	#2381
aaadddfffgggccc Messaggi: n/a	@capitan_crasy Ciao Boss Hai info sulle caratteristiche del socket AM3+? sarà possibile montarci le attuali CPU, es. thuban oppure si cambia tutto? Grazie

29-08-2010, 12:32	#2383
calabar Senior Member Iscritto dal: Oct 2001 Messaggi: 14737	@paolo.oliva2 Secondo me non sbagli, e infatti nonostante il calo di prestazioni per gli elementi condivisi tra i due core, si parla di un aumento di ipc.

Strumenti
Mostra una versione stampabile Invia questa pagina per email