Quote:
Originariamente inviato da calabar
Da quel che sento insomma pare che BD ne esca un bel po' ridimensionato.
L'unità FP da 256 bit non può dividersi in due unità FP da 128bit all'occorrenza, ma piuttosto sfruttare una sorta di SMT alla intel.
Il core int è meno pompato del previsto (si parlava di 4 alu classiche per core, contro le 3 degli attuali phenom), mentre in realtà sono solo due.
Per fortuna poi JF ha specificato:
"Phenom is 3 pipelines, shared ALU/AGU.
Bulldozer is 4 pipelines, 2 dedicated to ALU, 2 dedicated to AGU. That is a LOT better, not worse".
Quindi da questo punto di vista forse c'è meno di quanto atteso, ma sicuramente un bel miglioramento.
Nonostante questo, pare che JF assicuri che le prestazioni per core saranno comunque superiori a quelle del k10, cosa di cui comunque non dubito dati i miglioramenti architetturali che comunque ci si può aspettare saltino fuori dopo anni di lavoro su un progetto di questo tipo.
|
riguardo l'unità FPU la preview qui su HWU cita espressamente:
"Il supporto AVX a 256bit è ottenuto sfruttando in parallelo le due unità FP a 128bit, che possono essere riorganizzate per operare come 4x64bit, 2x128bit oppure 1x256bit a seconda del tipo di applicazione utilizzata."
quindi può dividersi
sulle prestazioni del singolo core int (due per modulo) non mi sbilancerei perchè non conosciamo le logiche più profonde di funzionamento sulle operazioni, sappiamo solo che ogni core int ha 2 unità ALU contro le 3 delle unità int del Phenom per un totale quindi di 4 unità per modulo (dati i due core int)
AMD sostiene che ci sono altri "improvements" che controbilanciano l'ipotetica perdita prestazionale per singolo core int, a partire dal decoder a 4 vie (al pari di Nehalem e Sandy Bridge)
dipenderà molto anche dall'efficienza dell'unità di branch prediction dato che le pipeline sono state allungate
sappiamo solo che sono delle 4-issue
Bobcat avrà invece pipeline a 15 stadi 2-issue
Quote:
Originariamente inviato da calabar
Non mi è chiara l'equazione spazio occupato/numero di moduli.
Un singolo modulo occupa il 5% in più di area rispetto a cosa? Ad un modulo k10?
Se così fosse, anche 4 moduli occuperebbero naturalmente il 5% in più di area rispetto a 4 moduli k10, e non il 20%.
Cioè, se un modulo k10 occupa "100" e u core BD "105" (+5% appunto), 4 core k10 occupano 400 e 4 core BD occupano "420" (che è sempre +5%).
Insomma, discorso simile a quello che sempre abbiamo fatto per le prestazioni/core.
Oppure intendevi rapportare quel 5% a qualcos'altro?
|
un singolo modulo BD occupa solamente il 12% in più rispetto ad un analogo ipotetico modulo composto solamente una unità integer (praticamente sarebbe un classico core come li abbiamo conosciuti finora, cioè con una unità int e una floating point)
l'impatto di un core integer aggiuntivo rapportato alla
superficie complessiva del die con 4 moduli, (praticamente 4 moduli + cache L3 unificata + MC + NB) è invece pari al 5%
quindi 4 core int aggiuntivi per tutto il die significa una superficie superiore del 20% il che combacia perfettamente con le indiscrezioni secondo cui un modulo BD è un po' più grande di un core Phenom
questo non significa però che l'area di un modulo BD sarà necessariamente pari a 1.2 volte l'area di un ipotetico core Phenom die-shrinkato a 32nm, potrebbe anche essere più piccola dato che sono sono stati semplificati alcuni componenti e ridotti di numero altri per eliminare il più possibile le ridondanze
.