|
|
|
![]() |
|
Strumenti |
![]() |
#24321 | |
Senior Member
Iscritto dal: May 2000
Messaggi: 1459
|
Quote:
EDIT: Ovviamente mi riferisco al puro calcolo FP SIMD. Poi nell'FPU di BD ci sono ulteriori migliorie relative alle istruzioni SIMD int e alle vectorized move/load/store, ma sono state menzionate tante di quelle volte che e' inutile ripeterle ogni volta. Ultima modifica di The3DProgrammer : 29-09-2011 alle 13:04. |
|
![]() |
![]() |
#24322 | |
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31799
|
Quote:
FP Thuban potenza 100 per 1 core. FP Buldozer per 2 core potenza? (Thuban = 200 cioè 100x2) Perché nelle spiegazioni di Bjt2 io personalmente ho capito che l'FP condivisa di BD su 2 core risulterebbe comunque più potente e duttile rispetto a 2 FP su 2 core del Thuban. Possibilissimo che abbia capito male io, però per i profani continuare a parlare di numero di FP e non quantificarne le potenze... non conduce a nulla di comprensibile perché per me 4 FP di BD contro le 6 del Thuban equivarrebbe a dire che BD in FP avrebbe una potenza del 50% inferiore a parità di frequenza rispetto al Thuban anche se con 2 core in più, cosa che comunque non scappa fuori anche dai bench (veri o falsi che siano) di Cinebench dove 4 FP di BD a +8% di frequenza superano o comunque equivalgono le 6 FP di un Thuban. Quindi già da questo potremmo presumere che se una 1 FP del Thuban da' 100, 1 FP di BD darebbe 150 e non 100, mentre 2 FP del Thuban darebbero 200 e l'FP di BD darebbe 150 e non 200, comunque la vedi, non si può parlare di 4 FP o 6 FP indistintamente perché avrebbero potenze differenti, anche perché a questo punto ci sarebbe da quantificare anche il comportamento FP BD con 1 TH o 2 TH, dove presumibilmente il rapporto 150 BD 2TH a 100/200 1-2TH Thuban dovrebbe aumentare a favore di BD.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 Ultima modifica di paolo.oliva2 : 29-09-2011 alle 13:31. |
|
![]() |
![]() |
#24323 | |
Senior Member
Iscritto dal: May 2000
Messaggi: 1459
|
Quote:
per 1 core FP Thuban potenza MASSIMA 100 FP Thuban potenza MEDIA 30-40 (numero ideale stimato da me in via puramente teorica solo per rendere l'idea, quindi prendere con le pinze) per 2 core FPU BD potenza MASSIMA 100 FPU BD Potenza MEDIA 60-90 (idem come sopra) Questo e', SECONDO me, la stima delle prestazioni di una SINGOLA FPU di BD per codice FP puro. Stima della SOLA fpu, senza tener conto delle latenze aumentate, un po dappertutto, sia per quanto riguarda il sottosistema memoria che le latenze delle istruzioni vere e proprie (x esempio in BD le x87 hanno subito un tracollo in termini di latenze di esecuzione per cui e' anche possibile che su codice x87 BD vada anche + lento che thuban, ad esempio in SPI). EDIT: per rendere ancora + chiara l'idea, un esempio di che impatto possa avere l'aumento delle latenze: Prendiamo l'istruzione FDIV, in K10 viene eseguita se non sbaglio in minimo 18 cicli di clock. In BD invece, la latenza di FDIV e' aumentata a 42 cicli di clock. Ora sappiamo che K10 e' in grado di eseguire 1 FDIV alla volta, mentre BD 2 grazie alle 2 FMAC. Supponiamo di dover eseguire 6 FDIV di seguito, indipendenti una dall'altra. K10 6x18 cicli = 108 cicli di clock BD 3 (2 alla volta)x42 cicli = 126 cicli di clock K10 e' + veloce di BD a parita' di clock pur potendo eseguire una sola FDIV alla volta. EDIT 2: Per rendere ancora + chiara la spiegazione sopra, vi riporto le condizioni in cui quelle latenze vengono valutate (riporto solo quelle di BD, nn so se quelle di k10 sono le stesse ma penso di si): • The instruction is an L1-cache hit that has already been fetched and decoded, with the operations loaded into the scheduler. • Memory operands are in the L1 data cache. • There is no contention for execution resources or load-store unit resources. Each latency in the table denotes the typical execution time of the instruction when run in isolation on a processor with any referenced memory locations already in the L1 cache. For real programs executed on this highly aggressive superscalar family of processors, multiple instructions can execute simultaneously; therefore, the effective latency for any given instruction's execution may be overlapped with the latency of other instructions executing in parallel. An example of this effect can be seen for an SIMD load-compute instruction like ADDPD reg, mem, which effectively adds 4 cycles of latency (10 cycles total) over ADDPD reg, reg, which uses 6 cycles when run in isolation. In a real program, however, the load portion of the instruction often occurs in parallel with earlier work, effectively hiding the extra 4 cycles from the critical execution path. There are also other cases of additional latencies that may be incurred in a real program that are not described in the latency table, such as delays caused by L1 cache misses or contention for execution or load-store unit resources. Ultima modifica di The3DProgrammer : 29-09-2011 alle 13:33. |
|
![]() |
![]() |
#24324 | |
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! ![]() ![]() ![]() |
|
![]() |
![]() |
#24325 |
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31799
|
Io avevo editato il mio post (sempre quel vizio ho
![]() Per le latenze... l'8150p dovrebbe essere peggiore da quel punto di vista perché le cache L1 e L2 viaggiano allo stesso clock del procio. E' chiaro che architetturalmente queste latenze sono state definite da tempo in base a dei clock previsti e non si possono certamente cambiare. Ad esempio, se la L2 sia stata concepita con latenza 10 per funzionamento 4,5GHz, ritroveremmo la stessa latenza 10 anche con funzionamento a 3,6GHz, che sarebbe quindi penalizzante (fortuna che c'è l'OC). Ti dico questo perché se fai il rapporto con il Thuban, se questo prevedeva latenza 10 per clock 3,2GHz e poi BD aumenta la latenza a 12 perché girerebbe a 4,5GHz, in realtà sarebbe meno penalizzante del Thuban, ma tutt'altro se a 3,6GHz.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
![]() |
![]() |
#24326 | |
Senior Member
Iscritto dal: May 2000
Messaggi: 1459
|
Quote:
Di tutte le migliorie che hai detto ne ho tenuto conto quando ho dato il "numerino magico" ( ![]() Ultima modifica di The3DProgrammer : 29-09-2011 alle 13:45. |
|
![]() |
![]() |
#24327 |
Senior Member
Iscritto dal: May 2000
Messaggi: 1459
|
per par condicio riporto anche un esempio di possibile throughput delle 2 FPU con la DIV SSE: (DIVPD)
K10: 22 cicli BD: 27 cicli su 6 FDIV eseguite sotto quelle condizioni, si ha: K10 = 6x22 = 132 cicli BD = 3x 27= 81 cicli BD e' nettamente + veloce. Spero di aver reso l'idea... |
![]() |
![]() |
#24328 |
Senior Member
Iscritto dal: Jan 2010
Città: Campobasso _________________________ ID ORIGIN/STEAM : DEMfiKNOW
Messaggi: 10281
|
@ the3dprogrammer ; bjt2
quindi.. in soldoni.. alla luce di quanto avete postato, quel risultato basso nel cinebench (quasi stesso score thuban @ 3.3ghz e bd @ 3.6ghz) è spiegabile o no? EDIT io su ocn ho chiesto a jf un commento su queste slide dato che non le aveva smentite direttamente e mi ha "risposto" (in realtà non è una risposta... ovviamente non pensavo che dicesse si provengono da noi però almeno che dicesse sono fake come il resto che è stato postato fino ad ora..)
__________________
Ultima modifica di liberato87 : 29-09-2011 alle 13:49. |
![]() |
![]() |
#24329 | |
Senior Member
Iscritto dal: May 2000
Messaggi: 1459
|
Quote:
Poi come detto in precedenza solo cinebench non basta, potrebbe essere "indigesto" a bd data la differenza nelle latenze delle istruzioni...magari fa quel punteggio in cinebench ma poi va + di un 990x in 3dstudio o blender... tutto e' possibile. |
|
![]() |
![]() |
#24330 | |
Senior Member
Iscritto dal: Feb 2006
Messaggi: 1659
|
Quote:
thuban: 6 fpu ciascuna con 1 fadd e 1 fmul = 6 fadd e 6 fmul bd 8150p: 4 fpu ciascuna con 2 fmac = 8 fmac Quindi ci stà che nel cinebench, le 6 fpu (6fmul+6fadd) del thuban 1100t vadano come le 4fpu(2x4 fmac) di bd 8150p , ovviamente il tutto a frequenze default. Ho capito bene ?
__________________
ogni minuto muore un imbecille e ne nascono due. Ultima modifica di maurilio968 : 29-09-2011 alle 13:54. |
|
![]() |
![]() |
#24331 | |
Senior Member
Iscritto dal: May 2000
Messaggi: 1459
|
Quote:
poi libero di essere smentito eh, ma quei numeri e quei calcoli li ho presi dal software development manual di k10 e BD. Ultima modifica di The3DProgrammer : 29-09-2011 alle 14:01. |
|
![]() |
![]() |
#24332 |
Senior Member
Iscritto dal: Dec 2004
Città: IV Reich
Messaggi: 18597
|
ma può essere che la fpu era stata progettata per eseguire due istruzioni 128bit alla volta, poi però nei test sul silicio è venuto fuori un qualche problema e le abbiano castrate a una sola operazione per volta?
__________________
Wind3 4G CA |
![]() |
![]() |
#24333 |
Bannato
Iscritto dal: Apr 2010
Messaggi: 2019
|
Questo sarebbe un bug gravissimo, e siccome e ormai assodato che di bug gravi non ce ne sono tenderei ad escludere un'ipotesi del genere. Potrebbe essere che sia stata studiata così sin dall'inizio.
|
![]() |
![]() |
#24334 | |
Senior Member
Iscritto dal: Feb 2006
Messaggi: 1659
|
Quote:
io (ripeto: scherzando) le interpreto così : JF ha detto una cosa vera in ciascuna delle tre opzioni a),b),c) quindi se le "sommiamo" ti ha risposto: "Le slide sono materiale di AMD (e dovevano restare sotto nda) ma sono state fatte fare da qualcuno in altra sede (ecco perchè non è stato rispettato l'nda) ed infine qualcunaltro ancora le ha alterate (quello che le ha avute a disposizione violando l'nda) prima di pubblicarle" e infine ha aggiunto "io le mie slides non le ho date a nessun altro, ovvero non è colpa mia se sono uscite queste sotto nda" e perciò io ho il sospetto che sia prorpio lui "il colpevole" ![]() ![]()
__________________
ogni minuto muore un imbecille e ne nascono due. Ultima modifica di maurilio968 : 29-09-2011 alle 14:20. |
|
![]() |
![]() |
#24335 | |
Senior Member
Iscritto dal: Dec 2005
Messaggi: 20689
|
Quote:
Come si fa' a dire che Zambezi potrebbe essere in ritardo o ha problemi di produzione se Amd non ne ha parlato?
__________________
Wer nicht lösungsorientiert handelt bleibt Bestandteil des Problem |
|
![]() |
![]() |
#24336 |
Senior Member
Iscritto dal: May 2000
Messaggi: 1459
|
no, c'e' scritto chiaramente nel sw development manual che le fmac possono lavorare in parallelo.
|
![]() |
![]() |
#24337 |
Senior Member
Iscritto dal: Aug 2001
Messaggi: 2151
|
si pensa che potrebbe essere in ritardo per il semplice motivo che a una decina di giorni dalla PRESUNTA data d'uscita non è ancora stato confermato nulla da amd
|
![]() |
![]() |
#24338 |
Senior Member
Iscritto dal: Nov 1999
Città: Ceranova (PV)
Messaggi: 10382
|
E aggiungerei per l'ennesima volta.
__________________
Sometimes it is the people no one can imagine anything of who do the things no one can imagine. (Alan Turing) Pkappa Pc: R7 2700x, 16 Gb G.skill TridentZ RGB 2993 mhz 14-14-14-34, Rx Vega 64 8 Gb HBM2, Nzxt 340 elite, Asus MG279Q. Lord Fx: FX 8350, 16 Gb ram Hyperx 1866 10-11-10-30, Rx 580 8 Gb Nitro+ Sapphire, Corsair 400r, Samsung C24FG73. |
![]() |
![]() |
#24339 | |
Senior Member
Iscritto dal: Feb 2006
Messaggi: 1659
|
Quote:
Riassumendo quanto ho capito direi che: data l'architettura completamente nuova non ci si può aspettare che in tutti gli scenari le nuove implementazioni rendano più delle vecchie Però (notare che in quanto segue userò il condizionale): AMD proprio perchè passa ad una nuova architettura dovrebbe comunque assicurarsi egualmente che in tutti gli scenari le nuove cpu ,da lei stessa marchiate FX quindi cpu top, vadano >= dei Thuban 1100T. E nella versione 8150p , se stiamo alle ultime controverse slides, questo sembra essere stato fatto puntando al "minimo sindacale" vedi test cinebench ( e potrebbero in seguito esserci altri test in cui il 8150p va solo un po' più di un thuban 1100T ). Ora se I BD in versioni inferiori (ma anch'essi tutti marchiati FX) al 8150p in certe circostanze (per esempio cinebench, adobe suite, 3d studio max, ansys) andassero meno di un thuban 1100T saremmo sotto a questo "minimo sindacale". Cerco di spiegarmi meglio con un esempio: ad inizio 2012 quando il 1100t non sarà più in vendita, un utente AMD interessato a prestazioni "tipo" cinema4d ( o adobe suite, 3d studio max, ansys) avrebbe paradossalmente una scelta peggiore in casa AMD. Infatti ha due scelte: - compra un 8150p che però costerebbe (stando sempre alle indiscrezioni) più di un 1100t andando solo poco di più nel campo che interessa a lui - compra un modello inferiore tipo un Fx-6100 che magari costerà (stime dicono 175$) quanto un 1100T andando però meno del 1100T nel campo che interessa a lui Quindi commercialmente AMD ha tolto un processore vecchio che in certi utilizzi va meglio e costa uguale al nuovo che lo sostituisce. Pur considerando che questa è la prima incarnazione di future cpu molto potenti, AMD avrebbe fatto un errore a far uscire delle cpu, per di più marchiandole FX , che in certi scenari andrebbero meno del top di generazione precedente. Perchè se il 8150p fa lo stesso punteggio del 1100t al cinebench allora che punteggio farà FX-6100? In sostanza: qui per ora abbiamo analizzato solo un 8150p ma se proiettiamo quelle slide su un FX-6100 ho il sospetto che in certi scenari passando da un 1100T ad un FX-6100 pensando di guadagnarci si avrebbero delle amare sorprese. E' per questo che penso che quelle slides non siano quelle del reale 8150p che vedremo tra poco. Credo e spero che un già FX-6100 andrà meglio di un thuban 1100T e questo in tutti gli scenari. Se sarà altrimenti per mè sarà stato un mezzo flop. E notare che non ho mai citato la controparte blu in nessun punto del discorso.
__________________
ogni minuto muore un imbecille e ne nascono due. Ultima modifica di maurilio968 : 29-09-2011 alle 15:06. |
|
![]() |
![]() |
#24340 |
Senior Member
Iscritto dal: Jul 2000
Città: La città più brutta della Toscana: Prato
Messaggi: 6711
|
io spero che almeno i 6xxx vadano meglio dei thuban e la fascia bassa sia coperta dai quad e llano, non chiedo altro
|
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 23:21.