|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#4321 | |
|
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24170
|
The New Flex FP!
AMD rileva il nome ufficiale della sua unità floating point condivisa da due core presente in Bulldozer:
Quote:
Le istruzioni AVX possono amministrare calcoli in virgola mobile a 256 bit. I comandi a singola precisione sono a 32 bit e, se in doppia precisione, a 64 bit. Con le unità FPU a 128 bit diffuse oggi potete eseguire quattro comandi a singola precisione o due comandi in doppia precisione in parallelo per ciclo. Con AXV potete raddoppiare tutto questo, eseguendo otto comandi a 32 bit o quattro comandi a 64 bit per ciclo - ma solo se l'applicazione supporta AVX. Se non lo supporta la nuova FPU a 256 bit lavorerà a 128 bit. Questo a meno che non abbiate Flex FP. L'unità FlexFP è basata su due unità FMAC a 128 bit. Ogni FMAC può eseguire istruzioni FMAC, FADD o una FMUL per ciclo. Le soluzioni della concorrenza possono eseguire solo una FADD sulla loro singola pipeline FADD o una FMUL sulla loro singola pipeline FMUD. Potete capire la potenza di Flex FP che assicura sia a 128 che 256 bit flessibilità per le applicazioni tecniche. Con FMAC i comandi di moltiplicazione e addizione non iniziano ad accumularsi. Con il carico di lavoro tipo dei data center odierni, la maggior parte del lavoro di calcolo è integer e solo una piccola porzione è in virgola mobile. Quindi in molti casi non c'è bisogno di avere una grande unità FP a 256 bit che occupi tutto lo spazio sul die e consumi molta energia. Condividendo una singola unità FP a 256 bit per ciascuno dei due core, possiamo contenere consumi e le dimensione del die, aiutando a mantenere bassi sia i costi di acquisizione che quelli di amministrazione a lungo termine Ci sono ovviamente dei benefici nel ricompilare il codice per supportare le nuove istruzioni AVX. Se pensate però che avremo del vecchio codice 128-bit FP in giro per diverso tempo, non credete che avere un'unità in virgola mobile flessibile sia una scelta migliore per le applicazioni? Il supporto da parte del software alle funzionalità a 256-bit AVX richiederà una ricompilazione e cioè tempo e test. Non mi aspetto di vedere un rapido passaggio ad AVX" Clicca qui...
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright Ultima modifica di capitan_crasy : 28-10-2010 alle 11:54. |
|
|
|
|
|
#4322 |
|
Senior Member
Iscritto dal: Oct 2008
Messaggi: 10462
|
AMD datti una mossa a lanciare questo dannato BD
__________________
Le mie 80+ Trattative del Mercatino Vendo: Case Koolink midtower con pannelli fonoassorbenti |
|
|
|
|
#4323 |
|
Senior Member
Iscritto dal: Jan 2010
Messaggi: 2858
|
perchè tutto cosi veloce?per il momento si attende fusion bobcat che farà vedere di che pasta è fatta apu ,e magari pure con dissipatore passivo!di quello appositamente studiato ,appunto per chi vuole un portatile che sembra spento con zero rumori/zero ventole/tutta potenza
cmq 75 giorni al debutto
|
|
|
|
|
#4324 | |
|
Senior Member
Iscritto dal: Dec 2005
Messaggi: 8260
|
Quote:
__________________
Vendo: cpu AMD Ryzen 9950X3D - MSI X870E TOMAHAWAK - CORSAIR 2X32GB VENGEANCE 6000 CL30 - GIGABYTE RTX5080 Gaming OC - Corsair AX860 - PHANTEKS P600S |
|
|
|
|
|
#4325 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31869
|
...which delivers tremendous floating point capabilities for technical and financial applications...
...floating point math could see huge increases in performance over our existing architectures, as well as far more flexibility... C'è una cosa che non ho capito... ...Se si considera che il più delle volte nei server sono in esecuzione i comandi interi, questo significa che se una serie di comandi FP devono essere spediti, probabilmente vi è un'alta probabilità che un solo core ha bisogno di fare questo, quindi ha tutti a 256-bit il calendario previsto... Viene considerato all'interno del modulo... oppure c'è uno scambio da L3 a modulo/core libero? Forse ho detto una cavolata... Beh, comunque tutti i discorsi se un modulo possa gestire al meglio un TH... leggendo come viene schedulata la FP, a me sembra che sia stato centrato in pieno con quei discorsi. Secondo me l'IPC di BD è stato NETTAMENTE sottovalutato fino ad ora... sto procio ostia se pompa... immaginatevi che procetto sarebbe un X8 a 4GHz def.... la scimmia è già ai massimi livelli... mi vesto da Diabolik e faccio un'incursione a Dresda...
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 Ultima modifica di paolo.oliva2 : 26-10-2010 alle 00:46. |
|
|
|
|
#4326 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31869
|
Che io sappia, a 1 INT corrisponde un core, quindi un modulo = 2 INT
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
|
|
|
#4327 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
|
|
|
|
|
#4328 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Ottimo L'unica cosa che limita sta fp mostruosa è dunque la load bw, che comunque porvenendo da 2 L\S unit(dei core int) dovrebbe essere piu alta di sb. Mi sa che in bd il vero incremento non srà tanto in int, quanto in fp, deduco quindi che è essenzialmente un chip per server, e la a mia modesta opinione farà molto bene, speriamo lo faccia anche in ambiente client.
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
|
|
|
|
#4329 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Giusto per fare chiarezza: nella descrizione dell'unità FP vista sopra per FMAC si intendono queste istruzioni, che eseguono sì una moltiplicazione ed una somma contemporaneamente, ma il processore non può accorpate FADD e FMUL in una FMAC.
Per avere il supporto ad FMA3 e FMA4 c'è bisogno di una ricompilazione. paolo.oliva2: i comandi non vengono spediti, le operazioni FP si trovano mescolate con quelli intere. Semplicemente, quando una istruzione FP viene decodificata, le istruzioni vengono portate avanti sulla pipeline FP invece che su quella intera. |
|
|
|
|
#4330 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Appunto, ed è anche meglio di quello che sb può fare Ovvero una unità fp di sb può eseguire sia una Fadd che una fmul, ma le porte sono condivise anche per gli int.. Dunque in codice legacy (sse ecc ecc) il peak thorughput di bd è maggiore. Tento di chiarire il pastrocchio che ho scritto prima: Se abbiamo un thread in fp, ogni modulo è capace di eseguire per unità fp (2 pipe fmac) FADD più fmul contemporaneamente, se vi sono due thread fp, ognua può eseguire o fadd o fmul. Lo stesso caso di un core ht di sb. Ma in sb sia in core con ht on che ht off, in caso di codice mixed (ovvero anche in HPC ci sono istruzioni int, per chiarirci) condivide le porte di esecuzione fp con quelle int per eseguire le simd, quindi incontra un overhead maggiore in quanto non tutte le porte sono completamente disponibili, come la 3 alu del k10, presente ma difficile da usare in parallelo con le altre 2 (overhead e banking conflicts, vi sono solo 2 porte) Sperando di non aver scritto cazzate
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
|
|
|
|
#4331 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
Ora su singolo thread sicuramente si possono eseguire contemporaneamente due FMUL a 128 bit o due FADD a 128 bit e questo è un grosso vantaggio. Lo posso quantificare in circa un 20%, forse anche più. Ma su due thread ? L'unità FP si trova a dover mescolare le istruzioni dei vari thread con il risultato che ogni singolo thread mediamente otterrà solo una singola istruzione a 128 bit in esecuzione contro le massimo due di prima. Credo quindi che l'IPC in questo caso ne risenta, forse di un 10%. E' chiaro che avere due unità FMAC invece che due unità specializzate sia stata una necessità per far in modo che un thread non venisse bloccato in attesa che l'unità specializzata si liberasse. Quindi, in sostanza, le prestazioni dipenderanno molto dal tipo di carico: se entrambi i thread eseguono istruzioni SIMD contemporaneamente le prestazioni caleranno, con un thread in FP e l'altro in INT le prestazioni aumenteranno. |
|
|
|
|
|
#4332 | |
|
Senior Member
Iscritto dal: Oct 2008
Messaggi: 10462
|
Quote:
__________________
Le mie 80+ Trattative del Mercatino Vendo: Case Koolink midtower con pannelli fonoassorbenti |
|
|
|
|
|
#4333 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
|
|
|
|
|
#4334 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Hai ragione su questo, per il discorso di prima sul fatto che la fp sia condivisa, io non penso che le prestazioni calino anche in conseguenza di 2 thread fp, questo se ovviamente consideriamo un core sb ht, ma anche 2 core k10, poichè ricordiamoci che si il peak throughput può diminuire in questo caso, ma grazie allo scheduler dedicato per le fp ed alle porte non condivise (a differenza di sb) in media dovrebbero essere più alte, non più basse, a meno che il programma non spari 8 thread con elevato tasso di istruzini shuffle. Inoltre in ambito client, con un numero di thread pari a 4 è possibile che (dipende che combina microsoft) ogni thread venga eseguito su un solo modulo di bd (in questo caso bd x8 ovvero 4 moduli) in campo server ve ne saranno 8 di moduli e 16 unità fp contro le 10 di un ipotetico sb 10 core 20 thread.
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
|
|
|
|
#4335 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
EDIT: Ovviamente rispetto a SB, a parità di thread non c'è storia, e a parità di core, a causa delle porte condivise in SB, se la gioca... Quello che manca nel K10 non è la potenza di picco, che è superiore a INTEL, ma uno scheduler efficiente sia per l'INT (con le MOPS bloccate e appaiate) che per l'FP (lo scheduler scemo che ti ho descritto sopra, che assieme a quello INT fanno la coppia Scemo+Scemo vista al cinema...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! Ultima modifica di bjt2 : 26-10-2010 alle 10:33. |
|
|
|
|
|
#4336 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
Edit: è proprio nel calcolo matriciale che si fa uso del multithreading per distribuire i calcoli fra più thread. Ed è quindi proprio il caso in cui molti thread si troverebbero ad eseguire contemporaneamente istruzioni SIMD. Ultima modifica di cionci : 26-10-2010 alle 10:40. |
|
|
|
|
|
#4337 | |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31869
|
Quote:
Sarò malizioso... ma secondo me quando ci saranno confronti tra BD e SB, ci sarà un gran lavoro. Si farà vedere dove SB e SMT lavorano al meglio, e si cercherà di vedere dove BD andrà peggio... Probabile che cambieranno anche i software di bench... magari il tanto decantato superpippo, che è tutto tranne un software di test potenza, probabilmente sparirà dalla scena
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
|
|
|
|
#4338 | |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31869
|
Quote:
Figurati a me In fin dei conti, penso probabile che AMD continui nel pubblicizzare i suoi World Record Overclock, come del resto, chi vuole fare numeri, acquista il procio che può raggiungere prestazioni più elevate. Potrebbe essere tranquillamente fattibile vedere un BD sui 9GHz e forse anche 10GHz sotto azoto. Se pensi che Intel con il 32nm HKMG non è ancora in grado di superare sotto azoto un 45nm liscio di AMD, pensa la differenza dopo BD... Io già mi intrippo a pensare di portare un BD X8 solamente a 5GHz per vedere che risultati può dare, pensa già solamente la differenza tra un Thuban a 4,5GHz e un BD X8 a 6GHz... non oso pensare alle varie classifiche mondiali sui risultati dei bench....
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
|
|
|
|
#4339 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
Intel non supera a 32 nm un AMD a 45 nm, vero, ma perché l'architettura è più efficiente. Ribadisco questo concetto. Ecco perché secondo me i record di overclock stabiliti solo in frequenza, senza guardare le prestazioni sono assurdi. |
|
|
|
|
|
#4340 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Guarda che bd ha anche delle unità simd int non condivise.. che eseguono anche mmx e robette varie. http://www.realworldtech.com/include...ulldozer-5.png Certo se poi si prendono in esempio solo codici fp, l'utilità della fp flex si va a farsi benedire, però anche nelle più grandi moltipiplicazioni di matrici, un buon 40% di istruzioni son di controllo, inoltre a parità di thread con sb, beh sempre la solita solfa cores vs fake cores.
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita Ultima modifica di Pihippo : 26-10-2010 alle 12:05. |
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 20:42.











AMD datti una mossa a lanciare questo dannato BD 
immaginatevi che procetto sarebbe un X8 a 4GHz def.... la scimmia è già ai massimi livelli... mi vesto da Diabolik e faccio un'incursione a Dresda...








