|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#12181 |
|
Senior Member
Iscritto dal: Apr 2005
Città: MC
Messaggi: 7649
|
|
|
|
|
|
#12182 | |
|
Senior Member
Iscritto dal: Oct 2010
Messaggi: 696
|
Quote:
Tornando IT, se Bulldozer sarà veramente prestante e paragonabile a Sansy Bridge, farò subito mio un Octacores!
__________________
trattative concluse positivamente con: Simedan1985, gaon174, damo_88, paolo.oliva2, orso232, adrixillo, predator frag, maranga1979, kangaxxpk, EagleStar, kurt_92, gluvocio, Kudram BUILD ATTUALE: i7 2600K, Asus MIVE, 2X8gb G.Skill TridentX, Zotac GTX 680, Crucial MX200 256GB, , EVGA 750 G2, Smartdrive NEO, G110, G9X, Panasonic ST50 55", Microcool Banchetto 101, Noctua NH-U12P, Asus N55U D1. |
|
|
|
|
|
#12183 | |
|
Senior Member
Iscritto dal: Oct 2003
Città: Milano
Messaggi: 4080
|
Quote:
da elucubrazioni varie, penso che, probabilmente andrà negli interi scalari (clock to clock) quanto un SB senza HT (2500), cosa più cosa meno. Per quanto riguarda simd di tipo int e fp ho grosse perplessità su questa flexfp che è da vedere alla prova dei fatti....
__________________
spesso, è solo quando sai che non ti resta molto tempo che ne apprezzi il reale valore quote: "some users are a classic example of the inverse ratio between the size of the mouth and the size of the brain" * se non vi rispondo è perché siete (200+) nella mia ignore list * mi chiedo perché chi è nella ignore list è spesso sospeso e, prima o poi, viene bannato * |
|
|
|
|
|
#12184 | |
|
Messaggi: n/a
|
Quote:
Girano anche voci di sample a 4 core, lo stop dello sblocco dei core con BD, ecc... |
|
|
|
#12185 | |
|
Bannato
Iscritto dal: Dec 2003
Città: Monteveglio(Bo)
Messaggi: 10006
|
Quote:
Magari sarebbe un indicazione del fatto che potrebbe essere nativo visto che nelle slide AMD veninva riportato con 4MB di cache L3 contro gli 8 delle versione x6 e x8. |
|
|
|
|
|
#12186 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
- E' confermato che internamente BD usa ancora macro-op (operazione intera oppure FP + operazione memoria). Ciò è importante per stabilire quanto riesce a macinare... - E' confermato che esistono ancora operazioni single, double e vector (anche se i nomi sono cambiati: FastPath Single, FastPath Double e Microcode). Ciò è importante per stabilire la potenza del decoder. - Parla delle istruzioni supportate: AVX, XOP, FMA(C) ecc... Tutto confermato. Più qualche cosa poco nota come istruzioni per l'estrazione della parte frazionaria di un numero FP e istruzioni vettoriali di rotazione, shift, shuffle. - Menziona le nuove unità FP a 128 bit e dice che le prestazioni possono essere fino al doppio. Non mi è chiaro questo punto. Anche le unità del K10 sono a 128 bit. Ma poi spiega l'uso del FMAC che non è automatico e dice che l'FMA è più preciso di una ADD+MUL (si sapeva già). Forse è a questo che si riferisce quando parla di prestazioni doppie. - Ora BD non soffre più in prestazioni se le istruzioni sia di load/store, sia load/execute lavorano su dati non allineati. Possibili benefici con codice con dati non allineati. Questo potrebbe essere un refuso del documento del K10. Mi pare di ricordare che era una delle novità del passaggio da K8 a K10... - Novità del fetching istruzioni. Non più una finestra di 32 bytes, ma DUE finestre di 32 bytes da cui possono essere prodotte fino a 4 mops/ciclo. Si accenna al fatto che queste due finestre assieme alla FPU a 128 bit consentono di avere un ritmo di fetch/execute/retire di 4 mops/ciclo... Ora come ora è molto nebulosa la cosa. Non menziona mai il fatto che è condivisa tra due thread... - Accenno al fatto che molte istruzioni sono state promosse da vector a double o a single, che sono migliorate le latenze e che molte istruzioni FPU sono state spostate di pipe... ATTENZIONE! Fino ad ora avevamo supposto che l'architettura a FO4 17 avrebbe comportato l'aumento delle latenze delle istruzioni... Secondo quanto scritto qui E' IL CONTRARIO! - Miglioramento in velocità delle istruzioni di shuffle, di trasferimento registri FP-interi (nonostante la FP condivisa!), di trasferimento FP-FP (quello a cui accennava JF-AMD degli zero latency move), delle operazioni su stringhe (i vari REP, SCAS ecc), delle operazioni stack e del paging a 1GB. - Le operazioni di shuffle (tallone di achille) possono essere fatte al quadruplo della velocità grazie a più unità, al fatto che sono a 128 bit (???) e ora le istruzioni sono Direct Path e non vector path (mi sa che è un refuso del vecchio documento perchè parla delle pipeline FADD, FMUL e FSTORE... anche per le operazioni di move reg-reg) - poi parla delle TLB e della virtualizzazione. --- FINE SEZIONE INTRODUTTIVA --- - Confermate le cose che si sapevano sull'architettura (caches ecc). Predizione e fetch sono disaccoppiati, decoding a 4 vie (limite teorico). Scheduling dinamico. 2 istruzioni ALU + 2 AGU per ciclo (confermato). 2 128 BIT FPU. Supporto AVX, XOP ecc. Superforwarding (probabilmente quella cosa del poter usare subito i risultati di una operazione). - Descrive il fatto delle 4 microop/ciclo. Dice che può fare il fetch di 32 bytes per ciclo e che puo fare la scansione di due blocchi da 16 bytes per ciclo (su due finestre di 32 bytes). Può decodificare fino a 4 mops/ciclo. E' un limite teorico che dipende dalle istruzioni presenti nelle finestre di 16 bytes e anche dalla modalità in cui si trova la CPU: FAST o SLOW (???) - Schema a blocchi della CPU: nulla da notare se non che non divide le ALU/AGU ma le chiama genericamente pipeline e anche qui la FPU è indicata con solo le due pipeline a 128 bit... - Caches: L1 istruzioni UNICA da 64 KB, a 2 vie con linea da 64 bytes e lettura di 32 bytes (come quella del K10). Quando è letta una nuova cache line è automaticamente fatto il prefetch di quella successiva. Il predecoing è fatto subito dopo il load. La L1 dati è da 16 KB. Può fare 2 load a 128 bit per ciclo. Ha 16 banchi e un solo load per banco. Quindi i due load sono simultanei se sono in banchi separati. Latenza di 4 cicli (! data l'alta latenza, prevedo clock stratosferici). Menziona genericamente il prefetching. La cache L1 è write through e non write back come il K10... Hanno imparato da INTEL... Ci sono vantaggi nello snooping. Solo la cache L2 va testata... Quest'ultima appunto è inclusiva e condivisa tra i due core. Menziona il write trough e finalmente conferma che le caches sono due. La latenza è 18-20 cicli e la cache è full speed (quindi con il clock alto... - Branch prediction: penalità da 15 a 20 cicli in caso di miss. In caso di hit, un solo ciclo se è nella cache L1, 4 cicli se è nella L2. La L1 è 4x128 entry e la L2 5x1024 entry. 512 entry per gli indiretti e 24 per il return stack. Il branch prediction è abbastanza complesso ma credo che sia simile a quello del K10... - Fetch e decode. Sono letti 32 bytes/ciclo. Le finestre sono di 16 bytes e esistono due code (una per thread). Si possono decodificare fino a 4 istruzioni per ciclo contenute in 2 finestre a 16 bytes. - TLB: L1 istruzioni 48 4KB, 24 2MB o 1GB. Entry da 4MB occupano due entry da 2MB. L1 dati 32 (64 per i modelli 20H-2FH) per 4KB, 2MB e 1GB. Entry da 4MB occupano due entry da 2MB. L2 istruzioni 512 4KB. L2 dati 1024 condiviso tra 4KB, 2MB e 1GB. Entry da 4MB occupano 2 slot. - Esecuzione intera: c'è lo scheduler e le unità di esecuzione. Lo scheduler è completamente data-driven. Non ci sono più le lane del K10. Ossia è più inteligente: l'unico limite è la disponibilità dei dati e delle unità. Inoltre tiene traccia del completamento e delle eccezioni delle istruzioni FP: è questa unità che decide il da farsi. L'unità FP fa solo il "lavoro sporco"... Lo scheduler intero può ricevere e schedulare fino a 4 mops/ciclo. Fa il register renaming e sveglia le istruzioni in attesa. Le unità di esecuzione sono 4. ATTENZIONE: 2 ALU e 2 AGLU. Le due ALU sono chiamate Ex0 e Ex1. Possono fare tutte le operazioni aritmetiche, logiche e di shift. La Ex0 fa anche DIV e POPCNT. La EX1 fa anche MUL e BRANCH. Le AGLU possono fare le AGU e operazioni ALU SEMPLICI. NOVITA' rispetto al K10: le mops sono divise nello scheduler in microops. Possono essere eseguite indipendentemente e fuori ordine (non più le lanes... - FPU. E' dichiarato che la FPU ha 4 volte la potenza di picco di quella del K10. 4 pipeline. 2 FMAC a 128 bit. Una può fare anche le IMAC (multiply - accumulate su dati interi) e le conversioni tra int e fp e una ha un crossbar per gli shuffle SIMD. 2 unità SIMD intere per MMX e SIMD intere. Una delle due ha la pipeline FSTORE. C'è poi una unità di load/store che può fare 2 letture a 128 bit + una scrittura a 128 bit. La CPU può ricevere fino a 4 mops/ciclo, ma da un solo thread alla volta. Il thread può cambiare a ogni ciclo. La FPU può eseguire 4 mops/ciclo. Una volta ricevute in cicli separati, poi possono essere eseguite anche inframezzate nello stesso ciclo, al ritmo di 4/ciclo. Nella FPU possono essere accettati fino a 2 loads per ciclo, anche da 2 thread separati. 4 pipeline, 2 FP e 2 INT. 2 128 bit FMAC. Ognuno può fare anche ADD e MUL anche x87. Ogni FMAC ha anche un divisore e calcolo radice quadrata a latenza variabile. Una istruzione a 256 bit può essere eseguita in un ciclo. Se non ci sono due unità libere è spezzata in due senza penalità. Cioè in pratica una istruzione a 256 bit è spezzata in due subistruzioni a 128 bit che possono essere eseguite indipendentemente (e anche in due cicli separati) senza bloccare le altre. Massima flessibilità, dunque. - Unità di load/store. Una per core, due per modulo. Ogni unità supporta 2 letture a 128 bit e una scrittura a 128 bit per ciclo. La coda di scrittura è di 24 entry. La coda di lettura ha 40 entry. Due pipeline per ogni unità LS per fare 2 operazioni in contemporanea. Menziona il fuori ordine per le operazioni memoria ma non entra nei dettagli. Il write combining supporta 4 stream, con 4 buffer da 64 bytes (condivisi tra i due cores). C'è una cache di 4KB prima della L2 (64 blocchi da 64 bytes) per gestire il write combining da sorgenti varie (compreso il write chaining per la trasmissione su bus HT). - Controller RAM. Supporta DIMM da 4, 8 e 16 bit, interleaving, ECC, e canali a 64 bit indipendenti. Ha algoritmi di scheduling e predizione ottimizzati in particolare per sequenze alternate di read e write. Il prefetcher tiene i dati nel controller e non li spedisce alle caches. Può adattarsi a pattern ascendenti e discendenti e altri più complicati. Le specifiche del MC possono cambiare da modello a modello. - HT: supporto a 25.6GB/s (quindi 3.2 GHz) e varie features dell'HT 3. HT assist per sistemi a 4 o più socket: ancora con consumo di 1-2 MB di L3. - Branch fusion. Non è specificato un limite al numero massimo di branch fusion però molto probabilmente al massimo uno. Perchè i limiti sono che il compare e il branch devono essere adiacenti, che il compare non deve essere la quarta istruzione del dispatch group, che il branch deve avere indirizzamento rip-relativo, che il compare non deve avere dati immediati o indirizzamento SIB. - LATENZE istruzioni. Purtroppo è difficile confrontare le latenze senza avere a fianco quelle del K10. Ci dobbiamo fidare dei proclami dell'inizio del PDF. Molte istruzioni hanno un N/A, non so se per NDA oppure perchè effettivamente al tempo di stesura del PDF non erano note. Però lo scheduler data-driven, le uops che possono andare indipendentemente, le pipeline intere e FP separate possono addirittura far sperare in un IPC superiore al SB! Questo è quanto...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! Ultima modifica di bjt2 : 11-04-2011 alle 13:14. |
|
|
|
|
|
#12187 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
|
|
|
|
|
#12188 |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Ciao
La parte più triste è quella riguardante le SSE3 (HADDPS ecc ecc) nell'appendice B. Vabbè che non sono utilizzatissime, ma posso già immaginare bench (che magari non fanno niente di utile) in cui Sb andrà il 50% in più di BD.
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
|
|
|
#12189 | |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31868
|
Quote:
Cioè... quello che voglio dire, è che BD per essere nel complesso superiore a SB si potrebbe accontentare anche di un IPC inferiore, probabilmente basterebbe addirittura un IPC -20%. Ti faccio questo esempio sia in ST che in MT: ST - Applicando un clock di 4GHz def con almeno 2 moduli (BD X4), nel funzionamento come X1 arriverebbe praticamente a 5GHz. Anche avendo un IPC del 20% inferiore, comunque avrebbe un clock del 20% superiore, da qui uscirebbe un risultato di pareggio, e comunque saremmo nel campo dove AMD doveva recuperare di più. MT - AMD ha sempre scalato meglio con l'aumentare dei core rispetto ad Intel, quindi in ogni caso dovrebbe essere leggermente più favorita rispetto all'ST. Ora... assegnando 3,5GHz ad un SB X8 130W e 4GHz ad un BD X8 125W, AMD avrebbe dalla sua un +14% di clock. Se poi considerassimo il Turbo di +500MHz su tutti i core, arriveremmo oltre al +33%. Anche in questo caso, con un IPC pure del 20% inferiore, un BD X8 con Turbo2 disabilitato sarebbe comunque lì, e sicuramente sopra in Turbo. Dal mio punto di vista, come potenzialità rispetto al Phenom II, anche senza considerare BD X8 e parlando di numero core uguali, mi sembra nettamente scontato che il +50% di potenza venga superato. Il solo clock operativo vedrebbe in BD un vantaggio del +26%/+27%, sia in ST che in MT. A questo andrebbe aggiunto comunque l'incremento di IPC a cui andrebbero sommati in MT i +2 core di un BD X8 rispetto ad un Thuban X6.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 Ultima modifica di paolo.oliva2 : 08-04-2011 alle 22:22. |
|
|
|
|
|
#12190 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Indubbiamente il clock finale di BD conta. Eccome Un paio di appunti. 1) SB scala fino a 3.8ghz col turbo in singlethreaded, dunque il clock con 1 core attivi dovrebbe essere un qualcosina in più. 2) Per il MT. Le cose purtroppo raramente vanno cosi, intendo come numeri
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
|
|
|
|
#12191 |
|
Senior Member
Iscritto dal: Feb 2004
Città: Domo
Messaggi: 1426
|
Buonasera, chiedo una cosa sul nuovo socket AM3+.
Io ho una piattaforma Intel con Ram LW, ma le ram LW sono compatibili con le piattaforme AMD? Nel caso di cambio e passaggio a AM3+ posso tenermi le mie DDR3? grazie |
|
|
|
|
#12192 |
|
Senior Member
Iscritto dal: Jan 2010
Città: Campobasso _________________________ ID ORIGIN/STEAM : DEMfiKNOW
Messaggi: 10281
|
AMD Confirms They Will Support Bulldozer on AM3+
..."The pinouts on AM3 and AM3+ are different. However, AM3+ CPUs will physically fit in an AM3 socket." tuttavia "AMD will only commit to one thing – they will support Bulldozer on AM3+ chipset boards." anche se il titolo è piuttosto ad effetto in realtà non cè alcuna conferma! niente di nuovo..
__________________
Ultima modifica di liberato87 : 09-04-2011 alle 01:40. |
|
|
|
|
#12193 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
|
|
|
|
|
|
#12194 | |
|
Senior Member
Iscritto dal: Nov 2007
Città: Rimini
Messaggi: 3800
|
Quote:
P.s.: piu quello che ha scritto Cionci!
__________________
Byez Core P5 - Seasonic focus gx-850w - Ryzen 5800X - 32Gb gskill trident Z neo 3600Mhz - RX 6900XT Sapphire SE - custoom loop cpu+gpu! |
|
|
|
|
|
#12195 | |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31868
|
Quote:
Cioè... la mia idea non è tanto quella di chi l'avrà più lungo tra BD e SB, anche perché tutto sommato alla fine probabilmente le potenze saranno lì ma con AMD che dovrebbe essere molto competitiva nel rapporto prezzo-prestazioni. Quello che sarebbe fantastico, almeno per noi consumatori, sarebbe che Intel realizzi un 22nm da bomba con un IB superlativo, costringendo AMD ad abbassare ulteriormente il prezzo di BD, al che nel 2012 ci potremmo trovare un BD X8 a prezzi del Thuban.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
|
|
|
|
#12196 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 31868
|
Quindi se così fosse avresti ragione te, cioè AMD comunque dovrebbe prevedere nel procio una parte di controllo su che socket è montato per prevenire bruciature del procio.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593 |
|
|
|
|
#12197 | |
|
Senior Member
Iscritto dal: May 2009
Messaggi: 1330
|
Quote:
|
|
|
|
|
|
#12198 | |
|
Senior Member
Iscritto dal: Oct 2010
Messaggi: 696
|
Quote:
__________________
trattative concluse positivamente con: Simedan1985, gaon174, damo_88, paolo.oliva2, orso232, adrixillo, predator frag, maranga1979, kangaxxpk, EagleStar, kurt_92, gluvocio, Kudram BUILD ATTUALE: i7 2600K, Asus MIVE, 2X8gb G.Skill TridentX, Zotac GTX 680, Crucial MX200 256GB, , EVGA 750 G2, Smartdrive NEO, G110, G9X, Panasonic ST50 55", Microcool Banchetto 101, Noctua NH-U12P, Asus N55U D1. |
|
|
|
|
|
#12199 | ||||
|
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24170
|
X bjt2:
Grazie per il tuo aiuto, più tardi (se la schiena mi da tregua) metto il tuo post in prima pagina... Quote:
Puoi fare un esempio (per noi comuni mortali grazie... Quote:
Quote:
Quote:
A parte il contenuto della notizia, il sito ha fatto un intervista ad AMD ma non dice ne con chi ne quando; non mi sembra una fonte tanto attendibile... Mi sembra assolutamente una raccorta delle attuali informazioni e spacciata come "conferma ufficiale"; oltretutto AMD (quella vera ) aveva già dichiarato Q2 per Zambezi e Q3 per Interlagos...
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright |
||||
|
|
|
|
#12200 | |
|
Senior Member
Iscritto dal: Dec 2005
Messaggi: 1113
|
Quote:
Se il previsto step II arriverà nel 4Q...facile che i proci del lancio...subiranno un taglio di prezzo. dipenderà solo da Intel...SB su lga2011 sarà poco concorrenziale in termini di prezzo...mentre con Ivy...assisteremo viceversa ad una grande guerra Chiaro che se quest'ultima sarà lanciata in volumi solo nel 1Q...tutto è rimandato.
__________________
X79A-GD45 , 3820K , 32Gb G.SKILL 2400, Sapphire 5850 , Antec 650W, HP 27ES |
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 08:09.




















