|
|
|
|
Strumenti |
22-08-2016, 12:43 | #5341 |
Senior Member
Iscritto dal: Jan 2003
Messaggi: 10393
|
Non so, io dalle slide li vedo come dei bus bidirezionali a 32 bytes (256 bits) mentre per le istruzioni il bus è ovviamente unidirezionale. Dato che però non sono entrato nella mente di chi ha fatto le slides, anche la tua interpretazione potrebbe essere corretta.
|
22-08-2016, 13:05 | #5343 | ||
Senior Member
Iscritto dal: Sep 2005
Messaggi: 2177
|
Quote:
http://www.bitsandchips.it/9-hardwar...orare-la-cache Quote:
Più che triplicati se li hai messi quando erano a 2!!! E poi che investire su Amd non conviene 40 a fine anno? Pensi? Potrebbe, finalmente dopo anni se lo merita.
__________________
__________ Configurazione: Mainboard Gigabyte G1.Sniper A88X (rev. 3.0) ; APU A10 7850K ; HDD Western Digital SATA III WD Blue 1 TB ; Ram Corsair 1866 mhz 16 gb ; OS Seven premium 64 bit Ultima modifica di george_p : 22-08-2016 alle 13:15. |
||
22-08-2016, 13:07 | #5344 | |
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6794
|
Quote:
Conferma delle 4 istruzioni decodificate, 8 ritirate (IMPORTANTISSIMO), 4 pipeline 128 bit FPU combinabili in 2 FMAC, Op cache, L/S, SMT 2 e caratteristiche della cache L2 cache inclusiva (dei due thread) e caratteristiche delle unità L/S. Due sotto-code separate per la lettura e una per la scrittura L3 is filled with l2 victim. Quindi è una victim cache come al solito... La l3 è sempre stata una victim cache nelle architetture AMD e mi pare anche in quelle INTEL. Da notare i bus enormi tra le cache: 2x32bytes anche tra le L3! Quì è interessante. INTEL ci è arrivata con varie iterazioni a questo punto: le prime iterazioni dell'HTT avevano quasi tutto partizionato. Qui invece AMD ha quasi tutto condiviso dinamicamente. E in modalità ST è tutto a disposizione di quel thread. Cosa è partizionato staticamente? 1)La microop queue: se la coda è abbastanza grande ha senso, perchè farla partizionata dinamicamente avrebbe rallentato il clock massimo. 2)La retire queue: stessa cosa di sopra. Tenere il critical path semplice aiuta ad avere clock alto 3)La store queue: questa non è critica perchè una volta messi in coda gli store si può proseguire e comunque la coda è più grande di BD Da notare i blocchi in blu, che non mi pare sia presente in INTEL, dove è possibile dare priorità ai thread. Non so se sotto il controllo del SO o se è automatico, ma è interessante! IMPORTANTE: notare i decoder e la uop cache in rosso. In BD i decoder, quando condivisi (in XV sono 2x4 decoder), erano usati a cicli alterni. Qui invece sono competitively shared, ossia in ogni ciclo ci possono essere 0-4 decoder assegnati a ognuno dei thread, con la somma <=4... Un grande avanzamento! Niente di interessante qui se non una cache L0 piccola e veloce, probabilmente per avere la massima velocità. Hash percetron mi sembra un termine di inteligenza artificiale, quindi presumo che il branch predictor sia molto inteligente... Molto interessante qui: sui 6 scheduler separati, Dresdenboy sul suo blog ne ha parlato come non necessariamente negativi, visti i brevetti AMD, perciò rimando a lui: http://dresdenboy.blogspot.it/2016/0...hot-chips.html Per il resto: -14 slot per ognuna delle 6 code, quindi anche rispetto ai vecchi k7/k8, che avevano scheduler separati, abbiamo una coda lunga. -4 alu e 2 agu -differential checkpoint: probabilmente è il famoso checkpointing per ridurre la latenza di mispredict -2 branch: quindi, come INTEL, 2 ALU possono elaborare i salti (però su INTEL le porte sono condivise con la FPU) -move elimination: chissà se ce l'ha anche intel... Male che vada siamo pari... -8 retire: OTTIMO, non mi stancherò mai di ripeterlo... IMPORTANTE: guardate le linee grigio tenue orizzontale, che partono dalle 4 code ALU, passano per le due code agu e vanno nella retire unit. Come vedete sono 4+3 dalla LS unit le linee grigie. Questo vuol dire che, a differenza di intel, le uop ALU sono accoppiate alle uop AGU nella retire unit, quindi le 8 uop ritirate significa macroop ALU+AGU, quindi questo è un ulteriore vantaggio su intel! 4 decoder, non è specificato i limiti. Ne sapremo di più domani. Stack engine con una sorta di cache L0: la rilettura di dati scritti da poco è processata subito (sul MEMFILE). 4 uop alla FP e 6 alla unità intera. Domani sapremo se sono 6+4 per ciclo o ci sono delle limitazioni Inline istruction length decoder è interessante: nelle vecchie CPU, AMD le calcolava e le inseriva nella L1 al posto dei bit di ECC/parità e se non erano calcolati (perchè erano istruzioni appena caricate), si perdeva qualche ciclo per calcolarli... Con questa soluzione, non solo non si perde tempo ulteriore a calcolarli, ma si può anche usare i bit ECC per quello per cui sono stati progettati: l'ECC! Sulla FPU nulla di interessante da dire, se non le 2 unità AES, la pipeline per la scrittura a 128 bit e il recovery accelerato, che fa sempre parte della riduzione della branch misprediction.
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST! Ultima modifica di bjt2 : 22-08-2016 alle 14:43. |
|
22-08-2016, 13:08 | #5345 | |
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6794
|
Quote:
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST! |
|
22-08-2016, 13:10 | #5346 |
Senior Member
Iscritto dal: Sep 2005
Messaggi: 2177
|
Ritirate? Si chiamano così e perché le han tolte?
__________________
__________ Configurazione: Mainboard Gigabyte G1.Sniper A88X (rev. 3.0) ; APU A10 7850K ; HDD Western Digital SATA III WD Blue 1 TB ; Ram Corsair 1866 mhz 16 gb ; OS Seven premium 64 bit |
22-08-2016, 13:13 | #5347 |
Senior Member
Iscritto dal: Dec 2005
Città: Ibiza - Malta - Udine
Messaggi: 6420
|
Ciao, scusa. Che piattaforma usi e con che broker? Grazie.
__________________
PC: "Che te lo dico a fare" |
22-08-2016, 13:14 | #5348 | ||||
Senior Member
Iscritto dal: Jul 2015
Messaggi: 4693
|
Può essere che ci siano degli algoritmi in hardware che se un dato viene richiesto più volte viene copiato da l2 in l3 e/o viceversa.
Questo permetterebbe sia agli altri core di avere accesso ai dati, sia di poter liberare spazio in L2 senza dover pescare i dati svuotati in ram ma trovandoli in L3. Quote:
Quote:
Diversamente mi parrebbe una fesseria (sopratutto in ambito server dove molti dati possono essere necessari a diversi th che girano su moduli diversi) Pensiamo a cinebench dove praticamente tutti i th hanno alcuni dati in comune meglio accedervi con una latenza superiore su un modulo diverso piuttosto che essere a corto di spazio cache e caricare sempre dalla ram Quote:
Quote:
|
||||
22-08-2016, 13:34 | #5349 |
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6794
|
Le istruzioni, finchè non sono ritirate, sono in uno stadio intermedio. Lon la logica ooo ci si porta avanti con il lavoro, salvo poi alla fine verificare se la predizione dei salti era corretta e rendere "definitivi " i calcoli. Questo si fa allo stadio di retire: si rendono definitive le operazioni. E' questo il cuore della CPU. XV ne faceva 4/ciclo per 2 thread (!!!). Mentre ora Zen ne fa 8/ciclo...
Interessante sarebbe sapere quante ne ritira INTEL... Intanto per skylake si hanno 2*64 entry, mentre zen ne ha 2*96 (anche in intel è partizionato) Haswell e SB possono ritirare 4 uops/ciclo, ma skylake è dato come improved, quindi saranno almeno 6, se non forse pari con Zen... Secondo le prove di agner fog, skylake non supporta più di 5/6 uop/ciclo (fuse, quindi 7/8 in totale, ma anche le 8 di zen dovrebbero essere fuse), ma è comunque limitato a regime a 4/ciclo perchè il renamer a monte non può farne più di 4/ciclo. Comunque nella documentazione non è specificato quante sono e probabilmente non lo sapremo mai...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST! |
22-08-2016, 14:13 | #5350 |
Senior Member
Iscritto dal: Jan 2003
Messaggi: 10393
|
Bisogna capire se è possibile la scrittura contemporaneamente alla lettura...
|
22-08-2016, 14:20 | #5351 |
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6794
|
Lo scopo dei due bus separati è proprio questo!
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST! |
22-08-2016, 14:26 | #5352 | |
Senior Member
Iscritto dal: Sep 2005
Messaggi: 2177
|
Quote:
__________________
__________ Configurazione: Mainboard Gigabyte G1.Sniper A88X (rev. 3.0) ; APU A10 7850K ; HDD Western Digital SATA III WD Blue 1 TB ; Ram Corsair 1866 mhz 16 gb ; OS Seven premium 64 bit |
|
22-08-2016, 14:41 | #5353 | |
Senior Member
Iscritto dal: Sep 2005
Messaggi: 2177
|
Alcune considerazioni di Fottemberg di B&C:
Quote:
Interessante se è così, in AMD si son dati da fare per rendere la cpu flessibile nel tempo a lungo termine.
__________________
__________ Configurazione: Mainboard Gigabyte G1.Sniper A88X (rev. 3.0) ; APU A10 7850K ; HDD Western Digital SATA III WD Blue 1 TB ; Ram Corsair 1866 mhz 16 gb ; OS Seven premium 64 bit |
|
22-08-2016, 15:56 | #5354 |
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6794
|
http://www.pcgameshardware.de/AMD-Ze...C-1205041/#idx
Non ho capito bene l'orario, ma durante la presentazione di oggi all'Hotchips, sarà confrontato Zen anche con un 6900K! Non ho capito con che bench...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST! |
22-08-2016, 16:02 | #5355 |
Senior Member
Iscritto dal: Jan 2003
Messaggi: 10393
|
Blender
|
22-08-2016, 16:40 | #5356 | |
Senior Member
Iscritto dal: Sep 2005
Messaggi: 2177
|
Quote:
Ancora Blenderino... spero ottimizzino assieme a Maxon per cinebench, forza Maxon
__________________
__________ Configurazione: Mainboard Gigabyte G1.Sniper A88X (rev. 3.0) ; APU A10 7850K ; HDD Western Digital SATA III WD Blue 1 TB ; Ram Corsair 1866 mhz 16 gb ; OS Seven premium 64 bit |
|
22-08-2016, 16:41 | #5357 | |
Senior Member
Iscritto dal: Aug 2016
Messaggi: 425
|
Quote:
|
|
22-08-2016, 16:48 | #5358 |
Senior Member
Iscritto dal: Dec 2005
Città: Ibiza - Malta - Udine
Messaggi: 6420
|
__________________
PC: "Che te lo dico a fare" |
22-08-2016, 17:15 | #5359 |
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6794
|
Skylake il 6900K vs broadwell E.
Poi questo è 3.2-3.7. Il 4GHz è il turbo core 3.0 su un solo core selezionato e solo con driver INTEL, da vedere su che SO esiste sto driver......
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! IL MIO CANALE YOUTUBE! IL MIO PLUGIN VST! Ultima modifica di bjt2 : 22-08-2016 alle 17:22. |
22-08-2016, 17:15 | #5360 |
Senior Member
Iscritto dal: Sep 2005
Messaggi: 2177
|
__________________
__________ Configurazione: Mainboard Gigabyte G1.Sniper A88X (rev. 3.0) ; APU A10 7850K ; HDD Western Digital SATA III WD Blue 1 TB ; Ram Corsair 1866 mhz 16 gb ; OS Seven premium 64 bit |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 13:43.