|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#4221 | |||||
|
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
Quote:
Quote:
Questo per dire che se andiamo ad analizzare le differenze istruzione per istruzione, ce ne sono tante a favore di AMD, come pure tante a favore di Intel. Quote:
Quote:
Comunque bisogna vedere nella realtà quale mix di istruzioni viene macinato dalla processore, e IMO è probabile che la stragrande maggioranza delle istruzioni sia di tipo semplice.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
|||||
|
|
|
|
#4222 | ||
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
Quote:
A livello di ipc il piccoletto è abbastanza impressionante. Ma k12 sarà tutt'altra cosa a livello di throughput per core, anche se l'ipc potrebbe anche essere peggiore. Ultima modifica di tuttodigitale : 12-07-2016 alle 23:56. |
||
|
|
|
|
#4223 | |||
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
c'è stata una regressione da questo punto di vista da k10. Quote:
Quote:
http://www.intel.com/content/www/us/...on-manual.html pagina 32 Ultima modifica di tuttodigitale : 13-07-2016 alle 00:05. |
|||
|
|
|
|
#4224 |
|
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
32byte fetch in Bobcat
http://image.slidesharecdn.com/bobca...?cb=1306859804 Decoder e micro-op http://image.slidesharecdn.com/bobca...?cb=1306859804 Ultima modifica di Ren : 13-07-2016 alle 00:38. |
|
|
|
|
#4225 |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
http://forums.anandtech.com/showpost...postcount=2166
dresdenboy copia le mie teorie......su quanto sia vantaggioso ridurre il fo4 con i finfet. tuttavia, nel caso in questione, non ne farei una questione di efficienza, sarebbe a dir poco miracolo che nvidia con un +40% di clock, rispetto alle sue vecchie GPU e su Polaris, avesse creato un ulteriore gap in efficienza... D'altra parte basta vedere l'andamento dell'assorbimento, per rendersi conto che in Polaris mancano le ottimizzazioni viste in Fiji. AMD è partita semplicemente dal progetto più snello per fare quello complicato. solo il tempo (la disponibilità effettiva della gtx1060) ci dirà se AMD ha fatto la scelta giusta. |
|
|
|
|
#4226 | |||||
|
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
Quote:
D'altra parte è l'A9 che equipaggia l'iPhone, mentre nell'articolo in questione si parla dell'A9X, che non troviamo in un notebook, ma in un tablet. In quest'ultimo caso sarebbe meglio prendere uno Skylake Core-M come riferimento. Quote:
Apple ha investito vagonate di soldi per questo design proprietario che si distingue nettamente da tutti gli altri, mentre AMD, come sappiamo, non naviga in buone acque da tempo. Quote:
Quote:
Solo che mi pare che, a occhio, i dati si discostino molto dalla tabella all'appendice B del manuale 47414 - "Software Optimization Guide for AMD Family 15h Processors", che parte da pagina 244, e per la quale vedo sostanzialmente lo stesso numero di istruzioni fastpath double e microcodificate, per lo meno per Bulldozer. A occhio, come ho detto, per cui non sono dati precisi, ma scorrendo l'impressione è quella. E dunque sono ben meno dell'1%. D'altra parte ci sono microcodificate pure nuove e utili istruzioni (per i campi di bit, ad esempio).
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
|||||
|
|
|
|
#4227 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
Alcune istruzioni in AMD possono essere microcodificate perchè non previste quando fu fatto il core RISC, quindi non esistono uop per implementarle efficientemente... BD è un progetto vecchio... Piuttosto che non implementarle, le faccio microcodificate...
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
|
|
|
|
|
#4228 |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
su k12, l'ha detto il capo-progettista che k12 ha un motore più grande di ZEN, con questo penso che alludeva proprio al numero di decoder.
Apple è partita con un know how striminzito rispetto AMD...la quale ha profonde conoscenze anche sul SMT ![]() fonte: Intel Ultima modifica di tuttodigitale : 13-07-2016 alle 12:42. |
|
|
|
|
#4229 |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
sui bench in questione ho non poco perplessità...
la navigazione internet, secondo anandtech, scala fino a 8 thread. E in quel test Bapco |
|
|
|
|
#4230 |
|
Senior Member
Iscritto dal: Feb 2016
Città: Parma
Messaggi: 13030
|
Scuate l'ingenuità.
Perché tanto riserbo sulla nuova piattaforma? Pensano che la concorrenza potrebbe copiarli?
__________________
AMD Ryzen 5 5600X - 2x16 GB G.Skill Trident Z Neo Series 3600 MHz CL16 - MSI B550 Gaming Plus - AMD RX6600 8GB - AOC FHD G-Sync Compatibile |
|
|
|
|
#4231 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 32011
|
A livello teorico...
Oggigiorno un notevole incremento di potenza del core sarebbe possibile unicamente abbandonando la zavorra compatibilità X86.... ma visto che questo non è possibile, a me sembra che incrementi tangibili di IPC ci sono solamente in occasione di implementazione di nuovi set di istruzioni (es AVX vs core senza AVX, AVX2 ecc...). Leggendo i post, tipo le differenze su Intel/AMD, tipo quanti istruzioni possono essere risolte a ciclo o su n cicli, il dubbio che mi viene è quanto poi effettivamente questo si traduca nella realtà, perchè se poi la sequenza elaborativa dipende da più risultati da concatenare assieme, anche una velocità doppia di una parte alla fine potrebbe significare incrementi quasi nulli nell'insieme. Anche poi l'SMT, visto come SMT2, 4 8, ecc., ha un limite ben definito (100% del core) e quindi alla complessità di un core + SMT8 sarebbe preferibile quella di 2 core con SMT "normale". Ma sti cacchi di proci con 1000 core della grandezza di un X6 + SMT normale... come funziano? Perchè a me sembra che la corrente sia quella di realizzare un core prestazionalmente inferiore (ma anche notevolmente più piccolo) ma poggiando su una miriade di sti core, è come se si avesse un SMT a n vie ma in realtà, al posto di avere una parte che "tiene" i dati per farli elaborare nella stessa parte logica di quel core, avrebbe a disposizione un core "tutto suo".
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CPU-Z 19207 - CB23 49265 - CB24 2593 |
|
|
|
|
#4232 |
|
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24171
|
Seguo AMD da prima dei K8 e c'è sempre stato il riserbo su piattaforme/CPU in fase di sviluppo, ma questo è una cosa normale anche per le altre aziende...
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright |
|
|
|
|
#4233 | ||||||||||||
|
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
Ed è sicuramente il motivo per cui Intel è passata dal primo decoder 4-1-1 all'ultimissimo 4-1-1-1-1 di Skylake: evidentemente il codice fa uso di configurazioni che sono digeribilissime da questo tipo di decoder. Non potrebbe essere altrimenti, visto che ormai da tantissimi anni il codice è generato da compilatori che ottimizzano tenendo conto di parecchie variabili, fra cui questa. Tutte cose che incidono in tutti i sensi (complessità del progetto, transistor impiegati, consumi, prestazioni) sulla realizzazione della microarchitettura, e che emergono da uno studio più approfondito. Infatti certe scelte che a primo acchito sembrerebbero strane, diventano lampanti e oserei direi, riflettendo su tutte queste cose. Com'è anche chiaro che, pur avendo fini comuni e usando tante volte soluzioni simili, gli ingegneri di AMD e Intel hanno, in generale, filosofie estremamente diverse nella realizzazione dei rispettivi progetti. Ed è anche un bene che sia così: è la diversità che porta al progresso, sperimentando soluzioni innovative. Quote:
Comunque BD ha radici profonde nei precedenti progetti, e sicuramente fin dai vecchi Athlon, tant'è che nel manuale per le ottimizzazioni AMD s'è lasciata sfuggire parecchie volte i termini DirectPath e VectorPath, che ormai sono stati sostituiti da fastpath single/double e microcode. Inoltre anche se BD è un progetto vecchio (ma nemmeno tanto, alla fine), non vuol dire che sia tutto da buttare. Infatti non penso proprio che la codifica di MOP & uop, nonché la loro esecuzione, sia radicalmente cambiata coi suoi successori. Tutt'altro. E penso che anche Zen continuare a portarsi dietro buona parte di BD e predecessori. Semplicemente certe cose non ha alcun senso buttarle vie, a meno che non decidi di tentare una strada completamente diversa, riscrivendoti tutto; ma i costi sarebbero troppo elevati, e l'azzardo potrebbe non pagare. Quote:
Quote:
Per non parlare di Keller, che è stato lì per parecchi anni. Quote:
Tanti bei transistor risparmiati, e consumi ridotti. Quote:
Comunque non so cosa intendesse AnandTech, ma il parsing delle pagine web è un processo single core/thread. E' il rendering che può essere scaricato dalla CPU alla GPU, ma in questo caso si stressa la GPU, per l'appunto. Ma la cosa più importante è che ormai Javascript domina nel web, e la sua VM è rigorosamente single core/thread. Sono state proposte delle estensioni per i cosiddetti "worker", e dunque introducendo finalmente un minimo di multithreading/processing, ma non mi pare siano state ratificate nello standard. Soprattutto, e ben più importante, richiederanno la scrittura di apposito codice per poter essere sfruttate, con tutte le implicazioni che ne derivano (ogni riferimento alla parallelizzazione del codice non è affatto casuale Dunque ho anch'io i miei (forti) dubbi, ma sulle affermazioni di AnandTech. Quote:
Quote:
Quote:
Ma anche qui sorge il problema di cui parlavo prima: la parallelizzazione / vettorizzazione del codice, che non è affatto banale, QUANDO ciò è possibile, e con un certo costo. Detto in altri termini, se il compilatore ha buone abilità di autorizzazione, allora va bene. Altrimenti la strada è tutta in (ripida) salita. Quote:
Quote:
In quello consumer no, perché la latenza / tempo di risposta è molto importante. Quote:
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
||||||||||||
|
|
|
|
#4234 | |
|
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Quote:
http://www.anandtech.com/show/9686/t...-plus-review/4 Apple fa paura con i suoi miliardi... Ultima modifica di Ren : 13-07-2016 alle 23:12. |
|
|
|
|
|
#4235 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Se parti da frequenze basse, e col nuovo processo produttivo hai un notevole boost, non è nulla di eccezionale.
Fermo restando che per il gran lavoro svolto già con l'A8 è normale che poi Apple stia capitalizzando i frutti del buon design.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
|
|
|
|
#4236 | |
|
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Quote:
Più 35%(specint) di media di solo IPC, senza considerare il clock. Ultima modifica di Ren : 13-07-2016 alle 23:30. |
|
|
|
|
|
#4237 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Visto adesso. Oltre alla pipeline più corta, hanno aumentato le unità d'esecuzione e triplicato la L2.
Notevole. EDIT: la L3 è stata rimossa solo su l'A9X.
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys Ultima modifica di cdimauro : 14-07-2016 alle 06:51. |
|
|
|
|
#4238 | |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
Di certo in pochi anni hanno fatto un ottimo lavoro . Ma la domanda era perchè AMD non sarebbe in grado di fare una CPU ARM 6-wide. con ben 4 anni di sviluppo all'attivo? Per quanto mi sforzi mi pare un poco improbabile che AMD non sia in grado di fare molto meglio di Apple Sui sintetici di quel tipo, ho sempre espresso le mie perplessità...finchè non si capisce bene cosa faccia sembrano davvero inutili, e fuorvianti...comunque non devi dirmelo tu che un core m, fa piazza pulita di ogni altra CPU...invero anche il semplice Atom per molte architetture ARM (tutte le altre) fa paura, anche se molti fanno finta di non vedere Ultima modifica di tuttodigitale : 14-07-2016 alle 09:13. |
|
|
|
|
|
#4239 | |
|
Senior Member
Iscritto dal: Sep 2010
Messaggi: 4387
|
Quote:
il fatto che AMD abbia pensato addirittura di posticipare ZEN per k12, mi fa pensare che k12 sia una cpu degna di nota (come se non bastasse il ritorno alla lettera K nel nome in codice...) Ultima modifica di tuttodigitale : 14-07-2016 alle 09:25. |
|
|
|
|
|
#4240 |
|
Senior Member
Iscritto dal: Jan 2002
Città: Urbino (PU)
Messaggi: 32011
|
@Ren
Quello che intendevo con più istruzioni elaborate a ciclo è che se prendiamo come dato 2 elaborazioni a ciclo vs 1 elaborazione a ciclo, il risultato sarebbe +100%, ma su un arco di 10 cicli un +100% solo in un ciclo e gli altri 9 uguale, l'incremento sarebbe solamente di 11 istruzioni vs 10, se poi ci aggiungessimo un discorso di elaborazione parallela su più core dove si dovrebbe aspettare il risultato di un core, l'impatto alla fine sarebbe di un guadagno ancora inferiore... Chiaro che meno cicli per risolvere un'istruzione è meglio, ma bisogna vedere tutto il complesso. Per fare un altro esempio, PD non risolve le AVX2 nativamente, in quanto supporta solamente le AVX, quindi facendo una comparazione PD vs XV solamente su velocità sulle AVX2, XV risulterebbe avere un'IPC mostruoso, probabilmente del 50-60% superiore a PD, mentre se specificatamente solamente AVX risulterebbe avere incrementi marginali. Poi è chiaro che in media avrebbe 15-20% in più XV su PD per tutte le altre migliorie. Comunque Zen per andare quanto 2 8350 in combinata ad un incremento di IPC ~+65% (valutando +40% o >+40% su XV come dichiarato da AMD), il clock dovrebbe essere ~=>3,7GHz. Ma nel caso di un SMT >+30%, è ovvio che basterebbe una frequenza inferiore. Zen con un margine di +40% su XV, comunque in ST necessiterebbe di una frequenza ridicola turbo per pareggiare XV... perchè 100 +40% = 140, già con Zen con -29,5% di frequenza rispetto a XV, riuscirebbe ad ottenere la stessa potenza ST, e e 4,3GHz XV -30% = 3GHz... se il 14nm GF non riuscirebbe manco ad arrivare a 3GHz in turbo.... Non è che faccio un discorso di bandiera... cerco solamente di capire quali siano le possibilità dell'architettura Zen per ottenere quanto AMD dichiarato ufficialmente da AMD con PP silicio differenti e differenti possibilità architetturali.
__________________
9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CPU-Z 19207 - CB23 49265 - CB24 2593 |
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 20:13.



















