|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#3841 |
|
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
comunque io non sto parlando di unita' ALU.. la mia ipotesi si basa su una logica di parallellizzazione delle micro-ops (chiamiamoli "pacchetti di micro-ops, se preferite) sulle due unità INT (quindi sulle alu della unità).. proprio come in un crossfire o in un SLI. Il discorso delle istruzioni parallelizzate non c'entra:
se do ad una sola unita' l'istruzione 1, poi la 2, poi la 3 e poi la 4.. teoricamente ricevero' in output le istruzioni in questo ordine (al max le riordino). Se do alla prima unita' l'istruzione 1, e mentre questa elabora grazie al fetch potente ed al decode potente riesco ad avere gia' pronta l'istruzione 2, potro' darla alla seconda unità. quando la prima unita' sara' pronta a ricevere un'altra istruzione io la avro' pronta, per poi dare nel mentre dell'elaborazione l'istruzione 4 alla seconda unità. Supponendo le unita' di eguale potenza elaborativa, allora l'ordine di output della seconda opzione sarebbe lo stesso della pirma, con pero' la particolarità di poter eseguire le 4 istruzioni in un tempo minore. E' per questo che mi veniva in mente l'esempio dell'SLI. Ovviamente lo scheduler e la retire dovrebbero essere unificate.. Magari sono stupidate, ma secondo me potrebbe essere possibile.. Potrebbe essere una soluzione per aumentare di molto la potenza sugli interi, no? vabbe', in fondo e' solamente una ipotesi probabilmente strampalata, quindi vedremo quando avremo qualcosa di piu' certo riguardante l'architettura!
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 Ultima modifica di Gigamez : 04-10-2010 alle 22:02. |
|
|
|
|
#3842 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Scusami se non potrò dare una risposta esaustiva, ma il mio schifobook con atom ha finito la batteria. Stai facendo un pò di confusione, quello che descrivi gia avviene dai tempi del Pii\p pro con la logica OoO e la fowarding network
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
|
|
|
|
#3843 | |
|
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
Intendevo dire che il flusso di dati sarebbe in entrambi i casi il medesimo, semplicemente raddoppiato, a patto che i decoders riescano ad essere veloci abbastanza per "dare da mangiare" ad entrambe le unità. Il vero problema infatti sarebbe proprio li': bisognerebbe decodificare al doppio della velocità, altrimenti sarebbe appunto totalmente inutile.. vabbe', mi fermo qui, sto andando forse troppo oltre con queste appunto fantasiose ipotesi, e sicuramente sto sbagliando qualcosa
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 |
|
|
|
|
|
#3844 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
Certo, sarebbe bello ma...lo scheduler avrebbe dovuto gestire due thread contemporaneamente in SMT (possibile, ma non è certo agevole visto l'instruction set), la cache dL1 avrebbe dovuto essere unificata (con tutti i problemi che ne conseguono in caso di stallo di un solo thread), il retirement sarebbe dovuto essere unificato. Senza contare che se non aumentano ulteriormente le unità di esecuzione della ALU evidentemente c'è un limite pratico al numero di unità che possono essere sfruttate contemporaneamente con istruzioni x86. Quindi probabilmente questa ALU non porterebbe ad effettivi miglioramenti rispetto alle due separate. |
|
|
|
|
|
#3845 | |
|
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
Quello che mi sembra "strano" è: Un th è codificato per avere un flusso dati ottimizzato per 2-3 pipeline. Ammettendo che la logica interna possa far vedere il secondo int come un'estensione del primo l'ipc si può migliore utilizzando questa capacità di calcolo, oppure rimarrebbe inoperoso? Il guadagno derivante dall'utilizzare due unità di calcolo separate basterebbe a compensare l'innalzamento della latenza derivante dalla necessità di leggere e scrivere nella L2? Certo che se la fpu possa operare sia in modalità 1x256, 2x128 e 4x64 non vedo perchè gli int (se opportunamente strutturati) non possano venire usati in parallelo. |
|
|
|
|
|
#3846 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
Nel caso di due thread in SMT è la politica dello scheduler a decidere come assegnare le unità di calcolo fra i vari thread. |
|
|
|
|
|
#3847 | |
|
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
Riguardo a quello che gia' succede, sono d'accordo nel senso che ogni INT unit avendo a disposizione varie ALU lavora gia' in modo parallelizzato.. ma immagina delle sorte di "pacchetti" di istruzioni mandate in maniera alternata.. pensi davvero in un caso del genere non possa essere possibile un guadagno prestazionale?
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 |
|
|
|
|
|
#3848 | |
|
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
Se fosse bastato raddoppiare le pipeline dell'alu (con tutto quello che c'è dietro) avremo un aumento della superfice per core al massimo del 20% con un ipc teorico del doppio. Consideriamo anche il raddoppio delle cache L1 e L2 sarebbe stato, per i produttori di cpu, più agevole questa operazione che puntare al multi core per avere un raddoppio dell'ipc con un risparmio della superfice di almeno il 60% rispetto ad un dual. Ma se così non è significa che oltre un certo numero di pipeline (3) il guadagno di ipc non è proporzionale al costo su silicio. Io continuo a rimanere dell'idea che il massimo che si possa fare per aumentare l'ipc del singolo th in un modulo sia quello di poter ridurre (se possibile) i cicli di attesa in caso di stallo delle pipeline swichando l'alu (e credo che al massimo si possa raggiungere il 5%) |
|
|
|
|
|
#3849 | |
|
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
Comunque, in effetti non sarebbe proprio tutto "rosa e fiori".. Si risparmierebbe tantissimo silicio e si avrebbero prestazioni teoricamente doppie sugli interi, ma una architettura di questo tipo sarebbe piuttosto complessa da gestire, soprattutto nella fase di decode. Bisogna creare due veri e propri "flussi" di pacchetti di istruzioni cercando di far si che i pacchetti del primo flusso non siano in dipendenza sequenziale rispetto ai pacchetti del secondo flusso. Praticamente bisognerebbe avere una sorta di secondo branch prediction sui due rami, oltre che quello "classico" sulle istruzioni ed quindi un ulteriore algoritmo di ordinamento in base alle dipendenze sui flussi di pacchetti.. non sarebbe uno scherzo, senza contare che servirebbero logiche di fetch, decode, scheduling e retire che siano decisamente piu' veloci (e magari complesse) del normale.. o sbaglio?
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 Ultima modifica di Gigamez : 05-10-2010 alle 11:49. |
|
|
|
|
|
#3850 | |
|
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
Sulla prima parte piuttosto come giustifichi l'aumento di ipc in s-th passando da 4 pipeline del c2d alle 3 di I7 (oltretutto contese tra due th con l'smt attivo)? |
|
|
|
|
|
#3851 | |
|
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Quote:
Ultima modifica di Ren : 05-10-2010 alle 12:32. |
|
|
|
|
|
#3852 | |
|
Senior Member
Iscritto dal: Dec 2008
Città: Milano
Messaggi: 512
|
Quote:
Per quanto riguarda il numero di ALU penso che vada considerato non solo il loro numero, ma anche la loro effettiva efficienza prestazionale, legata sia ai branch prediction, sia al numero ci cicli relativo alle tipologie di micro-ops eseguibili, sbaglio? Ma secondo me (ed e' un discorso che penso sia a prescindere dall'architettura OoO) in qualunque caso se ad esempio una unità INT di potenza elaborativa data e composta ad esempio da 3 alu è in grado di processarmi un "pacchetto di istruzioni" composto da "X" micro-ops in "Y" tempo.. nello stesso intervallo di tempo "Y" secondo uno schema di distribuzione alternata su due unità intere identiche alla prima data (ammesso non si siano errori di predizione) potremo processare due pacchetti di di istruzioni di eguale complessità, quindi 2X micro-ops. il flusso di output sarebbe identico, quindi anche gli algoritmi di ri-ordinamento sarebbero i medesimi. ammettendo un caso del genere con "pacchetti" di operazioni.. secondo voi servirebbero due scheduler? (uno per modulo) Penso sicuramente almeno una memoria di bufferizzazione per i pachetti di istruzioni per ogni modulo, sbaglio? ditelo se sto divagando troppo, ehh?
__________________
Case Cooler Master NR200P | M/B Asus Strix x470i gaming itx | Proc AMD Ryzen 5800X3D | RAM Corsair Veng. 32Gb DDR4 3000 cl15 | GPU Gigabyte nVidia 1080ti OC | Ali Cooler Master SFX 850w | SSD Crucial MX300 m.2 1Tb | Dissi Artic Liquid Freezer II | Monitor AOC Agon AG271QG (gSync ON) | Keyboard Logitech g915 | Mouse Logitech g502 | Audio Logitec g935 |
|
|
|
|
|
#3853 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
|
|
|
|
|
|
#3854 |
|
Senior Member
Iscritto dal: Jan 2010
Città: Torino
Messaggi: 485
|
Per quanto riguarda il discorso dell 80% di prestazioni del modulo rispetto un design classico,JF ha escluso tutto.
Dal blog AMD, JF risponde ad uno che gli chiedeva informazioni a riguardo... TIPO:u said many times..your bulldozer core will be better than one curent core..other times bulldozer core will have 80% perfformance from a current core.what is right version,make it clear please? JF:We have never said that Bulldozer would be 80% of the performance of current cores. This was a different statement about a different product. http://blogs.amd.com/work/2010/10/04...stions-part-4/ |
|
|
|
|
#3855 | |
|
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
Che le speculazioni fatte prima su un possibile supercore (sia le mie che quelle di Gigamez) non siano davvero implementate in qualche modo? |
|
|
|
|
|
#3856 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
E' normale che la iL1 sia condivisa, visto che i primi stage sono in comune fra i due thread. Era una cosa nota tra l'altro.
|
|
|
|
|
#3857 | |
|
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24170
|
Quote:
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright |
|
|
|
|
|
#3858 | |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Quote:
Inutile quindi usare quel 80% per cercare di capire le prestazioni, visto che si riferisce a se stesso |
|
|
|
|
|
#3859 | |
|
Bannato
Iscritto dal: Oct 2005
Città: In giro per il mondo
Messaggi: 5824
|
Quote:
superfice-dualcore/ipc |
|
|
|
|
|
#3860 |
|
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24170
|
AMD conferma: Bulldozer era nato a 45nm!
Come più volte ipotizzato sul thread del K10 il progetto originale di Bulldozer prevedeva l'utilizzo dei 45nm SOI; l'uscita era prevista per fine 2009 e doveva scontrarsi con le CPU Nehalem di Intel. Durante lo sviluppo il progetto Bulldozer a 45nm fu abbandonato e rivisto (aggiunta delle istruzioni AVX e abbandono delle SSE5) per i 32nm SOI. AMD non specifica cosa andò storto e se il vecchio Bulldozer era uguale al nuovo come concetto architetturale, tuttavia nei mesi che seguirono su intrapresa la configurazione di tipo MCM per le CPU Opteron a 8/12 core e l'utilizzo del Low-k sulle CPU Six core Thuban destinate al mercato Desktop. “How much resemblance does your today’s Bulldozer architecture have to the original design?” – Tye As you are aware, when we initially designed “Bulldozer,” we were working with a more modular processor design. The original “Bulldozer” design was 45nm. But as development progressed, it became clear that the 45nm design that we had been working on was not going to be as competitive as we would have liked. With the world watching your every move, all product decisions become very public (how many articles have you seen about “Bulldozer” in the press?) It is never an easy decision to make substantial changes to your product roadmap, but sometimes you have to make the tough call because it is the right thing to do. It helps when your partners are behind you and agree with the changes – sometimes a little short-term pain is necessary for a long-term gain. We obviously aren’t going to get into specific design changes, but we think that the 32nm “Bulldozer” can bring a lot of benefit to our product due to smaller transistor size (which can help drive down the power envelope). By going for lower power, we hope to give you more room for compute cores, FP capabilities and more. In addition, bringing the AMD Opteron™ 6100 Series processors to market allowed us to deliver an MCM design to market, which validated that technology. Having the SR5600 series chipsets, with more than a year under their belt, means that platform validation should be much easier for our partners. One of the biggest beneficiaries of a 32nm design is not necessarily a new technology added to the processor as much as it is the socket, chipset and platform work that happened ahead of the “Bulldozer” release. Clicca qui...
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright |
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 16:34.



















