|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#181 |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Finalmente l'architettura ufficiale!
Da queste slide si capiscono le seguenti cose: - Buldozer potrà avere solo un numero di cores pari. - Differenze e somiglianze tra HyperThreading INTEL e doppio core AMD: - Fetch e decode unico per due thread per entrambi gli approcci. - Unità FP condivisa tra i due thread per entrambi, ma essendo le due unità FP uguali, possono essere accopiate per fare una istruzione a 256 di un solo thread (il mitico reverse HyperThreading), mentre i core INTEL hanno si due unità FP, ma una fa solo addizioni e una solo moltiplicazioni. - Unità intere SEPARATE per l'architettura AMD. E in più le pipeline sono 4. Se sono uguali a quelle del K8/9/10, ossia formate da una ALU+AGU, allora è un passo in avanti. Se sono 4 ALU come quelle INTEL, allora è un passo indietro, ma comunque rispetto a INTEL è un passo in avanti, perchè i 2 thread si contendono 4 ALU, mentre qui i 2 thread hanno il proprio set di 4 ALU dedicate. - Cache L1 dati (e unità load store) separate: grande vantaggio AMD - Cache L2 condivisa: siamo pari. Quindi il pubblicizzare questo cluster di due core, come due core separati è giustificato. Le unità FP nel K8/9/10 sono 3, ma non sono generiche. Qui abbiamo 2 unità FP a 128 bit generiche. Quindi lo scheduling dovrebbe essere semplificato.
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
|
|
|
|
#182 | |
|
Senior Member
Iscritto dal: Mar 2005
Città: Castiglione Olona
Messaggi: 22637
|
Se interessa, questa è la roadmap 2010/2011 direttamente da AMD Italia:
Quote:
__________________
|
|
|
|
|
|
#183 | |
|
Senior Member
Iscritto dal: Apr 2005
Città: Napoli
Messaggi: 6817
|
Quote:
__________________
0 A.D. React OS La vita è troppo bella per rovinarsela per i piccoli problemi quotidiani... IL MIO PROFILO SOUNDCLOUD! |
|
|
|
|
|
#184 | |
|
Senior Member
Iscritto dal: Jan 2007
Messaggi: 24996
|
Quote:
|
|
|
|
|
|
#185 | |
|
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24170
|
Quote:
![]() una cosa volevo chiederti: Corsini nel suo articolo dice che AMD con Bulldozer ha prediletto i calcoli interi piuttosto che quelli in virgola mobile, lasciando quest'ultimi tra i due cluster integer, oppure dedicate specificamente ad uno dei due core per ogni ciclo di clock. Che ne pensi? mi sembra un pò troppo limitante... (premetto che la mia competenza in questi argomenti è sotto al noviziato
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright |
|
|
|
|
|
#186 | |
|
Senior Member
Iscritto dal: Jan 2007
Messaggi: 24996
|
Quote:
|
|
|
|
|
|
#187 |
|
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24170
|
Ok , però i primi esemplari di Bulldozer non avranno le GPU integrate...
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright |
|
|
|
|
#188 | |
|
Senior Member
Iscritto dal: Jan 2007
Messaggi: 24996
|
Quote:
ti faccio un banale esempio attuale: un intel core i7 per convertire un file video ci impega x (in unità di tempo), una scheda ati ne impiega x-1 (son dati appurati) allora perchè utilizzare il processore in questi ambiti? non avrebbe senso giusto ergo amd non specializza la cpu manco nel farlo e passano attraverso la gpu. Io mi aspetto dei software ottimizzati fusion che permettano un giusto carico delle varie componenti del sistema e le utilizzi quando han vantaggi. Probabilmente soluzioni buldozzer accoppiate a soluzioni nvida non daranno le stesse prestazioni in ambito 2d come buldozzer + ati.
__________________
[CPU]AMD Ryzen 7700X[RAM] 32Gb corsair vegance 6000Mhz CL30[Storage] 3 GB Kingstone NVe PCIE 4[mobo]Asus TUF B650 plus[vga]XFX 6750XT 12 Gb vram [PSU]Corsair RM 850i Ultima modifica di okorop : 12-11-2009 alle 18:44. |
|
|
|
|
|
#189 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Se posso permettermi, potrei parlarne io. Premetto che possono essere solo castronerie: Dunque quello che ha detto corsini non è proprio vero. Infatti la unità Fp è composta due parti speculari con ampiezza a 128bit. Se nel thread che sta eseguendo la cpu sono presenti vettori a 256bit allora il thread che richiede il vettore monopolizzerà la Fp per un ciclo di clock per eseguire l'operazione, da come si evince nella slide, l'unità amd è un FMAC, ovvero in grado di eseguire oltre a moltiplicazioni, addizioni, ed altre operazioni aritmetiche anche operazioni con la memoria (MOV) conversioni ed altro. Questo implica che le unità da 128bit siano dual ported ognuna verso la cache, dunque ognuna di essa può eseguire 2 operazioni per ciclo di clock. Questo approccio nasce dal fatto che le unità FP nel software corrente sono sottoutilizzate, essendo la maggioranza di istruzioni di tipo integer e sopratutto istruzioni che lavorano con la memoria( e speriamo che vi siano 4 agu). Quindi per farti un esempio un k10 può eseguire nella stragrande maggioranza dei casi possibili, NB non avviene quasi mai per il motivo detto sopra sulla natura del codice, 2 operazioni aritmetiche FP + un operazione non aritmetica. Buldozzer essendo strutturato cosi portebbe eseguire, essendo lo scheduler FP dedicato tra 2 core, 4 operazioni FP, 2 aritmetiche e due non, con conseguenza miglior sfruttamento delle risorse. Come detto primase ho detto cassate correggetemi.
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita Ultima modifica di Pihippo : 12-11-2009 alle 18:59. |
|
|
|
|
|
#190 | |
|
Senior Member
Iscritto dal: Nov 2003
Messaggi: 24170
|
Quote:
Inoltre si rischia di avere, in alcuni casi, un Llano per il mercato mainstream più veloce di un Bullodozer per il mercato enthusiast...
__________________
AMD Ryzen 9600x|Thermalright Peerless Assassin 120 Mini W|MSI MAG B850M MORTAR WIFI|2x16GB ORICO Raceline Champion 6000MHz CL30|1 M.2 NVMe SK hynix Platinum P41 1TB (OS Win11)|1 M.2 NVMe Lexar EQ790 2TB (Games)|1 M.2 NVMe Silicon Power A60 2TB (Varie)|PowerColor【RX 9060 XT Hellhound Spectral White】16GB|MSI Optix MAG241C [144Hz] + AOC G2260VWQ6 [Freesync Ready]|Enermax Revolution D.F. 650W 80+ gold|Case Antec CX700|Fans By Noctua e Thermalright |
|
|
|
|
|
#191 |
|
Senior Member
Iscritto dal: Jan 2007
Messaggi: 24996
|
non escludo la possibilità di una scheda video integrata nel chipset anche per soluzioni enthusiast, magari senza uscita video, ma dedicata a fare proprio i calcoli in cui il processore e carente, con inoltre la possibilità di adottare soluzioni hybrid crossfire con lo spegnimento delle vga dedicate per un risparmio energetico
__________________
[CPU]AMD Ryzen 7700X[RAM] 32Gb corsair vegance 6000Mhz CL30[Storage] 3 GB Kingstone NVe PCIE 4[mobo]Asus TUF B650 plus[vga]XFX 6750XT 12 Gb vram [PSU]Corsair RM 850i Ultima modifica di okorop : 12-11-2009 alle 19:32. |
|
|
|
|
#192 |
|
Senior Member
Iscritto dal: Sep 2009
Messaggi: 5582
|
|
|
|
|
|
#193 | |
|
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Quote:
Quali saranno le unità che calcoleranno l'indirizzo delle cache ? Vedendo 4 pipeline intere, mi viene da pensare ad una composizione 4alu + 4 agu 64bit indipendenti o concorrenti (stile P6), che al occorrenza calcolano insieme un indirizzo a 256bit. Sparo sta boiata, perchè lo schema del bobcat specifica espressamente le unità alu e L&S, invece nel bulldozer c'è un generico integer pipe. Queste unità dovranno manipolare 256 bit di dati verso ogni singola cache, quindi non si potranno condividere le unità address dei due cluster,perchè ogni indirizzo fa capo ad una cache L1 data, tranne che le due cache siano in mirroring, cioè condividano gli stessi dati. La LSU di ogni cluster dovrà avere almeno due porte a 128bit in lettura o scrittura. Ovviamente, sempre se le AVX 256 saranno eseguite in un ciclo. Scusate se ho sparato delle amenità... Ultima modifica di Ren : 12-11-2009 alle 20:23. |
|
|
|
|
|
#194 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Le agu del k10 calcolano tuttora gli addresses in un singolo ciclo di clock. . Gli indirizzi delle cache\ram verranno sempre calcolati dalle agu, inoltre le L1 data sono reserved per ogni cluster di integer mentre vi sarà una singola grossa L1 instructions. Ogni cluster dispone di 4 integer pipe(dalla slide ho capito questo) e considerando la tendenza di Amd nella progettazione delle sue cpu di accorpare operazioni logiche\aritmetiche ad operazioni di memoria(i decoder amd mandano ognuno 3 mop agli scheduler, costituite da 2 op matematiche\logiche più op di memoria) si può pensare che ogni cluster avrà un proprio set di agu. Inoltre la agu calcolano l'indirizzo di memoria, ma è la L\S unit che dovrà avere un datapath verso la cache di 256bit per poter caricare\salvare in un singolo ciclo di clock gli operandi nella memoria(oppure 2 cicli se saranno a 128bit) Dunque l'ampiezza da valutare non è quella delle agu(almeno cosi ho capito che funzionano le address generator uniti) ma delle unità di load e store.
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
|
|
|
|
#195 | |
|
Senior Member
Iscritto dal: Apr 2003
Città: Roma
Messaggi: 3237
|
Quote:
Sulla LSU mi sono spiegato male, ho ipotizzato l'obbligatorietà di almeno due porte load a 128bit o due porte store sempre a 128 bit. Attualmente il k10 dispone di due unit LSU, una effettua due store a 64bit ed un altra che effettua due load a 128bit. Il datapath verso la L1 Data è 256bit(2vie). Ultima modifica di Ren : 12-11-2009 alle 20:34. |
|
|
|
|
|
#196 |
|
Senior Member
Iscritto dal: Sep 2005
Messaggi: 4337
|
Sono molto di fretta, quindi scrivo giusto due righe: riguardo all'utilizzo della gpu per le operazioni floating point, non è una cosa fattibile, perchè la gpu non esegue le classiche istruzioni che eseguono le cpu (x86, mmx, sse, x64, etc, etc). Non accadrà presto (e non certo entro l'uscita di buldozer) di vedere la totalità del software in grado di sfruttare la potenza elaborativa di una gpu. Saranno ancora a lungo (relativamente) pochi software a farlo, e solo quelli che usano le istruzioni DirectCompute, o OpenCL (o al più cuda per nvidia, e CAL per ati).
Non avrebbe senso quindi che amd rinunciasse ai calcoli fpu nella cpu.
__________________
I7 3930K: @ 4400 @ 1.32V, su ASUS P9X79 Deluxe - RAM: 16GB Geil 4x4GB @ 2133Mhz - Video: ATI HD6970 @ 1000 / 6000 - HD: SSD OCZ Vertex2 120gb + RAID0: 2XHitachi Deskstar T7K250 250gb SATA2 - P.S.U. Corsair TX850M - Monitor Iiyama B2712HDS LCD 27'' - Cooled by: Ybris Eclipse + Ybris ACS-G + SILENTstar HD-Quad Rev2.0 + WaterStation HomeMade: Doppio Rad triventola + Pompa Sanso PDH054
|
|
|
|
|
#197 | |
|
Senior Member
Iscritto dal: Sep 2008
Città: Provincia di reggio, costa dei gelsomini :D
Messaggi: 1691
|
Quote:
Per quello che ne capisco io, no. Comunque il k10 ha solo 1 L\S unit. Però questa Load\Store unit ha 2 code. LS1 accetta le operazioni di Load a 128bit e ne può eseguire 2 per ciclo(contro 1 di penryn), mentre LS2 accetta le operazioni di store a 128bit ma è capace di scrivere solo 64bit alla volta, quindi c'è ne vogliono 2 di cicli, infatti i k10 hanno un'elevata velocità di lettura della memoria ed una modesta di scrittura.
__________________
Amore mio, forza ed onore, io sono nel cuore tuo. Insieme ce la possiamo fare, a vincere questa battaglia per la vita |
|
|
|
|
|
#198 |
|
Senior Member
Iscritto dal: Apr 2005
Messaggi: 2905
|
iscritto
__________________
acquistato con soddisfazione da: SHIVA>>LuR<< Jokerpunzk,Markenforcer,vkbms, campioni del mondo,mstella. Venduto a: maxVi, gabrieletor, banaz, tdm70, raxxo, frantheman |
|
|
|
|
#199 |
|
Senior Member
Iscritto dal: Jan 2006
Messaggi: 1516
|
scusatemi potreste dirmi se i bulldozer saranno compatibili col socket AM3?
|
|
|
|
|
#200 |
|
Senior Member
Iscritto dal: Aug 2006
Messaggi: 11127
|
Sembra proprio di si.
__________________
PC1: LG 34UC79G - Ryzen 5600@4,65ghz CO-30 - MasterLiquid 240 - 32GB 2400 Corsair@3000 - Gigabyte GA-AB350M Gaming 3 - RX 6700XT - NZXT S340 Elite PC2: FX6300 - AC Freezer 64 pro - Gigabyte 990XA-UD3 - Sapphire HD7850 2gb - 8gb DDR3 Corsair 1333 - - Antec Two Hundred PC3: AMD A10 7700k - 8gb DDR3 2400mhz - SanDisk Plus SSD 240gb - CoolerMaster NSE-200-KKN1 |
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 23:07.

























