[Thread Ufficiale] Aspettando Bulldozer *leggere prima pagina con attenzione* - Pagina 257

cionci · 14-11-2010, 16:14

Quote:

Originariamente inviato da paolo.oliva2

Però... riflettiamo su una cosa:
Guardiamo Intel. Prima realizza un SB X4, poi l'X6 e X8.
Perché allora AMD realizza prima l'X8?

Esce prima X8 perché devono tappare il mercato high-end e anche perché probabilmente lo yield non è così alto da soddisfare l'intero mercato.

Quote:

Originariamente inviato da paolo.oliva2

Oppure, ma qui ci vuole uno che se ne intende

, potrebbe anche darsi che strutturando un modulo con 1 core, potrebbe essere inferiore il vantaggio rispetto a superficie/costo produzione, TDP/potenza, inquadrando il funzionamento in un discorso 1 core 2 TH conservando le unità di elaborazione ma scartando tutta la gestione di ingresso del 2° core.

Non hai detto una fesserie: il rapporto superficie/potenza è nettamente a favore del modulo con 2 int core. Però le prestazioni a parità di frequenza sono nettamente a favore del primo (presumo un 20% in più, con un IPC pauroso).
Secondo me, e la sparo, ora abbiamo capito quale sarà la CPU FX...saranno questi 4 moduli con singolo core int messi a frequenza leggermente maggiore dell'X4 più veloce (e con un TDP pari all'X8).

gi0v3 · 14-11-2010, 16:35

o un x16 portato a 8C/8M, con quad channel e tutto quello che ne consegue... però l'am3+ non basterebbe a quel punto... sarebbe un fx come gli fx di derivazione k9, su socket da server ma con memorie unbuffered, e magari dual socket

george_p · 14-11-2010, 16:44

Quote:

Originariamente inviato da Pihippo

Ciao
Un MCM sono in pratica 2 die collegati tra loro da un link HT ad alta velocità (ad esempio nel caso di magny c un link 3.0) ogni die ha il proprio memory controller e cosi in pratica in una singola cpu come magny c avresti 2 controller dual channel con prestazioni grezze di un controller solo ma quad channel, la spiegazione è molto maccheronica però

Grazie, non ero più sicuro che fosse quello, e parlando poi di integer e moduli avevo pensato a qualcosa di diverso... mmh vedrò di rileggermi il tutto, mi sto perdendo tra i transistor di BD

Pihippo · 14-11-2010, 16:48

Quote:

Originariamente inviato da cionci

Non hai detto una fesserie: il rapporto superficie/potenza è nettamente a favore del modulo con 2 int core. Però le prestazioni a parità di frequenza sono nettamente a favore del primo (presumo un 20% in più, con un IPC pauroso).
Secondo me, e la sparo, ora abbiamo capito quale sarà la CPU FX...saranno questi 4 moduli con singolo core int messi a frequenza leggermente maggiore dell'X4 più veloce (e con un TDP pari all'X8).

Ciao
Questi, se l'info è veritiera, saranno su socket g34, non so se verrano proposti su desktop, però c'è il fatto che questa configurazione qui è più adatta ad un uso desktop che server.
Magari il primo x8 che presentano per desktop sarà una configurazione simile a questa solo con un dual channel magari. Pensandoci bene forse disattivando un core int per modulo gli yeld salgono di qualcosina e cosi amd ci appioppa 8 core 8 m per desktop e quelli tutti buoni 8 moduli 16 core se li tiene per il server dove faranno faville.
Spero di sbagliarmi, perchè a questo giro i prezzi saranno abbastanza alti,

paolo.oliva2 · 14-11-2010, 18:14

Quote:

Originariamente inviato da cionci

Esce prima X8 perché devono tappare il mercato high-end e anche perché probabilmente lo yield non è così alto da soddisfare l'intero mercato.

k. Ok, per le zone di mercato, però... in visione futura, nel senso decisionale di 4 moduli 8 core o 4 moduli 4 core, se lo stesso esperimento lo facessero con un 2 moduli 4 core, non potrebbero mettere in commercio un X2... anche se fosse super.

Quote:

Non hai detto una fesserie: il rapporto superficie/potenza è nettamente a favore del modulo con 2 int core. Però le prestazioni a parità di frequenza sono nettamente a favore del primo (presumo un 20% in più, con un IPC pauroso).
Secondo me, e la sparo, ora abbiamo capito quale sarà la CPU FX...saranno questi 4 moduli con singolo core int messi a frequenza leggermente maggiore dell'X4 più veloce (e con un TDP pari all'X8).

Secondo me, ci può stare... il discorso FX.
Un FX aumenterebbe si i costi, ma aumenterebbe comunque pure gli incassi, e comunque sarebbe un'offerta aggiuntiva che non disturberebbe la vendita di BD a 2 core a modulo, e, nello stesso tempo, riporterebbe in auge l'etichetta FX.

Però, quello che non mi ingrana, è che si parla anche di triple-channel, il che potrebbe essere anche non un errore di battitura (qui), il che in teoria ci potrebbe realmente stare perché se il 32nm potrebbe garantire clock elevati, aumentando di molto l'IPC, non se il dual channel potrebbe bastare.
Ma a quel punto... il socket AM3+ allora sarebbe triple channel? Oppure solo le mobo per FX? Ma se solo per un sistema FX costerebbe troppo... perché la realizzazione di una mobo per uso esclusivo per FX, raggiungerebbe volumi scarsi da non poter rendere il prodotto su larga scala.

Però queste informazioni mi fanno propendere che BD di per sé sarebbe già realizzato, ma su svariati modi architetturali... e che ancora AMD stia valutando quale sia il migliore da produrre in volumi per la vendita.

paolo.oliva2 · 14-11-2010, 18:41

Quote:

Originariamente inviato da Pihippo

Ciao
Questi, se l'info è veritiera, saranno su socket g34, non so se verrano proposti su desktop, però c'è il fatto che questa configurazione qui è più adatta ad un uso desktop che server.
Magari il primo x8 che presentano per desktop sarà una configurazione simile a questa solo con un dual channel magari. Pensandoci bene forse disattivando un core int per modulo gli yeld salgono di qualcosina e cosi amd ci appioppa 8 core 8 m per desktop e quelli tutti buoni 8 moduli 16 core se li tiene per il server dove faranno faville.
Spero di sbagliarmi, perchè a questo giro i prezzi saranno abbastanza alti,

In teoria il tuo discorso non farebbe una piega, però mi suona strano.
Se un BD X8 con 4 moduli si parlava che era più piccolo di superficie rispetto ad un Thuban, un BD X8 ad 1 core a modulo dovrebbe essere almeno del 50% più grande di un Thuban... si arriverebbe a 500mm2 contro i 330 di un Thuban.
Ora, ipotizziamo questo: (previsioni, numeri a caso)

Secondo me... un BD X8 4 moduli, raggiungerebbe comunque lo scopo di AMD, cioè di commercializzare il procio più potente sul mercato...

BD X8 4 moduli = superficie die 300mm2
BD X8 8 moduli = superficie die 550mm2

Nel 1° caso, se avesse una finestra teorica di prezzo a partire dai 400€ (teorico), nel 2° caso, dovrebbe partire almeno dal doppio, cioé 800€ (Se noi considerassimo uno yield simile (tanto nel 1° caso ci sarebbe una densità maggiore, ma nel 2° aumenterebbero i transistor, quindi le cose si bilancerebbero), la differenza di proci a wafer sarebbe enorme)

Però... un BD X8 4 moduli a 400€, caricandolo del margine perso percentualmente del modello 800€, anche mettendolo a 500€, richiamerebbe un totale di parco clienti in più, facendo dei veri numeri.

Se posso fare un esempio, un i980X ha un X% di performances in più e costa 800€. Se l'i980X avesse quell'X% di potenza in più ma doppia... si potrebbe venderlo a 1600€? Uscirebbe dal budget del 99,9% di appassionati. Sulla stessa linea... un BD X8 per essere preferito all'i980X, in termini di chi vuole il max, basterebbe anche che avesse solamente il 10% in più. Ma quello che richiamerebbe la massa, sarebbe ancor più il costo. AMD venderebbe molto di più un BD X8 a 4 moduli del 20% più potente di un i980X ma dal costo di 500€ max, che un BD X8 8 moduli, del 100% più potente di un i980X ma dal prezzo di 1000€.

Il discorso FX uscirebbe dal tema perché sarebbe un mercato a parte.

Pihippo · 14-11-2010, 19:14

Quote:

Originariamente inviato da paolo.oliva2

In teoria il tuo discorso non farebbe una piega, però mi suona strano.
Se un BD X8 con 4 moduli si parlava che era più piccolo di superficie rispetto ad un Thuban, un BD X8 ad 1 core a modulo dovrebbe essere almeno del 50% più grande di un Thuban... si arriverebbe a 500mm2 contro i 330 di un Thuban.
Ora, ipotizziamo questo: (previsioni, numeri a caso)

Secondo me... un BD X8 4 moduli, raggiungerebbe comunque lo scopo di AMD, cioè di commercializzare il procio più potente sul mercato...

BD X8 4 moduli = superficie die 300mm2
BD X8 8 moduli = superficie die 550mm2

Nel 1° caso, se avesse una finestra teorica di prezzo a partire dai 400€ (teorico), nel 2° caso, dovrebbe partire almeno dal doppio, cioé 800€ (Se noi considerassimo uno yield simile (tanto nel 1° caso ci sarebbe una densità maggiore, ma nel 2° aumenterebbero i transistor, quindi le cose si bilancerebbero), la differenza di proci a wafer sarebbe enorme)

Però... un BD X8 4 moduli a 400€, caricandolo del margine perso percentualmente del modello 800€, anche mettendolo a 500€, richiamerebbe un totale di parco clienti in più, facendo dei veri numeri.

Se posso fare un esempio, un i980X ha un X% di performances in più e costa 800€. Se l'i980X avesse quell'X% di potenza in più ma doppia... si potrebbe venderlo a 1600€? Uscirebbe dal budget del 99,9% di appassionati. Sulla stessa linea... un BD X8 per essere preferito all'i980X, in termini di chi vuole il max, basterebbe anche che avesse solamente il 10% in più. Ma quello che richiamerebbe la massa, sarebbe ancor più il costo. AMD venderebbe molto di più un BD X8 a 4 moduli del 20% più potente di un i980X ma dal costo di 500€ max, che un BD X8 8 moduli, del 100% più potente di un i980X ma dal prezzo di 1000€.

Il discorso FX uscirebbe dal tema perché sarebbe un mercato a parte.

Ciao Paolo
Dunque sinceramente non so cosa pensare per il discorso die size, ma è tecnicamente possibile produrre un 8 moduli 8 core cosi come è possibile produrre un 8 moduli 16 core, per il die size, non sapendo l'area di un interlagos non posso fare previsioni, fatto sta che secondo me un bd 16c dorebbe essere più piccolo di 500mm di diametro (rapportandolo a magny c) Inoltre un mostro del genere sarebbe da fx, ovvero 8 moduli 8 core quad channel e mobo particolari, costerebbe un fottio di soldi ma permetterebe ad amd di recuperare l'halo poichè in ambito desktop la cpu più veloce c'è l'ha lei.

Tuttavia c'è una cosa che non ho considerato, le capacità di arbitraggio del modulo stesso, è molto posibile che anche un bd 8 coe 4 moduli abbia un ipc fenomenale se in ogni modulo vi è un solo thread attivo....

cionci · 14-11-2010, 19:23

Quote:

Originariamente inviato da Pihippo

Tuttavia c'è una cosa che non ho considerato, le capacità di arbitraggio del modulo stesso, è molto posibile che anche un bd 8 coe 4 moduli abbia un ipc fenomenale se in ogni modulo vi è un solo thread attivo....

E' sicuro, lo dicevano anche in uno dei video postati: se c'è un solo core attivo le performance di quel core aumentano.
Il problema a quel punto è la politica di scheduling: diventa chiaro che serva anche un aggiornamento dello scheduler del sistema operativo, in modo da allocare i thread pesanti in un solo core per modulo.
In teoria potrebbe anche non essere di fuori un approccio molto "soft": l'utente magari può scegliere se disattivare da BIOS 1 core per modulo.
in ambito server probabilmente le CPU verranno vendute già preimpostate, ma in ambito desktop la cosa mi sembra più che plausibile.

Pihippo · 14-11-2010, 19:41

Quote:

Originariamente inviato da cionci

E' sicuro, lo dicevano anche in uno dei video postati: se c'è un solo core attivo le performance di quel core aumentano.
Il problema a quel punto è la politica di scheduling: diventa chiaro che serva anche un aggiornamento dello scheduler del sistema operativo, in modo da allocare i thread pesanti in un solo core per modulo.
In teoria potrebbe anche non essere di fuori un approccio molto "soft": l'utente magari può scegliere se disattivare da BIOS 1 core per modulo.
in ambito server probabilmente le CPU verranno vendute già preimpostate, ma in ambito desktop la cosa mi sembra più che plausibile.

Ciao
In effetti ci vorrebbe un aggiornamento per lo scheduler di winzoz, ma penso che non richieda troppo tempo, M$ permettendo.
Già immagino update di amd overdrive con profili gia impostati in base alle applicazioni. Parliamoci chiaro un solo core int ha a disposizione ma tanta bw di decoding, operandi ed una fpu a dir poco generosa, sarebbe uno spreco se un giochino magari non riuscisse ad accedere a tale potenza perchè l'os schedula ad penem i vari thread.

marchigiano · 14-11-2010, 20:14

Quote:

Originariamente inviato da cionci

E' sicuro, lo dicevano anche in uno dei video postati: se c'è un solo core attivo le performance di quel core aumentano.
Il problema a quel punto è la politica di scheduling: diventa chiaro che serva anche un aggiornamento dello scheduler del sistema operativo, in modo da allocare i thread pesanti in un solo core per modulo.
In teoria potrebbe anche non essere di fuori un approccio molto "soft": l'utente magari può scegliere se disattivare da BIOS 1 core per modulo.
in ambito server probabilmente le CPU verranno vendute già preimpostate, ma in ambito desktop la cosa mi sembra più che plausibile.

nella foto postata pochi giorni fa di quel BD che riproduceva un video si vedevano i core tutti più o meno utilizzati ma più di tutti il primo e l'ultimo

chissà se erano utilizzati bene o male

paolo.oliva2 · 14-11-2010, 20:48

Quote:

Originariamente inviato da marchigiano

nella foto postata pochi giorni fa di quel BD che riproduceva un video si vedevano i core tutti più o meno utilizzati ma più di tutti il primo e l'ultimo

chissà se erano utilizzati bene o male

Quello è normale... perché l'SO passa i tasck ciclicamente core per core, ma è praticamente impossibile che ogni task sfrutti il core in uguale misura, di conseguenza è normale che un core sia sfruttato al 2%, un altro all'1% e così via.

paolo.oliva2 · 14-11-2010, 20:52

Quote:

Originariamente inviato da Pihippo

Ciao Paolo
Dunque sinceramente non so cosa pensare per il discorso die size, ma è tecnicamente possibile produrre un 8 moduli 8 core cosi come è possibile produrre un 8 moduli 16 core, per il die size, non sapendo l'area di un interlagos non posso fare previsioni, fatto sta che secondo me un bd 16c dorebbe essere più piccolo di 500mm di diametro (rapportandolo a magny c) Inoltre un mostro del genere sarebbe da fx, ovvero 8 moduli 8 core quad channel e mobo particolari, costerebbe un fottio di soldi ma permetterebe ad amd di recuperare l'halo poichè in ambito desktop la cpu più veloce c'è l'ha lei.

Tuttavia c'è una cosa che non ho considerato, le capacità di arbitraggio del modulo stesso, è molto posibile che anche un bd 8 coe 4 moduli abbia un ipc fenomenale se in ogni modulo vi è un solo thread attivo....

Questa era lo screen dove ufficialmente AMD dichiara per BD X8 un die size iferiore rispetto a Thuban.

paolo.oliva2 · 14-11-2010, 21:44

Non voglio ripetermi... e non annoiare... però, oltre IPC, architettura e ipotesi di potenza, noi possiamo trovare e provare tutte le soluzioni, comunque non bisogna dimenticare che principalmente BD è un procio commerciale e AMD deve trovare comunque un presupposto potenza/costo produzione il più favorevole possibile per offrire un rapporto prezzo/prestazioni competitivo, dove o lucrarci sopra il più possibile e/o comunque trovare un prezzo più basso possibile dove comunque guadagnarci sempre (e tenendo presente in proiezione futura Intel con il 22nm).

AMD ha riportato una grandezza in BD X8 4 moduli inferiore a quella del Thuban... ipotizziamola di 300mm2. quindi:
300mm2 per BD X8
225 mm2 per BD X6
150mm2 per BD X4
(BD ha 8MB di L3 per X8, 6MB di L3 per X6 e 4MB di L3 per X4, quindi il calcolo è facile)

Guardiamo le differenti grandezze di die:

Dal punto di vista marcketing, tralasciando le discussioni tipo "ad Intel costa di meno o bisogna vedere lo yield e similari, perché nessuno può sapere per certo il costo di Intel né tantomeno quale accordo possa avere AMD con GF e neppure che percentuale di fallati possano avere entrambi", se BD sarà superiore in potenza a SB/i980X a parità di core, si ritroverebbe nella condizione che difficilmente Intel, anche con forti riduzioni di listino, sarebbe in grado di mettere in difficoltà AMD.

Se AMD dovesse ricorrere ad 1 core per modulo, questo rapporto si disintegrerebbe, chiaramente, e sarebbe proponibile o unicamente per modelli solo FX o... se Intel non applicasse ribassi del listino...
Intel è insuperabile nel marcketing, e comunque gode di una reputazione ottima... AMD potrebbe avere anche un procio del 50% superiore, ma a prezzi uguali, venderebbe sempre Intel.

Ares17 · 15-11-2010, 00:26

Quote:

Originariamente inviato da cionci

Non hai detto una fesserie: il rapporto superficie/potenza è nettamente a favore del modulo con 2 int core. Però le prestazioni a parità di frequenza sono nettamente a favore del primo (presumo un 20% in più, con un IPC pauroso).
Secondo me, e la sparo, ora abbiamo capito quale sarà la CPU FX...saranno questi 4 moduli con singolo core int messi a frequenza leggermente maggiore dell'X4 più veloce (e con un TDP pari all'X8).

Che tutte quelle pippe mentali sul fantomatico reverse Ht di amd non siano vere ed un modulo non possa lavorare da supercore? (ed allora si potrebe pure considerare un super modulo il 35% più veloce di un core del modulo)

carlottoIIx6 · 15-11-2010, 01:54

Quote:

Originariamente inviato da cionci

Esce prima X8 perché devono tappare il mercato high-end e anche perché probabilmente lo yield non è così alto da soddisfare l'intero mercato.

Non hai detto una fesserie: il rapporto superficie/potenza è nettamente a favore del modulo con 2 int core. Però le prestazioni a parità di frequenza sono nettamente a favore del primo (presumo un 20% in più, con un IPC pauroso).
Secondo me, e la sparo, ora abbiamo capito quale sarà la CPU FX...saranno questi 4 moduli con singolo core int messi a frequenza leggermente maggiore dell'X4 più veloce (e con un TDP pari all'X8).

mi sembra completamente inutile aggiungere una cosa, per poi toglierla
fare tanta fatiga per fare una cosa e toglierla per avere più prestazioni

secondo me il
discorsoio da fare è che il modulo può aumentare le prestazioni lavorando in single, ma solo quando conviene conservando i due int!

insomma la parola d'ordine è sempre "flessibilità"!

paolo.oliva2 · 15-11-2010, 09:09

Però possiamo pensare anche ad un'altra ipotesi.

Sarebbe così difficile che i 2 INT possano essere gestibili da 1 core?
Se 1 istruzione deve aspettare per essere eseguita dallo stesso INT, non potrebbe andare in esecuzione nell'altro INT?
Cioè... se poi il risultati dovranno essere sequenziali, vi sarebbe una logica per renderli sequenziali anche se elaborati parallelamente.

Qui non so se dico fesserie, ma una L2 condivisa, a priori, potrebbe "tenere" i dati eseguiti da entrambi gli INT, come se fossero suoi. Questa potrebbe essere la logica di una L2 da 2MB condivisa anziché 2 da 1MB divise, ed anche il fatto che avendo più risultati per ciclo, per forza dai 512KB di un K10 a core, la si è raddoppiata a core, unendola infine.

Sarebbe come considerare i 2 INT come la FP doppia, con la differenza che la FP DEVE essere doppia per le AVX che saranno a 256 bit, ma gli INT no...

In fin dei conti... sarebbe sulla riga di Fusion2, cioè che un core possa avere più unita INT.
D'accordo che interfacciare un core ad una APU sia distante e molto più complesso... però, su questa linea, operare all'interno del modulo per far coesistere i 2 INT da un core sarebbe un giochetto, a confronto.

cionci · 15-11-2010, 09:28

Quote:

Originariamente inviato da paolo.oliva2

Però possiamo pensare anche ad un'altra ipotesi.

Sarebbe così difficile che i 2 INT possano essere gestibili da 1 core?
Se 1 istruzione deve aspettare per essere eseguita dallo stesso INT, non potrebbe andare in esecuzione nell'altro INT?
Cioè... se poi il risultati dovranno essere sequenziali, vi sarebbe una logica per renderli sequenziali anche se elaborati parallelamente.

Quello che dici viene già ovviato dalla presenza di 4 pipeline INT all'interno dello stesso core INT. Inoltre il problema delle attese viene alleviato dall'esecuzione out of order.
Con l'architettura BD usare due core INT come se fossero uno è molto difficile, se non impossibile, visto che c'è un disaccoppiamento fra i due core INT prima dell'esecuzione.
In ogni caso se su SB non hanno aumentato il numero di unità di esecuzione intere significa che usarne di più contemporaneamente è staticamente poco probabile per le dipendenze fra le istruzioni.
Quindi se anche si potesse fare sarebbe pressoché inutile.

checo · 15-11-2010, 10:14

Quote:

Originariamente inviato da paolo.oliva2

Qui JF ha aperto un nuovo TH.
http://www.semiaccurate.com/forums/s...ad.php?p=82897

Sarà il mio inglese, ma quando lui scrive io non ci capisco una mazza, perché fa dei gran giri ed alla fine io ci capisco meno di prima...

mi ricorda qualcuno

paolo.oliva2 · 15-11-2010, 14:58

Quote:

Originariamente inviato da cionci

Quello che dici viene già ovviato dalla presenza di 4 pipeline INT all'interno dello stesso core INT. Inoltre il problema delle attese viene alleviato dall'esecuzione out of order.
Con l'architettura BD usare due core INT come se fossero uno è molto difficile, se non impossibile, visto che c'è un disaccoppiamento fra i due core INT prima dell'esecuzione.

OK, però io rifletto su questo:
Il prossimo passo di AMD sarebbe quello di integrare un'APU utilizzandola anche per l'elaborazione dati che oggi sono unicamente relativi alle CPU.
Un Llano non può diventare un'APU vero e proprio appunto perché l'architettura non sarebbe compatibile.
La stessa cosa la si può applicare a BD. Ma AMD parla di BD-Fusion2, quindi, dovrebbe essere sempre BD come lo conosciamo ora a poter diventare APU, quindi, se l'architettura attuale può in termini di principio gestire FP della CPU con i molti INT della VGA, diciamo che dovrebbe essere più facile gestire solo 2 INT all'interno del modulo.

Quote:

In ogni caso se su SB non hanno aumentato il numero di unità di esecuzione intere significa che usarne di più contemporaneamente è staticamente poco probabile per le dipendenze fra le istruzioni.
Quindi se anche si potesse fare sarebbe pressoché inutile.

Penso che un confronto con SB non sia possibile, perché SB ha più limitazioni rispetto a BD (ricordo quanto ha postato Bjt2 di quante operazioni BD può fare in contemporanea mentre SB no), da qui i limiti di SB non necessariamente li ritroveremmo in BD. Se poi a questo ci aggiungiamo che già a priori SB esegue 2 TH, quindi doppio carico, sullo stesso hardware, che poi è il cavallo di battaglia di AMD riportare che Intel gestisce 2 TH sullo stesso hardware a differenza di AMD.

Edit:
Pizzico di ironia e malizia... alla buona

. AMD è vissuta in tutti questi anni (10) sulle basi di un'architettura K8, ma appunto perché l'architettura era più che valida ed assolutamente all'avanguardia per i suoi tempi, e derivava dall'EV6.
Io penso che con BD AMD farà lo stesso passo fatto a suo tempo con l'Athlon, perché appunto AMD non cambia architettura spesso. Questo già AMD lo dimostra pensando a Fusion2 ma sempre con BD. Che poi AMD ci riesca o meno, rimane da verificarlo, su questo non si discute, ma che AMD debba imparare da Intel sull'architettura, beh... non dimentichiamoci che l'i7 ha molte più cose in comune con il primo quad nativo AMD che con tutto ciò che si chiama Intel precedenti...

cionci · 15-11-2010, 15:38

Non mi sembra di aver affermato che AMD debba imparare da Intel. Parlavo di SB su singolo thread. Sarebbe stato semplice raddoppiare le unità di esecuzione per raddoppiare le prestazioni. Invece non lo hanno fatto perché evidentemente la % di tempo in cui le istruzioni intere eseguibili in parallelo superano il numero di unità di esecuzione disponibili deve essere veramente minima. Allo stesso modo per BD, anche se si raddoppiasse il numero di pipeline accorpando i due core Int in un unico grande core, le prestazioni aumenterebbero solo di qualche punto percentuale, a fronte di una logica di gestione veramente complessa.
Quello che scordi è che le GPU lavorano su dati SIMD. Le GPU hanno molte unità di esecuzione e le sfruttano facilmente perché devono applicare trasformazioni su matrici di dati. Calcoli che nella maggior parte dei casi possono essere eseguiti in parallelo. Quindi i core Int e le istruzioni x86 di fatto non c'entra niente. Non si avrebbe alcun vantaggio dall'avere così tante unità di esecuzione perché il numero di istruzioni x86 eseguibili in parallelo è limitato notevolmente dalle dipendenze fra le varie istruzioni.
Attualmente le istruzioni SIMD intere e floating point vengono eseguite dalla FPU. Quando la quantità di dati su cui effettuare la trasformazione è notevole, l'esecuzione di una sola istruzione SIMD gira anche per centinaia o migliaia di clicli di clock su una unità di esecuzione della FPU.
Mettiamo che l'istruzione SIMD si di 1000 elementi. Con una FPU tradizionale ci si mettono un numero di clicli di clock dell'ordine di 10^3. Con FPU di derivazione GPU, a seconda del numero di unità di esecuzione (supponiamo 480), è più lunga la fase di lettura degli operandi dalla cache che il calcolo vero e proprio. In teoria in 10-15 cicli di clock è tutto finito. Ovviamente compatibilmente con la dimensione degli operandi supportata dalla FPU di derivazione GPU.

in sostanza la parallelizzazione non si può fare (e non si potrà mai fare) su istruzioni x86 (quelle destinate ai core Interi), ma solo sulle istruzioni SIMD, in virgola mobile o intere.

14-11-2010, 16:35	#5122
gi0v3 Senior Member Iscritto dal: Feb 2006 Città: Aurisina (TS) Messaggi: 3987	o un x16 portato a 8C/8M, con quad channel e tutto quello che ne consegue... però l'am3+ non basterebbe a quel punto... sarebbe un fx come gli fx di derivazione k9, su socket da server ma con memorie unbuffered, e magari dual socket __________________ ::Italian Subs Addicted:: AMD Ryzen 7 1700 @work in progress cooled by NZXT Kraken X42 Gigabyte GA-AB350N-Gaming WIFI Mini ITX 2x16gb Corsair Vengeance RGB DDR4-3200 Radeon RX570 ITX+ribbon Samsung 960 EVO NVME 500GB +2xsshd in arrivo Custom case Lego 2.0 SFF Lime greenBenQ 27" 2560x1440 Trattative la mansarda di gi0v3 cerco:

14-11-2010, 21:44	#5133
paolo.oliva2 Senior Member Iscritto dal: Jan 2002 Città: Urbino (PU) Messaggi: 31799	Non voglio ripetermi... e non annoiare... però, oltre IPC, architettura e ipotesi di potenza, noi possiamo trovare e provare tutte le soluzioni, comunque non bisogna dimenticare che principalmente BD è un procio commerciale e AMD deve trovare comunque un presupposto potenza/costo produzione il più favorevole possibile per offrire un rapporto prezzo/prestazioni competitivo, dove o lucrarci sopra il più possibile e/o comunque trovare un prezzo più basso possibile dove comunque guadagnarci sempre (e tenendo presente in proiezione futura Intel con il 22nm). AMD ha riportato una grandezza in BD X8 4 moduli inferiore a quella del Thuban... ipotizziamola di 300mm2. quindi: 300mm2 per BD X8 225 mm2 per BD X6 150mm2 per BD X4 (BD ha 8MB di L3 per X8, 6MB di L3 per X6 e 4MB di L3 per X4, quindi il calcolo è facile) Guardiamo le differenti grandezze di die: Dal punto di vista marcketing, tralasciando le discussioni tipo "ad Intel costa di meno o bisogna vedere lo yield e similari, perché nessuno può sapere per certo il costo di Intel né tantomeno quale accordo possa avere AMD con GF e neppure che percentuale di fallati possano avere entrambi", se BD sarà superiore in potenza a SB/i980X a parità di core, si ritroverebbe nella condizione che difficilmente Intel, anche con forti riduzioni di listino, sarebbe in grado di mettere in difficoltà AMD. Se AMD dovesse ricorrere ad 1 core per modulo, questo rapporto si disintegrerebbe, chiaramente, e sarebbe proponibile o unicamente per modelli solo FX o... se Intel non applicasse ribassi del listino... Intel è insuperabile nel marcketing, e comunque gode di una reputazione ottima... AMD potrebbe avere anche un procio del 50% superiore, ma a prezzi uguali, venderebbe sempre Intel. __________________ 9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593

15-11-2010, 09:09	#5136
paolo.oliva2 Senior Member Iscritto dal: Jan 2002 Città: Urbino (PU) Messaggi: 31799	Però possiamo pensare anche ad un'altra ipotesi. Sarebbe così difficile che i 2 INT possano essere gestibili da 1 core? Se 1 istruzione deve aspettare per essere eseguita dallo stesso INT, non potrebbe andare in esecuzione nell'altro INT? Cioè... se poi il risultati dovranno essere sequenziali, vi sarebbe una logica per renderli sequenziali anche se elaborati parallelamente. Qui non so se dico fesserie, ma una L2 condivisa, a priori, potrebbe "tenere" i dati eseguiti da entrambi gli INT, come se fossero suoi. Questa potrebbe essere la logica di una L2 da 2MB condivisa anziché 2 da 1MB divise, ed anche il fatto che avendo più risultati per ciclo, per forza dai 512KB di un K10 a core, la si è raddoppiata a core, unendola infine. Sarebbe come considerare i 2 INT come la FP doppia, con la differenza che la FP DEVE essere doppia per le AVX che saranno a 256 bit, ma gli INT no... In fin dei conti... sarebbe sulla riga di Fusion2, cioè che un core possa avere più unita INT. D'accordo che interfacciare un core ad una APU sia distante e molto più complesso... però, su questa linea, operare all'interno del modulo per far coesistere i 2 INT da un core sarebbe un giochetto, a confronto. __________________ 9950X PBO 1X CO -33 Override +100 CPU-Z RS/DU 930/18.563 - CB23-2339 - 47682 47728 -CB24 144 2508 - OCCT - V-RAY 53.994 - GeekBench 6.3 3563/22664 - TEST RS Y-Cruncher BKT - core 0-15 NPbench - CO -50 + CS -10 (NO RS) CPU-Z-18989 - CB23 48679 - CB24 2593

15-11-2010, 15:38	#5140
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Non mi sembra di aver affermato che AMD debba imparare da Intel. Parlavo di SB su singolo thread. Sarebbe stato semplice raddoppiare le unità di esecuzione per raddoppiare le prestazioni. Invece non lo hanno fatto perché evidentemente la % di tempo in cui le istruzioni intere eseguibili in parallelo superano il numero di unità di esecuzione disponibili deve essere veramente minima. Allo stesso modo per BD, anche se si raddoppiasse il numero di pipeline accorpando i due core Int in un unico grande core, le prestazioni aumenterebbero solo di qualche punto percentuale, a fronte di una logica di gestione veramente complessa. Quello che scordi è che le GPU lavorano su dati SIMD. Le GPU hanno molte unità di esecuzione e le sfruttano facilmente perché devono applicare trasformazioni su matrici di dati. Calcoli che nella maggior parte dei casi possono essere eseguiti in parallelo. Quindi i core Int e le istruzioni x86 di fatto non c'entra niente. Non si avrebbe alcun vantaggio dall'avere così tante unità di esecuzione perché il numero di istruzioni x86 eseguibili in parallelo è limitato notevolmente dalle dipendenze fra le varie istruzioni. Attualmente le istruzioni SIMD intere e floating point vengono eseguite dalla FPU. Quando la quantità di dati su cui effettuare la trasformazione è notevole, l'esecuzione di una sola istruzione SIMD gira anche per centinaia o migliaia di clicli di clock su una unità di esecuzione della FPU. Mettiamo che l'istruzione SIMD si di 1000 elementi. Con una FPU tradizionale ci si mettono un numero di clicli di clock dell'ordine di 10^3. Con FPU di derivazione GPU, a seconda del numero di unità di esecuzione (supponiamo 480), è più lunga la fase di lettura degli operandi dalla cache che il calcolo vero e proprio. In teoria in 10-15 cicli di clock è tutto finito. Ovviamente compatibilmente con la dimensione degli operandi supportata dalla FPU di derivazione GPU. in sostanza la parallelizzazione non si può fare (e non si potrà mai fare) su istruzioni x86 (quelle destinate ai core Interi), ma solo sulle istruzioni SIMD, in virgola mobile o intere.

Strumenti
Mostra una versione stampabile Invia questa pagina per email