View Full Version : [Thread Ufficiale] Aspettando Bulldozer *leggere prima pagina con attenzione*
Difficilmente potrà avere un IPC maggiore del 20% sugli int rispetto ad un dual core K10...
Mi sa che Paolo faccia confusione tra ipc ed istruzioni al secondo: un ipc del 20% inferiore unito ad un clock del 40% maggiore certamente ci da una capacità di calcolo maggiore.
Difficilmente potrà avere un IPC maggiore del 20% sugli int rispetto ad un dual core K10...
Ciao
Scusami, ma perchè? Solo perchè sono sol 2 agu e 2 alu? Se fosse cosi si potrebbe gia dire che nel k10 ci potevano essere 40 agu e 320 alu ma alla fine se tutto andava bene ritirava tra alu-agu ed unità di fp 3 macro-op..
Ciao
Scusami, ma perchè? Solo perchè sono sol 2 agu e 2 alu? Se fosse cosi si potrebbe gia dire che nel k10 ci potevano essere 40 agu e 320 alu ma alla fine se tutto andava bene ritirava tra alu-agu ed unità di fp 3 macro-op..
Stiamo parlando di un dual core K10. Quindi le istruzioni che ritira sono 6, non tre.
Ragionando su ALU e AGU, nel K10 non potevano essere occupate contemporaneamente 3 AGU e 3 ALU, perché ogni coppia di ALU e AGO condivideva parte della pipeline.
Quindi la possibilità di ritirare fino a 3 macro-ops per ciclo di clock è assolutamente ben dimensionata.
In BD, le unità AGU e ALU sono completamente distinte. Ci sono due ALU e due AGU per ogni unità di interi. In teoria per avere la possibilità di sfruttare tutte le unità di calco, dovrebbe poter ritirare ben 8 macro-ops per ciclo di clock. Ora bisogna vedere bene come sono organizzate le cose, perché questo significa che la Load/Store unit (sarà condvisa ? vedendo come è posizionata la L1 direi di no) dovrebbe essere capace di elaborare ben 8 istruzioni per ciclo di clock. Il che mi sembra un tantinello esagerato.
Stiamo parlando di un dual core K10. Quindi le istruzioni che ritira sono 6, non tre.
Ciao
certo, sono 6, se ci riesce, contro le probabili 8 di un modulo di bd? Non penso che il retirement buffer sia condiviso da 2 core, perchè ciò vorrebbe dire che i 2 core stanno processando lo stesso thread......
Secondo me il punto è nel capire se AMD intenderà un quad core con 2 Moduli o... 4 Moduli, io rimango dell'idea che userà 4 Moduli poi Imho!!!
Ragionando su ALU e AGU, nel K10 non potevano essere occupate contemporaneamente 3 AGU e 3 ALU, perché ogni coppia di ALU e AGO condivideva parte della pipeline.
Quindi la possibilità di ritirare fino a 3 macro-ops per ciclo di clock è assolutamente ben dimensionata.
In BD, le unità AGU e ALU sono completamente distinte. Ci sono due ALU e due AGU per ogni unità di interi. In teoria per avere la possibilità di sfruttare tutte le unità di calco, dovrebbe poter ritirare ben 8 macro-ops per ciclo di clock. Ora bisogna vedere bene come sono organizzate le cose, perché questo significa che la Load/Store unit (sarà condvisa ? vedendo come è posizionata la L1 direi di no) dovrebbe essere capace di elaborare ben 8 istruzioni per ciclo di clock. Il che mi sembra un tantinello esagerato.
Ciao
Scusami ho visto ora il tuo ultimo post.
In effetti pare esagerato che un modulo bd possa ritirare 8 macro-op, però alla fine dei conti nehalem (ed il suo papà anche se con minor successo) riuscivano ad avvicinarsi a 4 mop ritirate per ciclo, in nehalem grazie a vari tweak e l'HT più che nei core 2. Per la L\S unit, perchè dovrebbe essere capace di elaborare 8 mop? Scusami la L\S unit si limita a caricare(load) o scrivere(store) dati\operandi sulla cache necessari per l'esecuzione di molte istruzioni. Almeno cosi è quello che ho capito. :D
Ragionando su ALU e AGU, nel K10 non potevano essere occupate contemporaneamente 3 AGU e 3 ALU, perché ogni coppia di ALU e AGO condivideva parte della pipeline.
Quindi la possibilità di ritirare fino a 3 macro-ops per ciclo di clock è assolutamente ben dimensionata.
In BD, le unità AGU e ALU sono completamente distinte. Ci sono due ALU e due AGU per ogni unità di interi. In teoria per avere la possibilità di sfruttare tutte le unità di calco, dovrebbe poter ritirare ben 8 macro-ops per ciclo di clock. Ora bisogna vedere bene come sono organizzate le cose, perché questo significa che la Load/Store unit (sarà condvisa ? vedendo come è posizionata la L1 direi di no) dovrebbe essere capace di elaborare ben 8 istruzioni per ciclo di clock. Il che mi sembra un tantinello esagerato.
Ti chiedo 2 cose per chiarirmi le idee.
1)Quando ti riferisci al K10, le macro ops son intese per core?
2)Per BD, le 8 sono riferite per modulo? cioè 4+4 se si ragiona dal punto di vista dei core, giusto?
Danke.
paolo.oliva2
31-08-2010, 12:58
Mi sa che Paolo faccia confusione tra ipc ed istruzioni al secondo: un ipc del 20% inferiore unito ad un clock del 40% maggiore certamente ci da una capacità di calcolo maggiore.
Magari nella foga potrò anche sbagliare, ma io per IPC intendo istruzioni per clock, per potenza IPC x clock (inteso come frequenza)
Ogni macro-op è una istruzione ALU/AGU/FPU + una LOAD/STORE, quindi per poter completare 8 macro-ops bisogna essere in grado di completare 8 L/S per ciclo di clock.
Ti chiedo 2 cose per chiarirmi le idee.
1)Quando ti riferisci al K10, le macro ops son intese per core?
2)Per BD, le 8 sono riferite per modulo? cioè 4+4 se si ragiona dal punto di vista dei core, giusto?
Danke.
1) sì
2) sì
paolo.oliva2
31-08-2010, 13:22
Come il 20% più veloce ? Se perdesse il 20% non può essere contemporaneamente il 20% più veloce.
Io intenderei questo: (oh, io ipotizzo, non ho la tua competenza e comunque cerco di capire come AMD in 5 anni stia agendo per creare un'architettura superiore al K10)
Allora... il modulo BD ha parti in condivisione, il che = -20%
Il modulo BD ha un INT in più, negli INT incrementerebbe (che poi era il punto debole verso l'i7, in quanto in FP non aveva nulla da invidiare, quindi, a livello teorico, mi sembra un passo avanti per uguagliare l'IPC nel senso totale con l'i7)
Ora, la perdita del 20% per la condivisione, non bisogna trattarla fine a sè stessa, perchè comunque comporta una diminuzione di TDP e quindi quel -20% bisogna anche proporzionarlo al clock risultante, cioé... se si perdono 20% di IPC, potrebbe pure essere che si guadagnano, a parità di silicio, forse anche il 10% di clock, quindi bisogna comunque ridimensionarla al 10%.
-------------------------
Quindi secondo me, a tutto questo, bisogna anche considerare se BD faccia ancora 3 mops a ciclo o passi a 4, bisogna vedere le latenze per ogni istruzione. Questo era il quadro precedente:
http://www.pctunerup.com/up/results/_201008/20100831131407_latencies.jpg
Come si cambiano le latenze io non ne ho la minima idea, ma credo che dagli schemi visti sino ad ora, nessuno può dire se siano le stesse. Comunque una L2 di 2MB condivisa nel modulo, di per sé sarebbe un bel magazzino dati, se poi fosse addirittura più aggressiva.
Poi mi viene il dubbio... con una L2 così grossa, il core è così piccolo? cacchio, comunque da 512KB+512KB di 2 core K10...
---------------------------------------------
Alla fine della minestra, entra in funzione la frequenza. Ormai dovunque attribuiscono a BD notevoli incrementi di clock.
Anche considerando un IPC inferiore nel totale, se prendiamo un Thuban 3,2Ghz stock e pensiamo ad un BD a 4GHz, saremmo sull'ordine del + 30% solo nel clock, aggiungiamoci un 33% nel numero dei core, arriveremmo a +72%. Vogliamo toglierci un 10% per minor IPC? saremmo ad un +65% ma con un procio più bilanciato nel discorso INT verso Intel e più potente di prima nell'FP.
Nel discorso monocore le cose sarebbero MOLTO migliori.
Perché il modulo di BD avrebbe l'SMT HARDWARE, quindi DOVREBBE incrementare l'IPC e non di poco rispetto al singolo core K10.
Uniscici clock sicuramente superiori di almeno 500MHz rispetto a quelli di SB... e lo scenario è fatto.
P.S.
Io non mi intendo di SMT, però vedo nel TH di Cinebench, che i proci senza SMT hanno risultati inferiore a parità di frequenza con gli i7 con SMT pure nel monocore, quindi ho teorizzato che possa aiutare pure nel monocore... e poi comunque bisogna vedere se nel modulo BD possa comunque esserci qualche miglioria.
Secondo me il punto è nel capire se AMD intenderà un quad core con 2 Moduli o... 4 Moduli, io rimango dell'idea che userà 4 Moduli poi Imho!!!
guarda che amd ha detto chiaramente che intende come core l'unità int quindi quad core 2 moduli.
alla fine son solo nomi
Ogni macro-op è una istruzione ALU/AGU/FPU + una LOAD/STORE, quindi per poter completare 8 macro-ops bisogna essere in grado di completare 8 L/S per ciclo di clock.
Ciao
Non per forza, le macrop vengono nel k10 splittate nelle microop corrispettive(ad es macro op 1= add r.r1+store) nelle primitive micro ops (in questo caso add + load eseguite in 2 pipe diverse in modo OoO). Il retirement buffer ritira le micro ops. Scusami erroneamente ho scritto nel post precedente macro ops, negli issue slot delle alu\agu esse vengono splittate nelle micro ops, ho causato un pò di confusione :cry:
Quindi sempre prendendo per buono le minchiate che ho scritto si tretterebbe, visto che ancora dei dettagli importanti non se ne sa nulla di 4 microops ritirate per core in bd vs le 3 (magari) del k10
Ciao
Sono contento che concordi, vuol dire che non ho psarato una minchiata. :D
BJt2 vorrei porti all'attenzione una cosa fondamentale sul discorso 3alu+3agu vs 2alu+2agu per quanto riguarda l'ipc k10vsBulldozer:
Fonte : http://www.agner.org/optimize/microarchitecture.pdf
Pag. 140:
The execution units have a much larger capacity than it is possible to utilize. It is alleged
that the nine execution units can execute nine micro-operations simultaneously, but it is
virtually impossible to verify this claim experimentally since the retirement is limited to three
macro-operations per clock cycle
Ovvero sebbene il core k10 possa fare 3 op aritmetico logiche+3op di memoria, il retirement buffer è limitato a solo 3 op per ciclo( in qualsiasi combinazione), quindi vorrebbe dire che se il retirement buffer di bd consentisse il ritiro di 4 op, bd avrebbe un vantaggio teorico del 33% sul k10.
Che ne pensi?
Esatto. E poi le 3+3 operazioni del K10 sono sempre accoppiate, ossia se una istruzione non ha l'accesso in memoria (è reg-reg) quella AGU non è utilizzata. Invece in Buldozer non esistono più macro ops e si torna alle micro ops, dove se una istruzione è reg-reg non consuma comunque una AGU. Inoltre ne K10 era possibile fare o una moltiplicazione o una divisione. Invece qui le due pipeline intere consentono di farle contemporaneamente. Questo vuol dire che una divisione (che può durare anche 40 cicli, anche se si spera che qui si sia usato un divisore migliore) non blocca le successive moltiplicazioni indipendenti...
Anche considerando un IPC inferiore nel totale, se prendiamo un Thuban 3,2Ghz stock e pensiamo ad un BD a 4GHz, saremmo sull'ordine del + 30% solo nel clock, aggiungiamoci un 33% nel numero dei core, arriveremmo a +72%. Vogliamo toglierci un 10% per minor IPC? saremmo ad un +65% ma con un procio più bilanciato nel discorso INT verso Intel e più potente di prima nell'FP.
Non ho capito il passaggio evidenziato. Intendi ad un 33% dovuto al fatto di avere 4 moduli BD con 8 core logici contro i 6 core fisici del Thuban ?
Devi considerare anche il cambio di processo produttivo. Un Thuban a 32 nm girerebbe sicuramente almeno 400 Mhz più veloce con il semplice die-shrink.
Il discorso può andare bene dal punto di vista degli interi, ma sulla FPU non vedo possibile un aumento così marcato. Soprattutto se si considerano situazioni in cui i due thread dello stesso modulo eseguono entrambi istruzioni FP.
Non ho capito il passaggio evidenziato. Intendi ad un 33% dovuto al fatto di avere 4 moduli BD con 8 core logici contro i 6 core fisici del Thuban ?
Devi considerare anche il cambio di processo produttivo. Un Thuban a 32 nm girerebbe sicuramente almeno 400 Mhz più veloce con il semplice die-shrink.
Il discorso può andare bene dal punto di vista degli interi, ma sulla FPU non vedo possibile un aumento così marcato. Soprattutto se si considerano situazioni in cui i due thread dello stesso modulo eseguono entrambi istruzioni FP.
Se la FPU del Bulldozer può spezzare l'FMAC in 1 MUL + 1 ADD indipendenti per ciclo, la potenza è doppia, ma condivisa tra due thread, rispetto a quella del K10. Anzi, più che doppia, visto che le unità chiamate MMX si occupano dei calcoli legacy x87 e che le operazioni di memoria sono state appioppate all'unità intera.
I motivi di questa "speranza" sono molteplici: esistenza di un brevetto AMD che descrive la possibile scissione di una FMAC per fare ADD e MUL in parallelo, la inutilità di una FMAC, considerando che INTEL non ce l'ha, il codice compilato con compilatore INTEL e il codice legacy non avrà FMAC e che le XOP (che sfruttano le FMAC) non credo saranno supportate estensivamente e comunque non subito.
Esatto. E poi le 3+3 operazioni del K10 sono sempre accoppiate, ossia se una istruzione non ha l'accesso in memoria (è reg-reg) quella AGU non è utilizzata. Invece in Buldozer non esistono più macro ops e si torna alle micro ops, dove se una istruzione è reg-reg non consuma comunque una AGU. Inoltre ne K10 era possibile fare o una moltiplicazione o una divisione. Invece qui le due pipeline intere consentono di farle contemporaneamente. Questo vuol dire che una divisione (che può durare anche 40 cicli, anche se si spera che qui si sia usato un divisore migliore) non blocca le successive moltiplicazioni indipendenti...
Ciao bjt2 :)
Grazie per l'intervento, in pratica bd pur con un numero minore di ex unit sarebbe più efficiente del k10 nell'esecuzione di calcoli. Un altre cosa, anche intel splitta le macro op in micro op cosi da avere più flessibilità ed efficienza?
Se la FPU del Bulldozer possa spezzare l'FMAC in 1 MUL + 1 ADD indipendenti per ciclo, la potenza è doppia, ma condivisa tra due thread, rispetto a quella del K10. Anzi, più che doppia, visto che le unità chiamate MMX si occupano dei calcoli legacy x87 e che le operazioni di memoria sono state appioppate all'unità intera.
I motivi di questa "speranza" sono molteplici: esistenza di un brevetto AMD che descrive la possibile scissione di una FMAC per fare ADD e MUL in parallelo, la inutilità di una FMAC, considerando che INTEL non ce l'ha, il codice compilato con compilatore INTEL e il codice legacy non avrà FMAC e che le XOP (che sfruttano le FMAC) non credo saranno supportate estensivamente e comunque non subito.
Quindi secondo te fonderanno le istruzioni di due thread per occupare al massimo una singola FMA, riducendo così anche la pressione sulla operazioni di memoria.
Mi viene spontaneo chiedere se i due thread basteranno ad occupare le due FMAC...
Secondo te le legacy si occuperanno dei calcoli fp non vettoriali (x87) o si limiteranno alle istruzioni intere previste dalle estensioni medesime ?
paolo.oliva2
31-08-2010, 14:47
Non ho capito il passaggio evidenziato. Intendi ad un 33% dovuto al fatto di avere 4 moduli BD con 8 core logici contro i 6 core fisici del Thuban ?
Perché logici? BD ha 4 moduli con 2 core ciascuno... con delle parti in comune, ma sono sempre fisici.
paolo.oliva2
31-08-2010, 14:55
Inoltre... nel monocore nel confronto BD vs K10.
Si era detto che l'i7 era avvantaggiato (oltre all'innegabile IPC superiore), anche per la struttura della L3 "circolare".
In questo caso, con BD, passando da una L2 di 512KB ad un L2 da 2MB (condivisa tra i 2 core del modulo), in parte non allieverebbe una L3 costantemente allineata al multicore?
Cioè... avrebbe una capacità 4 volte superiore alla L2 del K10, e comunque anche se condivisa, se i 2 core del modulo operassero una sorta di paralleismo anche in mono TH, attingerebbero sempre su 2MB di L2.
Inoltre, e qui sono nubbio... se i Load e Store sono ciclici, o operandi simili, non potrebbero avvalersi della condivisione dei core in un'ottica monocore?
Cioè... se io devo trasferire dei dati dalla L2 e prima devo scrivere il risultato dai registri del procio... questa condivisione non potrebbe generare che in un ciclo posso fare 2 operazioni?
Cioè contemporaneamente leggere e scrivere? Capisco che le pipeline sarebbero comunque 2, ma si potrebbe ipotizzare dei jump dall'una all'altra un po' come passare da un'autostrada a 2 corsie ad una "teorica" 4 corsie?
mack.gar
31-08-2010, 15:24
Ciao a tutti.
Ho letto le ultime pagine del thread, tutto molto interessante. Vorrei aggiungere alcune cose:
1) JF ha detto (a meno di non perderci la faccia) che BD ha prestazioni in single thread migliori di K10 e una slide di hot chip (la 16 per inciso) viene riportata la stessa promessa. E' probabile che questo obbiettivo sia raggiunto sia dal clock più alto che da ipc migliore. Il "quanto" meglio penso che non sia possibile stimarlo allo stato attuale.
2) Ogni "core" può gestire due load E uno store per ciclo.
3) le LS unit sono duplicate per "core" vedi slide hot chip
4) il numero di istruzioni ritirate per core non è un dato dichiarato...
Se la FPU del Bulldozer possa spezzare l'FMAC in 1 MUL + 1 ADD indipendenti per ciclo, la potenza è doppia, ma condivisa tra due thread, rispetto a quella del K10. Anzi, più che doppia, visto che le unità chiamate MMX si occupano dei calcoli legacy x87 e che le operazioni di memoria sono state appioppate all'unità intera.
Se fosse così sarei d'accordo, ma credo che l'avrebbero messo ben in evidenza nella presentazione.
Perché logici? BD ha 4 moduli con 2 core ciascuno... con delle parti in comune, ma sono sempre fisici.
Sono logici, se fossero fisici non avrebbero i primi stage della pipeline in comune. Inoltre sulla FPU di fatto AMD sta facendo un vero e proprio HyperThreading, quindi più logici di così...
Ciao bjt2 :)
Grazie per l'intervento, in pratica bd pur con un numero minore di ex unit sarebbe più efficiente del k10 nell'esecuzione di calcoli. Un altre cosa, anche intel splitta le macro op in micro op cosi da avere più flessibilità ed efficienza?
Intel non ha per nulla le macro-op. Le sue micro op sono semplici (o almeno più semplici di quelle del k10) e sono a 3 operandi. Anche per questo non potrà implementare le FMAC a 4 operandi a meno di stravolgimenti architetturali... E anche per questo ha un FO4 leggermente inferiore. Poichè Bulldozer ha un FO4 di 17 per poter implementare le macro-op con la stessa complessità del K10 avrebbe dovuto usare più stadi del K10 (forse troppi). IMHO si è passati a micro-op più semplici (e a detta dell'ex ingegnere AMD su google gruppi senza alcuni meccanismi di forwarding avanzati) per evitare il proliferare di stadi della pipeline...
mack.gar
31-08-2010, 15:49
http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333
Quindi secondo te fonderanno le istruzioni di due thread per occupare al massimo una singola FMA, riducendo così anche la pressione sulla operazioni di memoria.
Mi viene spontaneo chiedere se i due thread basteranno ad occupare le due FMAC...
Secondo te le legacy si occuperanno dei calcoli fp non vettoriali (x87) o si limiteranno alle istruzioni intere previste dalle estensioni medesime ?
Beh, le FMAC si possono occupare entrambe. Non esistono soltanto ADD e MUL fully pipelined. Dubito che la divisione sia fully pipelined, quindi se una MUL è occupata con una DIV, l'altra deve giocoforza alternarsi per i thread. Daltronde le slides di qualche anno fa dipingevano Bulldozer come un mostro FP...
Io penso che le unità chiamate MMX siano fisicamente attaccate a i due banchi di registri MMX/FP80 e che quindi eseguano tutte le istruzioni intere (MMX a 64 bit) e FP (x87 a 32/64/80 bit) su quei registri e che le FMAC siano fisicamente attaccate ai due banchi di registri XMM/YMM ed eseguano tutte le istruzioni SSEn/AVX/XOP... Poichè c'è il limite di dispatch di 4 istruzioni per clock, è da vedere come e se hanno implementato la MUL e la ADD staccata... Sarebbe un peccato non averlo fatto visto che le FMAC saranno rare... Le pipeline sarebbero almeno 6 (2 MMX 2 ADD e 2 MUL) se non 8 (2 MMX 2 ADD 2 MUL e 2 FMAC con queste ultime esclusive rispetto a MUL e ADD).
Purtroppo il modo più semplice e lineare sarebbe di avere 4 issue per clock, 2 MMX/x87 e 2 SSE o 1 AVX 256 (dove ognuna può essere ADD, MUL DIV oppure FMAC) con la possibilità di sfruttare al massimo la FPU solo con le FMAC, ma sarebbe, ripeto, un peccato...
Sarebbe comunque un miglioramento rispetto alla FPU di un signolo K10 e forse anche di un doppio K10...
Se fosse così sarei d'accordo, ma credo che l'avrebbero messo ben in evidenza nella presentazione.
Sono logici, se fossero fisici non avrebbero i primi stage della pipeline in comune. Inoltre sulla FPU di fatto AMD sta facendo un vero e proprio HyperThreading, quindi più logici di così...
Spero che sia solo un nascondino da parte di AMD. I brevetti ci starebbero tutti. E l'unico altro motivo di mettere delle FMAC sottoutilizzatissime al momento (visto INTEL e il software legacy) e quindi uno spreco di silicio, è una preparazione in vista dell'offload dei calcoli SSE/AVX agli SP di una eventuale GPU integrata... Ma questo è bulldozer 2 almeno...
Se tu fossi un progettista con dei vincoli di TDP, costo, dimensione die, metteresti delle FMAC ora considerando che INTEL non le avrà per almeno un anno? E considerando il flop delle SSE5?
Sono logici, se fossero fisici non avrebbero i primi stage della pipeline in comune. Inoltre sulla FPU di fatto AMD sta facendo un vero e proprio HyperThreading, quindi più logici di così...
Ma non era oramai assodato che la FP non avesse alcun tipo di SMT (rumor apparso tra l'altro all'inizio, e subito smentito), quando piuttosto la possibilità di dividersi?
Perchè sono due cose ben diverse: SMT ottimizza la condivisione dell'unità fp tra più thread, mentre in questo caso si parla di usare in modo parallelo la stessa unità con istruzioni più piccole delle avx.
Per quanto riguarda i core int, quali sono le parti iniziali condivise?
Perchè si è sempre detto che la pipeline int fosse assolutamente indipendente, ossia che i due core potessero concretamente lavorare su due thread senza concorrenza. Quindi core reali, non logici.
Oltretutto ci mancherebbe pure che AMD avesse inserito SMT in BD dopo aver dichiarato ai 4 venti la propria contrarietà nei confronti di questo tipo di tecnologia.
Ma non era oramai assodato che la FP non avesse alcun tipo di SMT (rumor apparso tra l'altro all'inizio, e subito smentito), quando piuttosto la possibilità di dividersi?
Perchè sono due cose ben diverse: SMT ottimizza la condivisione dell'unità fp tra più thread, mentre in questo caso si parla di usare in modo parallelo la stessa unità con istruzioni più piccole delle avx.
Se leggi l'articolo postato poco sopra, parla proprio di SMT per la FPU.
Poi che vuol dire "dividersi" ? SMT significa proprio far usare la stessa unità da più thread.
Per quanto riguarda i core int, quali sono le parti iniziali condivise?
Perchè si è sempre detto che la pipeline int fosse assolutamente indipendente, ossia che i due core potessero concretamente lavorare su due thread senza concorrenza. Quindi core reali, non logici.
Solo la parte di esecuzione e di load/store è divisa. La prima parte di pipeline è condivisa (quella comune a tutte le istruzioni).
Se tu fossi un progettista con dei vincoli di TDP, costo, dimensione die, metteresti delle FMAC ora considerando che INTEL non le avrà per almeno un anno? E considerando il flop delle SSE5?
Come ti avevo detto qualche post fa, potrebbero essere anche altri i vincoli che hanno obbligato AMD all'uso di unità floating point più generiche:
- obbligo di esecuzione delle AVX in contemporanea sulle due unità
- fare in modo che istruzioni floating point provenienti da thread diversi avessero a disposizione unità più generiche in modo da diminuire la latenza
http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333
Il dubbio sulle AVX è venuto anche a chi ha scritto quell'articolo ;)
Another question regarding Bulldozer is how 256-bit AVX instructions are handled by the execution units. One option is to treat each half as a totally independent macro-op, as the K8 did for 128-bit SSE, and let the schedulers sort everything out. However, it is possible that Bulldozer's two symmetric FMAC units could be ganged together to execute both halves of an AVX instruction simultaneously to reduce latency.
Se leggi l'articolo postato poco sopra, parla proprio di SMT per la FPU.
Poi che vuol dire "dividersi" ? SMT significa proprio far usare la stessa unità da più thread.
Solo la parte di esecuzione e di load/store sembra essere divisa. La prima parte di pipeline è condivisa (quella comune a tutte le istruzioni).
Ciao
L'articolo di Kanter si basa su quello finora emerso all'hotchip, ovvero ben pochi dettagli succosi. Io però non capisco cosa c'entri l'smt con la fpu di BD?
Essa viene divisa tra 2 core, però è quasi il doppio più grande di quella del k10 ed ogni ciclo può accettare istruzioni da un qualsiasi dei 2 core.
ogni ciclo può accettare istruzioni da un qualsiasi dei 2 core.
Io questo lo chiamo SMT (non core, ma thread, nell'intera pipeline FP non c'è alcuna suddivisione in core, tranne forse nella Load/Store unit).
Perché dici che è il doppio più grande ?
Io questo lo chiamo SMT.
Perché dici che è il doppio più grande ?
Ciao
Però nel smt le risorse vengono dimezzate tra 2 thread concorrenti come r.o.b scheduler ed unità di esecuzione. Qui invece mi pare che la fpu abbia abbastanza per tutti.
Io penso sia più grande la fpu poichè vi sono 2 pipeline 128bit e secondo le speculazioni di Dresdenboy sono dual ported verso la cache. http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333&p=7
Anche lo scheduler fp è raddoppiato di ampiezza (da 32 a 60 issue slot)..
paolo.oliva2
31-08-2010, 16:44
Io questo lo chiamo SMT (non core, ma thread, nell'intera pipeline FP non c'è alcuna suddivisione in core, tranne forse nella Load/Store unit).
Perché dici che è il doppio più grande ?
Penso perché ora è 256 anziché 128. Che poi possa essere divisa e eseguita contemporaneamente dai 2 core, è un conto, ma se lavorasse solo un core, non sarebbe doppia a tutti gli effetti?
Comunque io sto cortocicuitando i miei neroni... ormai non sono più sicuro nemmeno se BD X8 ha 4 moduli... :).
A parte gli scherzi... avevo le idee più chiare il 23 agosto...
Penso perché ora è 256 anziché 128. Che poi possa essere divisa e eseguita contemporaneamente dai 2 core, è un conto, ma se lavorasse solo un core, non sarebbe doppia a tutti gli effetti?
Comunque io sto cortocicuitando i miei neuroni... ormai non sono più sicuro nemmeno se BD X8 ha 4 moduli... :).
A parte gli scherzi... avevo le idee più chiare il 23 agosto...
A chi lo dici :D
Leggendo l'articolo di Dkanter mi pare di aver visto tutt'altra architettura dalle slide dell'hot chips.
Ciao
Però nel smt le risorse vengono dimezzate tra 2 thread concorrenti come r.o.b scheduler ed unità di esecuzione. Qui invece mi pare che la fpu abbia abbastanza per tutti.
Anche qui vengono dimezzate. Con un solo thread che esegue operazioni floating point la FPU è completamente a disposizione del singolo thread. Con due thread le unità di esecuzione sono comunque mediamente dimezzate.
Anche in Instambul c'erano due pipeline a 128 bit, anche se più specializzate (una FMUL e una FADD).
paolo.oliva2: guarda sopra.
http://www.realworldtech.com/page.cfm?ArticleID=RWT082610181333
Questo articolo è SPETTACOLARE! Dice praticamente tantissime cose. Non sono speculazioni dell'autore. Questo si deve essere registrato tutto quanto detto dal tizio AMD ad Hotchips... In confronto le altre recensioni non dicono NULLA!
Le cose più interessanti sono il cambio radicale delle varie code: prima c'erano code separate per ognuna delle 6(+3) unità di esecuzione. Una volta messa li una istruzione non poteva spostarsi. Ora c'è una coda unica per gli interi/memoria e una coda unica per gli FP. Chi ha studiato teoria delle code sa che la coda unica è molto meglio (e infatti se ne sono accorti anche alle poste italiane). L'unità FP è SMT like (una volta buttate le istruzioni lì dentro vanno per fatti loro), la banda L1/L2 è molto aumentata (Ogni core ha la stessa banda di Sandy Bridge, ma quest'ultimo deve gestire 2 Threads), l'unità FP è molto efficiente: le unità MMX fanno le SIMD intere (a 64/128 bits: mi sbagliavo prima) e le FMAC fanno le floating point e alcune altre (shuffle e logiche), am sembra che le MUL e le ADD non siano separate (o almeno il tizio AMD non l'ha menzionato). Una cosa positiva: la latenza delle L1 e L2 è relativamente alta: 4 cicli la L1 e 23 (mi pare) la L2. E' moooolto alta. Questo può voler dire che il clock di Bulldozer sarà MOLTO alto. :)
paolo.oliva2
31-08-2010, 17:13
Anche qui vengono dimezzate. Con un solo thread che esegue operazioni floating point la FPU è completamente a disposizione del singolo thread. Con due thread le unità di esecuzione sono comunque mediamente dimezzate.
Anche in Instambul c'erano due pipeline a 128 bit, anche se più specializzate (una FMUL e una FADD).
paolo.oliva2: guarda sopra.
mmm
Mi accuccio di lato perché devo riordinare le idee.
Cioè... devo resettarmi e reinquadrare BD ex-novo.
C'è un qualche cosa che non mi torna...
Se BD è il miglioramento del K10... cioè, siamo passati da 2 core fisici del K10 a 2 logici di BD? in più con un 20% in meno di IPC? Allora... AMD si baserebbe esclusivamente sull'aumento del clock.
Cioè... allora sarebbe bastato fare un mix tra Llano e Thuban, cioé immettere Turbo e spegnimento dei core di Lano, toglierci l'APU, magari mettendo il supporto AVX, aggiungerci 2 core. Praticamente... se si fossero messi a farlo dall'uscita del Thuban in previsione del 32nm, sarebbe uscito ancor prima di Llano.
carlottoIIx6
31-08-2010, 17:32
mmm
Mi accuccio di lato perché devo riordinare le idee.
Cioè... devo resettarmi e reinquadrare BD ex-novo.
C'è un qualche cosa che non mi torna...
Se BD è il miglioramento del K10... cioè, siamo passati da 2 core fisici del K10 a 2 logici di BD? in più con un 20% in meno di IPC? Allora... AMD si baserebbe esclusivamente sull'aumento del clock.
Cioè... allora sarebbe bastato fare un mix tra Llano e Thuban, cioé immettere Turbo e spegnimento dei core di Lano, toglierci l'APU, magari mettendo il supporto AVX, aggiungerci 2 core. Praticamente... se si fossero messi a farlo dall'uscita del Thuban in previsione del 32nm, sarebbe uscito ancor prima di Llano.
bisogna distingue tra
1) comportamento in single
2) comportamento in multi
1)comportamento in single:
bhe, se un core integer occupa tutto lo scheduler fp
ci sarà un incremento di ipc, a mio avviso (un core integer più fp in bd sono più grandi di un core k10)
2a)comportamento in multi:
qui conta avere più thread fisici, dunque se sulla stessa area ci sono
8 core in invece che 4 (anche se singolarmente più performanti)
mel complesso ci sarà un aumento di ipc (due core di bl sono più forti di un k10)
2b)comportamento in multi con sceheduler fp condiviso:
qui si apre la possibilità di un ulteriore ottimizzazione dovuta al dialogo
secondo me questo è tutto
PS ancora non ho letto l'articolo
carlottoIIx6
31-08-2010, 18:28
Questo articolo è SPETTACOLARE! Dice praticamente tantissime cose. Non sono speculazioni dell'autore. Questo si deve essere registrato tutto quanto detto dal tizio AMD ad Hotchips... In confronto le altre recensioni non dicono NULLA!
Le cose più interessanti sono il cambio radicale delle varie code: prima c'erano code separate per ognuna delle 6(+3) unità di esecuzione. Una volta messa li una istruzione non poteva spostarsi. Ora c'è una coda unica per gli interi/memoria e una coda unica per gli FP. Chi ha studiato teoria delle code sa che la coda unica è molto meglio (e infatti se ne sono accorti anche alle poste italiane). L'unità FP è SMT like (una volta buttate le istruzioni lì dentro vanno per fatti loro), la banda L1/L2 è molto aumentata (Ogni core ha la stessa banda di Sandy Bridge, ma quest'ultimo deve gestire 2 Threads), l'unità FP è molto efficiente: le unità MMX fanno le SIMD intere (a 64/128 bits: mi sbagliavo prima) e le FMAC fanno le floating point e alcune altre (shuffle e logiche), am sembra che le MUL e le ADD non siano separate (o almeno il tizio AMD non l'ha menzionato). Una cosa positiva: la latenza delle L1 e L2 è relativamente alta: 4 cicli la L1 e 23 (mi pare) la L2. E' moooolto alta. Questo può voler dire che il clock di Bulldozer sarà MOLTO alto. :)
mentre il comportamento in smulti sembra ovvio e scontato!
in single non si capisce...
amd può computere solo con la frequenza
o l'unità FP riserva sorprese???
Anche qui vengono dimezzate. Con un solo thread che esegue operazioni floating point la FPU è completamente a disposizione del singolo thread. Con due thread le unità di esecuzione sono comunque mediamente dimezzate.
Anche in Instambul c'erano due pipeline a 128 bit, anche se più specializzate (una FMUL e una FADD).
paolo.oliva2: guarda sopra.
Ciao
Si ma le pipe del k10( tra l'altro fmul fadd e fmisc\fstore non erano dual ported con la cache :) Quindi ogni thread ha bene o male a disposizione le stesse, se non più risorse del k10.
Questo articolo è SPETTACOLARE! Dice praticamente tantissime cose. Non sono speculazioni dell'autore. Questo si deve essere registrato tutto quanto detto dal tizio AMD ad Hotchips... In confronto le altre recensioni non dicono NULLA!
Le cose più interessanti sono il cambio radicale delle varie code: prima c'erano code separate per ognuna delle 6(+3) unità di esecuzione. Una volta messa li una istruzione non poteva spostarsi. Ora c'è una coda unica per gli interi/memoria e una coda unica per gli FP. Chi ha studiato teoria delle code sa che la coda unica è molto meglio (e infatti se ne sono accorti anche alle poste italiane). L'unità FP è SMT like (una volta buttate le istruzioni lì dentro vanno per fatti loro), la banda L1/L2 è molto aumentata (Ogni core ha la stessa banda di Sandy Bridge, ma quest'ultimo deve gestire 2 Threads), l'unità FP è molto efficiente: le unità MMX fanno le SIMD intere (a 64/128 bits: mi sbagliavo prima) e le FMAC fanno le floating point e alcune altre (shuffle e logiche), am sembra che le MUL e le ADD non siano separate (o almeno il tizio AMD non l'ha menzionato). Una cosa positiva: la latenza delle L1 e L2 è relativamente alta: 4 cicli la L1 e 23 (mi pare) la L2. E' moooolto alta. Questo può voler dire che il clock di Bulldozer sarà MOLTO alto. :)
Ciao
Bjt2 alla luce dell'articolo di D kanter, cosa pensi sia cambiato su Bd, ovvero come ti pare la unità fp?
Ciao
Si ma le pipe del k10( tra l'altro fmul fadd e fmisc\fstore non erano dual ported con la cache :) Quindi ogni thread ha bene o male a disposizione le stesse, se non più risorse del k10.
Sinceramente non mi torna, le unità di esecuzione sono quelle. Non potrò mai avere più di 2 istruzioni FP nello stesso stage (escludendo le due unità MMX), anche con 2 thread. Quindi in sostanza non potrò mai completare più di due istruzioni per ciclo di clock. Così come avveniva in K10 (anche se qui c'erano vincoli più ristretti sul tipo di istruzioni).
papafoxtrot
31-08-2010, 18:36
Questo articolo è SPETTACOLARE! Dice praticamente tantissime cose. Non sono speculazioni dell'autore. Questo si deve essere registrato tutto quanto detto dal tizio AMD ad Hotchips... In confronto le altre recensioni non dicono NULLA!
Le cose più interessanti sono il cambio radicale delle varie code: prima c'erano code separate per ognuna delle 6(+3) unità di esecuzione. Una volta messa li una istruzione non poteva spostarsi. Ora c'è una coda unica per gli interi/memoria e una coda unica per gli FP. Chi ha studiato teoria delle code sa che la coda unica è molto meglio (e infatti se ne sono accorti anche alle poste italiane). L'unità FP è SMT like (una volta buttate le istruzioni lì dentro vanno per fatti loro), la banda L1/L2 è molto aumentata (Ogni core ha la stessa banda di Sandy Bridge, ma quest'ultimo deve gestire 2 Threads), l'unità FP è molto efficiente: le unità MMX fanno le SIMD intere (a 64/128 bits: mi sbagliavo prima) e le FMAC fanno le floating point e alcune altre (shuffle e logiche), am sembra che le MUL e le ADD non siano separate (o almeno il tizio AMD non l'ha menzionato). Una cosa positiva: la latenza delle L1 e L2 è relativamente alta: 4 cicli la L1 e 23 (mi pare) la L2. E' moooolto alta. Questo può voler dire che il clock di Bulldozer sarà MOLTO alto. :)
Davvero interessante il discorso sulla FP.
Quanto alla latenza delle cache sinceramente non so se essere contento. La cache doveva essere rivista con l'uso di celle 8C al fine di limare la latenza e cercare di raggiungere le cache di intel, che sono parecchio veloci, e invece è più lenta di prima...
I 4 cicli della L1 possono anche non essere molti rispetto alla lunghezza delle pipeline. Bisognerebbe capire quanti stage ci sono prima della fase di esecuzione.
carlottoIIx6
31-08-2010, 18:55
cut
doppio post
si è capito perchè la fp è condivisa?
insomma perche non si sono fatti tanti piccoli core separati?
si è capito perchè la fp è condivisa?
insomma perche non si sono fatti tanti piccoli core separati?
Con tanti piccoli core separati è avrebbero fatto una CPU completamente diversa.
La FPU è in SMT per contenere il numero di transistor e per un semplice motivo: il carico in ambito server è decisamente più sulla parte interi che su quella FP.
Inoltre bisognerebbe vedere per quanto tempo un singolo thread occupava entrambe le unità di esecuzione. Probabilmente si è visto che con un approccio SMT si potevano sfruttare i tempi morti per un altro thread. In questo modo il minore numero di transistor avrebbe permesso di avere frequenze superiori recuperando lo svantaggio che la singola FPU fornisce rispetto ad un approccio con doppia FPU (e probabilmente a superarlo).
Ricordiamoci che il problema per AMD è lo svantaggio rispetto ad Intel nelle tecnologie produttive (solo dal punto di vista della miniaturizzazione, per le tecnologie di contorno Global Foundries è forse più avanti di Intel). Quindi l'unico modo per riuscire a recuperare il gap è fare un core più piccolo e che consuma meno, in modo da salire molto in frequenza.
Sinceramente non mi torna, le unità di esecuzione sono quelle. Non potrò mai avere più di 2 istruzioni FP nello stesso stage (escludendo le due unità MMX), anche con 2 thread. Quindi in sostanza non potrò mai completare più di due istruzioni per ciclo di clock. Così come avveniva in K10 (anche se qui c'erano vincoli più ristretti sul tipo di istruzioni).
Ciao
Scusami, hai ragione http://www.agner.org/optimize/microarchitecture.pdf
Se le fp del bd sono dual ported hai 2 op per clock ritirate per unità, esattamente ciò che avviene per il k10.
La FPU è in SMT per contenere il numero di transistor e per un semplice motivo: il carico in ambito server è decisamente più sulla parte interi che su quella FP.
Inoltre bisognerebbe vedere per quanto tempo un singolo thread occupava entrambe le unità di esecuzione. Probabilmente si è visto che con un approccio SMT si potevano sfruttare i tempi morti per un altro thread. In questo modo il minore numero di transistor avrebbe permesso di avere frequenze superiori recuperando lo svantaggio che la singola FPU fornisce rispetto ad un approccio con doppia FPU (e probabilmente a superarlo).
Se non ricordo male la serie Power (forse la 6) ha introdotto l'esecuzione in-order per le sole unità FP che sono guarda caso delle FMA 64bit, lasciando invece la logica fuori ordine per le fixed function.
Tanto per dire che l'approccio AMD ricorda proprio l'esperienza IBM.
paolo.oliva2
31-08-2010, 22:53
Stavo confrontando guardando le prestazioni di un i980X con Wprime 2.03 rispetto al mio Thuban. A spanne... dovrei portare il Thuban a 4,6-4,7GHz per eguagliare (ci metto quasi 189" a 4,450GHz rispetto ad un i980X a 3,333 o a3,6GHz non ho capito bene).
Se BD non incrementa l'IPC, mica può sparare i proci a 5GHz stock...
Athlon 64 3000+
31-08-2010, 22:59
Magari Buldozer uscira con clock stock sui 3,4 3,6 ghz,ma avendo un turbo più aggressivo rispetto a Thuban magari arriverà sui 4,5 ghz o anche qualcosa di più per le operazione single thread.
papafoxtrot
01-09-2010, 00:41
Stasera ho sviscerato tutto l'articolo di realworldtecnologies, e devo dire che tutto il bulldozer è incentrato sul risparmio di area e watt. Contestualmente ad altre scelte (pipeline allungata,critical path ridotti, latenze cache alte e quant'altro) ciò permette di crescere con le frequenze.
Devo dire che sicuramente un bulldozer X6 sarà più piccolo di thuban, e non di poco. Anche se forse le cache più grandi colmeranno almeno in parte il gap. E consumerà meno. Poi c'è il processo produttivo nuovo, sebbene thuban sia sfornato con un 45nm raffinatissimo, mentre non si sa nulla sul 32nm (non bastano i nani per descrivere la bontà di un processo).
Credo che un bulldozer X6 non avrebbe problemi a sfondare i 4GHz,, e anche un X8 potrebbe avvicinarli. Forse 3,8GHz per l'X8, e magari col passare del tempo arriverà un X8 a 4GHz o qualcosina di più.
Precedentemente avevo stimato clock inferiori,Paolo ricorderà la mia ipotesi: 3,2-3,7GHz.
Se BD dovesse andare a 3,2GHz non avrebbe motivo di implementare tutte quelle soluzioni che a prima vista fanno tornare alla mente solo il P4 (per fortuna che IBM con power 6 e power 7 ha successo :D)
Credo che il miglioramento del prefetch e del branch predictor compenserà la perdita di efficienza dovuta alle pipe lunghe e alle cache relativamente lente. Non credo che il loro miglioramento darà un contributo netto all'aumento di prestazioni in bulldozer.
Altri aspetti della nuova architettura, quali le code uniche, ed il sostanziale (almeno a quanto ho capito) miglioramento delle cache contribuiranno ad un aumento di PC, che come avevo già ipotizzato si piazzerebbe tra il 5 ed il 15%, nelle esecuzioni INT, tenendo conto dell'efficienza del modulo, e che non so proprio stimare per quanto riguarda la FP.
Riprendendo sempre quello 0,8 di efficienza del modulo rispetto a due core indipendenti ripeto, 15% in più di IPC vorrebbe già dire 1,15/0,8=1,44 di incremento "lordo" dell'IPC del singolo core ipotetico.
Insomma riuscire a fare +44% sul singolo core secondo me è tantissimo.
Poi chissà se quellò'80% vuol dire effettivamente prestazioni INT del modulo/prestazioni int di due core indipendenti con nuova architettura.
Potrebbe anche essere il risultato di un misto tra esecuzioni int e fp...
Ad ogni modo mi attengo, per avere un indicazione, a quel +50% con +33% di core che JF-AMD aveva dichiarato, che significa da +12% (considerando uno scaling perfetto) a +16% (considerando che ogni core cresce le prestazioni del 90%) di IPC, credo in questo senso intendendo un carico di lavoro medio in ambito server, con una combinazione di operazioni FP e operazioni INT.
Insomma la mia idea: totoprestazioni
core: +33% Tenendo conto della scalabilità non perfetta all'aumentare dei core le prestazioni possono crescere di un fattore compreso tra 1,33*0,9=1,2 e 1,33/0,95=1,26. Fissiamo una massima probabilità a 1,25 e non se ne parla più ;)
frequenza: 3,6-4GHz con massima probabilità a 3,8GHz: +12,5% - +25%, con massima probabilità a +18,75%
IPC: +5% - +15%, con massima probabilità a +12,5%.
Facendo un'analisi di rischio alla buona viene fuori che il bulldozer potrebbe andare dal +41% di thuban, al+90,0% di thuban.
Ovviamente entrambi i risultati sono estremamente improbabili, perché prodotti di fattori improbabili.
Il massimo della densità di probabilità può trovarsi al +65%, che risulta dal prodotto dei fattori più probabili, e può risultare dal prodotto di diverse combinazioni del tipo IPC pompatissimo e frequenze basse, o IPC scarsino e frequenze altissime.
Insomma, secondo me va un +60% - +70% di thuban.
Io fisso il core i7 980x al +50% di thuban: un core nehalem ha il 50% di ipc in più di un core deneb, ma all'aumentare dei core la resa diminuisce. In compenso le frequenze sono un pelo più alte (4-5%).
Il core i7 990x (primoa vversario che bulldozer dovrà battere) avrà frequenze più alte dell'8% circa e per cui sarà un 54% più veloce del 1090T.
Insomma parere mio:come massima probabilità bulldozer potrebbe superare core i7 990x di una quantità variabile tra il 5% ed il 15% delle prestazioni di thuban, cioè di una percentuale che varia tra il 3% ed il 10% di core i7 990x.
Se va male potrebbe essere più lento di un 13% delle prestazioni di thuban, cioè di un 9% delle prestazioni del core i7 990x. Se va di :ciapet: potrebbe essere fino al 35% (sempre riferito alle prestazioni di thuban) più veloce, pari al 22% in più rispetto a core i7 990x.
Cioè io piazzo bulldozer X8 top di gamma all'uscita tra un +20% ed un -10% del core i7 990x, con massima probabilità che si piazzi tra il -3% ed il +10% del core i7 990x.
Con +10% eguaglierebbe anche le prestazioni dei sandy bridge X6 di fascia più alta, e ciò è abbastanza probabile.
Non è un range troppo largo, ma sono fiducioso di averci azzeccato.
Mettetelo al totoprestazioni! :D
papafoxtrot
01-09-2010, 00:50
Per quanto riguarda le prestazioni in single thread la cosa è più ardua, perchP le frequenze in turbo mode sono davvero difficili da stimare...
Mettiamo una frequenza TM compresa tra 4,2 e 4,6GHz, con max probabilità a 4,4GHz.
Si tratta di un incremento variabile tra il +600MHz e +1GHz rispetto a thuban, cioè una percentuale che varia tra il +17% ed il +28% rispetto a thuban. Massima probabilità al +22%.
Come detto prima l'IPC potrebbe essere compreso tra il +5% ed il +15%, con probabilità massima al +12,5%.
Il prodotto delle probabilità fornisce un range compreso tra il +23% di thuban ed il +47% di thuban.
La variazione più probabile esce a +37% di thuban.
Al caso pessimo (+23%) andremo proprio male. Basterebbe appena per raggiungere un quad core core i7 odierno, e non troppo cloccato.
Al caso ottimo (+47%) sarebbe possibile avvicinarsi molto ad un core dei core i7, cloccato a 3,5GHz, fino a quasi eguagliarlo.la differenza rapportata alle prestazioni di core i7 980x, sarebbe di pochissimi punti percentuali.
Si deve però pensare che SB multicore implementi anch'esso un turbo core abbastanza aggressivo, e che la granularità del power gating sarà migliore di quella di bulldozer, per cui frequenze alte (4GHz e più) sono possibili anche per i SB top di gamma.
Insomma le prestazioni in single thread non le vedo molto buone.
Ma a me non interessa, faccio workstation grafiche :D :D :sofico:
capitan_crasy
01-09-2010, 01:19
Scusate se interrompo un pò questa discussione su Bulldozer, ma vorrei attirare l'attenzione un secondo sui core X86 di Llano...
Non posto neanche le voci che sento, ma sono comunque (per lo più) ottimistiche.
Finora sappiamo che si tratta di architettura K10 (anche se i cialtroni di FUDZILLA la considera un K8 super potente:asd:); dovrebbe avere 1MB di cache L2, la L3 sarà assente mentre si parla di una possibile introduzione delle istruzioni AVX (non che quelle delle SSE 4.1/4.2).
Se la vedrà con gli SB più economici e anche se la GPU integrata di Llano sarà nettamente più potente, rimane l'incognita di quanto perderà in prestazioni sui core X86...
Se leggi l'articolo postato poco sopra, parla proprio di SMT per la FPU.
Poi che vuol dire "dividersi" ? SMT significa proprio far usare la stessa unità da più thread.
Non proprio... una unità viene in ogni caso usata da più thread (in concorrenza però!), SMT è fondamentalmente un modo più efficiente di accedere all'unità.
Per "dividersi" intendo dire che, se si usano istruzioni più brevi delle AVX, la singola unità FP si comporta come se fossero due (o quattro per istruzioni a 64 bit).
La differenza rispetto ad SMT è sostanziale: SMT gestice due thread comunque in concorrenza su una singola unità, mentre la "divisione" permette di eseguire i due thread senza concorrenza.
Questo almeno è ciò che ha detto JF qualche tempo fa, e in particolare aveva dichiarato che BD avrebbe avuto un grande vantaggio su SB (parlando di BD 4 moduli contro SB 4 core) proprio perchè:
- con istruzioni AVX, possiamo presumere un pareggio, entrambi i processori avrebbero usato tutta la loro FP per processare l'istruzione
- con istruzioni più "piccole" BD avrebbe potuto eseguirne fino al doppio rispetto a SB proprio perchè la sua unità FP poteva agire come se fossero state due unità FP a 128 bit.
Quindi se con la presentazione ufficiale quanto rivelato in precedenza non è stato rimangiato, l'unità FP di BD dovrebbe essere proprio in grado di "dividersi" nel senso che ho dato al termine.
O qualcuno ha notizie certe differenti a riguardo?
Comunque se l'articolo parla di SMT come cosa certa, in qualche modo SMT sarà. Anche se non ho ben capito come si innesti nei discorsi fatti in precedenza.
Solo la parte di esecuzione e di load/store è divisa. La prima parte di pipeline è condivisa (quella comune a tutte le istruzioni).
La prima parte in cosa consiste esattamente?
Comunque mi riferivo alle unità di esecuzione, che a mio parere, e a detta di AMD, rendono quei core "reali" e non virtuali.
Parlare di core virtuali è negare ciò che AMD sta dicendo esplicitamente da tempo riguardo la struttira di BD.
La prima parte in cosa consiste esattamente?
Comunque mi riferivo alle unità di esecuzione, che a mio parere, e a detta di AMD, rendono quei core "reali" e non virtuali.
Parlare di core virtuali è negare ciò che AMD sta dicendo esplicitamente da tempo riguardo la struttira di BD.
Ciao
Instruction fetch e decoding.
paolo.oliva2
01-09-2010, 07:57
@Papafoxtrot
Considerando le tue previsioni... sto giro mi sa che per prendere un BD X8 tocca mettere mano seriamente al portafoglio e non i soldi spicci per casa.
Praticamente quando uscirebbe ci sarebbe pure nella versione X8 e si troverebbe di fronte solamente SB X4 per alcuni mesi. Ciò mettrebbe nella condizione AMD di avere il procio più potente in commercio.
Purtroppo vedendo un listino Intel in cui i proci top sarebbero sull'ordine degli 800€, non penso che AMD lo piazzerà sui 300€ (se lo facesse, sbancherebbe il mercato).
Inoltre avrebbe pure la carta di portare i BD X12 e X16 dal server al desktop, ora che si sa che pure nei server adotteranno il turbo, la cosa si limiterebbe al discorso socket e volontà AMD. In questo diciamo che sarà aiutata da Intel, perché un SB X8 dovrebbe avere prezzi di listino ancora superiori degli X6 attuali, e i margini di guadagno certamente invoglierebbero AMD.
Difficile fare previsioni di prezzo... ma reputerei più facile un prezzo aggressivo per AMD anche in caso di procio più potente che un abbassamento generale del listino Intel.
Non proprio... una unità viene in ogni caso usata da più thread (in concorrenza però!), SMT è fondamentalmente un modo più efficiente di accedere all'unità.
Secondo me sono proprio in concorrenza. SMT non è un modo più efficiente di accedere alle unità, perché senza SMT solo un thread può accedere alle unità. SMT è trovare negli stage della pipeline istruzioni che provengono da più thread, se questo permetta o meno di ottenere maggiore efficienza è solo un importante side effect (che ovviamente sarà l'obiettivo della fase di progetto).
Sul fatto delle prestazioni doppie: attualmente non sembra, a meno che ogni FMAC possa eseguire una FMUL e una FADD contemporaneamente.
Ad oggi le unità di esecuzione FP sono due, più di due istruzioni per ciclo di clock non possono occupare lo stesso stage delle pipeline, qualsiasi sia il thread da cui provengono queste istruzioni.
Ciao
Instruction fetch e decoding.
E qui ci saranno anche altri stage.
Se BD avesse la stessa pipeline del K10: http://www.insidehw.com/images/stories/reviews/editorials/columns/AMD_K10_Architecture/K8-K10-pipeline.jpg
Gli stage in comune fra due thread nello stesso modulo sarebbero 9 su 12. Immaginandoci per BD una pipeline a 18 stadi, con la stessa proporzione sarebbero 13-14 gli stadi in comune.
Secondo me tutto dipende dalla % die size risparmiato rispetto alle performance perse.
Se come nel caso di deneb vs propus si ha un risparmio di 40% in menod i die size a fronte di solo un 10% di prestazioni perse alla il gioco vale la candela.
Io fossi in loro non avrei proprio prodotto il deneb. Vista la capacita' produttiva limitata di AMD (ora in mano a GF), avrei preferito invadere il mercato con prodotti dall'ottima ratio performance/prezzo.
Anche perche' e' posssibile vista la non eccessiva distanza nei prezzi, che amd non abbia margini migliori con deneb, e sicuramente guadagnava piu' quote di mercato.
Questo per dire che se con Bulldozer seguiranno la stessa strada intrapresa qualche anno fa con i chip radeon (chip piccolo buone, performance vicine al top, imbattibile ratio perf/price) a me sta piu' che bene.
Non mi interessa averlo piu' lungo degli altri, cosi come alla maggior parte dei consumatori (altrimento gli atom nemmeno esisterebbero).
Secondo me tutto dipende dalla % die size risparmiato rispetto alle performance perse.
Esatto. Sembra essere questa la chiave di volta di questa CPU.
Ottenere una CPU che garantisca ottimi indici di prestazioni/potenza dissipata e prestazioni/n° di gate.
Scusate se interrompo un pò questa discussione su Bulldozer, ma vorrei attirare l'attenzione un secondo sui core X86 di Llano...
Non posto neanche le voci che sento, ma sono comunque (per lo più) ottimistiche.
Finora sappiamo che si tratta di architettura K10 (anche se i cialtroni di FUDZILLA la considera un K8 super potente:asd:); dovrebbe avere 1MB di cache L2, la L3 sarà assente mentre si parla di una possibile introduzione delle istruzioni AVX (non che quelle delle SSE 4.1/4.2).
Se la vedrà con gli SB più economici e anche se la GPU integrata di Llano sarà nettamente più potente, rimane l'incognita di quanto perderà in prestazioni sui core X86...
A quanto è stimata la potenza della GPU?
Ho letto in un articolo che la gpu integrata nei sample Sandy Bridge supera la ati HD5450, che non mi sembra poco.
capitan_crasy
01-09-2010, 10:00
A quanto è stimata la potenza della GPU?
Ho letto in un articolo che la gpu integrata nei sample Sandy Bridge supera la ati HD5450, che non mi sembra poco.
Ovviamente mancano ancora i numeri ufficiali ma le ultime voci davano alla GPU di Llano un massimo di 480SP, cioè molto vicina alla 5670...
bicchiere
01-09-2010, 10:04
Ovviamente mancano ancora i numeri ufficiali ma le ultime voci davano alla GPU di Llano un massimo di 480SP, cioè molto vicina alla 5670...
Io ad esempio volevo sapere se LLano sarà ufficialmente supportato in Linux da AMD.
capitan_crasy
01-09-2010, 10:34
Io ad esempio volevo sapere se LLano sarà ufficialmente supportato in Linux da AMD.
Non vedo perchè no...
Inoltre AMD sta lavorando per i catalyst "open source" dove ha già rilasciato una parte del codice sorgente dei suoi driver...
davvero niente male, oltre a poter sfruttare l'accelerazione video per filmati ed eventuali applicazioni opencl, permetterà di giocare tranquillamente in HD-ready. Lo vedo come il modo ideale per farmi un bel sistemino mini-itx da affiancare al plasma in salotto :D
Secondo me sono proprio in concorrenza. SMT non è un modo più efficiente di accedere alle unità, perché senza SMT solo un thread può accedere alle unità. SMT è trovare negli stage della pipeline istruzioni che provengono da più thread, se questo permetta o meno di ottenere maggiore efficienza è solo un importante side effect (che ovviamente sarà l'obiettivo della fase di progetto).
Correggetemi se sbaglio, però mi pare che SMT sia proprio un modo per sfruttare meglio la pipeline in caso di stallo.
Anche in un core normale senza SMT possiamo trovare più thread nei diversi stadi della pipeline.. altrimenti a che servirebbe la pipeline?
Con SMT ho in pratica il vantaggio di poter avere sempre un thread pronto da inserire, ma la pipeline è una, e quindi in un dato stadio di questa, solo un thread potrà esistere.
In quella che io chiamo divisione, invece, in uno stesso stadio potranno esserci più thread in contemporanea, senza concorrenza, come se le FP fossero due.
Per quanto riguarda il numero di istruzioni processabili, è stato JF (o qualcuno da AMD) a dichiarare 1xAVX, 2x128bit o 4x64bit, quindi fino a prova contraria per lo meno dovrebbe gestirne fino a 4.
Grazie (anche a Pihippo) per la spiegazione sulla parte condivisa (non ho tempo ora di leggere tutti i documenti e sono comunque meno ferrato di voi sull'argomento).
Da vedere comunque se ere quanto la parte di fetch e decodin possa costituire un collo di bottiglia: se adeguatamente potenziata poco importa che sia in comune, se poi è sovrabbondante per gestire i due core.
L'importante è che una volta avviati possano processare le operazioni senza concorrenza.
PS: ovviamente se ho detto castronerie sentitevi liberi di correggermi!
Anche in un core normale senza SMT possiamo trovare più thread nei diversi stadi della pipeline.. altrimenti a che servirebbe la pipeline?
No, un core normale opera solo su un thread per core.
La pipeline serve per ridurre il critical path spezzettando ogni istruzione in operazioni più semplici e di conseguenza poter salire in frequenza.
Per quanto riguarda il numero di istruzioni processabili, è stato JF (o qualcuno da AMD) a dichiarare 1xAVX, 2x128bit o 4x64bit, quindi fino a prova contraria per lo meno dovrebbe gestirne fino a 4.
Era chiaro che mi riferivo a quelle a 128 bit.
A parte le AVX, è esattamente la stessa quantità su cui può lavorare la FPU del K10: http://www.insidehw.com/Editorials/Columns/AMD-K10-Architecture.html
No, un core normale opera solo su un thread per core.
La pipeline serve per ridurre il critical path spezzettando ogni istruzione in operazioni più semplici e di conseguenza poter salire in frequenza.
Forse confondo thread con istruzione?
Ossia... la pipeline serve certo ad aumentare il clock, ma anche a gestire contemporaneamente più istruzioni.
Se per esempio ho una pipeline a n stadi, appena l'istruzione 1 libera lo stadio 1 della pipeline e passa allo stadio 2, lo stadio 1 è libero di eseguire l'istruzione 2.
Quindi, in un mondo ideale in cui la pipeline è sempre piena, posso trovare nella pipeline fino a n istruzioni in diversi stadi di processazione.
Era chiaro che mi riferivo a quelle a 128 bit.
A parte le AVX, è esattamente la stessa quantità su cui può lavorare la FPU del K10: http://www.insidehw.com/Editorials/Columns/AMD-K10-Architecture.html
Ah, ok, allora è chiaro, massimo possono essere 2 a 128 bit.
Mi pareva però che in questo fosse superiore al K10, dato che il k10 non ha la possibilità di eseguire codice a 256bit, e si parlava di un raddoppio di potenza dell'unità FP, avevo supposto che il k10 avesse due unità a 64 bit utilizzabili coem una da 128, funzionanti cioè con lo stesso approccio ma scalate di una potenza di 2 come dimensione.
Da cosa deriva allora l'idea che la FP si BD sia piu potente, come affermato più volte qui sul forum?
Athlon 64 3000+
01-09-2010, 12:07
Scusate se interrompo un pò questa discussione su Bulldozer, ma vorrei attirare l'attenzione un secondo sui core X86 di Llano...
Non posto neanche le voci che sento, ma sono comunque (per lo più) ottimistiche.
Finora sappiamo che si tratta di architettura K10 (anche se i cialtroni di FUDZILLA la considera un K8 super potente:asd:); dovrebbe avere 1MB di cache L2, la L3 sarà assente mentre si parla di una possibile introduzione delle istruzioni AVX (non che quelle delle SSE 4.1/4.2).
Se la vedrà con gli SB più economici e anche se la GPU integrata di Llano sarà nettamente più potente, rimane l'incognita di quanto perderà in prestazioni sui core X86...
Visto che mi si è bruciata la possibilità di poter montare sulla mia MSI 870A-G54 Buldozer sono molto incuriosito da Llano perchè magari a inizio 2011 potrei anche decidere di prenderi codesta gpu con annessa scheda madre e tenermi magari le ddr3-1333 visto che non userò la gpu integrata,ma la mia attuale HD 5850.
Cut
Ah, ok, allora è chiaro, massimo possono essere 2 a 128 bit.
Mi pareva però che in questo fosse superiore al K10, dato che il k10 non ha la possibilità di eseguire codice a 256bit, e si parlava di un raddoppio di potenza dell'unità FP, avevo supposto che il k10 avesse due unità a 64 bit utilizzabili coem una da 128, funzionanti cioè con lo stesso approccio ma scalate di una potenza di 2 come dimensione.
Da cosa deriva allora l'idea che la FP si BD sia piu potente, come affermato più volte qui sul forum?
Ciao
Dunque l'idea si basava sul fatto che il cluster fp avesse più unità fp. Almeno cosi pensavo io. :D La potenza è simile se non uguale a quella del k10 però vedendo la preview di realworldtech si potrebbe affermare che sia abbastanza efficiente, più di quella del k10. Quello che descrivi tu sopra è il concetto di pipelining. Ovvero stadio 1 della pipe c'è l'op x appena essa entra in stadio 2 lo stadio 1 può accettare l'op y ad esempio, non è sempre cosi, anzi spesso o la rete di fowarding la spedisce più in giu nella pipe per vari motivi (operandi pronti ad es) oppure si formano delle bolle (istruzione dipendente da operandi mancanti oppure dipendente da altra istruzione non computata)
somethingstrangeinyourmind
01-09-2010, 12:30
Visto che mi si è bruciata la possibilità di poter montare sulla mia MSI 870A-G54 Buldozer sono molto incuriosito da Llano perchè magari a inizio 2011 potrei anche decidere di prenderi codesta gpu con annessa scheda madre e tenermi magari le ddr3-1333 visto che non userò la gpu integrata,ma la mia attuale HD 5850.
Anch'io sono curioso di vedere come sarà Llano.
Anche perchè, come si dice nell'articolo linkato da mack.gar, alcune nuove features implementate su questo processore dovrebbero ritrovarsi anche su BD.
Anch'io sono curioso di vedere come sarà Llano.
Anche perchè, come si dice nell'articolo linkato da mack.gar, alcune nuove features implementate su questo processore dovrebbero ritrovarsi anche su BD.
quindi llano non può utilizzare semplici ddr3 a 1333? Per via della gpu che richiede maggiori frequenze?
Athlon 64 3000+
01-09-2010, 13:11
Riguardo le memorie ddr3 supportate da Llano penso che suppoterà ram con frequenze più alte rispetto alle 1333 perchè la gpu integrata richederà molta banda.
Sono stato io che ho detto che avrei intenzione di tenere le mie attuali ddr3-1333 se dovessi passare a Llano perchè non userò la gpu integrata,ma la HD 5850.
Scusate se interrompo un pò questa discussione su Bulldozer, ma vorrei attirare l'attenzione un secondo sui core X86 di Llano...
Non posto neanche le voci che sento, ma sono comunque (per lo più) ottimistiche.
Finora sappiamo che si tratta di architettura K10 (anche se i cialtroni di FUDZILLA la considera un K8 super potente:asd:); dovrebbe avere 1MB di cache L2, la L3 sarà assente mentre si parla di una possibile introduzione delle istruzioni AVX (non che quelle delle SSE 4.1/4.2).
Se la vedrà con gli SB più economici e anche se la GPU integrata di Llano sarà nettamente più potente, rimane l'incognita di quanto perderà in prestazioni sui core X86...
Non è cialtroneria. AMD ha smesso di usare le sigle Kx, ma fino a quando erano usate, K8 era l'architettura attuale fino al Thuban, K9 era quel famoso progetto a 13 FO4 cancellato e K10 era il bulldozer... ;)
Era chiaro che mi riferivo a quelle a 128 bit.
A parte le AVX, è esattamente la stessa quantità su cui può lavorare la FPU del K10: http://www.insidehw.com/Editorials/Columns/AMD-K10-Architecture.html
La FPU del Thuban può fare 2/3 istruzioni elaborative per clock, di cui 2 massimo FP (FMISC può fare se non mi sbaglio solo shuffle e di coversione). Le SIMD intere competono per le 2 unità FP. Inoltre se le istruzioni non sono appaiate per bene, una delle pipeline rimane vuota, per colpa delle code separate. Con coda unica, pipeline dedicate per le SIMD intere (le MMX) da quelle FP, e considerando che nel caso migliore per il Thuban il limite diventa la banda verso la memoria (in bulldozer ogni core ha più banda e comunque la FPU si "serve" da due core in parallelo), il throughput della FP del Bulldozer può tranquillamente essere doppio... :)
AnonimoVeneziano
01-09-2010, 13:32
Non vedo perchè no...
Inoltre AMD sta lavorando per i catalyst "open source" dove ha già rilasciato una parte del codice sorgente dei suoi driver...
Uhm? Non è così. I drivers radeon opensource e i catalyst hanno code base totalmente diverse. :fagiano:
capitan_crasy
01-09-2010, 13:51
Non è cialtroneria. AMD ha smesso di usare le sigle Kx, ma fino a quando erano usate, K8 era l'architettura attuale fino al Thuban, K9 era quel famoso progetto a 13 FO4 cancellato e K10 era il bulldozer... ;)
Faccio una piccola premessa:
Per AMD non esiste il K10, tale sigla è per gli addetti ai lavori o per gli articoli specialistici.
Anche se ci sono i nomi Hammer per il K8 e Stars per i K10, AMD in termini pratici considera la famiglia dei Phenom2/Athlon2 ect. come un generico K8, la quale è la base dell'architettura K10.
AMD ha dichiarato che Llano avrà i core X86 con architettura "Stars" (anzi le parole giuste sono di derivazione) ovvero i K10 e gli ultimi screen del DIE confermano una somiglianza con i core Propus a 45nm.
Già da questo l'argomento è bello che chiuso, tranne ovviamente di quali siano i numeri di questo core K10 portati a 32nm SOI.
Che FUDZILLA come al solito deve fare un teatrino dicendo che AMD andrà contro SB con un architettura di 7 anni fa è da cialtroni!
Clicca qui... (http://www.fudzilla.com/processors/processors/the-heart-of-amds-llano-is-k8)
Ma porca di quella porca ma come si fa a scrivere certe caxxxxe quando basterebbe un minimo di serietà per capire come stanno veramente le cose?
:huh:
papafoxtrot
01-09-2010, 13:52
@Papafoxtrot
Considerando le tue previsioni... sto giro mi sa che per prendere un BD X8 tocca mettere mano seriamente al portafoglio e non i soldi spicci per casa.
Praticamente quando uscirebbe ci sarebbe pure nella versione X8 e si troverebbe di fronte solamente SB X4 per alcuni mesi. Ciò mettrebbe nella condizione AMD di avere il procio più potente in commercio.
Purtroppo vedendo un listino Intel in cui i proci top sarebbero sull'ordine degli 800€, non penso che AMD lo piazzerà sui 300€ (se lo facesse, sbancherebbe il mercato).
Inoltre avrebbe pure la carta di portare i BD X12 e X16 dal server al desktop, ora che si sa che pure nei server adotteranno il turbo, la cosa si limiterebbe al discorso socket e volontà AMD. In questo diciamo che sarà aiutata da Intel, perché un SB X8 dovrebbe avere prezzi di listino ancora superiori degli X6 attuali, e i margini di guadagno certamente invoglierebbero AMD.
Difficile fare previsioni di prezzo... ma reputerei più facile un prezzo aggressivo per AMD anche in caso di procio più potente che un abbassamento generale del listino Intel.
Premesso che non sappiamo quando bulldozer uscirà, ma ritengo possibie che sia disponibile entro giugno (l'articolo linkatom parlava di seconda metà...:confused: ), se anche BD X6/X8 arrivasse prima di SB X6/X8, rimarrebbe comunque core i7 980 e 990x.
Intel non rimuoverà questi ultimi dal mercato fino all'arrivo dei SB di fascia più alta, i quali probabilmente saranno lanciati dopo gli X4 per il semplice motivo che ad oggi i quad core (destinati a diventare la fascia medio-alta) sono ancora a 45nm, e dunque meno avanzati e più costosi da produrre.
Per cui secondo me prima fa uscire i SB X4, svecchiando i lynnfield ed i core i7 9x0 quad core.
I core i7 9x0 a 6 core sono già a 32nm, e dunque SB comporterà un passo avanti inferiore in questo settore.
Indi per cui il confronto con core i7 990x non è butato li a caso. Quello sarà, da subito, il nemico da battere. Poi SB X6 crescerà leggermente le performance, riducendo in parte i consumi.
Ad ogni modo per quanto riguarda i listini intel, mi aspetto ache all'uscita i SB X6 siano piazzati tra i 450 e gli 800 euro. SB X8 potrebbe uscire prima extreme a 1000 euro, per poi calare successivamente uscendo in versioni inferiori, in dipendenza anche da come va bulldozer.
Prima di SB X6 penso che comunque intel potrà tagliare i prezzi di core i7 970 ed eventualmente 980, anche qui con l'eventuale scopo di fronteggiare bulldozer.
Alla fine il core di gulftown è parecchio piccolo e a distanza di un anno trovare un gulftown a 500 euro non sarebbe una sorpresa.
Correggetemi se sbaglio, però mi pare che SMT sia proprio un modo per sfruttare meglio la pipeline in caso di stallo.
Anche in un core normale senza SMT possiamo trovare più thread nei diversi stadi della pipeline.. altrimenti a che servirebbe la pipeline?
Con SMT ho in pratica il vantaggio di poter avere sempre un thread pronto da inserire, ma la pipeline è una, e quindi in un dato stadio di questa, solo un thread potrà esistere.
In quella che io chiamo divisione, invece, in uno stesso stadio potranno esserci più thread in contemporanea, senza concorrenza, come se le FP fossero due.
Per quanto riguarda il numero di istruzioni processabili, è stato JF (o qualcuno da AMD) a dichiarare 1xAVX, 2x128bit o 4x64bit, quindi fino a prova contraria per lo meno dovrebbe gestirne fino a 4.
Grazie (anche a Pihippo) per la spiegazione sulla parte condivisa (non ho tempo ora di leggere tutti i documenti e sono comunque meno ferrato di voi sull'argomento).
Da vedere comunque se ere quanto la parte di fetch e decodin possa costituire un collo di bottiglia: se adeguatamente potenziata poco importa che sia in comune, se poi è sovrabbondante per gestire i due core.
L'importante è che una volta avviati possano processare le operazioni senza concorrenza.
PS: ovviamente se ho detto castronerie sentitevi liberi di correggermi!
Grosso modo mi trovo d'accordo col concetto che esprimi: le pipeline a 128 bit sono due diverse, e ciascuna esegue un singolo thread alla volta. Certo il front end è condiviso e ciò è positivo.
Se fosse implementato un multi threading ciascuna pipeline potrebbe lavorare, alternativamente, a due thread, ma non mi risulta sia così.
Le pipeline sono due e i thread a 128 bit anche due.
Mi domando come possano essere eseguite le istruzioni a 64bit, visto che AMD ha parlato di 4 thread .a 64 bit contemporanei. Potrebbe essere che ogni pipeline a 128bit possa eseguire i due thread in concorrenza? E dunque una specie di SMT?
Potrebbe invece essere che per l'esecuzione delle AVX la FPU possa farsi carico di due thread (uno per core INT) ed eseguirli in concorrenza?
Scusate se interrompo un pò questa discussione su Bulldozer, ma vorrei attirare l'attenzione un secondo sui core X86 di Llano...
Non posto neanche le voci che sento, ma sono comunque (per lo più) ottimistiche.
Finora sappiamo che si tratta di architettura K10 (anche se i cialtroni di FUDZILLA la considera un K8 super potente:asd:); dovrebbe avere 1MB di cache L2, la L3 sarà assente mentre si parla di una possibile introduzione delle istruzioni AVX (non che quelle delle SSE 4.1/4.2).
Se la vedrà con gli SB più economici e anche se la GPU integrata di Llano sarà nettamente più potente, rimane l'incognita di quanto perderà in prestazioni sui core X86...
Ciao capitano,
Io credo che Llano non eseguirà AVX. Per il semplcie fatto che alla fine ad oggi le AVX non esistono, e la vita utile di Llano (un anno? due anni?) sarà sufficiente a farle comparire nei software professionali (per i quali si userà bulldozer), più che per i software consumer. L'utente di Llano non sarà certo il professionista che usa software di fascia alta...
E tu sai bene quanto le software house sono lente ad aggiornarsi ed implementare nuove tecnologie.
Piuttosto mi aspetto che anche qui AMD faccia parecchio per migliorare le tecnologie di risparmio energetico, in modo da spingere di più il turbo boost e creare CPU che in idle consumano pochissimo, caratteristica apprezzata negli home theater, nei computer di fascia bassa e soprattutto nei portatili.
Un miglioramento di IPC è certamente possibile, ma conservando l'architettura in genere non si guadagna più di un 10%, condiserato anche che k10 in llano avrà già subito upgrade precedenti e sarà già stato migliorato più volte (da barcelona a deneb a thuban).
Consideriamo anche che la L2 sarà ampliata, ma la L3 ridotta. Ad oggi i phenom II X2 sono in media più potenti degli athlon II X2 (che hanno 2x1MB di L2). Per cui credo che un incremento di IPC debba essere dedotto della mancanza della L3. Alla fine un +10% è realistico. Non credo di più. Poi ci sono ambiti dove la L3 non serve a nulla (e allora l'incremento potrà essere migliore, rispetto a deneb), e ambiti dove invece è impostante (e allora deneb potrebbe eguagliare o anche superare Llano).
Ma se non sarà presente L3, la GPU come sarà connessa?
Io però continuo a ritenere possibile un Llano a 6 core, magari successivamente. Alla fine SB X4 (8T) sarà decisamente più potente come core x86, non c'è nulla da fare. Si parte da 3GHz, per cui sarà potente come un odierno core i7 880 almeno... E sarà prezzato a pertire dai 180 euro.
Svendere LLano a 120 euro sarebbe un peccato.
Certo avrà una GPU migliore, ma haimè ho proprio l'impressione che sarà più la CPU ad essere valutata, che non la GPU. Anche perché ancora oggi nella fascia bassa molti usano GPU discrete comunque.
E purtroppo i test con i giochi sono sempre eseguiti in CPU-limited, con dettagli bassissimi, e la gente si convince che con una CPU potente si giochi meglio...
Le pipeline di Llano saranno quelle di deneb, per cui non credo vedremo un Llano alle frequenze di Bulldozer. Forse un 3,4-3,6GHz, ma almeno al lancio non credo vedremo di più.
La FPU del Thuban può fare 2/3 istruzioni elaborative per clock, di cui 2 massimo FP (FMISC può fare se non mi sbaglio solo shuffle e di coversione). Le SIMD intere competono per le 2 unità FP. Inoltre se le istruzioni non sono appaiate per bene, una delle pipeline rimane vuota, per colpa delle code separate. Con coda unica, pipeline dedicate per le SIMD intere (le MMX) da quelle FP, e considerando che nel caso migliore per il Thuban il limite diventa la banda verso la memoria (in bulldozer ogni core ha più banda e comunque la FPU si "serve" da due core in parallelo), il throughput della FP del Bulldozer può tranquillamente essere doppio... :)
Ma devi contare il tipo di traffico di ogni thread...
I casi in cui il throughput sarà massimo sono alquanto rari.
L'unica possibilità sarebbe avere:
- entrambi i thread eseguono SIMD su interi e su FP (occupando mediamente una unità SSE ed una MMX ciascuno)
- 1 thread esegue istruzioni SIMD su interi e 1 thread esegue istruzioni SIMD su FP
capitan_crasy
01-09-2010, 13:54
Uhm? Non è così. I drivers radeon opensource e i catalyst hanno code base totalmente diverse. :fagiano:
Ammetto la mia ignoranza in materia Linux, quindi chiedo scusa se ho detto cose non vere.
Il mio riferimento ai catalyst "open source" era sotto inteso ai puri e semplici driver video...;)
Uhm? Non è così. I drivers radeon opensource e i catalyst hanno code base totalmente diverse. :fagiano:
su questo non ci piove.
ma da diverso tempo AMD supporta gli sviluppatori dei driver open rilasciando diversa documentazione tecnica
La FPU del Thuban può fare 2/3 istruzioni elaborative per clock, di cui 2 massimo FP (FMISC può fare se non mi sbaglio solo shuffle e di coversione). Le SIMD intere competono per le 2 unità FP. Inoltre se le istruzioni non sono appaiate per bene, una delle pipeline rimane vuota, per colpa delle code separate. Con coda unica, pipeline dedicate per le SIMD intere (le MMX) da quelle FP, e considerando che nel caso migliore per il Thuban il limite diventa la banda verso la memoria (in bulldozer ogni core ha più banda e comunque la FPU si "serve" da due core in parallelo), il throughput della FP del Bulldozer può tranquillamente essere doppio... :)
Ciao Bjt2
Credo che cionci si riverisse al massimo teorico del k10, cioè 2 aritimetico\logico + 1 mov\store (fmsic). Fosse sempre cosi sarebbe ottimo, ma in realta come descritto da agner fog è molto meno.
Ma devi contare il tipo di traffico di ogni thread...
I casi in cui il throughput sarà massimo sono alquanto rari.
L'unica possibilità sarebbe avere:
- entrambi i thread eseguono SIMD su interi e su FP (occupando mediamente una unità SSE ed una MMX ciascuno)
- 1 thread esegue istruzioni SIMD su interi e 1 thread esegue istruzioni SIMD su FP
Eh, lo so... In thread FP intensivi (penso a calcoli complicato dove per ogni elemento vettore richiede 5-10 calcoli FP o interi), il collo di bottiglia è l'unità FP sia se entrambi i thread del modulo sono FP intensivi sia se solo un core usa la FPU. Nel caso di calcoli semplici (1-2 operazioni FP o intere per elemento vettore), il collo di bottiglia sarà la banda RAM se un solo thread è FPU-intensivo, altrimenti l'architettura sarà bilanciata se è come dici tu 1 FP e 1 intera)... Però devi considerare che questa FP è 4 ISSUE contro 2-3 (se va bene) di quella del Thuban e che per colpa delle code separate e del banale algoritmo di schedulazione ADD e MUL non sempre riempivano le pipe. Agner Fog ha analizzato questo comportamento: lo scheduler FP del Thuban è così semplice che è inefficiente. Infatti una FADD la schedula nel 50% nella prima pipe e nel 50% nella seconda senza fare nessun controllo. Se per caso deve essere schedulata una FMUL nello stesso ciclo che la FADD è schedulata, anche se l'altra pipeline FADD è libera, ormai la FADD farà ritardare di un ciclo la FMUL. E analogamente per le altre istruzioni che hanno una sola pipeline dove possono andare... Con la coda unificata questo non sarà più possibile... Chiaro che la potenza della FPU Bulldozer (escludendo le FMAC e la divisione della FMAC in FADD e FMUL) potrebbe essere doppia solo in casi ideali.
Ciao Bjt2
Credo che cionci si riverisse al massimo teorico del k10, cioè 2 aritimetico\logico + 1 mov\store (fmsic). Fosse sempre cosi sarebbe ottimo, ma in realta come descritto da agner fog è molto meno.
Ecco... :p
Comunque non ci rediamo conto ancora del cambiamento epocale che è stato fatto dal Thuban al Bulldozer. Ci hanno sempre fatto credere che le 3+3+3 pipeline del Thuban fossero il non plus ultra, ma ecco che INTEL con 5 pipeline, ma con coda condivisa, gli da le piste (mi riferisco al Nehalem). Rendiamoci conto che passare alla coda unica e al 4-decode, 4-issue, 4+4/2-execute e 4-retire, unito a tutti i miglioramenti sul prefetch, sulla cache, sul branch prediction, sui load/store OOO e tutte le code di disaccoppiamento messe tra i vari stadi della pipeline, daranno un boost di IPC IHMO, senza contare la frequenza probabilmente superiore. Nonostante il 9 issue raramente si raggiunge o si supera un IPC di 2 (dove 3 è il massimo teorico). E qui abbiamo una architettura che probabilmente scalerà molto di clock (non avrebbe senso se no la latenza delle caches così aumentata, nonostante si sia passati alle celle 8T) e probabilmente avrà anche un IPC superiore...
Senza contare che per colpa dell'accoppiata ALU+AGU lo stesso scherzetto della FPU che ho descritto sopra, probabilmente si applicava anche alle unità intere...
Comunque non ci rediamo conto ancora del cambiamento epocale che è stato fatto dal Thuban al Bulldozer. Ci hanno sempre fatto credere che le 3+3+3 pipeline del Thuban fossero il non plus ultra, ma ecco che INTEL con 5 pipeline, ma con coda condivisa, gli da le piste (mi riferisco al Nehalem).
Sono gli unici produttori di processori ad utilizzare una coda comune per interi, virgola mobile e vettoriali.
Mi viene da chiedere se questo approccio richiede molte più ore lavorative in fase di setup/debug del circuito...
Giusto per curiosità, tenendo in considerazione un BD a 2 moduli e quindi 2 FPU. Qual è uno possibile scenario in cui la presenza di 4 FPU possa avere un tangibile vantaggio rispetto a 2? Gioco? Video encondig? compressione/decompressione? ecc ecc ...
detto in altro modo, è verosimile che 4 FPU possano essere impegnate tutte contemporaneamente oppure con uno scheduler 'intelligente' è possibile ridurre al minimo questa situazione di eventuale stallo?
Sono gli unici produttori di processori ad utilizzare una coda comune per interi, virgola mobile e vettoriali.
Mi viene da chiedere se questo approccio richiede molte più ore lavorative in fase di setup/debug del circuito...
E' solo poco efficiente energeticamente e dal punto di vista dello spazio di silicio: ora che ci sono le AVX tutte le code devono essere a 256 bit... Ma le istruzioni intere sono al più a 64 bit. C'è un sacco di spazio sprecato in quel caso... Ma è indubbio che è il più efficiente...
papafoxtrot
01-09-2010, 18:41
Ecco... :p
Comunque non ci rediamo conto ancora del cambiamento epocale che è stato fatto dal Thuban al Bulldozer. Ci hanno sempre fatto credere che le 3+3+3 pipeline del Thuban fossero il non plus ultra, ma ecco che INTEL con 5 pipeline, ma con coda condivisa, gli da le piste (mi riferisco al Nehalem). Rendiamoci conto che passare alla coda unica e al 4-decode, 4-issue, 4+4/2-execute e 4-retire, unito a tutti i miglioramenti sul prefetch, sulla cache, sul branch prediction, sui load/store OOO e tutte le code di disaccoppiamento messe tra i vari stadi della pipeline, daranno un boost di IPC IHMO, senza contare la frequenza probabilmente superiore. Nonostante il 9 issue raramente si raggiunge o si supera un IPC di 2 (dove 3 è il massimo teorico). E qui abbiamo una architettura che probabilmente scalerà molto di clock (non avrebbe senso se no la latenza delle caches così aumentata, nonostante si sia passati alle celle 8T) e probabilmente avrà anche un IPC superiore...
Senza contare che per colpa dell'accoppiata ALU+AGU lo stesso scherzetto della FPU che ho descritto sopra, probabilmente si applicava anche alle unità intere...
Grazie njt2, ancora una cosa:
la cache L1 e soprattutto la L2 avranno, a quanto pare, latenze parecchio alte. Per quanto riguarda la L3, che era la cache dove si vedevano le maggiori differenze tra AMD e intel (Intel adopera L3 molto veloci, rispetto ad AMD), secondo te è possibile che questa abbia latenze decisamente abbassate, dato che l'uncore dovrebbe avere come al solito una frequenza diversa ed inferiore?
Un'altra cosa: quale può essere l'impatto prestazionale dato dall'avere una latenza così alta? 20 cicli circa, mi pare, per la L2, che sono circa il doppio rispetto a thuban. L'associatività della cache è cambiata. Mi sembra che la L2 ora sia 8 way, contro 4 way di prima. Mi sembra di aver capito, spulciando wikipedia, che ciò non sia molto positivo in termini di prestazioni (il proicessore deve cercare in più punti), soprattutto tenendo conto del nuovo accesso alla cache studiato da AMD: cercare in un punto, e poi se il dato non c'è controllare tutti gli altri. Sbaglio? Per quale motivo si aumenta l'associatività di una cache?
Giusto per curiosità, tenendo in considerazione un BD a 2 moduli e quindi 2 FPU. Qual è uno possibile scenario in cui la presenza di 4 FPU possa avere un tangibile vantaggio rispetto a 2? Gioco? Video encondig? compressione/decompressione? ecc ecc ...
detto in altro modo, è verosimile che 4 FPU possano essere impegnate tutte contemporaneamente oppure con uno scheduler 'intelligente' è possibile ridurre al minimo questa situazione di eventuale stallo?
Mi associo alla domanda.
Infine: ragionavo su questa cosa: Interlagos (12-16 core) credo che non potrà raggiungere le stesse frequenze di Zambezi (singolo die), per ovvi problemi di TDP.
Di conseguenza mi viene da pensare che interlagos soffrirà parecchio dell'allungamento delle pipe e dell'aumento delle latenze delle cache, non potendo compensare ciò con l'aumento di frequenza che in genere segue a queste variazioni. Sbaglio?
O comunque, a parità di TDP, una pipeline più lunga può lavorare a frequenze più alte? Per interlagos è possibile aspettarsi una frequenza di 33GHz? Credo di si... oggi magny cours è prodotto a 45nm, senza low-k.... E mi domando perché... Come mai non usano il low-k anche su magny cours? Dopotutto su una CPU così costosa come un processore per server, il costo di produzione dovrebbe essere irrisorio!
Con il low-k potrebbe credo certamente raggiungere i 2,5-2,8GHz, e così competerebbe certamente con westmere! Come mai non lo fanno? Che Interlagos sia più vicino del previsto? Sul settore server stanno andando male... potevano spremersi per un magny-cours migliore, visto che la tecnologia ce l'avevano!!
[QUOTE=papafoxtrot;32971245]Grazie njt2, ancora una cosa:
la cache L1 e soprattutto la L2 avranno, a quanto pare, latenze parecchio alte. Per quanto riguarda la L3, che era la cache dove si vedevano le maggiori differenze tra AMD e intel (Intel adopera L3 molto veloci, rispetto ad AMD), secondo te è possibile che questa abbia latenze decisamente abbassate, dato che l'uncore dovrebbe avere come al solito una frequenza diversa ed inferiore?
Un'altra cosa: quale può essere l'impatto prestazionale dato dall'avere una latenza così alta? 20 cicli circa, mi pare, per la L2, che sono circa il doppio rispetto a thuban. L'associatività della cache è cambiata. Mi sembra che la L2 ora sia 8 way, contro 4 way di prima. Mi sembra di aver capito, spulciando wikipedia, che ciò non sia molto positivo in termini di prestazioni (il proicessore deve cercare in più punti), soprattutto tenendo conto del nuovo accesso alla cache studiato da AMD: cercare in un punto, e poi se il dato non c'è controllare tutti gli altri. Sbaglio? Per quale motivo si aumenta l'associatività di una cache?
[QUOTE]
Ciao.
Provo a risponderti io sul discorso caches:
La L2 nel k10 è di tipo esclusivo di latenzachevaria dai 12(caso migliore in caso di poco traffico L1-L2) e di 14 cicli (caso peggiore) ed ha un associatività pari 16 ovvero ogni ciclo può mappare queste locazioni di memoria centrale. La L2 di bd ha una latenza di circa 18 cicli (secondo realworldtech) però non ho trovato la sua associatività. Per la questione associatività, le prestazioni dipendono da un corretto mix tra dimensione ed associatività. Quello che forse è sfuggito è che ora la L2 è di tipo inclusivo. Quindi non v'è più necessità del victim buffer salvando qualche ciclo di clock qui e li. Secondo me la L2 ha questi cicli qui poichè bd è molto più tollerante alle latenze che un k10 od un nehalem.
e.greg.io
01-09-2010, 19:28
porca miseria...non leggo il thread per qualche giorno e mi ritrovo mille mila pagine :D :D
paolo.oliva2
01-09-2010, 19:39
Infine: ragionavo su questa cosa: Interlagos (12-16 core) credo che non potrà raggiungere le stesse frequenze di Zambezi (singolo die), per ovvi problemi di TDP.
Di conseguenza mi viene da pensare che interlagos soffrirà parecchio dell'allungamento delle pipe e dell'aumento delle latenze delle cache, non potendo compensare ciò con l'aumento di frequenza che in genere segue a queste variazioni. Sbaglio?
Forse, credo, che sia per questo che per la prima volta AMD porterà il turbo pure nei server.
Riflettendoci... almeno da quello che si sa, e anche per quello che hai suggerito tu, BD non dovrebbe prediligere una frequenza bassa su tutti core ma più una frequenza alta su parte dei core, per poi (ipotizzo io) fare un turbo alla rovescia... Mi spiego meglio. BD 12-16 core sono 2 die "attaccati", ma appunto per questo hanno 2 MC, 2 L3. Far lavorare ad esempio 2 moduli (4 core) in turbo, significa poter sfruttare solo 1 modulo per die di 2 die distinti. Bisognerà anche vedere come reagisce il silicio AMD, cioé se consuma più un modulo a 4GHz (es.) al posto di 4 moduli a 1GHz, anche perché mi sembra che si preveda di spegnere pure parte della L3 non necessaria.
Se poi, come dici pure tu, il core BD per rendere abbia bisogno di clock alti, mi sembra che questa sia una soluzione idonea.
O comunque, a parità di TDP, una pipeline più lunga può lavorare a frequenze più alte? Per interlagos è possibile aspettarsi una frequenza di 33GHz? Credo di si... oggi magny cours è prodotto a 45nm, senza low-k.... E mi domando perché... Come mai non usano il low-k anche su magny cours? Dopotutto su una CPU così costosa come un processore per server, il costo di produzione dovrebbe essere irrisorio!
Con il low-k potrebbe credo certamente raggiungere i 2,5-2,8GHz, e così competerebbe certamente con westmere! Come mai non lo fanno? Che Interlagos sia più vicino del previsto? Sul settore server stanno andando male... potevano spremersi per un magny-cours migliore, visto che la tecnologia ce l'avevano!!
Io penso che il low-k sia stato espressamente studiato per far raggiungere al Thuban frequenze alte, ma non so quanto effettivamente si risparmi nel TDP.
Se fai conto che il primo X6 AMD per server era 140W a 2,8GHz D0, il D1 fondamentalmente a fatto salti da gigante, in quanto comunque porta mi sembra allo stesso TDP il doppio dei core perdendo solo 300-400MHz.
Inoltre... credo che il low-k faceva comunque parte del progetto Thuban con tanto di tecnologia Turbo... e probabilmente era quasi un esperimento ed AMD non se l'è sentita di sperimentarlo nei server, dove al 1° posto ci deve essere l'affidabilità, la potenza è un aspetto secondario.
Non vorrei dire una castroneria, ma se AMD volesse realizzare un Magny-C low-k, basterebbe che al posto dell'X6 D1, ci mettesse il Thuban... non so se l'MC del Thuban dovrebbe avere qualche modifica, ma penso sia del tutto marginale e fattibile in tempi brevissimi.
paolo.oliva2
01-09-2010, 19:58
Premesso che non sappiamo quando bulldozer uscirà, ma ritengo possibie che sia disponibile entro giugno (l'articolo linkatom parlava di seconda metà...:confused: ), se anche BD X6/X8 arrivasse prima di SB X6/X8, rimarrebbe comunque core i7 980 e 990x.
Ops... ho dimenticato una paglia... :D , mi ero scordato degli X6 non SB.
Beh... a me non sembra che ci siano dubbi che arrivi prima BD X8 di SB X6-X8, in quanto SB non è previsto sulla fine del 2011? Lascia pure che ci siano ritardi, ma comunque BD sarebbe previsto nel primo semestre 2011... in cui l'ultimo mese è giugno, mentre SB X6-X8 si parlerebbe al più di ottobre-novembre...
Intel non rimuoverà questi ultimi dal mercato fino all'arrivo dei SB di fascia più alta, i quali probabilmente saranno lanciati dopo gli X4 per il semplice motivo che ad oggi i quad core (destinati a diventare la fascia medio-alta) sono ancora a 45nm, e dunque meno avanzati e più costosi da produrre.
Per cui secondo me prima fa uscire i SB X4, svecchiando i lynnfield ed i core i7 9x0 quad core.
I core i7 9x0 a 6 core sono già a 32nm, e dunque SB comporterà un passo avanti inferiore in questo settore.
Indi per cui il confronto con core i7 990x non è butato li a caso. Quello sarà, da subito, il nemico da battere. Poi SB X6 crescerà leggermente le performance, riducendo in parte i consumi.
Che SB migliori, non ci sono dubbi, comunque un 10% di IPC e forse 100-200MHz (X8 escluso per me) di clock non sono certamente il plus in cui molti speravano. Poi, sicuramente come sempre, le differenze architetturali tra BD e i7 o SB ci sono, quindi sicuramente i risultati in bench di confronto pure, in cui le varie testate faranno risaltare le differenze in modo partigiano. Ad esempio, tra un Phenom I 65nm e Phenom II 45nm c'era sino al 17% in più di IPC a favore del Phenom II (a parte l'incremento di clock di 500MHz), ma per buoni 3-4 mesi si è continuato a dire che il Phenom II aveva un IPC invariato rispetto al Phenom I.
Ad ogni modo per quanto riguarda i listini intel, mi aspetto ache all'uscita i SB X6 siano piazzati tra i 450 e gli 800 euro.
Molto sinceramente... io la storia dei ribassi Intel nei listini la sento dai Core2, ma alla fine Intel ha sempre calato i prezzi unicamente quando AMD l'ha costretta a calarli...
Intel lo proporrà a 500€ solo se AMD avesse un BD X8 di prestazioni simili e che lo vendesse a 350-400€. Intel non ha mai proposto un procio che per prestazioni fosse superiore all'equivamente AMD, ad un costo inferiore.
SB X8 potrebbe uscire prima extreme a 1000 euro, per poi calare successivamente uscendo in versioni inferiori, in dipendenza anche da come va bulldozer.
1000€ un SB X8? Ho i miei dubbi in proposito... perché chiunque dovesse spendere 800€ per un SB X6 e solo 200€ per avere 2 core in più... Intel non venderebbe più SB X6 EE. Come minimo dovrebbe partire da +33% ed aggiungerci il solito aumento che fa per i proci superiori... sarebbe già molto basso un prezzo del +50% rispetto ad un SB X6 EE, almeno 1200€.
Prima di SB X6 penso che comunque intel potrà tagliare i prezzi di core i7 970 ed eventualmente 980, anche qui con l'eventuale scopo di fronteggiare bulldozer.
Alla fine il core di gulftown è parecchio piccolo e a distanza di un anno trovare un gulftown a 500 euro non sarebbe una sorpresa.
bah... in listino ci sono ancora i Core2 quad EE allo stesso prezzo di 2 anni fa... ho i miei dubbi.
papafoxtrot
01-09-2010, 20:05
Ciao.
Provo a risponderti io sul discorso caches:
La L2 nel k10 è di tipo esclusivo di latenzachevaria dai 12(caso migliore in caso di poco traffico L1-L2) e di 14 cicli (caso peggiore) ed ha un associatività pari 16 ovvero ogni ciclo può mappare queste locazioni di memoria centrale. La L2 di bd ha una latenza di circa 18 cicli (secondo realworldtech) però non ho trovato la sua associatività. Per la questione associatività, le prestazioni dipendono da un corretto mix tra dimensione ed associatività. Quello che forse è sfuggito è che ora la L2 è di tipo inclusivo. Quindi non v'è più necessità del victim buffer salvando qualche ciclo di clock qui e li. Secondo me la L2 ha questi cicli qui poichè bd è molto più tollerante alle latenze che un k10 od un nehalem.
La L2 inclusiva non mi è sfuggita. Non sapevo che ciò permettesse di risparmiare cicli di clock. Non male.
La L3 invece rimane esclusiva, e credo che non sia male, visto che ciò permette di avere L2 abbastanza ampie (sennò la L3 si riempie con le copie delle L2) e di avere nel complesso più dati in cache.
Sull'associatività della cache la trovi sui diagrammi a blocchi dell'articolo di realworld.
Io penso che il low-k sia stato espressamente studiato per far raggiungere al Thuban frequenze alte, ma non so quanto effettivamente si risparmi nel TDP.
Se fai conto che il primo X6 AMD per server era 140W a 2,8GHz D0, il D1 fondamentalmente a fatto salti da gigante, in quanto comunque porta mi sembra allo stesso TDP il doppio dei core perdendo solo 300-400MHz.
No no, low-k permette di risarmiare sul consumo. Questo è cverto.
Guarda anche dallo step C3 all'E0 che cambiamenti... Non radicali, due core non consumano il 50% in più, ma è comunque un gran passo avanti.
Mantenendo il tuo esempio degli opteron devi considerare che quei 400MHz in più di un istambul rispetto ad un die magny cours, costituiscono il 17% della frequenza del magny cours. Un istambul ha una frequenza più alta del 17%. Ora se è vero che i consumi vanno col cubo della potenza, ne risulta che aumentando la frequenza del 17% i consumi crescono del 60%.
Quindi un die magny cours a 2,8GHz consumerebbe già di suo il 60% in più..
Indi per cui magny corus @ 2,8GHz consumerebbe il 60% in più, e per arrivare al circa +100% che consuma istambul ne manca un solo 40% del consumo di un die magny cours, che attestandosi sui 70W significa 28W.
Insomma la diminuzione di frequenza ha permesso di risparmiare 42W, gli altri 28W sono ampiamente spiegabili col miglioramento di processo che GF è riuscita ad ottenere. Ad esempio inizialmente aveva un quad core 3GHz a 125W e da tempo penso potrebbe ottenere, sempre a 125W un 3,4GHz. +13% frequenza = +45% consumo... 45% 125W = 55W...
Insomma il processo è migliorato tanto, ma non più del miglioramento che si è avuto nel desktop. Un low-k a mio avviso permetterebbe di limare un 15% di consumo e così guadagnare quei MHz che separano MC da westmere.
Inoltre... credo che il low-k faceva comunque parte del progetto Thuban con tanto di tecnologia Turbo... e probabilmente era quasi un esperimento ed AMD non se l'è sentita di sperimentarlo nei server, dove al 1° posto ci deve essere l'affidabilità, la potenza è un aspetto secondario.
Su questo condivido, anche se anche nei server potenza e soprattutto consumi vogliono dire tanto.
D'altra parte però vedo che IBM usa il 45nm low-k per i power7, che sono usciti anche prima di MC. Penso anche che il processo sia lo stesso, visto che IBM e GF fanno parte dell'alleanza. IBM poroduce le CPU in casa comunque, vero?
Insomma AMD poteva diffidare, ma vedo che IBM non ha avuto ragiune di dubitare e ha sfornato un power 7 da 4GHz con low-k.
AMD potrebbe anche rinfrescare sti magny-cours con nuovi modelli con low-k ora che il processo è rodato, no?
IMHO se non lo fa vuol dire che a interlagos manca molto poco. Se fossero in vantaggio potrebbero aspettare, ma stanno rincorrendo, devono spararle tutte le cartucce! Se attendono vuol dire che manca poco!
Dico questo perché interlagos uscirà prima di zambezi per desktop. Quando uscirà interlagos finalmente sapremo definitivamente quanto rulla bulldozer :D
Non vorrei dire una castroneria, ma se AMD volesse realizzare un Magny-C low-k, basterebbe che al posto dell'X6 D1, ci mettesse il Thuban... non so se l'MC del Thuban dovrebbe avere qualche modifica, ma penso sia del tutto marginale e fattibile in tempi brevissimi.
Non è proprio diretta la cosa, perché i core per server non sono in realtà uguali a quelli per desktop. Ad esempio dovrebbe aggiungere gli HT per il collegamento alle altre CPU, il probe filter agli HT, modificare la circuiteria per il controllo dell'energia consumata... Per cloccare l'uncore e l'HT (che in MC vanno un po' più alti che in thuban non ci vorrebbe molto, comunque.
papafoxtrot
01-09-2010, 20:20
Ops... ho dimenticato una paglia... :D , mi ero scordato degli X6 non SB.
Beh... a me non sembra che ci siano dubbi che arrivi prima BD X8 di SB X6-X8, in quanto SB non è previsto sulla fine del 2011? Lascia pure che ci siano ritardi, ma comunque BD sarebbe previsto nel primo semestre 2011... in cui l'ultimo mese è giugno, mentre SB X6-X8 si parlerebbe al più di ottobre-novembre...
Certamente, anche io credo che BD X6/8 arriverà prima. Però non si sa mai, qualcuno vociferà seconda metà del 2011 per i desktop...magari qualche ritardo.
Comunque si, il succo è quello, bulldozer avrà il suo avversario da subito. Sia esso gulfotwn o sandy bridge.
Che SB migliori, non ci sono dubbi, comunque un 10% di IPC e forse 100-200MHz (X8 escluso per me) di clock non sono certamente il plus in cui molti speravano.
Beh, veremo cosa esce. Io credo che appunto SB X6 esca a partire da 450 euro, per cui sarebbe già un passo avanti rispetto agli attuali gulfotwn. Per l'incremento del top di gamma in realtà esso c'è ed è abbastanza consistente, se non sbalorditivo. Si chiama X8.
Certo i miracoli non si possono fare, il gulfotwn è già a 32nm, ma io credo che il processo di intel da qui ad un anno migliorerà parecchio, e un X8 a 3,2-3,4GHz con un IPC 10% più di nehalem, rimane comunque un piatto succulento.
Intel non ha fatto i salti mortali a cui ci ha abituato con core 2 e con nehalem, ma insomma non sta neanche facendo schifo con sandy bridge.
Molto sinceramente... io la storia dei ribassi Intel nei listini la sento dai Core2, ma alla fine Intel ha sempre calato i prezzi unicamente quando AMD l'ha costretta a calarli...
Intel lo proporrà a 500€ solo se AMD avesse un BD X8 di prestazioni simili e che lo vendesse a 350-400€. Intel non ha mai proposto un procio che per prestazioni fosse superiore all'equivamente AMD, ad un costo inferiore.
Beh, penso che sarà ciò che succederà. AMD metterà bulldozer X8 ad un prezzo tra i 400 ed i 600 euro, e intel risponderà con SB X6 sui 500 euro.
Certo non calano i prezzi per beneficenza, se non c'è concorrenza i loro prodotti continuano a farseli pagare.
E' anche vero che SB X6 sarà si fascia alta, ma grosso modo dovrà occupare la fascia che oggi occupano i nehalem X45 9x0, per cui sopra ai 450 euro il più scarso non può andare!
Alla fine il conto torna. I SB X4 arriveranno fino a 500 euro. I SB X6 l'anno prox partiranno da 500 euro, e forse anche meno, gli X8 saranno gli extreme a 1000 euro, e forse vedremo un 800 euro, magari solo successivamente.
1000€ un SB X8? Ho i miei dubbi in proposito... perché chiunque dovesse spendere 800€ per un SB X6 e solo 200€ per avere 2 core in più... Intel non venderebbe più SB X6 EE. Come minimo dovrebbe partire da +33% ed aggiungerci il solito aumento che fa per i proci superiori... sarebbe già molto basso un prezzo del +50% rispetto ad un SB X6 EE, almeno 1200€.
bah... in listino ci sono ancora i Core2 quad EE allo stesso prezzo di 2 anni fa... ho i miei dubbi.
Non credo proprio che AMD supererà i 1000 dollari di listino. Perché quella è la sua finestra di prezzi. Le posizioni nel listino intel sono sempre state fisse, gli extreme sempre a 1000 dollari. Con l'unica eccezione dei qx9775, che però erano per dual XPU, e non credo ne abbianop venduti tanti...
Inoltre SB X6 non costerà 800 euro. Il top dei SB X6 costerà 800 euro, e forse anche meno. Per cui potrebbe essere che abbia anche frequenze più alte rispetto all'X8.
Insomma io ce la vedo abbastanza nitida la roadmap per intel:
X4 tra 100 e 300 euro
X6 tra 300 e 800 euro
X8 tra 800 e 1000 euro.
Alla fine non è neanche vero che intel non ha mai proposto nulla di più allo stesso prezzo, o a buoni prezzi, senza concorrenza AMD. Quando è uscito core i7 920 fulminava qualunque core 2 quad, eppure costava 250 euro... Un prezzo eccellente!
I core 2 quad a listino non fanno testo. E' evidente che non scenderanno di prezzo, perchP le vecchie CPU non vanno ad occupare le facie basse. Vengono sostituite. Intanto intel ne vende un po' come pezzi di ricambio, ma vende i Q8000, al più i Q9500. Ma questo discorso appunto non c'entra. Ora alle stesse prestazioni dei Q8000 ci stanno i core i3/i5. Il 760 a 2,8GHz è più che sufficiente a bruciare i C2Q di fascia alta, e viene 180 euro.
Visto che non ho avuto risposta prima, vorrà dire che è troppo presto..ma rinnovo la domanda :D
si sa nulla di un bulldozer x2?
paolo.oliva2
01-09-2010, 20:24
No no, low-k permette di risarmiare sul consumo. Questo è cverto.
Guarda anche dallo step C3 all'E0 che cambiamenti... Non radicali, due core non consumano il 50% in più, ma è comunque un gran passo avanti.
Mantenendo il tuo esempio degli opteron devi considerare che quei 400MHz in più di un istambul rispetto ad un die magny cours, costituiscono il 17% della frequenza del magny cours. Un istambul ha una frequenza più alta del 17%. Ora se è vero che i consumi vanno col cubo della potenza, ne risulta che aumentando la frequenza del 17% i consumi crescono del 60%.
Quindi un die magny cours a 2,8GHz consumerebbe già di suo il 60% in più..
Indi per cui magny corus @ 2,8GHz consumerebbe il 60% in più, e per arrivare al circa +100% che consuma istambul ne manca un solo 40% del consumo di un die magny cours, che attestandosi sui 70W significa 28W.
Insomma la diminuzione di frequenza ha permesso di risparmiare 42W, gli altri 28W sono ampiamente spiegabili col miglioramento di processo che GF è riuscita ad ottenere. Ad esempio inizialmente aveva un quad core 3GHz a 125W e da tempo penso potrebbe ottenere, sempre a 125W un 3,4GHz. +13% frequenza = +45% consumo... 45% 125W = 55W...
Insomma il processo è migliorato tanto, ma non più del miglioramento che si è avuto nel desktop. Un low-k a mio avviso permetterebbe di limare un 15% di consumo e così guadagnare quei MHz che separano MC da westmere.
Però guarda questo: (ho voluto coprire i dati rispetto a cpu non AMD proprio per non creare confronti AMD vs Intel, volevo limitarmi al discorso low-k e aumento frequenze)
A frequenze maggiori di 800MHz abbondanti di un 1090T, solo 17W di consumo in più, sotto carico. Praticamente, sarebbe un Thuban che a 4GHz starebbe tranquillamente sotto i 140W.
http://www.pctunerup.com/up/results/_201009/20100901201743_consumi2b.jpg
Io non posso testare se l'articolo sia spazzatura... però sinceramente non ho visto articoli partigiani verso AMD, almeno sino ad ora.
Su questo condivido, anche se anche nei server potenza e soprattutto consumi vogliono dire tanto.
D'altra parte però vedo che IBM usa il 45nm low-k per i power7, che sono usciti anche prima di MC. Penso anche che il processo sia lo stesso, visto che IBM e GF fanno parte dell'alleanza. IBM poroduce le CPU in casa comunque, vero?
Insomma AMD poteva diffidare, ma vedo che IBM non ha avuto ragiune di dubitare e ha sfornato un power 7 da 4GHz con low-k.
AMD potrebbe anche rinfrescare sti magny-cours con nuovi modelli con low-k ora che il processo è rodato, no?
IMHO se non lo fa vuol dire che a interlagos manca molto poco. Se fossero in vantaggio potrebbero aspettare, ma stanno rincorrendo, devono spararle tutte le cartucce! Se attendono vuol dire che manca poco!
Dico questo perché interlagos uscirà prima di zambezi per desktop. Quando uscirà interlagos finalmente sapremo definitivamente quanto rulla bulldozer :D
Non è detto... Sul Thuban ci basavamo sul Magny-C e ci siamo trovati spiazzati. Non è detto che AMD operi dei cambiamenti tra i 2 BD (server e desktop).
Comunque, onestamente, anche io penso che AMD non stia offrendo il max sul Thuban... A mio parere anche un semplice 1090T sarebbe vendibile a 3,4GHz X6 e 3,8GHz Turbo a 125W.
Non è proprio diretta la cosa, perché i core per server non sono in realtà uguali a quelli per desktop. Ad esempio dovrebbe aggiungere gli HT per il collegamento alle altre CPU, il probe filter agli HT, modificare la circuiteria per il controllo dell'energia consumata... Per cloccare l'uncore e l'HT (che in MC vanno un po' più alti che in thuban non ci vorrebbe molto, comunque.
Si dai... non sono comunque progetti ex-novo... al più dovrebbe adattare delle parti al low-k o viceversa...
papafoxtrot
01-09-2010, 21:36
Visto che non ho avuto risposta prima, vorrà dire che è troppo presto..ma rinnovo la domanda :D
si sa nulla di un bulldozer x2?
E' stato detto più volte: AMD ha detto che bulldozer sarà solo a 6 e 8 core.
Dual e quad core saranno appannaggio di Llano.
Però guarda questo: (ho voluto coprire i dati rispetto a cpu non AMD proprio per non creare confronti AMD vs Intel, volevo limitarmi al discorso low-k e aumento frequenze)
A frequenze maggiori di 800MHz abbondanti di un 1090T, solo 17W di consumo in più, sotto carico. Praticamente, sarebbe un Thuban che a 4GHz starebbe tranquillamente sotto i 140W.
http://www.pctunerup.com/up/results/_201009/20100901201743_consumi2b.jpg
Io non posso testare se l'articolo sia spazzatura... però sinceramente non ho visto articoli partigiani verso AMD, almeno sino ad ora.
Considera che i thuban arrivano con voltaggi paurosamente sovradimensionati. L'ultimo 1090T che ho montato la mobo di default lo metteva a 1,475 volt... :doh:
Mentre con quella frequenza di sicuro il thuban poteva reggere i 4GHz.
A quel punto la funzione dei consumi diventa lineare con la frequenza:
Q = F (f, v^2)
v = F (f)
E quei 17w in più rispecchiano al differenza di 800MHz, che è il 25% della frequenza del 1090T.
Quando overclocchi il voltaggio lo setti giusto giusto... Poi non è per nulla detto che il loro voltaggio fosse 100% rock solid. Abbastanza sicuro, posso dire che i 4GHZ li potevano prendere con meno di 1,475, e posso ipotizzare che non siano rimasti li ore col prime a vedere se gli serviva un +0,05v
Grazie njt2, ancora una cosa:
la cache L1 e soprattutto la L2 avranno, a quanto pare, latenze parecchio alte. Per quanto riguarda la L3, che era la cache dove si vedevano le maggiori differenze tra AMD e intel (Intel adopera L3 molto veloci, rispetto ad AMD), secondo te è possibile che questa abbia latenze decisamente abbassate, dato che l'uncore dovrebbe avere come al solito una frequenza diversa ed inferiore?
Un'altra cosa: quale può essere l'impatto prestazionale dato dall'avere una latenza così alta? 20 cicli circa, mi pare, per la L2, che sono circa il doppio rispetto a thuban. L'associatività della cache è cambiata. Mi sembra che la L2 ora sia 8 way, contro 4 way di prima. Mi sembra di aver capito, spulciando wikipedia, che ciò non sia molto positivo in termini di prestazioni (il proicessore deve cercare in più punti), soprattutto tenendo conto del nuovo accesso alla cache studiato da AMD: cercare in un punto, e poi se il dato non c'è controllare tutti gli altri. Sbaglio? Per quale motivo si aumenta l'associatività di una cache?
Mi associo alla domanda.
Infine: ragionavo su questa cosa: Interlagos (12-16 core) credo che non potrà raggiungere le stesse frequenze di Zambezi (singolo die), per ovvi problemi di TDP.
Di conseguenza mi viene da pensare che interlagos soffrirà parecchio dell'allungamento delle pipe e dell'aumento delle latenze delle cache, non potendo compensare ciò con l'aumento di frequenza che in genere segue a queste variazioni. Sbaglio?
O comunque, a parità di TDP, una pipeline più lunga può lavorare a frequenze più alte? Per interlagos è possibile aspettarsi una frequenza di 33GHz? Credo di si... oggi magny cours è prodotto a 45nm, senza low-k.... E mi domando perché... Come mai non usano il low-k anche su magny cours? Dopotutto su una CPU così costosa come un processore per server, il costo di produzione dovrebbe essere irrisorio!
Con il low-k potrebbe credo certamente raggiungere i 2,5-2,8GHz, e così competerebbe certamente con westmere! Come mai non lo fanno? Che Interlagos sia più vicino del previsto? Sul settore server stanno andando male... potevano spremersi per un magny-cours migliore, visto che la tecnologia ce l'avevano!!
Più è elevata la latenza in cicli, più c'è speranza che il clock sia alto... E' una questione di compromessi... Più vie sono, meglio è per la cache, ma richiede più comparatori. Siccome lavorano in parallelo non è più lenta eccetto che più vie sono più il muxer deve essere grosso e potenzialmente lento. Ma la lentezza va con il logaritmo di 2: raddoppiando le vie aumenta solo di un poco la latenza...
secondo me ,cercando di descrivere la grande mareggiata di novità che ci aspetta ricca di novita,rifacendomi al passato penso che non soffriremo per bulldozer desktop,perche secondo me uscirà bulldozer server marzo-aprile
poi aprile maggio zambezi x8...ed infine a giugno-luglio...lui l'indiscusso e il piu dubbiato di tutti ,appunto llano...la prima vera (finalmente) gpu per processore che non sara solo gpu...:Prrr:
dalle prestazioni di bulldozer server(anche se socket ed altro diverse),visto il ''cuore'' dell'architettura simile,potremmo gia ''palpare'' quale gape tappare
in questo scenario sb x4 e x6 ottimizzato(990) gia sarebbero in circolazione ed
il tutto sembrerà gia in partenza ''ko'' ,ma appena uscira bd x8 le prestazioni si avvicineranno come un'eclisse totale.....ed in almeno uno scenario sono convinto che non ci sarà storia(cercando di fare vero ,una parte delle discussione molto tecniche che ho letto in questo forum)
non ci saranno discrepanze di prestazioni pazzesche a sto colpo....''potete''(scusatemi) stare tranquilli....,il tutto si prepara verso lo scontro finale ....e cmq il tutto sembra sulla strada giusta
cmq bobcat ,secondo me, uscira gennaio-febbraio e servirà per (in parte )sconvolgere qualcuno
la componente di ''imcompletezza'' di bd ,arrivera per ultimo e ''separatamente'' ...e portera la scritta ....''PREPARIAMOCI'' ,il futuro ce l'hai quasi in mano
puo darsi che lo scenario non sia questo ,ma il tutto per dire che bd x4 andrà almeno(o un po meno) due volte piu veloce di deneb...(a meno che l'architettura è anche concepita per un maggior numero moduli per avere dei salti di potenza piu consistenti)
appunto per dire che gia bd x4 rispetto a deneb ,considerando il 32nm e clock, è su un altro livello
lo dico solo considerando che in ''monocore'' ipc di bulldozer sarà consistente rispetto a deneb ,è questo è già un risultato ...anche se potrebbe non bastare per tutto il resto...ma cmq sembra che ci sia già adesso, visto le analisi fatte adesso su bulldozer
Foglia Morta
01-09-2010, 22:46
Llano: http://www.semiaccurate.com/2010/09/01/more-llano-wafer-picture/
Orochi: http://www.semiaccurate.com/2010/09/01/amd-outs-bulldozer-based-orochi-die/
Global Foundries talks future technologies : http://www.semiaccurate.com/2010/09/01/global-foundries-talks-future-technologies/
paolo.oliva2
01-09-2010, 22:58
Considera che i thuban arrivano con voltaggi paurosamente sovradimensionati. L'ultimo 1090T che ho montato la mobo di default lo metteva a 1,475 volt... :doh:
Mentre con quella frequenza di sicuro il thuban poteva reggere i 4GHz.
A quel punto la funzione dei consumi diventa lineare con la frequenza:
Q = F (f, v^2)
v = F (f)
E quei 17w in più rispecchiano al differenza di 800MHz, che è il 25% della frequenza del 1090T.
Quando overclocchi il voltaggio lo setti giusto giusto... Poi non è per nulla detto che il loro voltaggio fosse 100% rock solid. Abbastanza sicuro, posso dire che i 4GHZ li potevano prendere con meno di 1,475, e posso ipotizzare che non siano rimasti li ore col prime a vedere se gli serviva un +0,05v
Guarda che loro li hanno presi a 1,375V, non 1,475V, per questo il TDP è enormemente basso.
Se si dispone di buona mobo e buon ali, in generale per i 4GHz RS non si superano 1,4V.
Io a 1.425V sono RS a 4,2GHz... e non sono certamente uno dei pochi...
E' per questo che guardo con MOLTA fiducia il 32nm HKMG... se con un 45nm low-k in produzione da solo 4 mesi si arriva a questo punto, senza nemmeno uno step aggiuntivo, pensa al salto al 32nm HKMG, che in proporzione è molto di più del solo low-k....
capitan_crasy
01-09-2010, 23:05
Llano: http://www.semiaccurate.com/2010/09/01/more-llano-wafer-picture/
Orochi: http://www.semiaccurate.com/2010/09/01/amd-outs-bulldozer-based-orochi-die/
Grazie per la segnalazione!
Prime ipotetiche immagini del DIE Bulldozer core Orochi composto da 4 moduli per un totale di 8 core:
http://www.pctunerup.com/up/results/_201009/20100901230102_Orochi_Die_Shot.JPG
http://www.pctunerup.com/up/results/_201009/20100901232527_BulldozerOrochi.jpg
Aggiornamento:
Non fatevi i conti li sopra... :D
Sul forum AMDZONE un tizio chiede a JF perchè i due moduli di sopra sono diversi da quelli di sotto. JF dice apertamente che per non essere sgamati oltre al blur è stato fatto un taglia e cuci per mascherare le reali dimensioni del modulo... :D In pratica quella foto è quasi inutile... :(
Finalmente GF mostra i primi Wafer della APU Llano; purtroppo si riesce solo ad intravedere il DIE:
http://www.pctunerup.com/up/results/_201009/20100901230321_Llano_Wafer_1.JPG
http://www.pctunerup.com/up/results/_201009/20100901230344_Llano_Wafer_2.JPG
http://www.pctunerup.com/up/results/_201009/20100901230406_Llano_Wafer_3.JPG
paolo.oliva2
01-09-2010, 23:05
Llano: http://www.semiaccurate.com/2010/09/01/more-llano-wafer-picture/
Orochi: http://www.semiaccurate.com/2010/09/01/amd-outs-bulldozer-based-orochi-die/
Global Foundries talks future technologies : http://www.semiaccurate.com/2010/09/01/global-foundries-talks-future-technologies/
E che aspettano per la produzione in volumi? :sofico:
Cacchio, io mi sto incominciando a ingalluzzire...
Mi sa strano che mancherebbero ancora tutti sti mesi...
capitan_crasy
01-09-2010, 23:09
E' stato detto più volte: AMD ha detto che bulldozer sarà solo a 6 e 8 core.
Dual e quad core saranno appannaggio di Llano.
I Quad core Bulldozer sono sempre stati in Roadmap; sono i six core Bulldozer desktop che non sono confermati per il mercato desktop...
http://www.pctunerup.com/up/results/_200911/th_20091113192852_ScreenHunter_110.jpg (http://www.pctunerup.com/up/image.php?src=_200911/20091113192852_ScreenHunter_110.jpg)
matt92tau
01-09-2010, 23:13
E che aspettano per la produzione in volumi? :sofico:
Cacchio, io mi sto incominciando a ingalluzzire...
Mi sa strano che mancherebbero ancora tutti sti mesi...
:sperem: :sperem: :sperem: Manchino meno mesi di quanto previsto, magari AMD ci fa una sorpresina e ci fa uscire Llano a dicembre e Bulldozer a Febbraio
papafoxtrot
01-09-2010, 23:24
I Quad core Bulldozer sono sempre stati in Roadmap; sono i six core Bulldozer desktop che non sono confermati per il mercato desktop...
http://www.pctunerup.com/up/results/_200911/th_20091113192852_ScreenHunter_110.jpg (http://www.pctunerup.com/up/image.php?src=_200911/20091113192852_ScreenHunter_110.jpg)
OPS; allora mi scuso, io ero abbastanza sicuro di mio, ma mi sembrava che alcuni giorni fa fosse stata ripetuta la stessa cosa!
Grazie per la segnalazione!
Prime Immagini del DIE Bulldozer core Orochi composto da 4 moduli per un totale di 8 core:
http://www.pctunerup.com/up/results/_201009/20100901230102_Orochi_Die_Shot.JPG
Dal wafer si distinguono chiaramente le L2 e le L3, e grosso modo sembrano complessivamente della stessa dimensione. Che siano veramente 2MB di L2 a modulo e 8MB di L3 in totale?
La L3 appare molto ben divisa in quattro settori, che sia a causa di un power gating?
I core appaiono nel complesso molto piccoli. Ricordo che in deneb ed in core i7 i core occupano circa la metà della superficie del die, e quasi tutto il resto è cache L3. Qui i moduli sembrano occupare grosso modo un teszo, e altrettanto è occupato dalla L3. Manca un terzo, che cosa ancora nell'uncore può portare via tanto spazio?
Ma soprattutto: la cache L3 di, probabilmente, 8MB, è solo poco più grande dei 6MB precedentemente presenti in deneb. Mi confermate che le celle 8c non occupano meno spazio delle 6c?
I quattro moduli sembrano occupare lo stesso spazio della L3, come avveniva per i quattro core di k10!!!!!
Il che vuol dire che un modulo bulldozer potrebbe in proporzione occupare come, o poco di più (ci sono 2MB di L3 in più, il 33%) di un core k10!! (/a parità di processo).
Se così fosse significherebbe core piccolissimi!
capitan_crasy
01-09-2010, 23:26
Ecco l' Otca core AMD con architettura Bulldozer :
OROCHI!
http://www.pctunerup.com/up/results/_201009/20100901232527_BulldozerOrochi.jpg
Attenzione:
L'immagine è stata ritoccata con Photoshop (dettagli dei core) direttamente da AMD!
Non fatevi i conti li sopra... :D
Sul forum AMDZONE un tizio chiede a JF perchè i due moduli di sopra sono diversi da quelli di sotto. JF dice apertamente che per non essere sgamati oltre al blur è stato fatto un taglia e cuci per mascherare le reali dimensioni del modulo... :D In pratica quella foto è quasi inutile... :(
Ad occhio sembra più grande di westmere 6c, per via delle grande quantità di cache...
capitan_crasy
01-09-2010, 23:47
Ad occhio sembra più grande di westmere 6c, per via delle grande quantità di cache...
In effetti 2MB di cache L2 per modulo è tanto...
Una cosa non capisco
Ma la cache L3 sarà una per tutti i moduli oppure ogni modulo avrà la sua cache L3?:confused:
papafoxtrot
01-09-2010, 23:50
OPS; allora mi scuso, io ero abbastanza sicuro di mio, ma mi sembrava che alcuni giorni fa fosse stata ripetuta la stessa cosa!
Dal wafer si distinguono chiaramente le L2 e le L3, e grosso modo sembrano complessivamente della stessa dimensione. Che siano veramente 2MB di L2 a modulo e 8MB di L3 in totale?
La L3 appare molto ben divisa in quattro settori, che sia a causa di un power gating?
I core appaiono nel complesso molto piccoli. Ricordo che in deneb ed in core i7 i core occupano circa la metà della superficie del die, e quasi tutto il resto è cache L3. Qui i moduli sembrano occupare grosso modo un teszo, e altrettanto è occupato dalla L3. Manca un terzo, che cosa ancora nell'uncore può portare via tanto spazio?
Ma soprattutto: la cache L3 di, probabilmente, 8MB, è solo poco più grande dei 6MB precedentemente presenti in deneb. Mi confermate che le celle 8c non occupano meno spazio delle 6c?
I quattro moduli sembrano occupare lo stesso spazio della L3, come avveniva per i quattro core di k10!!!!!
Il che vuol dire che un modulo bulldozer potrebbe in proporzione occupare come, o poco di più (ci sono 2MB di L3 in più, il 33%) di un core k10!! (/a parità di processo).
Se così fosse significherebbe core piccolissimi!
Ecco l' Otca core AMD con architettura Bulldozer :
OROCHI!
http://www.pctunerup.com/up/results/_201009/20100901232527_BulldozerOrochi.jpg
Attenzione:
L'immagine è stata ritoccata con Photoshop (dettagli dei core) direttamente da AMD!
No, mi sono un po' sbagliato. Ogni modulo, inclusa la sua L2, è decisamente più grande dei 2MB di L3 che ha di fronte. In deneb i core inclusivi della L2 occupavano circa lo stesso spazio della L3.
Ora accade quindi che:
- La cache L3 è più grande del 33% (8MB vs 6MB) (le 8c sono grandi uguali alle 6c?)
- La cache L2 occupa il 25% dell'area di un modulo, ed è raddoppiata rispetto a k10 (si presume). Indi per cui se riportiamo le dimensioni della L2 a quelle di k10 avremmo un modulo più piccolo del 10-15% circa.
- I moduli, con L2 sono più grandi della L3 di circa il doppio, anche un po' di più.
Di conseguenza:
- il modulo con cache riportata alle dimensioni della L2 di k10 sarebbe poco meno del doppio più grande della L3.
Alla fine il modulo è grande circa il doppio di un core deneb, in proporzione alla L3, tenendo conto anche dell'aumento della stessa.
D'altra parte certo la sola int prota via solo il 12,5% in più, ma di sicuro il front end porta via più spazio che in k10, la FPU alla fine della fiera sarà grande il doppio...
Poi certo c'è il cambio di processo, che porta un modulo bulldozer ad esser grande (in area) circa come un core di k10, perché la riduzione di area va col quadrato della riduzione delle distanze (lineari).
Insomma bulldozer potrebbe avere un die size simile a quello di deneb, secondo me, forse un po' di più per il fatto che l'uncore mi sembra in propriozione occupare molto spazio.
Come mai questo disegno mi sembra così poco compatto? Possono esserci dei motivi?
Stessa area di deneb, comunque, vuol dire che come minimo dovrebbe raggiungere le stesse frequenze, per consumare uguale. Mettiamoci poi l'HKMG, che potrebbe ridurre le tensioni di un 20%, e i consumi forse del 30%, i passi avanti per ridurre i consumi (L2 inclusiva, policy di accesso alle cache, PRF e quant'altro), il fatto che in realtà l'uncore occupa più di metà della CPU e la L3 non sarà cloccatissima, la riduzione delle unità funzionali rispetto a k10 (front end condiviso, code unificate, 2 alu+agu in luogo di 3) e il consumo potrebbe essere più basso di un 40% a parità di frequenza. Il che comporterebbe quell'aumento di frequenza del 18-20% che ieri davo come altamente probabile (ovviamente permesso anche dalle latenze alte e dai crytical path corti).
Non so, non mi ha sorpreso comunque, questo disegno. Mi aspettavo un die più compatto, dei moduli più piccoli e una disposizione alla intel, coi moduli tutti in fila e la cache per lungo. Trovo che fosse più semplice crescere col numero di core senzdover far crescere anche la cache, anche se probabilmente è già porevisto che alla prossima generazione si mettano 6 moduli e 6 "banchi" di L3, allungando di lato il disegno attuale.
dark.halo
02-09-2010, 00:28
Esteticamente è bellissimo...:sbavvv:
E a dire la verità a me non sembra per niente grosso; ad occhio direi che sta a metà strada tra deneb e thuban
Secondo me l'ultima immagine è quasi in scala, perchè la cache di 2mb quadra con le stime di hans de vries sul silicio di Llano.
Non fatevi i conti li sopra... :D
Sul forum AMDZONE un tizio chiede a JF perchè i due moduli di sopra sono diversi da quelli di sotto. JF dice apertamente che per non essere sgamati oltre al blur è stato fatto un taglia e cuci per mascherare le reali dimensioni del modulo... :D In pratica quella foto è quasi inutile... :(
Hanno taroccato anche diesize totale dei singoli blocchi ?
Allora tanto valeva non pubblicare nulla... :(
dark.halo
02-09-2010, 00:39
Qualcuno di voi ha visto se c'è il controller pci-e come appariva su una slide, io non la vedo ma non sono proprio esperto...:D
papafoxtrot
02-09-2010, 00:40
Esteticamente è bellissimo...:sbavvv:
E a dire la verità a me non sembra per niente grosso; ad occhio direi che sta a metà strada tra deneb e thuban
Beh certo, io ho detto che non lo trovo compatto, ma anche io ho stimato che sia attorno alle dimensioni di deneb...
Dico compatto nel senso che ad esempio vedo molto spazio tra i moduli e tra le l3 ed i moduli nonché soprattutto tra i vari settori in cui è divisa la L3... Pensavo non ci fosse tutto quello spazio in mezzo, questo intendevo!
Inoltre come die size, ripeto, credo sarà grande più o meno come deneb, ma mi aspettavo fosse più piccolo.
Deneb non è per niente piccolo! E' grande come core i7, che ha unIPC parecchio maggiore, ed è grande come westmere, circa. Anzi, quest'ultimo credo sia un po' più piccolo.
Ad ogni modo sandy bridge X6, gulftown e bulldozer X8 potrebbero grosso modo essere grandi uguali.
Questo sarebbe un buon risultato per AMD; che prima aveva prestazioni nettamente inferiori (deneb vs nehalem) ad aree uguali.
Adesso se la mia lunga analisi di ieri si risultasse vera, ad aree uguali corrisponderebbero anche prestazioni uguali, il che significa che i costi di produzione grosso modo son quelli... Ad intel costerà probabilmente comunque un po' meno, per via della mancanza del SOI e per l'economia di scala, ma è comunque un bel risultatto se fosse così.
In ogni caso tutta la mia stima si basa sul rapporto con le dimensioni della L3 e sulla quantità di L3. Se da deneb a bulldozer è cambiata la densità della L3, o la L3 non è di 8MB casca tutto il palco.
papafoxtrot
02-09-2010, 00:42
Non fatevi i conti li sopra... :D
Sul forum AMDZONE un tizio chiede a JF perchè i due moduli di sopra sono diversi da quelli di sotto. JF dice apertamente che per non essere sgamati oltre al blur è stato fatto un taglia e cuci per mascherare le reali dimensioni del modulo... :D In pratica quella foto è quasi inutile... :(
:doh:
NNOOOOOOOOOOOOOOOOOOOOOO
Tanti conti ed arrovellamenti per nulla.. :muro: :muro: :muro: :muro: :muro: :muro:
:cry: :cry:
Meglio che vada a letto va...
dark.halo
02-09-2010, 00:47
:doh:
NNOOOOOOOOOOOOOOOOOOOOOO
Tanti conti ed arrovellamenti per nulla.. :muro: :muro: :muro: :muro: :muro: :muro:
:cry: :cry:
Meglio che vada a letto va...
:D :D :D Che furba AMD sarà per quello che non mostrano il wafer... :doh:
Per Llano però un piccolo conteggio si può fare
prendendo le linee centrali (quindi i diametri) si possono individuare
- 20 die completi in orizzontale (con l'avanzo di più di mezzo die per lato)
- 17 in verticale (mi pare) (con l'avanzo di circa mezzo die per lato, se è simmetrico)
Il diametro del wafer è 300mm, per cui posso calcolare
300:18=16,6
300:21,5=14
da cui
16,6 x 14 = 232,4
Insomma per Llano un die di 230mm^2 potrebbe essere plausibile.
paolo.oliva2
02-09-2010, 01:23
Comunque... lo spazio tra i componenti... a me sembra ricordare la differenza tra un X6 D0 45nm liscio e l'E0 Thuban 45nm low-k.
Il perché, percome non lo so... però so che l'E0 ha più frequenza e meno TDP del D0.
La similitudine che mi viene è.... LA FREQUENZA!!!
A me piace sempre più il BD X8 AMD.
Certo che se AMD vendesse BD allo stesso prezzo della proporzione grandezza silicio/costo Thuban, un X8 costerebbe a partire da 70€ :)
Edit:
E' una battuta...
Comunque stavo pensando una cosa di sé per sé.
che logica ci sarebbe ad annunciare un BD dove i più avrebbero previsto un IPC di poco superiore e che la potenza verrebbe fuori quasi solo dal clock e dalla scalabilità e postare un die ritoccato per non far capire cosa ha fatto nello specifico?
Forse, fantasticando, è una mossa per far capire 2 cose nello stesso tempo: BD è più vicino di quanto tanti asseriscono la prima, e la seconda... qualche altra cosa nel cassetto AMD l'HA.
Inoltre... se fosse confermato che ci sarebbe solo BD X4 e X8 nel desktop, beh... io ci vedrei un motivo.
L'offerta X4 AMD è su Llano che ha la grafica integrata e su Zosma e relativi C3 precedenti.
Llano indubbiamente alzerà il clock stock e il turbo, ma è anche una APU. AMD deve proporre un procio anche senza APU che abbia frequenze/potenza superiori a Zosma... ed ecco BD X4.
L'X6 BD AMD lo potrebbe anche tralasciare per continuare a offrire l'upgrade senza dover cambiare mobo, ed un Thuban X6 entry-level sotto i 160€ ci saranno (1035T e 1045T).
Chi volesse più potenza, ecco i BD X8. Le mobo idonee dovrebbero costare (a parte le solite ladrate iniziali) circa come le odierne (una Formula IV, il top, sotto i 140€).
In effetti un BD X6 non avrebbe molto senso, anche perché con i clock che si prefigurano (sui 4GHz stock e forse anche più e turbo a raschiare i 5GHz), se BD X8 fosse posizionato sui 400-500€ ed un BD X6 sui 250-350€, succederebbe la stessa situazione creatasi con il 1055T e 1090T, dove overcloccando il 1055T, con 160€, si ottiene circa uguale che spendendo 80€ in più con il 1090T.
Un BD X6 con minor TDP dell'X8, sicuramente concederà OC maggiori. Sarebbe una concorrenza interna vendere un X6 BD sui 300€, ma purtroppo vedrei un BD X8 proiettato come FX. D'altronde, con X6 Intel mai sotto gli 800€ e con SB X6-X8 all'orizzonte con prezzi sicuramente più alti... AMD richiederà un prezzo equivalente all'aumento di performances rispetto al 1090T, quindi come max sui 350-400€ o prnderà come metro il listino Intel con prezzi da FX?
Sono molto curioso di verificare sto 32nm AMD.
Escluso i dual core a 65nm, AMD ha sempre offerto OC consistenti:
9950 2,5GHz ->3,4GHz
940 3GHz->3,950-4GHz
965C3 3,4GHz-4,150GHz
1090T 3,2GHz->4,4GHz
Se un BD avesse una frequenza Turbo prossima ai 5GHz (4GHz stock + almeno 800MHz Turbo), anche essendo pessimisti e togliendo 2-300MHz ai clock precedenti ed aggiungendoci SOLO 800MHz per l'OC, i 5GHz si dovrebbero comunque superare ad occhi chiusi e probabilmente ad aria e forse pure con il dissi stock.
Ste powa
02-09-2010, 09:19
qui la questione sta diventando davvero strana :mad: :mad: :mad:
alla fine a settembre fanno vedere praticamente che la cpu è pronta , ma cosa stanno aspettando per metterla con commercio ???:cry: perchè dovrebbero mancare 6 mesi all' uscita di queste nuove cpu ? 6mesi sono tantissimi : non è che hanno dato qualche spiegazione ?
In ogni caso appena esce ci sarà un boom delle vendite da amd : c' è tanta gente che aspetta buldozzer per aggiornarsi
Fra 6 mesi esce per i server.
dark.halo
02-09-2010, 09:49
qui la questione sta diventando davvero strana :mad: :mad: :mad:
alla fine a settembre fanno vedere praticamente che la cpu è pronta , ma cosa stanno aspettando per metterla con commercio ???:cry: perchè dovrebbero mancare 6 mesi all' uscita di queste nuove cpu ? 6mesi sono tantissimi : non è che hanno dato qualche spiegazione ?
In ogni caso appena esce ci sarà un boom delle vendite da amd : c' è tanta gente che aspetta buldozzer per aggiornarsi
Intel e da fine 2009 che ha le foto del die SB...
capitan_crasy
02-09-2010, 10:32
Non fatevi i conti li sopra... :D
Sul forum AMDZONE un tizio chiede a JF perchè i due moduli di sopra sono diversi da quelli di sotto. JF dice apertamente che per non essere sgamati oltre al blur è stato fatto un taglia e cuci per mascherare le reali dimensioni del modulo... :D In pratica quella foto è quasi inutile... :(
Hanno taroccato anche diesize totale dei singoli blocchi ?
Allora tanto valeva non pubblicare nulla... :(
E brava AMD...
Applica NDA anche a se stessa!:D :muro: :cry:
qui la questione sta diventando davvero strana :mad: :mad: :mad:
alla fine a settembre fanno vedere praticamente che la cpu è pronta , ma cosa stanno aspettando per metterla con commercio ???:cry: perchè dovrebbero mancare 6 mesi all' uscita di queste nuove cpu ? 6mesi sono tantissimi : non è che hanno dato qualche spiegazione ?
In ogni caso appena esce ci sarà un boom delle vendite da amd : c' è tanta gente che aspetta buldozzer per aggiornarsi
AMD ha dichiarato più volte che Bulldozer sarà pronto nella prima parte del 2011 (presumibilmente verso la fine del secondo trimestre 2011), quindi siamo nei tempi previsti.
E brava AMD...
Applica NDA anche a se stessa!:D :muro: :cry:
non vogliono rivelare nulla alla concorrenza fino alla data di lancio, deve essere veramente un buon prodotto riuscito bene :)
capitan_crasy
02-09-2010, 11:09
Vorrei ripetere una mia domanda:
Una cosa non capisco:
Ma la cache L3 sarà una per tutti i moduli oppure ogni modulo avrà la sua cache L3?:confused:
Oppure nell'immagine hanno fatto 4 copia/incolla di un solo modulo per ottenere un 8 core?
paolo.oliva2
02-09-2010, 11:28
E brava AMD...
Applica NDA anche a se stessa!:D :muro: :cry:
Si NDinnano da soli.
AMD ha dichiarato più volte che Bulldozer sarà pronto nella prima parte del 2011 (presumibilmente verso la fine del secondo trimestre 2011), quindi siamo nei tempi previsti.
In effetti, se accoppiano BD ai nuovi chip-set che uscirebbero a marzo-aprile, avrebbero ancora 7-8 mesi.
Una domanda da nubbio...
Quando cominciano a creare gli EV... si limitano a tirare fuori un die a wafer, oppure riproducono lo stesso film per tutto il wafer?
Nel senso... non intendendomi della cosa, ipotizzo questo perché da un procio ES all'ultimo stadio, e quindi identico alla produzione in volumi, ci sarebbe solo una specie di "taratura" per fare in modo che pure il die più esterno sia il più possibile simile ad die più interno al wafer.
Infatti dall'ultimo ES alla produzione in volumi, in genere passa del tempo... che lo imputerei al mio discorso sopra, non trovando altre spiegazioni.
Su questo filo, mi sembra chiaro che se ogni volta che si apportino modifiche al die dovessero anche fare le modifiche del tipo "produzione in volumi", la cosa allungherebbe di molto il tempo senza poi avere specifiche ragioni. Chiaro che quell'ES avrebbe prezzi astronomici :).
Vedere un wafer di Llano completo nelle sue parti... potrebbe supporre che sia un wafer da pre-produzioni in volumi?
Non scrivo questo per supporre una commercializzazione tra 1 mese di Llano, ma solo per capire se comunque il lavoro su Llano sia allo stadio "terminale" e che la produzione in volumi sia solo un discorso di GF a livello di catena... per il quale comunque potrebbero rendersi necessari anche diversi mesi...
mack.gar
02-09-2010, 12:01
Vorrei ripetere una mia domanda:
Oppure nell'immagine hanno fatto 4 copia/incolla di un solo modulo per ottenere un 8 core?
Ciao, imho è molto difficile rispondere visto che non sono così bravo e non si sa il grado di autenticità della foto, cmq sembra che abbiano adottato un approccio alla nahalem per la cache l3, anche se dovrebbe restare una victim cache. Vorrei intanto buttarmi in ardite e rocambolesche interpretazioni dei blocchi funzionali a costo delle peggiori figuracce :Prrr:
Se prendiamo la foto del core in basso a sinstra si riconoscono 4 righe orrizzontali che delimitano 5 "fette", tralascindo la prima in alto, nella seconda si riconosce a destra la cache L1i e si desume che a sinistra ci sia la logica di fetch e i decoders, nella terza e quarta "fetta", simmetriche rispetto all'asse verticale, rispettivamente le pipe int (core 0 e core 1) e le cache dati L1 (a destra e a sinistra) con le rispettive unità di retirement. L'ultima fetta potrebbe essere la fpu. Che ne dite?
Ciao, imho è molto difficile rispondere visto che non sono così bravo e non si sa il grado di autenticità della foto, cmq sembra che abbiano adottato un approccio alla nahalem per la cache l3, anche se dovrebbe restare una victim cache. Vorrei intanto buttarmi in ardite e rocambolesche interpretazioni dei blocchi funzionali a costo delle peggiori figuracce :Prrr:
Se prendiamo la foto del core in basso a sinstra si riconoscono 4 righe orrizzontali che delimitano 5 "fette", tralascindo la prima in alto, nella seconda si riconosce a destra la cache L1i e si desume che a sinistra ci sia la logica di fetch e i decoders, nella terza e quarta "fetta", simmetriche rispetto all'asse verticale, rispettivamente le pipe int (core 0 e core 1) e le cache dati L1 (a destra e a sinistra) con le rispettive unità di retirement. L'ultima fetta potrebbe essere la fpu. Che ne dite?
dico che sapendo che la foto è maipolata, e che la qualità è bassa è impossibile stabilire alcunchè
Vorrei ripetere una mia domanda:
Oppure nell'immagine hanno fatto 4 copia/incolla di un solo modulo per ottenere un 8 core?
Ciao capo
Probabilmente l'accesso verrà partizionato, ovvero ogni core modulo può accedere a qualsiasi parte della L3 ma il core che accede alla "sua porzione" di L3 incontrerà minore latenza. Tuttavia la latenza media dovrebbe decrescere. Bjt2 ne saprà più di me su questo.
paolo.oliva2
02-09-2010, 13:28
Io penso che sia difficile che cambino la L3 come logica... cioè nel senso circolare per prediligere il core più vicino.
L'IPC monocore ha una importanza relativa, visto il notevole salto di clock rispetto al Thuban (aspettarsi almeno +1GHz rispetto al Thuban in Turbo non mi sembra per nulla fantasioso).
Visto che ormai il software si sposta sempre più rapidamente verso il multicore e visto che comunque AMD progetta i proci come obiettivo server e poi al limite li "adatta" al desktop, dubito spenderà energie in una logica di funzionamento L3 specificatamente per il monocore.
Pensare ad un BD X8 con L3 indirizzata al monocore... mi sembra di vedere una Ferrari con ammortizzatori per il rally o pensata solo ed esclusivamente per Montecarlo.
Pensare ad un BD X8 con L3 indirizzata al monocore... mi sembra di vedere una Ferrari con ammortizzatori per il rally o pensata solo ed esclusivamente per Montecarlo.
in pratica vedresti una lancia stratos :asd:
per me sto bulldozer sara' come un gattino appeso ai maroni di intel,dara' parecchio fastidio :D
POartizionare la L3 serve per diminuire la latenza dei blocchi e poter salire di clock NB. AMD non ha bisogno di questo perchè il clock RAM non è limitato dal clock NB come INTEL... Partizionando la L3, come abbiamo visto con INTEL, crea problemi con alte frequenze di clock. Poichè Buldozer è un design ad alto clock io credo che se anche fosse veramente così il die, la divisione arà solo logica...
capitan_crasy
02-09-2010, 13:59
Permettetemi un piccolo OT:
Appena mi è arrivata questa immagine dai miei amici (non che un poco bastardi pro Intel:D ) mi sono rotolato per terra dal ridere per un quarto d'ora!
http://www.pctunerup.com/up/results/_201009/20100902135641_failmeyer800.jpg
paolo.oliva2
02-09-2010, 14:10
in pratica vedresti una lancia stratos :asd:
per me sto bulldozer sara' come un gattino appeso ai maroni di intel,dara' parecchio fastidio :D
Quoto... e quando tirerà fuori le unghia, quello sarà il prezzo :).
Sarei curioso, se ciò accadesse, cosa ci si inventerà... perché ormai la frase "AMD vende in negativo", "ha bisogno di fare bilancio" & C. ormai sono fuori moda.
Teniamo presente che ormai AMD spese per sviluppo silicio non ne ha più, spese per architettura... beh inferiori e non di poco rispetto alla concorrenza, visto che il prossimo passo sarà Vision con le APU, ma deve "solo" condividere procio e VGA, mentre altri sono ancora ben distanti dalle VGA ATI odierne (e a breve le 6XXX devono uscire).
Senza nessuna retorica... comunque la situazione era già critica pensando al Phenom II 45nm liscio AMD contro i7 architettura nuova e 45nm HKMG...
Dopo 1 anno di indiscussa supremazia Intel, ora ci ritroviamo che indubbiamente Intel è sempre avanti, ma la differenza si è assottigliata nonostante Intel abbia messo in campo sia il 32nm HKMG che l'i7 X6.
Questo riavvicinamento... è da capire. Ha fatto un miracolo AMD senza nessuna architettura nuova, solamente con il low-k, o Intel ha realizzato un pacchetto 32nm-i7 ben al di sotto delle aspettative? Probabilmente con SB riporterà le differenze come ai tempi Phenom II X4 - i7 X4, però a me rimane sempre la sensazione che si poteva fare di più, molto di più. Basta leggere i post di 1 anno fa che attribuivano al'i7 X6 50% di IPC superiore e 500MHz di clock in più.
POartizionare la L3 serve per diminuire la latenza dei blocchi e poter salire di clock NB. AMD non ha bisogno di questo perchè il clock RAM non è limitato dal clock NB come INTEL... Partizionando la L3, come abbiamo visto con INTEL, crea problemi con alte frequenze di clock. Poichè Buldozer è un design ad alto clock io credo che se anche fosse veramente così il die, la divisione arà solo logica...
Ciao
Questo è indubbiamente vero, però se vedi il die vedi come la L3 sia partizionata in tile adiacenti a diversi core.
Azz, letto ora che il die è photoshoppato... :D
Quindi probabilente non si può fare nessuna deduzione :D
quindi secondo voi ,siamo sicuri che bulldozer x4 a 4 ghz (stock) a 95w esce?:eek:
oppure sarei esagerato?o anche un x8 a 4gz 95w stock(cosiderando il 32nm+ low -k assieme) all'improvviso ed a tradimento?:eek:
capitan_crasy
02-09-2010, 19:01
GF ha comunicato che il passaggio ai 22nm (SHP), tecnologia produttiva progettata per il massimo delle prestazioni come le CPU AMD, comincerà nel 2012 come fase di sviluppo, mentre i primi prodotti in volumi sono attesi per il 2013.
Le CPU AMD attese per questo passaggio saranno quelli con architettura Bulldozer e le APU Llano, dove con tutta probabilità verranno aggiornate le architetture dei core X86 e delle GPU integrate.
Ontario invece dovrebbe passare dai 40nm ai 28nm bulk, mentre i 20nm saranno destinati alle prossime GPU AMD di nuova generazione...
Clicca qui... (http://www.xbitlabs.com/news/other/display/20100901220144_Globalfoundries_to_Start_Risk_Production_Using_20nm_22nm_in_Late_2012.html)
dark.halo
02-09-2010, 19:01
@ Capitano
Sinceramente l'immagine non l'ho capita :). Fanno ironia speculando negativamente sulle dimensioni e sul fatto che AMD abbia ritoccato la foto :confused:
paolo.oliva2
02-09-2010, 19:06
quindi secondo voi ,siamo sicuri che bulldozer x4 a 4 ghz (stock) a 95w esce?:eek:
Io sinceramente non riesco a capire gli ultimi TDP dichiarati da AMD perché c'è una notevole disparità, confrontando i consumi/TDP riportati da altri. Dando per buoni quelli Intel, io sarei dell'idea che sia una strategia far passare un Thuban a 125W anziché 95W, perché farebbe apparire un BD a frequenze più alte a TDP 95W come un enorme balzo in avanti.
Già il fatto che ad un Zosma X4 3,5GHz venga assegnato un TDP (125W) uguale al 975C3, tenendo conto che Zosma è low-k mentre il 975 è un C3, la dice ben lunga. Inoltre, il 1055T è un X6 a 2,8GHz, con il Turbo prossimo alle frequenze di Zosma... ed è 95W e Zosma X4 è 125W?
A prescindere da questo, per affermazione della stessa AMD, il TDP nel 32nm dovrebbe abbassarsi del 40% a parità di clock con la stessa architettura.
Se confrontiamo che un C3 X4 viene dato a 125W, ne risulterebbe che lo stesso procio sul 32nm sarebbe un 75W.
Siccome il BD è un'altra architettura con accorgimenti mirati a limare ulteriormente il TDP, dovremmo essere sicuramente sotto i 70W.
Ormai è più che assodato frequenze ben più alte delle attuali congiuntamente al fatto che AMD non commercializzerà proci sopra i 125W, ne deriva che il punto frequenza/TDP sia molto a favore della frequenza.
Contiamo anche il fatto che il Turbo riguarderà MINIMO 2 core e non 1 come Intel, ed il turbo dovrebbe essere ben sopra ai 4GHz, (ipotizzo almeno 4,2GHz se non 4,4GHz). Quindi... un BD X4 come può avere un TDP > di 95W quando già un BD X8 non supererebbe i 125W?
oppure sarei esagerato?o anche un x8 a 4gz 95w stock(cosiderando il 32nm+ low -k assieme) all'improvviso ed a tradimento?:eek:
Beh, adesso... un X8 a 95W ci potrebbe essere nel caso di X8 125W almeno sui 4,5GHz stock, però mi sa che stiamo esagerando.
Comunque... vedendo che un Thuban con SOLO il low-k e con 2 core in più arriva a 350MHz sopra un C3 X4, le potenzialità del 32nm e dell'HKMG non sarebbero sicuramente da meno, unito poi il tutto all'architettura BD, giustificherebbero le più rosee speranze.
paolo.oliva2
02-09-2010, 19:08
GF ha comunicato che il passaggio ai 22nm (SHP), tecnologia produttiva progettata per il massimo delle prestazioni come le CPU AMD, comincerà nel 2012 come fase di sviluppo, mentre i primi prodotti in volumi sono attesi per il 2013.
Le CPU AMD attese per questo passaggio saranno quelli con architettura Bulldozer e le APU Llano, dove con tutta probabilità verranno aggiornate le architetture dei core X86 e delle GPU integrate.
Ontario invece dovrebbe passare dai 40nm ai 28nm bulk, mentre i 20nm saranno destinati alle prossime GPU AMD di nuova generazione...
Clicca qui... (http://www.xbitlabs.com/news/other/display/20100901220144_Globalfoundries_to_Start_Risk_Production_Using_20nm_22nm_in_Late_2012.html)
2013.
Io lo guardo dal 1° di gennaio 2013... sicuramente ci sarà che lo guarderà dal 31 dicembre 2013.
Non vogliono assolutamente postare date per il 32nm..., BASTARDI!!! Con la lingua fuori fino all'ultimo, ci vogliono tenere.
dark.halo
02-09-2010, 19:13
GF ha comunicato che il passaggio ai 22nm (SHP), tecnologia produttiva progettata per il massimo delle prestazioni come le CPU AMD, comincerà nel 2012 come fase di sviluppo, mentre i primi prodotti in volumi sono attesi per il 2013.
Le CPU AMD attese per questo passaggio saranno quelli con architettura Bulldozer e le APU Llano, dove con tutta probabilità verranno aggiornate le architetture dei core X86 e delle GPU integrate.
Ontario invece dovrebbe passare dai 40nm ai 28nm bulk, mentre i 20nm saranno destinati alle prossime GPU AMD di nuova generazione...
Clicca qui... (http://www.xbitlabs.com/news/other/display/20100901220144_Globalfoundries_to_Start_Risk_Production_Using_20nm_22nm_in_Late_2012.html)
Interessante ma speravo che i 22 nanometri fossero disponibili per fine 2012:( in modo da accorciare le distanze con la rivale.
Ontario segue il rilascio delle schede video,quindi con buona probabilità dovrebbe uscire a ridosso o in contemporanea con l'architettura island @28nm ???
i 20 nm si riferiscono alle schede post Island 28nm ???
capitan_crasy
02-09-2010, 19:30
@ Capitano
Sinceramente l'immagine non l'ho capita :). Fanno ironia speculando negativamente sulle dimensioni e sul fatto che AMD abbia ritoccato la foto :confused:
L'immagine ironizza un pò la questione che AMD ha mostrato un qualcosa di non reale proprio come Nvidia a suo tempo; niente di malizioso (o quasi:D ) era solo carino il fotomontaggio con un Meyer super deform...:D
Interessante ma speravo che i 22 nanometri fossero disponibili per fine 2012:( in modo da accorciare le distanze con la rivale.
Ontario segue il rilascio delle schede video,quindi con buona probabilità dovrebbe uscire a ridosso o in contemporanea con l'architettura island @28nm ???
i 20 nm si riferiscono alle schede post Island 28nm ???
Per una volta AMD non c'entra niente; ora è tutto in mano a GF.
E' lei che deve stare al passo con Intel anche se teoricamente non è una sua concorrente diretta...
paolo.oliva2
02-09-2010, 19:33
Interessante ma speravo che i 22 nanometri fossero disponibili per fine 2012:( in modo da accorciare le distanze con la rivale.
Aspettiamo di vedere come va il 32nm AMD, perché ci potrebbero essere sorprese.
Chissà... magari potrebbe rivelarsi per Intel più duro da ingoiare 1 anno a parità di step di silicio con AMD che per AMD 1 anno in meno con Intel sui 22nm.
dark.halo
02-09-2010, 19:49
L'immagine ironizza un pò la questione che AMD ha mostrato un qualcosa di non reale proprio come Nvidia a suo tempo; niente di malizioso (o quasi:D ) era solo carino il fotomontaggio con un Meyer super deform...:D
:D :D :D
Per una volta AMD non c'entra niente; ora è tutto in mano a GF.
E' lei che deve stare al passo con Intel anche se teoricamente non è una sua concorrente diretta...
Si si io mi riferivo proprio a GF ;) in fondo è lei che vuole diventare la prima fonderia al mondo :sofico:
Aspettiamo di vedere come va il 32nm AMD, perché ci potrebbero essere sorprese.
Chissà... magari potrebbe rivelarsi per Intel più duro da ingoiare 1 anno a parità di step di silicio con AMD che per AMD 1 anno in meno con Intel sui 22nm.
Non lo metto in dubbio ;) infondo intel ha un processo bulk+hkmg,con annessi leakage paurosi, ma la cosa che mi preoccupa e che ha i fondi per fare ricerca in tutto dai transistor al grafene passando a i transistor tri-gate, per arrivare alla silicon photonics, GF a chi si appoggia a IBM (che peraltro e molto più avanti di intel col grafene e alla pari per la ricerca sulla fotonica).
paolo.oliva2
02-09-2010, 20:55
Non lo metto in dubbio ;) infondo intel ha un processo bulk+hkmg,con annessi leakage paurosi, ma la cosa che mi preoccupa e che ha i fondi per fare ricerca in tutto dai transistor al grafene passando a i transistor tri-gate, per arrivare alla silicon photonics, GF a chi si appoggia a IBM (che peraltro e molto più avanti di intel col grafene e alla pari per la ricerca sulla fotonica).
Infatti l'importante è che nessuno si sieda sugli allori e che i guadagni li investano in percentuale maggiormente nella ricerca e non nel marcketing per come guadagnarci di più.
Finché c'è concorrenza, questo è fattibile.
GF ha comunicato che il passaggio ai 22nm (SHP), tecnologia produttiva progettata per il massimo delle prestazioni come le CPU AMD, comincerà nel 2012 come fase di sviluppo, mentre i primi prodotti in volumi sono attesi per il 2013.
Le CPU AMD attese per questo passaggio saranno quelli con architettura Bulldozer e le APU Llano, dove con tutta probabilità verranno aggiornate le architetture dei core X86 e delle GPU integrate.
Ontario invece dovrebbe passare dai 40nm ai 28nm bulk, mentre i 20nm saranno destinati alle prossime GPU AMD di nuova generazione...
Clicca qui... (http://www.xbitlabs.com/news/other/display/20100901220144_Globalfoundries_to_Start_Risk_Production_Using_20nm_22nm_in_Late_2012.html)
quindi il modulo verra processato da 32nm a 22 nm:eek:
anche le apu verrano ricostruite da 32 nm a 20/22 nm....sembra tutto fantastico e magico:D
le apu comincerebbero ad essere piu adatte alla fusione vera e propria...aspettando il processore UNICO a 16 nm
quanta potenza bruta che ci aspetta ,ma è difficile che ancora ci rendiamo conto....:D
quindi magari la potenza di una dual gpu ati odierna la si puo immaginare ''infilata'' dentro il processore....:Prrr:
il cammino si sta pian pian delineando ed il futuro ,forse sembra piu incerto di quanto le nostre speranze o aspettative ci pullulano nella testa...ma dopotutto ormai il destino è gia scritto
la fusione......e tutto ,compreso i nostri futuri forum, tenderanno ad esso :Prrr:
ci aspetta un lungo cammino ...ma entreremo nella terra promessa...
dopotutto non ci vuole tanto(per questione di fantasia) ad immaginare che l'architettura bulldozer è solo uno ''schizzo'' e ne vedremo dei miglioramenti ,che neanche osiamo immaginare :Prrr:
Quoto... e quando tirerà fuori le unghia, quello sarà il prezzo :).
Sarei curioso, se ciò accadesse, cosa ci si inventerà... perché ormai la frase "AMD vende in negativo", "ha bisogno di fare bilancio" & C. ormai sono fuori moda.
Teniamo presente che ormai AMD spese per sviluppo silicio non ne ha più, spese per architettura... beh inferiori e non di poco rispetto alla concorrenza, visto che il prossimo passo sarà Vision con le APU, ma deve "solo" condividere procio e VGA, mentre altri sono ancora ben distanti dalle VGA ATI odierne (e a breve le 6XXX devono uscire).
Senza nessuna retorica... comunque la situazione era già critica pensando al Phenom II 45nm liscio AMD contro i7 architettura nuova e 45nm HKMG...
Dopo 1 anno di indiscussa supremazia Intel, ora ci ritroviamo che indubbiamente Intel è sempre avanti, ma la differenza si è assottigliata nonostante Intel abbia messo in campo sia il 32nm HKMG che l'i7 X6.
Questo riavvicinamento... è da capire. Ha fatto un miracolo AMD senza nessuna architettura nuova, solamente con il low-k, o Intel ha realizzato un pacchetto 32nm-i7 ben al di sotto delle aspettative? Probabilmente con SB riporterà le differenze come ai tempi Phenom II X4 - i7 X4, però a me rimane sempre la sensazione che si poteva fare di più, molto di più. Basta leggere i post di 1 anno fa che attribuivano al'i7 X6 50% di IPC superiore e 500MHz di clock in più.
si, ma nel mercato l'importante è essere davanti di poco.
che intel abbia cpu il 10% migliori di amd o del 100% cambia nulla, quindi meglio averle poco meglio e tenersi in tasca il vantaggio, per sfruttarlo quando serve
Non lo metto in dubbio ;) infondo intel ha un processo bulk+hkmg,con annessi leakage paurosi, ma la cosa che mi preoccupa e che ha i fondi per fare ricerca in tutto dai transistor al grafene passando a i transistor tri-gate, per arrivare alla silicon photonics, GF a chi si appoggia a IBM (che peraltro e molto più avanti di intel col grafene e alla pari per la ricerca sulla fotonica).
amd aveva molte partrenrship per i semiconduttori
con ibm, e già questo basterebbe
poi fa parte del cosorzio soi che comprende
samsung
nvidia
arm
freescale
2 3 università
e tanti altri
http://www.planet3dnow.de/cgi-bin/newspub/viewnews.cgi?category=1&id=1282840508
forse è old ma posto lo stesso
paolo.oliva2
03-09-2010, 10:25
si, ma nel mercato l'importante è essere davanti di poco.
che intel abbia cpu il 10% migliori di amd o del 100% cambia nulla, quindi meglio averle poco meglio e tenersi in tasca il vantaggio, per sfruttarlo quando serve
Esemplifico:
attualmente ho comprato praticamente 2 sistemi 1090T, con formula IV, 4 banchi di DDR3 e pure un waterchiller. Il sistema doppio è perché per mia sbadataggine in fase di OC mi è saltato procio+mobo (procio cambiato in garanzia e quindi lo rivenderò come arriva). La spesa? All'incirca, totalmente sui 1000€. Questo io lo chiamo divertimento.
Con un procio del 10% superiore in potenza ma dal costo di 1000€ io non avrei potuto divertirmi allo stesso modo...
Quando uscirà BD e pure SB, io guarderò i prezzi e cercherò di rifare lo stesso divertimento, con chi me lo permetterà al minor prezzo, indipendentemente dalla potenza del procio +10% o -10%.
Esemplifico:
attualmente ho comprato praticamente 2 sistemi 1090T, con formula IV, 4 banchi di DDR3 e pure un waterchiller. Il sistema doppio è perché per mia sbadataggine in fase di OC mi è saltato procio+mobo (procio cambiato in garanzia e quindi lo rivenderò come arriva). La spesa? All'incirca, totalmente sui 1000€. Questo io lo chiamo divertimento.
Con un procio del 10% superiore in potenza ma dal costo di 1000€ io non avrei potuto divertirmi allo stesso modo...
Quando uscirà BD e pure SB, io guarderò i prezzi e cercherò di rifare lo stesso divertimento, con chi me lo permetterà al minor prezzo, indipendentemente dalla potenza del procio +10% o -10%.
Purtroppo non la pensano tutti così, in caso contrario AMD venderebbe alla pari (se non di più) nel mercato degli assemblati :p
I soldi nel settore CPU, alla fin fine, si fanno nel mercato server e con i preasseblati: in un settore intel (grazie anche al QPI) ormai domina, nell'altro sappiamo tutti quel che ha combinato con aziende e grande distribuzione.
Non so se avete visto le performance della grafica integrata in Sandy Bridge: http://www.anandtech.com/show/3871/the-sandy-bridge-preview-three-wins-in-a-row/7
Comunque anche il resto è interessante. Quella versione di SB sembra posizionarsi (dato il consumo) nella parte mainstream del mercato e l'aumento di prestazioni è notevole.
capitan_crasy
03-09-2010, 10:47
Il sito The tech report ha analizzato nel dettaglio lo screen del DIE di Orochi mostrato qualche giorno fa da AMD:
http://techreport.com/r.x/2010_9_2_First_Bulldozer_CPU_die_revealed/orochidie3-2.jpg
Da chiarire subito che l'immagine pubblicata da AMD è stata opportunamente modificata per non far capire le dimensioni reali dei core; tuttavia la scelta di accorciare i primi due moduli e allungare gli altri rimanenti fa pensare che AMD abbia in cantiere una soluzione con sempre 4 moduli ma con tre core a disposizione per un totale di 12 core su disegno nativo.
Clicca qui... (http://techreport.com/discussions.x/19576)
greeneye
03-09-2010, 10:50
Non so se avete visto le performance della grafica integrata in Sandy Bridge: http://www.anandtech.com/show/3871/the-sandy-bridge-preview-three-wins-in-a-row/7
Comunque anche il resto è interessante. Quella versione di SB sembra posizionarsi (dato il consumo) nella parte mainstream del mercato e l'aumento di prestazioni è notevole.
llano dovrebbe comunque mantenere un bel distacco.
In pratica SB si comporta come una integrata amd/ati con 80-100 sp, llano ne avrà 400.
llano dovrebbe comunque mantenere un bel distacco.
In pratica SB si comporta come una integrata amd/ati con 80-100 sp, llano ne avrà 400.
Il resto lo hai guardato ?
greeneye
03-09-2010, 11:16
Il resto lo hai guardato ?
Si, e SB sarà sicuramente un punto di riferimento: anche nel prezzo.
Cmq, tornando alle prestazioni grafiche non si sa che versione di SB Anandtech aveva.
Megakirops
03-09-2010, 11:17
Il sito The tech report ha analizzato nel dettaglio lo screen del DIE di Orochi mostrato qualche giorno fa da AMD:
http://techreport.com/r.x/2010_9_2_First_Bulldozer_CPU_die_revealed/orochidie3-2.jpg
Da chiarire subito che l'immagine pubblicata da AMD è stata opportunamente modificata per non far capire le dimensioni reali dei core; tuttavia la scelta di accorciare i primi due moduli e allungare gli altri rimanenti fa pensare che AMD abbia in cantiere una soluzione con sempre 4 moduli ma con tre core a disposizione per un totale di 12 core su disegno nativo.
Clicca qui... (http://techreport.com/discussions.x/19576)
è come buttare benzina sul fuoco, prevedo un incremento dei TSO in questi mesi di attesa
Cmq, tornando alle prestazioni grafiche non si sa che versione di SB Anandtech aveva.
Dicono che sia la G2, quella più performante.
capitan_crasy
03-09-2010, 11:35
Dicono che sia la G2, quella più performante.
Ma prima di fasciarsi la testa bisogna vedere i numeri di Llano, sia per quanto riguarda il prezzo finale, sia per i consumi...
da quello che so io(che per ora è ancora poco, i primi sb quad core step pre retail e mobo retail gireranno fra i tester ad ottobre) sulla gpu integrata dovrebbe essere ancora superiore amd, grazie all know how acquisito da ati
dark.halo
03-09-2010, 11:56
Il resto lo hai guardato ?
Anandtech ha preso un core i7 26xx quindi con 8 mb cache HT... spacciandolo per fascia media, mentre il core i5 futuro e dotato solo di 6mb di cache e non ha HT detto questo l'aumento di ipc non è stato notevole come il passaggio da Penryn a Nehalem ma per certi versi mi ricorda di più Conroe vs Pernryn
A sto giro Intel ha premuto il freno sulle prestazioni pure, concentrandosi nel miglioramento dei consumi, e della sua igp, che per quanto sia migliorata (gli ingegneri Intel avranno sudato veramente sodo), non potrà confrontarsi con la gpu di llano.
paolo.oliva2
03-09-2010, 12:23
Anandtech ha preso un core i7 26xx quindi con 8 mb cache HT... spacciandolo per fascia media, mentre il core i5 futuro e dotato solo di 6mb di cache e non ha HT detto questo l'aumento di ipc non è stato notevole come il passaggio da Penryn a Nehalem ma per certi versi mi ricorda di più Conroe vs Pernryn
A sto giro Intel ha premuto il freno sulle prestazioni pure, concentrandosi nel miglioramento dei consumi, e della sua igp, che per quanto sia migliorata (gli ingegneri Intel avranno sudato veramente sodo), non potrà confrontarsi con la gpu di llano.
Prendendo spunto sul fatto che il 22nm Intel lo dovrebbe avere nel 2012 (presumibilmente all'inizio) e SB X8 dichiarato sul finire 2011... non è che SB X8 sia a 22nm?
Quoto che Intel ha dovuto dare più importanza al fattore TDP più che a quello IPC, perché comunque il tutto è condizionato dalle potenzialità del suo 32nm HKMG.
Su queste basi...vedendo come è tirato nella frequenza un i980X X6 per via del TDP e vedendo che oltre a eventuali ottimizzazioni il silicio non avrebbe null'altro da mettere in campo... non vedo che miracolo si possa fare contando che un X8 già di suo comporterebbe un aumento di TDP da un X6 ben superiore a qualsiasi super-ottimistica ottimizzazione sognabile.
Siamo così sicuri che per avere SB X6 e X8 non si debba aspettare il 22nm? Oltretutto... che senso avrebbe mettere in campo un SB X8 castrato in frequenza quando lo si potrebbe realizzare sul 22nm dopo pochi mesi?
Heimdallr
03-09-2010, 12:33
Anandtech ha preso un core i7 26xx quindi con 8 mb cache HT
Scusa ma questo da cosa lo deduci?
Negli screen si fa riferimento ad un i5 2400 a 3.1Ghz con 6MB di cache L3.
Inoltre non aveva il turbo mode.
Scusa ma questo da cosa lo deduci?
Negli screen si fa riferimento ad un i5 2400 a 3.1Ghz con 6MB di cache L3.
Tra l'altro si vede anche dallo screen di CPU-Z.
Heimdallr
03-09-2010, 12:40
Tra l'altro si vede anche dallo screen di CPU-Z.
Si infatti mi riferivo proprio a quello.
Scusa ma questo da cosa lo deduci?
Negli screen si fa riferimento ad un i5 2400 a 3.1Ghz con 6MB di cache L3.
Inoltre non aveva il turbo mode.
Però in quell'articolo ci sono dei test con hyper threading abilitato, cosa che l'i5 2400 non dovrebbe avere.
boh mi sa che era una specie di cpu ibrida tra un i5 ed un i7
capitan_crasy
03-09-2010, 12:52
Blocchiamo sul nascere il discorso SB; questo rimane il thread su Bulldozer e APU!
Lo ridico:
Prima di tirare qualsiasi considerazione bisogna avere in mano i numeri di Llano compresi il prezzo finale di vendita...
E dato che si è tanto ottimisti su Intel non vedo perchè non bisogna esserlo anche per AMD...
Heimdallr
03-09-2010, 12:58
Però in quell'articolo ci sono dei test con hyper threading abilitato, cosa che l'i5 2400 non dovrebbe avere.
boh mi sa che era una specie di cpu ibrida tra un i5 ed un i7
As was the case with Lynnfield, the current Sandy Bridge CPUs Intel is sampling are slightly different than what will be sold. The Core i5 2400 runs at 3.1GHz, has four cores, 6MB of L3 cache but no Hyper Threading. In order to help Intel’s partners test HT functionality however, the i5 2400s being sampled right now have Hyper Threading enabled. For the purposes of our test I’ve run with HT both enabled (to give you an idea of higher end SB parts) and disabled (to give you an idea of i5 2400 performance).
Comunque per me discorso chiuso ;)
Speriamo di vedere presto qualche sample di bulldozer piuttosto :sbavvv:
Foglia Morta
03-09-2010, 13:12
http://www.computerbase.de/news/hardware/prozessoren/amd/2010/september/amds-fusion-apu-auf-der-ifa-im-einsatz/
http://i54.tinypic.com/2939e7b.jpg
http://i52.tinypic.com/2e3bt3k.jpg
bicchiere
03-09-2010, 13:27
Interessante anche notare come preferiscano concentrarsi sulle DirectX 11 piuttosto che sulle OpenGL.
capitan_crasy
03-09-2010, 13:39
Interessante anche notare come preferiscano concentrarsi sulle DirectX 11 piuttosto che sulle OpenGL.
e quindi???:mbe:
dark.halo
03-09-2010, 13:48
http://www.computerbase.de/news/hardware/prozessoren/amd/2010/september/amds-fusion-apu-auf-der-ifa-im-einsatz/
http://i54.tinypic.com/2939e7b.jpg
http://i52.tinypic.com/2e3bt3k.jpg
Spettacolo...e qui che AMD farà i soldi
Non vedo l'ora che esca il prossimo Acer Ferrari con ontario cosi da poter sostituire il mio notebook.
Chissa poi a 28nm che bomba sarà :D
quindi per le prime Apu ontario ci siamo? Dice q4 2010, prima del previsto....Dai dai.!!!:D
18 watt i notebook (stupefacente) e anche 18w per i desktop:mbe:? .
http://www.computerbase.de/news/hardware/prozessoren/amd/2010/september/amds-fusion-apu-auf-der-ifa-im-einsatz/
http://i54.tinypic.com/2939e7b.jpg
http://i52.tinypic.com/2e3bt3k.jpg
Alla faccia..18w di TDP..fantastico :D
capitan_crasy
03-09-2010, 14:00
http://www.computerbase.de/news/hardware/prozessoren/amd/2010/september/amds-fusion-apu-auf-der-ifa-im-einsatz/
Grazie per la segnalazione.
AMD mostra una prima piattaforma DEMO di Zacate, APU destinata al mercato Notebook e Desktop con un valore TDP previsto di 18W.
http://www.pctunerup.com/up/results/_201009/th_20100903134937_slidezacate-ontario.jpg (http://www.pctunerup.com/up/image.php?src=_201009/20100903134937_slidezacate-ontario.jpg)
http://www.pctunerup.com/up/results/_201009/th_20100903135042_DIEBobcat.jpg (http://www.pctunerup.com/up/image.php?src=_201009/20100903135042_DIEBobcat.jpg)
La scheda mamma con Zacate era in formato ATX non standard; purtroppo AMD ha impedito qualsiasi foto alla piattaforma.
L'APU Ontario, destinata al mercato netbook invece è stata mostrata e affiancata ad una moneta di un euro:
http://www.pctunerup.com/up/results/_201009/th_20100903135300_OntarioAPU.jpg (http://www.pctunerup.com/up/image.php?src=_201009/20100903135300_OntarioAPU.jpg)
Il valore TDP previsto di Ontario è di 9W.
Ancora poche informazioni sulla APU Llano , la quale andrà a posizionarsi nel mercato mainstream entro la fine del primo trimestre 2011.
Ontario e Zacate saranno consegnati ai partner commerciali entro il 4 trimestre 2010, mentre la presentazione avverrà all'inizio del 2011.
papafoxtrot
03-09-2010, 14:05
Sono mancato per un po'... esami...
1) Su ontario. In effetti abbiamo sempre parlato delle versioni sub-1w. Ma ontario sarà dedicato anche alle CPU per i notebook più sottili ed a basso consumo.
Zacate arrivva a 18W, dunque dovrebbe avere una discreta potenza...
Credo che sarà una CPU molto lucrosa per intel.
2) Sulle speculazioni di techreport. Io non voglio buttare altra benzina sul fuoco, ma mi ricordo con certezza un alto funzionario di AMD che ormai due anni fa dichiarò: "Bulldozer avrà il suo multi threading, a più di due thread per core"
Vi ricordate quando rv770 era dato per 480 shader, ormai sicuri? Una settimana prima del lancio un cinese se ne uscì dicendo: "rv770 potrebbe avere 800 shader..."
...
Se AMD facesse il botto in questo modo sarebbe una combo paurosa! :D
Però potrebbe anche essere pura fantasia. Magari lo faranno, ma alla generazione successiva. Dopotutto io mi ero chiesto, se ho un modulo in cui ho condiviso un front end per due pieline, non mi conviene mettere più pipeline possibile, così da esaltare il guadagno derivante dal modulo?
Altra cosa: per come sono disposti i 4 moduli in bulldozer, mi sembra impossibile che AMD produca degli X6 "veri".
Guardate il disegno: i moduli sono messi a quadrato! Se ne tolgo uno mi resta una CPU fatta a L, con uno spreco di silicio assurdo. Secondo me eventuali chip a 3 moduli saranno sempre degli X8 con un modulo non funzionante o comunque disattivato.
E se i 6 core fossero ottenuti con due moduli a 3 core, e magari uscissero successivamente?
Magari la roadmap potrebbe essere questa:
2011: bulldozer a 4 e 8 core, rispettivamente 2 e 4 moduli. Interlagos X16 e X12 ottenuti unendo die malfunzionanti o disattivando un modulo.
2012: bulldozer a 4, 6 e 8 core: interlagos a 12 e 16 core: i chip a 6 core ottenuti con due moduli, ciascuno a 3 vie.
2013: bulldozer a 6, 8 e 12 core: 6,8 core ottenuti come i precedenti, sempre a 32nm. 12 core ottenuti con 4 moduli a 3 core, sul nuovo processo a 22nm. chip MCM a 16 e 24 moduli..
Che ne pensate? Magari il successore di bulldozer I sarà un chip con tre core per modulo, e apparirà prima a 6 core a 32nm, e poi a 12 core a 22nm.
Ma allora perché dovrebbero mostrarlo adesso? Che anche il 6 core arrivi subito a 2 moduli x 3 core?
No, non c'entra niente, perché techreport ha mostrato un 4 noduli, e ha speculato che fossero 4x3...
Mie fantasie :D
...Ancora poche informazioni sulla APU Llano , la quale andrà a posizionarsi nel mercato mainstream entro la fine del primo trimestre 2010.
Ontario e Zacate saranno consegnati ai partner commerciali entro ......
2011?
capitan_crasy
03-09-2010, 14:10
2011?
corretto, grazie...
CUT
http://www.pctunerup.com/up/results/_201009/th_20100903135300_OntarioAPU.jpg (http://www.pctunerup.com/up/image.php?src=_201009/20100903135300_OntarioAPU.jpg)
CUT
.
Sperando che questo sarà il prezzo :D
E se i 6 core fossero ottenuti con due moduli a 3 core, e magari uscissero successivamente?
direi che non ha senso bisognerebbe riprogettare tutto quanto
il modulo è l'unità base ed è composto da 2 core int e un fpu
direi che non ha senso bisognerebbe riprogettare tutto quanto
il modulo è l'unità base ed è composto da 2 core int e un fpu
Forse hanno già in progetto un'eventuale avoluzione a 3 core int + 2 fpu per modulo
Forse hanno già in progetto un'eventuale avoluzione a 3 core int + 2 fpu per modulo
Che poi sarebbe veramente una bella evoluzione, così pesa meno il fatto che le FPU siano in numero inferiore rispetto alle INT. Se fosse così, brava amd :p
Non so se avete visto le performance della grafica integrata in Sandy Bridge: http://www.anandtech.com/show/3871/the-sandy-bridge-preview-three-wins-in-a-row/7
Comunque anche il resto è interessante. Quella versione di SB sembra posizionarsi (dato il consumo) nella parte mainstream del mercato e l'aumento di prestazioni è notevole.
scusatemi tanto Cionci,ma io non vedo tutte ste performance!per 2 motivi
1)il paragone viene fatto con una 5450(anche se si sta parlando di integrate,per carità)
2)1024x768 ...nel 2011 ,anche sottolineando che si sta parlando di integrate,..mi sembra un regresso
dopotutto a quelle risoluzioni ,anche su BOBCAT vanno lo stesso...e stiamo parlando di netbook ed ultraportatili
puo darsi che mi sbagli, pero a me sembra cosi...
paolo.oliva2
03-09-2010, 16:03
Numero max core BD
Sempre in via teorica... secondo me dipende dal silicio, cioé rispetto a quale frequenza nel funzionamento di tutti i core ci si ritrova con il giusto rapporto frequenza/consumi/TDP.
Il Turbo praticamente abbiamo visto che si attiva a moduli, quindi lo step con frequenza più alta lo si avrebbe con minimo 2 core.
Da quello che si è avuto modo di capire, quindi, il Turbo agirebbe in base ai parametri TDP e consumo spegnendo i moduli non utilizzati e alzando la frequenza per 1-2-3... moduli, rispettivamente per 2-4-6 core e a seguire, spegnendo i core non utilizzati.
Inoltre, se le voci che BD spegnerebbe anche parte della L3 non utilizzata, è facile dedurre che pure un BD a 20 core si comporterebbe né più né meno di un BD a 4 core, nel caso che in ambedue i processori sarebbero solo 4 i core sotto carico.
Secondo me AMD dovrebbe usare una strategia più di marcketing che di limiti di TDP del silicio.
Dico questo perché escludendo il discorso di limiti di banda e numero di MC nel procio, fondamentalmente mi sembra indubbio che 20 core a 2GHz non sarebbero dissimili ad una situazione di metà core che lavorano al doppio della frequenza (con il discorso Turbo invariato come frequenza massima in ambedue i proci e quindi con ampia compatibilità desktop). La differenza reale è che a uguale potenza il procio a numero doppio di core avrebbe un costo di produzione circa doppio ma un consumo inferiore e chiaramente il procio con un numero inferiore di core avrebbe un costo produzione inferiore ma consumi superiori.
Se ci basiamo sulle informazioni AMD sul silicio e con quello che a mano a mano si scopre su BD, direi che arrivare ad un 50% inferiore di TDP rispetto al 45nm (che ha permesso pure in assenza di low-k un 6 core) sia nettamente alla portata di realizzare 10 core e forse pure un 12 core nativo.
Dedurrei quindi che un X8 BD mi sembra più la soluzione "marcketing" più idonea per realizzare un procio le cui performances rispettino le aspettative di potenza del progetto con il costo produzione die più basso possibile.
edit:
Se la cosa la vedessimo sotto questo aspetto, direi che il discorso IPC si possa accantonare tranquillamente. Vedere un Thuban X6 45nm consumare una sciocchezza, viene automatico riflettere che nel caso di un IPC inferiore alle aspettative, un 32nm HKMG e forse pure low-k potrebbe concedere tranquillamente 2 core in più aumentando praticamente del 25% l'IPC e lasciando totalmente invariato il funzionamento Turbo e monocore. Se AMD non l'ha fatto, vuol dire che un 4 moduli basta ed avanza a fornire la potenza prevista da progetto.
unnilennium
03-09-2010, 16:12
Numero max core BD
Sempre in via teorica... secondo me dipende dal silicio, cioé rispetto a quale frequenza nel funzionamento di tutti i core ci si ritrova con il giusto rapporto frequenza/consumi/TDP.
Il Turbo praticamente abbiamo visto che si attiva a moduli, quindi lo step con frequenza più alta lo si avrebbe con minimo 2 core.
Da quello che si è avuto modo di capire, quindi, il Turbo agirebbe in base ai parametri TDP e consumo spegnendo i moduli non utilizzati e alzando la frequenza per 1-2-3... moduli, rispettivamente per 2-4-6 core e a seguire, spegnendo i core non utilizzati.
Inoltre, se le voci che BD spegnerebbe anche parte della L3 non utilizzata, è facile dedurre che pure un BD a 20 core si comporterebbe né più né meno di un BD a 4 core, nel caso che in ambedue i processori sarebbero solo 4 i core sotto carico.
Secondo me AMD dovrebbe usare una strategia più di marcketing che di limiti di TDP del silicio.
Dico questo perché escludendo il discorso di limiti di banda e numero di MC nel procio, fondamentalmente mi sembra indubbio che 20 core a 2GHz non sarebbero dissimili ad una situazione di metà core che lavorano al doppio della frequenza (con il discorso Turbo invariato come frequenza massima in ambedue i proci e quindi con ampia compatibilità desktop). La differenza reale è che a uguale potenza il procio a numero doppio di core avrebbe un costo di produzione circa doppio ma un consumo inferiore e chiaramente il procio con un numero inferiore di core avrebbe un costo produzione inferiore ma consumi superiori.
Se ci basiamo sulle informazioni AMD sul silicio e con quello che a mano a mano si scopre su BD, direi che arrivare ad un 50% inferiore di TDP rispetto al 45nm (che ha permesso pure in assenza di low-k un 6 core) sia nettamente alla portata di realizzare 10 core e forse pure un 12 core nativo.
Dedurrei quindi che un X8 BD mi sembra più la soluzione "marcketing" più idonea per realizzare un procio le cui performances rispettino le aspettative di potenza del progetto con il costo produzione die più basso possibile.
la politica aggressiva dei prezzi si fonda sempre sull'assunto della inferiorità relativa rispetto ai prodotti intel... se le nuove soluzioni saranno all'altezza della controparte, i prezzi potrebbero essere adeguati... un pò come è successo con le vga, dall'uscita della serie 5 i modelli top di gamma non hanno subito particolari ribassi di prezzo... proprio perchè nvidia non era all'altezza.
paolo.oliva2
03-09-2010, 16:19
la politica aggressiva dei prezzi si fonda sempre sull'assunto della inferiorità relativa rispetto ai prodotti intel... se le nuove soluzioni saranno all'altezza della controparte, i prezzi potrebbero essere adeguati... un pò come è successo con le vga, dall'uscita della serie 5 i modelli top di gamma non hanno subito particolari ribassi di prezzo... proprio perchè nvidia non era all'altezza.
Infatti la mia paura, e l'ho postata più volte, è che AMD con i BD X8 riprenda il marchio FX.
Io preferirei alla grande un 5% in meno di Intel ma pagarli a prezzi BE che un 5% in più di Intel ma pagarli da FX. :sofico:
P.S.
Tanto con l'OC ce lo caverei alla grande quel 5%
scusatemi tanto Cionci,ma io non vedo tutte ste performance!per 2 motivi
Nella seconda riga mi riferivo alle performance della CPU, non della GPU.
unnilennium
03-09-2010, 16:34
Infatti la mia paura, e l'ho postata più volte, è che AMD con i BD X8 riprenda il marchio FX.
Io preferirei alla grande un 5% in meno di Intel ma pagarli a prezzi BE che un 5% in più di Intel ma pagarli da FX. :sofico:
P.S.
Tanto con l'OC ce lo caverei alla grande quel 5%
se riesce anche solo a pareggiare intel,adeguare i prezzi è sacrosanto...
tanto gli appassionati pagano lo stesso...
già adesso ho visto diverse persone abbandonare il socket 1366 x avere un 1090T e giocarci un pò... sono cose che 6 mesi fa nessuno si sarebbe neanche sognato... chissà come sarà il futuro
per ora è solo teoria, anche sandy bridge è ancora un'incognita, toccherà aspettare...
sulle tue capacità di overclock,nessun dubbio. sono state ampiamente dimostrate, siamo sicuri che anche cambiando piattaforma non avrai nessun problema :D
Infatti la mia paura, e l'ho postata più volte, è che AMD con i BD X8 riprenda il marchio FX.
Io preferirei alla grande un 5% in meno di Intel ma pagarli a prezzi BE che un 5% in più di Intel ma pagarli da FX. :sofico:
P.S.
Tanto con l'OC ce lo caverei alla grande quel 5%
io invece preferirei di gran lunga una AMD molto avanti come prestazioni , purtroppo AMD non puo' implementare molte architetture per questioni di budget , quindi se Buldozzer e' vincente allora AMD sopravvive , altrimenti chiude e siamo tutti nella cacchina con i prezzi .
AMD fino ad oggi e' sopravvissuta grazie al fatto che all' epoca K7 contro Pentium III e Pentium IV la sua architettura era migliore , non dimentichiamo infatti che un Phenom II in realta' non e' null' altro che un K7 lievemente rivisto ... quindi Buldozzer dovra' essere in grado come architattura di trascinare avanti la baracca almeno per 10 anni prima di venir sostituito , in AMD non ci sono soldi abbastanza per fare altrimenti .
Se Buldozzer venisse superato prima che sia pronta la nuova achitettura si chiuderebbe subito , perche' questa volta c'e' stato lo scorporamento di GF a portare un po' di soldi freschi per sopravvivere ... ma la prossima volta non si potra' ripetere il giochino.
[QUOTE=paolo.oliva2;32989743]Numero max core BD
Da quello che si è avuto modo di capire, quindi, il Turbo agirebbe in base ai parametri TDP e consumo spegnendo i moduli non utilizzati e alzando la frequenza per 1-2-3... moduli, rispettivamente per 2-4-6 core e a seguire, spegnendo i core non utilizzati.
Inoltre, se le voci che BD spegnerebbe anche parte della L3 non utilizzata, è facile dedurre che pure un BD a 20 core si comporterebbe né più né meno di un BD a 4 core, nel caso che in ambedue i processori sarebbero solo 4 i core sotto carico.
secondo me il turbo agisce partendo dall'affaticamento dell'unita piu piccola che è il modulo,in modo tale che la logica sia quella di ''sbarazzarsi quanto prima possibile di ogni threads in modo tale da accomodare quanti ne erriverebbero.... appunto un bulldozer
il turbo completa l'idea del ''tutti per uno uno per tutti'' ....
ogni modulo ha la possibilta di chiamare altri moduli in aiuto ed il turbo si trovera ad accelerare fin tanto che ce la fa un modulo in questione
ma cmq in automatico ,appena L'INDICE DI CARICO DI LAVORO arriva ad una certa % gli altri moduli entrano in azione assieme ed il turbo
spinge al max la sua potenza ....esempio
x8 a 5 ghz ,memorie ddr3 a 2600 mhz...e tanto , tanto fumo dal case!:D
carlottoIIx6
03-09-2010, 18:55
io invece preferirei di gran lunga una AMD molto avanti come prestazioni , purtroppo AMD non puo' implementare molte architetture per questioni di budget , quindi se Buldozzer e' vincente allora AMD sopravvive , altrimenti chiude e siamo tutti nella cacchina con i prezzi .
AMD fino ad oggi e' sopravvissuta grazie al fatto che all' epoca K7 contro Pentium III e Pentium IV la sua architettura era migliore , non dimentichiamo infatti che un Phenom II in realta' non e' null' altro che un K7 lievemente rivisto ... quindi Buldozzer dovra' essere in grado come architattura di trascinare avanti la baracca almeno per 10 anni prima di venir sostituito , in AMD non ci sono soldi abbastanza per fare altrimenti .
Se Buldozzer venisse superato prima che sia pronta la nuova achitettura si chiuderebbe subito , perche' questa volta c'e' stato lo scorporamento di GF a portare un po' di soldi freschi per sopravvivere ... ma la prossima volta non si potra' ripetere il giochino.
non c'è motivo perchè amd chiuda:)
non contano solo le prestazioni ma anche i consumi
amd ha le apu che sono veramente parche nei consumi!
inoltre bulldozer promette bene...
con le schede video sta per uscire la serie 6000
insomma non la vedo nera affatto...
forse rosea :)
paolo.oliva2
03-09-2010, 20:01
io invece preferirei di gran lunga una AMD molto avanti come prestazioni , purtroppo AMD non puo' implementare molte architetture per questioni di budget , quindi se Buldozzer e' vincente allora AMD sopravvive , altrimenti chiude e siamo tutti nella cacchina con i prezzi .
AMD fino ad oggi e' sopravvissuta grazie al fatto che all' epoca K7 contro Pentium III e Pentium IV la sua architettura era migliore , non dimentichiamo infatti che un Phenom II in realta' non e' null' altro che un K7 lievemente rivisto ... quindi Buldozzer dovra' essere in grado come architattura di trascinare avanti la baracca almeno per 10 anni prima di venir sostituito , in AMD non ci sono soldi abbastanza per fare altrimenti.
Tieni conto che se Buldozer 2 integrerà l'APU con il progetto Fusion 2... prima che qualcuno riesca a colmare il vantaggio dato da AMD+ATI, direi che AMD riuscirà a dormire alcuni anni sugli allori.
Se Buldozzer venisse superato prima che sia pronta la nuova achitettura si chiuderebbe subito , perche' questa volta c'e' stato lo scorporamento di GF a portare un po' di soldi freschi per sopravvivere ... ma la prossima volta non si potra' ripetere il giochino.
Ricordati che il miglior alleato di AMD è il listino Intel, gli altri giochini sono di poca importanza. Non è scorporando GF che AMD è sopravvissuta, è che Intel gli ha lasciato un oceano di sopravvivenza nei suoi listini, permettendogli di riuscire a vendere un Phenom I 140W 65nm 2,5GHz a 250€, perché un Q9650 veniva venduto quasi a 600€. Prova a pensare se lo avesse venduto a 150€ dove sarebbe finita AMD.
Tieni conto che se Buldozer 2 integrerà l'APU con il progetto Fusion 2... prima che qualcuno riesca a colmare il vantaggio dato da AMD+ATI, direi che AMD riuscirà a dormire alcuni anni sugli allori.
Mi sembra che tu stia facendo dei discorsi dando per fondate tante, ma tante ipotesi. L'unica cosa certa è che sicuramente i progetti derivati da Bulldozer integreranno una GPU.
Siamo davanti ad una nuova architettura di cui non sappiamo le prestazioni (possiamo solo ipotizzarle e nemmeno con tanta precisione). Non conosciamo con esattezza i progetti Intel successivi al 2011. Abbiamo Intel che è sempre avanti 6-12 mesi sulla miniaturizzazione e con una capacità produttiva mostruosa, anche se con processi produttivi meno raffinati.
Io ci andrei piano a cantare vittoria. Il rischio è di lasciare scritte cose senza senso.
Non fraintendere, non pensare che sia un fan di Intel, tranne che nell'ultimo periodo, in cui sono stato davvero poco dietro alle ultime novità, ho avuto sempre AMD a partire dal K6-2 ed ho avuto tutte le incarnazioni del K7 e molte del K8.
paolo.oliva2
03-09-2010, 21:49
Mi sembra che tu stia facendo dei discorsi dando per fondate tante, ma tante ipotesi. L'unica cosa certa è che sicuramente i progetti derivati da Bulldozer integreranno una GPU.
Siamo davanti ad una nuova architettura di cui non sappiamo le prestazioni (possiamo solo ipotizzarle e nemmeno con tanta precisione). Non conosciamo con esattezza i progetti Intel successivi al 2011. Abbiamo Intel che è sempre avanti 6-12 mesi sulla miniaturizzazione e con una capacità produttiva mostruosa, anche se con processi produttivi meno raffinati.
Io ci andrei piano a cantare vittoria. Il rischio è di lasciare scritte cose senza senso.
Non fraintendere, non pensare che sia un fan di Intel, tranne che nell'ultimo periodo, in cui sono stato davvero poco dietro alle ultime novità, ho avuto sempre AMD a partire dal K6-2 ed ho avuto tutte le incarnazioni del K7 e molte del K8.
Guarda, ti rispondo con estrema sincerità.
Io sono un fan del computer in primis, ho avuto un'attività che vendevo computer assemblati da me dall'8088 sino al K6 II e primi athlon su scheda, dopodiché ho cessato l'attività.
Come assemblatore, ho sempre cercato di assemblare un computer dal costo competitivo ma con materiale discreto-buono, senza assemblare sporcizia.
Di qui mi sono sposato con AMD, perché riuscivo a ottenere con molta facilità un computer dal prezzo competitivo ma con mobo/HD/memorie di ottima qualità.
Di cavolate Intel in quei tempi ne aveva fatte e mostruose, tipo proposta con alimentatore inglobato nel procio per raffreddare i pentium IV, le ram-bus, fino ad arrivare a dover ritirare tutti i Pentium prodotti perché dopo la 4a cifra decimale riportavano un risultato sbagliato, cosa che se l'avesse fatta un altro produttore di proci, non è che avrebbe chiuso, sarebbe letteralmente estinto.
Con questo non voglio certo dire che Intel non abbia la forza di fare tutto e niente, però a me sembra di notare che costantemente i prodotti Intel vengono osannati e completamente il contrario si fa con i prodotti AMD.
Se noi giudicassimo Intel per la sua architettura i7 e per il silicio HKMG e ci basassimo solo su questo, sulla carta AMD con il Phenom II (giudicato inferiore anche rispetto ai Core2) ed un silicio SOI low-k come massimo (confrontato con il 45nm/32nm HKMG Intel considerato lo stato dell'arte), dovrebbe essere ad anni luce sotto alle prestazioni di Intel. Ma la realtà è così? A me sembra di no. Allora c'è qualche cosa che non torna.
Certamente non posso dire se BD sarà superiore o meno a SB, ma le basi di avere un silicio superiore ed un'architettura progettata almeno più recentemente, io le vedo.
Quindi non credo sinceramente di essere troppo ottimista, se non altro riesco a vedere i limiti nell'Intel (silicio) che in AMD non vedo o, meglio, non si vedranno sino a quanto non si avranno ulteriori dati.
capitan_crasy
03-09-2010, 21:56
Mi sembra che tu stia facendo dei discorsi dando per fondate tante, ma tante ipotesi. L'unica cosa certa è che sicuramente i progetti derivati da Bulldozer integreranno una GPU.
Si vede che non conosci il nostro paolo...:)
Forse gli si può rimproverare di essere troppo ottimista, ma parecchie cose le ha azzeccate, alcune davvero impensabili...
Siamo davanti ad una nuova architettura di cui non sappiamo le prestazioni (possiamo solo ipotizzarle e nemmeno con tanta precisione). Non conosciamo con esattezza i progetti Intel successivi al 2011. Abbiamo Intel che è sempre avanti 6-12 mesi sulla miniaturizzazione e con una capacità produttiva mostruosa, anche se con processi produttivi meno raffinati.
Io ci andrei piano a cantare vittoria. Il rischio è di lasciare scritte cose senza senso.
Il vantaggio di Intel è dato perchè spende il quadruplo per lo sviluppo del suo silicio di quanto faceva AMD (ora ci deve pensare GF).
Tuttavia, 65nm a parte il silicio di AMD, è sempre stato all'altezza del suo concorrente e i 45nm SOI sono relativamente migliori dei 45nm di Intel.
Non fraintendere, non pensare che sia un fan di Intel, tranne che nell'ultimo periodo, in cui sono stato davvero poco dietro alle ultime novità, ho avuto sempre AMD a partire dal K6-2 ed ho avuto tutte le incarnazioni del K7 e molte del K8.
Un moderatore fanboy?
:asd:
Non può essere...
Comunque sia credo che il problema sia la scarsa fiducia sulle nuove tecnologia AMD eppure non cè motivo di pensare che Bulldozer sia per forza inferiore di SB e che Llano sia per forza una delusione sulla parte X86...
ma oltre che scarsa fiducia ,ci sarebbe mischiata anche una a priori incredulità,perche già solo nel lato netbook,ci sarebbe un concorrente contro bobcat(anche se forse consumera di piu)?
per llano si parla di una ''vera ed prima '' gpu integrata;poi potremmo vedere anche l'aspetto che puo suscitare interesse in larga scala e cioe
il consumo della prima gpu(seppur concepita per integrazione e neanche per schede gpu mobile) a 32 nm rispetto ai 40 nm odierni(che non ci sono paragoni,primo posto).anche se llano sara per fascia media cmq i consumi del processore in toto,quanto dovrebbero essere ?considerando che la gpu discreta magari o non c'è od una piccola forse per un hybrid corssfire?
poi llano non ha una gpu ...ma apu che significa(anche se potrebbe essere una questione di slogan) accelerated process unit.....tutto un concetto pazzesco,perchè amd è partita dal presupposto che è un ''peccato'' (nel vero senso della parola) vedere una''ipotetica'' potenza delle gpu sfruttata anche per tutto,dunque
io personalmente mi aspetto UN NOCCIOLO della questione che pone le basi verso un nuovo modo di concepire l'hardaware,verso un pezzo UNICO
che legga in maniera naturale tutto quello che oggi conosciamom;perche non SEGUIRLI in fiducia,dopotutto se si realizzasse farebbe contento pure intel
l'unica cosa che credo fermamente è sempre fusion2
cpu ed gpu ''indistinguibilmente'' UNA COSA SOLA......
paolo.oliva2
04-09-2010, 00:44
Qui (http://www.overclockers.com/details-amd-bulldozer-hot-chips-presentation/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+overclockers%2FCWnQ+%28Overclockers%29), è nuovo?
http://www.pctunerup.com/up/results/_201009/20100904004334_SMTCMP.jpg
Guarda, ti rispondo con estrema sincerità.
Io sono un fan del computer in primis, ho avuto un'attività che vendevo computer assemblati da me dall'8088 sino al K6 II e primi athlon su scheda, dopodiché ho cessato l'attività.
Come assemblatore, ho sempre cercato di assemblare un computer dal costo competitivo ma con materiale discreto-buono, senza assemblare sporcizia.
Di qui mi sono sposato con AMD, perché riuscivo a ottenere con molta facilità un computer dal prezzo competitivo ma con mobo/HD/memorie di ottima qualità.
Di cavolate Intel in quei tempi ne aveva fatte e mostruose, tipo proposta con alimentatore inglobato nel procio per raffreddare i pentium IV, le ram-bus, fino ad arrivare a dover ritirare tutti i Pentium prodotti perché dopo la 4a cifra decimale riportavano un risultato sbagliato, cosa che se l'avesse fatta un altro produttore di proci, non è che avrebbe chiuso, sarebbe letteralmente estinto.
Con questo non voglio certo dire che Intel non abbia la forza di fare tutto e niente, però a me sembra di notare che costantemente i prodotti Intel vengono osannati e completamente il contrario si fa con i prodotti AMD.
Se noi giudicassimo Intel per la sua architettura i7 e per il silicio HKMG e ci basassimo solo su questo, sulla carta AMD con il Phenom II (giudicato inferiore anche rispetto ai Core2) ed un silicio SOI low-k come massimo (confrontato con il 45nm/32nm HKMG Intel considerato lo stato dell'arte), dovrebbe essere ad anni luce sotto alle prestazioni di Intel. Ma la realtà è così? A me sembra di no. Allora c'è qualche cosa che non torna.
Certamente non posso dire se BD sarà superiore o meno a SB, ma le basi di avere un silicio superiore ed un'architettura progettata almeno più recentemente, io le vedo.
Quindi non credo sinceramente di essere troppo ottimista, se non altro riesco a vedere i limiti nell'Intel (silicio) che in AMD non vedo o, meglio, non si vedranno sino a quanto non si avranno ulteriori dati.
Questo purtroppo è assolutamente vero!!
floydbarber
04-09-2010, 01:49
è nuovo?
No, è lavato con Perlana :D
:old:
Foglia Morta
04-09-2010, 08:57
Cedar ( la gpu della HD5450 ) a titolo di confronto ha 292 milioni di transistors e un die size di 59 mm^2
[IMG]http://i51.tinypic.com/6nxr1i.jpg[IMG]
Sul fronte netbook, Ontario vs Pinview, a vedere questi dati AMD dovrebbe essere in vantaggio in modo impressionante dal punto di vista delle prestazioni, sia CPU che GPU. Bisognerebbe capire qualcosa di più sui consumi. 380 milioni di transistor sono tanti...
papafoxtrot
04-09-2010, 09:33
@Foglia Morta: Si però tutto funziona finché Intel produce l'atom a 45nm.
Cosa succederà quando Intel passerà all'atom 32nm + HKMG?
Bobcat avrà ancora i 40nm bulk?
Bobcat passerà ai 28nm (che sono previsti con HKMG) alla fine del 2011... Speriamo che Intel si tenga il suo 45nm per un bel po'!
Ma credo che appena bobcat sarà superiore intel sfornerà il suo atom a 32nm...
Non so se era stata postata:
http://img225.imageshack.us/img225/6596/amdllanodiet.jpg
Llano
Ho visto che il TDP di Ontario sarà 9W, dovrebbe allora essere veramente interessante.
capitan_crasy
04-09-2010, 10:30
Qui (http://www.overclockers.com/details-amd-bulldozer-hot-chips-presentation/?utm_source=feedburner&utm_medium=feed&utm_campaign=Feed%3A+overclockers%2FCWnQ+%28Overclockers%29), è nuovo?
http://www.pctunerup.com/up/results/_201009/20100904004334_SMTCMP.jpg
No è :old:
Cedar ( la gpu della HD5450 ) a titolo di confronto ha 292 milioni di transistors e un die size di 59 mm^2
http://www.pctunerup.com/up/results/_201009/th_20100904103206_6nxr1i.jpg (http://www.pctunerup.com/up/image.php?src=_201009/20100904103206_6nxr1i.jpg)
Per cortesia puoi abbassare la risoluzione dell'immagine (max 800x600)?
Grazie...
Si però tutto funziona finché Intel produce l'atom a 45nm.
Cosa succederà quando Intel passerà all'atom 32nm + HKMG?
Bobcat avrà ancora i 40nm bulk?
Bobcat passerà ai 28nm (che sono previsti con HKMG) alla fine del 2011... Speriamo che Intel si tenga il suo 45nm per un bel po'!
Ma credo che appena bobcat sarà superiore intel sfornerà il suo atom a 32nm...
Non è una questione di processo produttivo ma di architettura; Se ATOM non cambia rimarrà sempre un "poco di buono"...
Bobcat avrà prestazioni superiori ai vecchi K8 e la GPU teoricamente è quasi alla pari con quella vista nella recensione di Anandtech sul SB...
Non so se era stata postata:
http://img225.imageshack.us/img225/6596/amdllanodiet.jpg
Llano
Ho visto che il TDP di Ontario sarà 9W, dovrebbe allora essere veramente interessante.
Si è stata postata...
capitan_crasy
04-09-2010, 11:08
Cedar ( la gpu della HD5450 ) a titolo di confronto ha 292 milioni di transistors e un die size di 59 mm^2
http://www.pctunerup.com/up/results/_201009/th_20100904103206_6nxr1i.jpg (http://www.pctunerup.com/up/image.php?src=_201009/20100904103206_6nxr1i.jpg)
Grazie per la segnalazione...
Cedar ( la gpu della HD5450 ) a titolo di confronto ha 292 milioni di transistors e un die size di 59 mm^2
[IMG]http://i51.tinypic.com/6nxr1i.jpg[IMG]
Davvero interessante notare come nonostante il numero molto maggiore di transistor, bobcat risulti in fin dei conti persino più piccolo.
Non pensavo che tra il processo produttivo a 45 nm di intel e il 40nm di TSMC ci potesse essere tanta differenza.
Davvero interessante notare come nonostante il numero molto maggiore di transistor, bobcat risulti in fin dei conti persino più piccolo.
Non pensavo che tra il processo produttivo a 45 nm di intel e il 40nm di TSMC ci potesse essere tanta differenza.
Quoto :) ... cosa che ho notato anche io, domanda agli esperti come mai, possibile miglior disposizione dei circuiti?
unnilennium
04-09-2010, 17:34
Quoto :) ... cosa che ho notato anche io, domanda agli esperti come mai, possibile miglior disposizione dei circuiti?
wabbè è inutile fare confronti tra 2 tecnologie uscite con un divario di tempo così grande... i 45nm intel sono molto vecchio, mentre i 40 nm tsmc sono moolto più giovani... il confronto non regge.
paolo.oliva2
04-09-2010, 18:27
wabbè è inutile fare confronti tra 2 tecnologie uscite con un divario di tempo così grande... i 45nm intel sono molto vecchio, mentre i 40 nm tsmc sono moolto più giovani... il confronto non regge.
Ma vecchio o giovane che c'entra? :confused: (Non penso che vedremo il 32nm AMD più piccolo perché il 32nm Intel è più "vecchio", no?)
Il discorso mi sembra improntato sulla superficie, che dipende dai nm.
Può dipendere dalla grandezza dei transistor? Intel li fa leggermente più grossi, chiaro che quando si parla di milioni di transistor, la cosa può incidere.
Tra un 45nm ed un 40nm al più ci dovrebbe essere un 11% in meno a favore del 40nm.
paolo.oliva2
04-09-2010, 18:59
C'è un articolo su GF che riprende discorsi vecchi (qui (http://www.zdnet.com/blog/computers/how-globalfoundries-major-announcements-today-impact-amd/3675))
In sintesi, anche qui riprendono il fatto che verso la fine del 1° semestre 2010 GF aveva annunciato di essere pronta per la produzioni in volumi del 32nm HKMG entro la fine di novembre 2010, mentre al momento si da' per certo uno slittamento almeno sino a gennaio 2011.
Comunque nel proseguo, si sottolinea che GF ha come obiettivo di arrivare ad essere la fonderia con il più avanzato stadio di tecnologia sul mercato... e a tal proposito GF sta investendo pesantemente. Chiaro che se GF riesce a centrare l'obiettivo, in egual misura trarrebbe benefici pure AMD, vedendo così annullato il gap verso Intel.
L'inizio non è certamente dei migliori... visto lo slittamento del 32nm... speriamo che il 22nm venga in anticipo.
Sul fronte netbook, Ontario vs Pinview, a vedere questi dati AMD dovrebbe essere in vantaggio in modo impressionante dal punto di vista delle prestazioni, sia CPU che GPU. Bisognerebbe capire qualcosa di più sui consumi. 380 milioni di transistor sono tanti...
la maggior parte (poco meno di 300mln), come pure si vede dalla figura, sono presi dalla gpu, che sembra sia cedar, e guardacaso la radeon 5430 mobility (per notebook) consuma sui 7w.
Se a questo aggiungiamo che amd ha dichiarato che in consumi dei cpu core in bobcat sarebbero stati sotto 1w, allora 7+1+1=9W.
paolo.oliva2
05-09-2010, 00:10
HWINFO32
============================== Version 3.58 ==================================
Released: Aug-24-2010
- Added monitoring of Alienware M11x EC sensors.
- Added monitoring of Alienware M15x and M17x EC sensors.
- Added support of Fintek F71808A, F71869A and F71889A LPC + HW monitor.
- Added monitoring of HP 8740W EC.
- Updated sensor monitoring for ASUS SABERTOOTH X58.
- Added preliminary support of AMD/ATI Northern Islands and Fusion series.
- Fixed fan speed reporting for certain mainboards with IT8720 and IT8721.
- Improved fan speed reading on Winbond W83667HG, Nuvoton NCT6771F.
- Fixed GPU sensor reading in conjuction with Summary on certain PCH systems.
- Added preserving of Sensors window position and size.
============================== Version 3.5x ==================================
Released: Sep- -2010
- Added automatic checking of updates.
P.S.
Wikipedia (qui (http://it.wikipedia.org/wiki/Northern_Islands_%28GPU%29))
La Northern Islands è una famiglia di GPU a 28nm sviluppata da ATI Technologies. La sua esistenza è stata confermata per la prima volta al PC DIY, esposizione avvenuta in Giappone il 31 ottobre 2009. I prodotti dovevano essere rilasciati entro la fine del 2010 e inizi 2011, ma per i ritardi accumulati da TSMC nella produzione di wafer da 40nm la data di commercializzazione di questa soluzione è slittata per metà 2011.
HWINFO32
============================== Version 3.58 ==================================
Released: Aug-24-2010
- Added monitoring of Alienware M11x EC sensors.
- Added monitoring of Alienware M15x and M17x EC sensors.
- Added support of Fintek F71808A, F71869A and F71889A LPC + HW monitor.
- Added monitoring of HP 8740W EC.
- Updated sensor monitoring for ASUS SABERTOOTH X58.
- Added preliminary support of AMD/ATI Northern Islands and Fusion series.
- Fixed fan speed reporting for certain mainboards with IT8720 and IT8721.
- Improved fan speed reading on Winbond W83667HG, Nuvoton NCT6771F.
- Fixed GPU sensor reading in conjuction with Summary on certain PCH systems.
- Added preserving of Sensors window position and size.
============================== Version 3.5x ==================================
Released: Sep- -2010
- Added automatic checking of updates.
P.S.
Wikipedia (qui (http://it.wikipedia.org/wiki/Northern_Islands_%28GPU%29))
La Northern Islands è una famiglia di GPU a 28nm sviluppata da ATI Technologies. La sua esistenza è stata confermata per la prima volta al PC DIY, esposizione avvenuta in Giappone il 31 ottobre 2009. I prodotti dovevano essere rilasciati entro la fine del 2010 e inizi 2011, ma per i ritardi accumulati da TSMC nella produzione di wafer da 40nm la data di commercializzazione di questa soluzione è slittata per metà 2011.
si dovra sposare sempre con zambezi x8 nella piattaforma scorpius:eek:
forse se il destino vorrà ,ancora un'altra volta per vederli separati!:Prrr:
unnilennium
05-09-2010, 10:37
Ma vecchio o giovane che c'entra? :confused: (Non penso che vedremo il 32nm AMD più piccolo perché il 32nm Intel è più "vecchio", no?)
Il discorso mi sembra improntato sulla superficie, che dipende dai nm.
Può dipendere dalla grandezza dei transistor? Intel li fa leggermente più grossi, chiaro che quando si parla di milioni di transistor, la cosa può incidere.
Tra un 45nm ed un 40nm al più ci dovrebbe essere un 11% in meno a favore del 40nm.
la superficie condiziona la resa del wafer e il costo complessivo, in teoria una volta a regime il processo produttivo, più piccolo è meno costa. tra intel e amd (e GF) ci sono diverse tecnologie, certamente, ma giudicare quale sia la migliore è arduo, il fatto che esca un anno prima vuol dire anche che la concorrenza ha tutto il tempo x studiarlo e vedere cosa c'è di buono, e casomai prendere spunto anche per migliorare il proprio progetto.. lo fanno tutti.
paolo.oliva2
05-09-2010, 11:37
la superficie condiziona la resa del wafer e il costo complessivo, in teoria una volta a regime il processo produttivo, più piccolo è meno costa. tra intel e amd (e GF) ci sono diverse tecnologie, certamente, ma giudicare quale sia la migliore è arduo, il fatto che esca un anno prima vuol dire anche che la concorrenza ha tutto il tempo x studiarlo e vedere cosa c'è di buono, e casomai prendere spunto anche per migliorare il proprio progetto.. lo fanno tutti.
Concordo, però, almeno mia idea, l'evoluzione ha come dei binari. E' indiscutibile che l'obiettivo è comune, minor TDP possibile e maggiore frequenza possibile, però alla fine uno deve fare i conti con il silicio/architettura che ha e le soluzioni potrebbero essere anche totalmente differenti.
Se facciamo mente locale, proviamo a pensare ad un Phenom i 9950 65nm 2,5GHz ed un Penryn 3,2GHz 45nm, il divario era sul 20% a parità di clock a cui si aggiungeva la differenza di clock che era quasi del 30%, il totale era sul 56%, inoltre con il fatto che OC oltre i 3,4GHz con un Phenom I erano impossibili, cioé solo di 200MHz oltre il max clock def di un Penryn.
AMD per aumentare la frequenza ha migliorato il silicio con il low-k (che non ha nulla a che vedere con Intel), non ha dovuto migliorare il leakage, e la risultante è che ha potuto aumentare 2 core lasciando invariata l'architettura (inserendo il Turbo).
Il divario attuale è ben inferiore a quel 56%, nonostante sulla carta Intel lo dovrebbe aver incrementato, perché Intel oltre ad aver conservato il vantaggio dello step sul silicio (32nm vs 45nm AMD) ha dalla sua anche il salto architetturale, cioè i7 contro Core2, mentre AMD rimane sempre sulla vecchia architettura.
Con il prossimo passo, AMD fa il salto dell'architettura e del silicio, mentre Intel "rivisita" solamente l'i7.
Anche se sulla carta avranno ambedue un 32nm HKMG, la similitudine è solamente apparente, perchè, anche come dici tu, chi lo fa dopo fa tesoro dei limiti che incontra l'altro.
Ora... certamente AMD ha visto, come tutti, che Intel ha problemi di TDP per salire di frequenza (leakage), ha problemi a contenere il TDP aumentando il numero di core ed ha problemi comunque di architettura perchè l'NB deve avere un clock doppio delle ram mentre ad AMD basta averlo uguale.
Se si analizza invece AMD, sembra proprio il contrario. Leakage basso, quindi nessun problema ad avere sia clock superiore che numero di core già almeno pari a die a quello di Intel dopo quasi 2 anni di 32nm. Il TDP è basso, perché comunque riesce ad offrire 16 core (il doppio) nei server.
Quello che rimane di saper è l'IPC, ma per me è di secondaria importanza perché tra Turbo in monocore e numero di core in multicore, le cose possono andare solo a vantaggio di AMD.
E sarei propenso a credere che se Intel non inverte radicalmente rotta sul suo silicio e continua di pari passo come ora, le differenze tra un 32nm HKMG ed un 22nm HKMG saranno ancora inferiori che rispetto dal 45nm HKMG al 32nm HKMG, dove ad AMD basterebbe implementare il low-k per avere un prodotto equivalente a contrastarlo.
In conclusione, chi arriva dopo certamente guarda i risultati del primo, ma non è che lo copia, anzi, tutt'altro... fa tesoro degli sbagli e dei punti deboli per trovare strade alternative, gate first ad esempio.
unnilennium
05-09-2010, 12:07
Concordo, però, almeno mia idea, l'evoluzione ha come dei binari. E' indiscutibile che l'obiettivo è comune, minor TDP possibile e maggiore frequenza possibile, però alla fine uno deve fare i conti con il silicio/architettura che ha e le soluzioni potrebbero essere anche totalmente differenti.
Se facciamo mente locale, proviamo a pensare ad un Phenom i 9950 65nm 2,5GHz ed un Penryn 3,2GHz 45nm, il divario era sul 20% a parità di clock a cui si aggiungeva la differenza di clock che era quasi del 30%, il totale era sul 56%, inoltre con il fatto che OC oltre i 3,4GHz con un Phenom I erano impossibili, cioé solo di 200MHz oltre il max clock def di un Penryn.
AMD per aumentare la frequenza ha migliorato il silicio con il low-k (che non ha nulla a che vedere con Intel), non ha dovuto migliorare il leakage, e la risultante è che ha potuto aumentare 2 core lasciando invariata l'architettura (inserendo il Turbo).
Il divario attuale è ben inferiore a quel 56%, nonostante sulla carta Intel lo dovrebbe aver incrementato, perché Intel oltre ad aver conservato il vantaggio dello step sul silicio (32nm vs 45nm AMD) ha dalla sua anche il salto architetturale, cioè i7 contro Core2, mentre AMD rimane sempre sulla vecchia architettura.
Con il prossimo passo, AMD fa il salto dell'architettura e del silicio, mentre Intel "rivisita" solamente l'i7.
Anche se sulla carta avranno ambedue un 32nm HKMG, la similitudine è solamente apparente, perchè, anche come dici tu, chi lo fa dopo fa tesoro dei limiti che incontra l'altro.
Ora... certamente AMD ha visto, come tutti, che Intel ha problemi di TDP per salire di frequenza (leakage), ha problemi a contenere il TDP aumentando il numero di core ed ha problemi comunque di architettura perchè l'NB deve avere un clock doppio delle ram mentre ad AMD basta averlo uguale.
Se si analizza invece AMD, sembra proprio il contrario. Leakage basso, quindi nessun problema ad avere sia clock superiore che numero di core già almeno pari a die a quello di Intel dopo quasi 2 anni di 32nm. Il TDP è basso, perché comunque riesce ad offrire 16 core (il doppio) nei server.
Quello che rimane di saper è l'IPC, ma per me è di secondaria importanza perché tra Turbo in monocore e numero di core in multicore, le cose possono andare solo a vantaggio di AMD.
E sarei propenso a credere che se Intel non inverte radicalmente rotta sul suo silicio e continua di pari passo come ora, le differenze tra un 32nm HKMG ed un 22nm HKMG saranno ancora inferiori che rispetto dal 45nm HKMG al 32nm HKMG, dove ad AMD basterebbe implementare il low-k per avere un prodotto equivalente a contrastarlo.
In conclusione, chi arriva dopo certamente guarda i risultati del primo, ma non è che lo copia, anzi, tutt'altro... fa tesoro degli sbagli e dei punti deboli per trovare strade alternative, gate first ad esempio.
d'accordo, anche se non condivido il tuo ottimismo,
magari x scaramanzia.
credo che sia l'uno che l'altro si siano rimboccati le maniche x risolvere i loro problemi,, ed abbiano sbirciato come andava l'altra soluzione... non si possono copiare, perchè sono molto diversi,ma cmq si studiano a vicenda. spero amd migliori l'architettura, e intel abbassi un pò i prezzi. c sarà così più scelta per l'acquirente.
wabbè è inutile fare confronti tra 2 tecnologie uscite con un divario di tempo così grande... i 45nm intel sono molto vecchio, mentre i 40 nm tsmc sono moolto più giovani... il confronto non regge.
come gia qualcuno ha detto la differenza di dimensioni è solo dell'undici per cento. la differenza è sostanzialmente nella progettazione: a parità di processo produttivo e di transistor ci possono essere sostanziali differenze di dimensioni per diversi motivi: dimensione dei transistor differenti (il processo produttivo in se non indica la dimensione del transistor, ma la capacità di avvicinare il raggio laser per l'incisione), e disposizione dei singoli moduli sul wafer cercando di sfruttare il più possibile l'area disponibile (e transistor più vicini non indicano necessariamente chip migliori).
non dimentichiamoci che all'aumentare degli amperè necessari al funzionamento di un chip abbiamo bisogno di maggiore distanza relativa tra i transistor e le piste di segnale per mitigare il più possibile l'effetto di elettromigrazione all'aumento delle frequenze).
Come più di uno ha fatto notare l'alta frequenza ipotizzata per BD rappresenta comunque un incognita anche a causa di cio'.
navarre63
05-09-2010, 16:52
http://www.dinoxpc.com/News/news.asp?ID_News=19706&What=News&tt=IFA+2010:+AMD+mostra+la+piattaforma+netbook+Ontario
cliccate su quel link di hosting
:D
paolo.oliva2
05-09-2010, 18:42
d'accordo, anche se non condivido il tuo ottimismo,
magari x scaramanzia.
credo che sia l'uno che l'altro si siano rimboccati le maniche x risolvere i loro problemi,, ed abbiano sbirciato come andava l'altra soluzione... non si possono copiare, perchè sono molto diversi,ma cmq si studiano a vicenda. spero amd migliori l'architettura, e intel abbassi un pò i prezzi. c sarà così più scelta per l'acquirente.
Guarda... non penso di essere ottimista per AMD e pessimista per Intel.
Io faccio solo una valutazione matematica.
Intel non fa uno step di silicio, apporta solo ottimizzazioni all'architettura per renderla più efficiente.
Alla luce delle ultime informazioni, SB X4 dovrebbe incrementare l'IPC di un 12% ed ancor meno dal punto di vista clock operativo.
Ci possiamo aspettare che un SB X6 e X8 (non dimentichiamoci l'SMT ed i problemi che porta con l'aumentare dei core e la non esaltante scalabilità dell'Intel) possa conservare lo stesso incremento di IPC? E per l'incremento di clock?
Guardando AMD, io sono ottimista perché già il salto di silicio (-40% di TDP a parità di frequenza) permetterebbe ampiamente da solo di eliminare il gap di potenza assegnando a BD un IPC uguale al Phenom II e negandogli qualsiasi ottimizzazione ulteriore.
Se poi uniamo il fatto che un procio per avere numeri di vendita non deve solo avere la potenza superiore ma, anzi, soprattutto, un prezzo-prestazioni ottimo, sul fatto che in ogni caso BD avrà un prezzo-prestazioni migliore, nessuno può avere dubbi.
Io rispetto le idee di tutti, ma il mio ottimismo l'ho spiegato... diversamente, attendersi SB X6 a 3,6GHz stock con IPC del 20-25% superiori ad un i980X e dal costo di 500€... a me questo si che mi sembra ottimismo. Magari pure un SB X8 EE a 600€.
matt92tau
05-09-2010, 18:44
http://www.dinoxpc.com/News/news.asp?ID_News=19706&What=News&tt=IFA+2010:+AMD+mostra+la+piattaforma+netbook+Ontario
cliccate su quel link di hosting
:D
Visto :rotfl: :rotfl: :rotfl:
paolo.oliva2
05-09-2010, 20:20
Visto :rotfl: :rotfl: :rotfl:
per caso è la frase "ora mancano solo i computer?".
e.greg.io
05-09-2010, 20:33
per caso è la frase "ora mancano solo i computer?".
http://a.imageshack.us/img52/5834/bobatom.jpg
:p
paolo.oliva2
05-09-2010, 22:03
http://a.imageshack.us/img52/5834/bobatom.jpg
:p
Lol. Umor non manca di certo.
paolo.oliva2
05-09-2010, 23:36
Bulldozer Design Breakdown (qui (http://machinecity-hello.blogspot.com/2010/09/bulldozer-core-amd.html)) (sicuro che è vecchio) :sofico:
* Two tightly coupled, "conventional" x86 out-of-order processing engines which AMD internally named module
(Single-Module ==> Dual-Core, Dual-Module ==> Quad-Core, Quad-Module ==> Octa-Core etc...)
* Between 8MB to 16MB of L3 cache shared among all Modules on the same silicon die
* DDR3-1866 and Higher Memory Level Parallelism
* Dual channel DDR3 integrated memory controler (support for PC3-12800 (DDR3-1600))
* Cluster Multi-threading (CMT) Technology
* Bulldozer module consists of the following:
o 128kB L2 cache inside each module (shared between module cores)
o 4kB L1 data cache per core and 2-way 16kB L1 instruction cache per module L1 cache, Fruehe for THW
o Two dedicated integer cores
- each consist of 2 ALU and 2 AGU which are capable for total of 4 independent arithmetic or memory operations per clock per core
- duplicating integer schedulers and execution pipelines offers dedicated hardware to each of two threads which significantly increase performance in multithreaded integer applications
- second integer core increases Bulldozer module die by around 12%, which at chip level adds about 5% of total die space[9]
o Two symmetrical 128-bit FMAC (fused multiply-add (FMA) capability) Floating Point Pipelines per module that can be unified into one large 256-bit wide unit if one of integer cores dispatch AVX instruction and two symmetrical x87/MMX/3DNow! capable FPPs for backward compatibility with SSE2 non-optimized software
* 32nm SOI process with implemented first generation GF's High-K Metal Gate (HKMG)
* Support for AMD's only SSE5 128-bit instructions
- incl. three smaller supplemental extensions CVT16, XOP and FMA4 instruction set, which are now part of SSE5 specification (since May 2009 revision)
* Support for Intel's Advanced Vector Extensions (AVX) (Supports 256-Bit FP Operations via AVX)SSE4.1, SSE4.2, AES, CLMUL), future Instruction sets announced by Intel (AVX), as well as future instruction sets proposed by AMD (XOP and FMA4
* Hyper Transport Technology rev.3.1 (3.20 GHz, 6.4 GT/s, 51.6 GB/s, 16-bit uplink/16-bit downlink) [first implemented into HY-D1 revision "Magny-Cours" on the socket G34 Opteron platform in March 2010 and "Lisbon" on the socket C32 Opteron platform in June 2010]
* Socket AM3+ (AM3r2)
- 938pin(?), DDR3 support
- will retain only backwards compatiblity with previous Socket AM3/AM2 processors ("new AM3+ socket for consumer versions of Bulldozer CPUs. AM2 and AM3 processors will work in the AM3+ socket, but Bulldozer chips will not work in non-AM3+ motherboards")
* Min-Max Power Usage - 10-100 watts
* Bulldozer Module sharing levels Bulldozer module
quindi a quanto sembra che si stia prospettando la cosa ,e che cioe la ''gpu'' stia invadendo le x86
sembra che gia con la prima ''FIACCOLA'' ontario la partita sia persa in partenza,
poi se si esclude le performance x86(sempre relativamente) di sabine e di huron ...anche qui la partita sembra ancora piu persa che iniziata sempre dal lato gpu,dato che ,a parte la potenza di almeno il triplo ,non si ha neppure il supporto sulle api dx11 su una delle 2
quasi quasi comincio a diventare incredulo pure io ..,...
allora questa APU ,non sembra che sia solo gpu ,ma qualcosa che ancora non intendiamo bene,a mio avviso,ma che già su ontario fa vedere la sua NATURA intrinseca
ma quando il processo si farà piu piccolo(22/28nm) ...allora si che si avra ancora piu paura di queste apu....:read:
paolo.oliva2
06-09-2010, 16:19
quindi a quanto sembra che si stia prospettando la cosa ,e che cioe la ''gpu'' stia invadendo le x86
sembra che gia con la prima ''FIACCOLA'' ontario la partita sia persa in partenza,
poi se si esclude le performance x86(sempre relativamente) di sabine e di huron ...anche qui la partita sembra ancora piu persa che iniziata sempre dal lato gpu,dato che ,a parte la potenza di almeno il triplo ,non si ha neppure il supporto sulle api dx11 su una delle 2
quasi quasi comincio a diventare incredulo pure io ..,...
allora questa APU ,non sembra che sia solo gpu ,ma qualcosa che ancora non intendiamo bene,a mio avviso,ma che già su ontario fa vedere la sua NATURA intrinseca
ma quando il processo si farà piu piccolo(22/28nm) ...allora si che si avra ancora piu paura di queste apu....:read:
Io credo che non serva necessariamente il 28nm o 22nm per ralizzare il progetto Fusion, quanto invece sia un appoggio software che comunque un avanzamento di tecnologia architetturale.
Non seguo molto la parte VGA, ma ho sia una 3870X2 che una 5750.
Non so effettivamente quale delle 2 sia più potente, perché ad occhio mi sembrano simili... ma la 3870X2 è un forno crematorio, la 5750 a confronto è polare.
Ipotizzando le ATI a venire serie 6XXX che sicuramente aumenteranno le prestazioni e ridurranno i consumi ed un procio X4 E0, ambedue proiettati su un 32nm HKMG low-K, beh... non credo che si debba aspettare miniature ancor più basse...
Da quello che sapevo (ma sono poco informato), una VGA media batterebbe in calcoli la CPU più potente in desktop almeno 10 a 1.
Teorizzando un depotenziamento della APU di 5 volte in termini di frequenza, si arriverebbe a TDP minimi, ma sempre con potenza doppia rispetto al max oggi offerto (ed ancora mancherebbe la CPU da includere nella potenza) :).
Dre@mwe@ver
06-09-2010, 16:30
Da quello che sapevo (ma sono poco informato), una VGA media batterebbe in calcoli la CPU più potente in desktop almeno 10 a 1.
Teorizzando un depotenziamento della APU di 5 volte in termini di frequenza, si arriverebbe a TDP minimi, ma sempre con potenza doppia rispetto al max oggi offerto (ed ancora mancherebbe la CPU da includere nella potenza) :).
Nei calcoli in virgola mobile, di certo non negli interi a quanto ne so :)
si,ma allo stato attuale il discorso regge poco.
per paragone la gpu è un dragster e la cpu una punto.
il dragster ha 10 volte la potenza di una punto, però va solo sul dritto.
al momento integrando(o usando la discreta poco cambia) è come avere il dragster per fare i rettilinei e la punto per il resto delle strade.
fusion quello vero dovrebbe essere un'auto sola che sul dritto va come un dragster, ma va anche in curva e sterrato. non è na cosa facile e banale :D
Nei calcoli in virgola mobile, di certo non negli interi a quanto ne so :)
E con FP a singola precisione ;)
http://www.dinoxpc.com/News/news.asp?ID_News=19706&What=News&tt=IFA+2010:+AMD+mostra+la+piattaforma+netbook+Ontario
cliccate su quel link di hosting
:D
????:confused: :confused: :confused: :confused:
Spitfire84
06-09-2010, 19:02
????:confused: :confused: :confused: :confused:
http://a.imageshack.us/img52/5834/bobatom.jpg
:D
Io credo che non serva necessariamente il 28nm o 22nm per ralizzare il progetto Fusion, quanto invece sia un appoggio software che comunque un avanzamento di tecnologia architetturale.
Non seguo molto la parte VGA, ma ho sia una 3870X2 che una 5750.
Non so effettivamente quale delle 2 sia più potente, perché ad occhio mi sembrano simili... ma la 3870X2 è un forno crematorio, la 5750 a confronto è polare.
Ipotizzando le ATI a venire serie 6XXX che sicuramente aumenteranno le prestazioni e ridurranno i consumi ed un procio X4 E0, ambedue proiettati su un 32nm HKMG low-K, beh... non credo che si debba aspettare miniature ancor più basse...
Da quello che sapevo (ma sono poco informato), una VGA media batterebbe in calcoli la CPU più potente in desktop almeno 10 a 1.
Teorizzando un depotenziamento della APU di 5 volte in termini di frequenza, si arriverebbe a TDP minimi, ma sempre con potenza doppia rispetto al max oggi offerto (ed ancora mancherebbe la CPU da includere nella potenza) :).
sono in parte d'accordo con voi...però vorrei aggiungere un mio pensiero
Non è per fare il filosofo ,ma in tutta questa confusione c'è cmq una logica,da qualche parte
La logica secondo me nasce solo analizzando 2 aspetti (anche se sono diversi) che sono i consumi e la frequenza tra una cpu ed una gpu
Una va un terzo sia di frequenza che il triplo di calore(circa) ;il problema per la fusione (come pensano loro) e che fare avvicinare questi aspetti viene prima del software(neanche e tantomeno di quello si parlerebbe,se non ci fosse la realtà di poterla fare),perchè la parte più da "lavorare ",per avere potenza vera , è la gpu,perchè ci sarebbe sempre il problema calore,...quindi più si va in piccolo ,più si ha più margine di fare compaciare i 2 pezzi avendo del margine di watt da poter sfruttare come calore generato(sempre piu contenuto)
Se immaginiamo solo una apu a 16 nm ,anche se fosse uguale(non migliorata o riconcepita negli anni rispetto a quella odierna ,appunto intatta ) avrebbe un margine di calore generato molto piu contenuto, della serie:''perchè ,dato questo possibile margine,non pensiamo di metterne 2 o 4 ''??
...e se si dimostrasse già adesso apu llano ,"forte" ?
Cioè se già allora apu llano(quando uscirà) avrà una certa maturità ....allora ne vedremo 2 0 4 di apu...sempre nei famosi 125w watt
Poi il resto si vedrà ,cosa vedremo tra il 32 nm e il 22nm (che dicono che sia per la "superpotenza")e poi dal 22 al 16 ...
Lo scenario, se già oggi sembra molto pieno di argomenti vari....allora sara ancora più incredibile di quanto lo sia oggi!
Sempre restando su amd...solo (non dico ai 22) dal 32 al 16 ....già si vede almeno il n 2 (riferito ad apu)
Una mia fantasia. Solo come la penso io sulle apu più piccole!
Magari li mettono in serie....e chi può dirlo oggi?
Semplicemente multicpu + single gpu= fusion ;
multicpu + multigpu= fusion2 :read: :Prrr:
Oppure multicore eterogenei....;peccato che per quanto possa essere strana come cosa ,non si torna indietro!
Ps. Sono passati 5 anni dall'acquisizione (2005-2010/11) e ancora ci sono altri 4/5 lunghi anni!!!
Aspetteremo...ma forse il futuro è più vicino di quanto pensassimo!
paolo.oliva2
07-09-2010, 11:07
Mi sorge un dubbio....
Oggi abbiamo la gioia di testare ed occare... domani... non so se darà la stessa sensazione dicendo solo "overcloccati ed aggiustati". Forse... però... un androide che metta una pezza allo sbaglio fatto da uno con la 13a costola... potrebbe venire fuori una "creazione" più perfetta.
sono in parte d'accordo con voi...però vorrei aggiungere un mio pensiero
Non è per fare il filosofo ,ma in tutta questa confusione c'è cmq una logica,da qualche parte
La logica secondo me nasce solo analizzando 2 aspetti (anche se sono diversi) che sono i consumi e la frequenza tra una cpu ed una gpu
Una va un terzo sia di frequenza che il triplo di calore(circa) ;il problema per la fusione (come pensano loro) e che fare avvicinare questi aspetti viene prima del software(neanche e tantomeno di quello si parlerebbe,se non ci fosse la realtà di poterla fare),perchè la parte più da "lavorare ",per avere potenza vera , è la gpu,perchè ci sarebbe sempre il problema calore,...quindi più si va in piccolo ,più si ha più margine di fare compaciare i 2 pezzi avendo del margine di watt da poter sfruttare come calore generato(sempre piu contenuto)
Se immaginiamo solo una apu a 16 nm ,anche se fosse uguale(non migliorata o riconcepita negli anni rispetto a quella odierna ,appunto intatta ) avrebbe un margine di calore generato molto piu contenuto, della serie:''perchè ,dato questo possibile margine,non pensiamo di metterne 2 o 4 ''??
...e se si dimostrasse già adesso apu llano ,"forte" ?
Cioè se già allora apu llano(quando uscirà) avrà una certa maturità ....allora ne vedremo 2 0 4 di apu...sempre nei famosi 125w watt
Poi il resto si vedrà ,cosa vedremo tra il 32 nm e il 22nm (che dicono che sia per la "superpotenza")e poi dal 22 al 16 ...
Lo scenario, se già oggi sembra molto pieno di argomenti vari....allora sara ancora più incredibile di quanto lo sia oggi!
Sempre restando su amd...solo (non dico ai 22) dal 32 al 16 ....già si vede almeno il n 2 (riferito ad apu)
Una mia fantasia. Solo come la penso io sulle apu più piccole!
Magari li mettono in serie....e chi può dirlo oggi?
Semplicemente multicpu + single gpu= fusion ;
multicpu + multigpu= fusion2 :read: :Prrr:
Oppure multicore eterogenei....;peccato che per quanto possa essere strana come cosa ,non si torna indietro!
Ps. Sono passati 5 anni dall'acquisizione (2005-2010/11) e ancora ci sono altri 4/5 lunghi anni!!!
Aspetteremo...ma forse il futuro è più vicino di quanto pensassimo!
bel discorso, anche se poco leggibile, però è solo confusione dato che al momento fusion è cpu + gpu, nel momento in cui verranno fusi questa distinzione non la fai più parlerai solo di apu, ci saranno sicuramente apu multicore ovvero apu che integrano più di un modulo, poi come questo sia realizzato non importa
paolo.oliva2
07-09-2010, 13:29
bel discorso, anche se poco leggibile, però è solo confusione dato che al momento fusion è cpu + gpu, nel momento in cui verranno fusi questa distinzione non la fai più parlerai solo di apu, ci saranno sicuramente apu multicore ovvero apu che integrano più di un modulo, poi come questo sia realizzato non importa
Bisogna fare un distinguo. Se vengono interpretate APU il sistema Intel per il solo fatto della L3 in comune e poco altro, a maggior ragione il prodotto AMD deve essere ben distinto dal discorso CPU + VGA.
Non è certo confrontarlo con il progetto Fusion 2 finito che si possono fare i distinguo.
Se prendiamo BD e SB top di gamma e li confrontassimo con i proci che vedremo tra 5 anni, che facciamo, li chiamamo proci solo per video-game fascia bassa?
E' chiaro che il futuro offre più potenza, ma il futuro è fatto da un insieme di piccoli passi, e Llano rappresenta un grande passo verso l'APU futuro. Giudicarlo procio + VGA non figura quello che AMD ha fatto, per me è sbagliatissimo.
Giudicarlo procio + VGA non rappresenta quello che AMD ha fatto, per me è sbagliatissimo.
Non mi sembra che possa essere giudicato niente più di questo. Quali elementi dell'architettura dovrebbero far pensare diversamente ?
capitan_crasy
07-09-2010, 13:37
Non mi sembra che possa essere giudicato niente più di questo. Quali elementi dell'architettura dovrebbero far pensare diversamente ?
L'utilizzo in comune del controller di memoria e l' integrazione nello stesso pezzo di silicio...
L'utilizzo in comune del controller di memoria e l' integrazione nello stesso pezzo di silicio...
Questa era una cosa dovuta perché il north bridge è integrato nella CPU. Non ci sarebbe stata alcuna alternativa se non riportarlo fuori.
paolo.oliva2
07-09-2010, 14:48
Questa era una cosa dovuta perché il north bridge è integrato nella CPU. Non ci sarebbe stata alcuna alternativa se non riportarlo fuori.
Si, però il termine APU differisce dal termine CPU + VGA perché l'APU li integra nello stesso film e stesso pezzo di silicio e CPU + VGA li divide, addirittura fattibile con 2 distinti pezzi di silicio.
Che poi il grado di interazione sia limitato o comunque inferiore ai modelli a venire, nessuno penso che abbia nulla da obiettare. Ma comunque un distinguo tra CPU + VGA on package io lo vedo.
Se AMD da tempo integra l'NB nel procio, mica ci possiamo aspettare che si faccia da gambero.
Si, però il termine APU differisce dal termine CPU + VGA perché l'APU li integra nello stesso film e stesso pezzo di silicio e CPU + VGA li divide, addirittura fattibile con 2 distinti pezzi di silicio.
E' solo una distinzione formale, perché a livello funzionale non cambia assolutamente niente, almeno per Llano. La cosa sarebbe fattibile anche in due pezzi di silicio collegati tramite HyperTransport per la memoria.
Al contrario l'integrazione fra CPU e GPU in Sandy Bridge è più alta, anche se hanno solo la cache L3 in comune (e non è poi poco), tanto che non potrebbero essere realizzati in due chip diversi.
carlottoIIx6
07-09-2010, 15:40
E' solo una distinzione formale, perché a livello funzionale non cambia assolutamente niente, almeno per Llano. La cosa sarebbe fattibile anche in due pezzi di silicio collegati tramite HyperTransport per la memoria.
Al contrario l'integrazione fra CPU e GPU in Sandy Bridge è più alta, anche se hanno solo la cache L3 in comune (e non è poi poco), tanto che non potrebbero essere realizzati in due chip diversi.
che vuoi dire?
i due sistemi cpu e gpu e relative menorie sono collegate tramite HyperTransport e tramite esso accedono poi al controller memoria...
vuoi dire che questo e' possibile con anche con una cpu e gpu separate?
http://www.arduer.com/wp-content/uploads/2010/07/ffc7bd9a-a0e4-45de-8ee8-5dc360525bc9.jpg
se fossero separate potrebbero prendere i dati solo dalla memoria comune di sistema
non so... ma il fatto che siano collegate da un bus prima della memoria ram, non implica che possono scambiarsi dati?
che vuoi dire?
i due sistemi cpu e gpu e relative menorie sono collegate tramite HyperTransport e tramite esso accedono poi al controller memoria...
vuoi dire che questo e' possibile con anche con una cpu e gpu separate?
No, voglio dire che con il livello di integrazione che hanno avrebbero potuto essere anche collegate fra loro con HyperTransport ed essere su due chip differenti. Così come succede nel multiprocessing di AMD con la formazione di un mesh di CPU di cui non tutte le cpu possono essere collegate a dei banchi di memoria.
Sul fatto che il collegamento fra i buffer e l'XBar possa essere o meno uno o più link HyperTransport, credo che sia difficile che qualcuno ti possa rispondere con certezza. Da un punto di vista logico potrebbe esserlo, anche perché avrebbero già tutti i meccanismi di coerenza con la cache della CPU già sviluppati.
carlottoIIx6
07-09-2010, 16:16
No, voglio dire che con il livello di integrazione che hanno avrebbero potuto essere anche collegate fra loro con HyperTransport ed essere su due chip differenti. Così come succede nel multiprocessing di AMD con la formazione di un mesh di CPU di cui non tutte le cpu possono essere collegate a dei banchi di memoria.
Sul fatto che il collegamento fra i buffer e l'XBar possa essere o meno uno o più link HyperTransport, credo che sia difficile che qualcuno ti possa rispondere con certezza. Da un punto di vista logico potrebbe esserlo, anche perché avrebbero già tutti i meccanismi di coerenza con la cache della CPU già sviluppati.
... e quindi non avere bisogno di una chace l3 ...
... o di usare la ram di sistema...
mha!
paolo.oliva2
07-09-2010, 16:50
E' solo una distinzione formale, perché a livello funzionale non cambia assolutamente niente, almeno per Llano. La cosa sarebbe fattibile anche in due pezzi di silicio collegati tramite HyperTransport per la memoria.
Al contrario l'integrazione fra CPU e GPU in Sandy Bridge è più alta, anche se hanno solo la cache L3 in comune (e non è poi poco), tanto che non potrebbero essere realizzati in due chip diversi.
Scusami, ma se l'MC è unico in Llano, già questa è un'integrazione.
Che poi al momento se l'MC "lavora" a contatto con l'L3, non so se escludere una L3 condivisa pure per Llano..
Inoltre... se poi si è concordi nel giudicare Llano graficamente ben più potente di SB, non capisco perché continuare a far sembrare la grafica integrata di SB migliore di quella AMD.
Scusami, ma se l'MC è unico in Llano, già questa è un'integrazione.
Che poi al momento se l'MC "lavora" a contatto con l'L3, non so se escludere una L3 condivisa pure per Llano..
Inoltre... se poi si è concordi nel giudicare Llano graficamente ben più potente di SB, non capisco perché continuare a far sembrare la grafica integrata di SB migliore di quella AMD.
SB non è migliore, assolutamente no. Dal punto di vista grafico prenderà sonore sassate. Però dal punto di vista dell'integrazione CPU e GPU è un passo avanti rispetto a Llano. Non ammettere questo significa solo non fare un analisi obiettiva.
No, non c'è alcuna integrazione fra CPU e GPU. Come dimostravo prima, ci sarebbe stato un unico memory controller anche collegando la GPU tramite HyperTransport su un chip esterno (così come succede in configurazioni multiprocessore con CPU che non hanno Ram propria e di fatto memory controller inutilizzato) ;)
paolo.oliva2
07-09-2010, 17:10
SB non è migliore, assolutamente no. Dal punto di vista grafico prenderà sonore sassate. Però dal punto di vista dell'integrazione CPU e GPU è un passo avanti rispetto a Llano. Non ammettere questo significa solo non fare un analisi obiettiva.
No, non c'è alcuna integrazione fra CPU e GPU. Come dimostravo prima, ci sarebbe stato un unico memory controller anche collegando la GPU tramite HyperTransport su un chip esterno (così come succede in configurazioni multiprocessore con CPU che non hanno Ram propria e di fatto memory controller inutilizzato) ;)
Quindi, considerando per APU come parti in comune tra CPU e GPU sullo stesso die, tu vedi più APU in SB che in Llano.
(premetto, nessuna ironia perché di fondo non mi sono studiato nessuna delle 2 architetture... mi è bastato l'overflow iniziale solo a guardare BD).
Quindi, considerando per APU come parti in comune tra CPU e GPU sullo stesso die, tu vedi più APU in SB che in Llano.
Sì, questo credo che sia indubbio. E si spiega anche facilmente. Vedi l'immagine postata prima: http://www.arduer.com/wp-content/uploads/2010/07/ffc7bd9a-a0e4-45de-8ee8-5dc360525bc9.jpg
L'XBar è quella parte del north bridge che si occupa di raccogliere tutte le richieste provenienti dall'intero sistema (I/O, PCI-Express, HyperTransport, CPU) verso la memoria. Di fatto quindi la GPU, essendo servita direttamente dall'XBar, è in una posizione simile a quella che avrebbe una ipotetica CPU o GPU esterna collegata tramite HyperTransport.
Al contrario, in SB, prendendo sempre l'immagine sopra, la GPU è come se fosse collegata direttamente al modulo verde chiamato Cache e venisse servita direttamente dallo stesso link con XBar che serve anche la CPU.
papafoxtrot
07-09-2010, 17:20
No, non c'è alcuna integrazione fra CPU e GPU. Come dimostravo prima, ci sarebbe stato un unico memory controller anche collegando la GPU tramite HyperTransport su un chip esterno (così come succede in configurazioni multiprocessore con CPU che non hanno Ram propria e di fatto memory controller inutilizzato) ;)
Immagino che la condizione sia simile a quella dei chipset con video integrato attuali: la CPU e la GPU comunicano tramite hyper transport (che unisce la CPU al chipset) e la CPU condivide il memory controller (ad esclusione dei casi in cui è presente la memoria sideport).
E alla fine la condizione è la stessa dei core i3 e core i5. Il memory controller è unico e condiviso. Solo che in questi ultimi si trova sulla GPU, e quest'ultima comunica con il processore direttamente attraverso un pci-express, del quale il processore integra un controller (che sostiuisce il controller HT di AMD).
In effetti l'integrazione non è per nulla spinta. Si è solo messo tutto sullo stesso chip di silicio.
Se Llano avesse una L3, allora questa sarebbe solo appannaggio del lato CPU.
Ma ora mi chiedo: Intel ha collegato le due aree mediante la cache L3, senza fare uso di un bus specifico. E' un grande passo avanti?
Come si realizza ciò?
vBulletin® v3.6.4, Copyright ©2000-2025, Jelsoft Enterprises Ltd.