Nuove informazioni sulle cpu Cedar Mill - Pagina 3

cdimauro · 18-04-2005, 11:27

Quote:

Originariamente inviato da Dreadnought

Addendum, per chiudere il discorso:

il P4EE è stato fatto sia a 130nm che a 90nm (e si che me lo ricordavo che c'era un P4 che era stato scalato di processo produttivo, ma guardavo tra gli xeon, e invece era il P4EE!!).
Ecco i datasheet dal sito intel per non sbagliare:
- P4EE 130nm: http://download.intel.com/design/Pen...s/30235002.pdf
- P4EE 90nm: http://download.intel.com/design/Pen...s/30638201.pdf

Per far contenti tutti sono tutti e due da 169M di transistor

Core P4EE 130nm Icc(max)*Vcc(nominale) -> 83A*(1,6-0,14)V = ~123W
Core P4EE 90nm Icc(max)*Vcc(nominale) -> 119A*(1,4-0,19)V = ~163W

* ai valori della tensione nominale vengono sottratti gli scostamenti secondo le tabelle riportate nei datasheet: ~0.14V per il core a 130nm a 80-90A e ~0.19V per il core a 90nm a 120A.

Se vogliamo fare i pignoli possiamo anche aumentare i W dissipati dal core a 130nm per portarlo a 3,6GHz dai suoi 3,46: con un semplice calcolo il nuovo consumo del core a 130nm è:
123W * 3,6 / 3,46 = 128W
Sempre ben al di sotto dei 160W e passa della versione a 90 nanometri.

Mi pare di aver detto tutto ormai...
n8

Hai torto (e ha ragione Fx) come ti ha detto anche cionci.

Il P4EE a 130nm è basato sul core Xeon Gallatin (quindi di "famiglia" Northwood), e i transistor in più rispetto a un P4 "desktop" sono dovuti alla cache L3 a 2MB, che si va ad AGGIUNGERE a tutto il resto.

Il P4EE a 90nm invece è basato sul core P4 Prescott.

I due processori, quindi, sono completamente diversi, per cui fare confronti di questo tipo è completamente inutile, oltre che sbagliato e fuorviante.

Il confronto giusto è quello fra Banias e Dothan, visto che le uniche differenze sono dovute al raddoppio della cache L2 (tutto il resto è rimasto identico) e al passaggio da 130nm ai 90nm. Anzi, si potrebbero anche confrontare i Celeron basati su Dothan, con 1MB di cache, che quindi sono a tutti gli effetti dei Banias, ma col processo produttivo a 90nm anziché a 130nm.

Dreadnought · 18-04-2005, 14:56

Quote:

Originariamente inviato da cdimauro

Hai torto (e ha ragione Fx) come ti ha detto anche cionci.

Quindi tu stai affermando che fondamentalmente SOI, Low-K e Strained silicon sono inutili?

Alla AMD sono stupidi a pagare IBM per far produrre gli A64 90nm con i processi produttivi sopra citati?

Quote:

I due processori, quindi, sono completamente diversi, per cui fare confronti di questo tipo è completamente inutile, oltre che sbagliato e fuorviante.

Ok, visto che dici che son differenti, dimmi in cosa, perchè io conto le medesime unità sia nel notrhwood che nel prescott, a parte:
- EMT64 (disabilitate in alcuni prescott)
- SSE3 che non siano questi transistor in più
- Qualche KB in più nelle L1 e trace cache.
Le uniche differenze stanno nei transistor che regolano i flussi della pipe che nel prescott ha una decina di stadi in più.

cionci · 18-04-2005, 15:44

Quote:

Originariamente inviato da Dreadnought

Quindi tu stai affermando che fondamentalmente SOI, Low-K e Strained silicon sono inutili?

Intel usa strained silicon sui Prescott...

Quote:

Originariamente inviato da Dreadnought

Ok, visto che dici che son differenti, dimmi in cosa, perchè io conto le medesime unità sia nel notrhwood che nel prescott, a parte:
- EMT64 (disabilitate in alcuni prescott)
- SSE3 che non siano questi transistor in più
- Qualche KB in più nelle L1 e trace cache.
Le uniche differenze stanno nei transistor che regolano i flussi della pipe che nel prescott ha una decina di stadi in più.

Sono profondamente diversi dal punto di vista dell'architettura interna... Una decina di stadi in più significano uno sconvolgimento ed un notevole aumento di transistor...
Qui sotto c'è la foto di entrambi...dimmi se si assomigliano...
http://www.chip-architect.net/news/P..._1600x1200.jpg
http://www.chip-architect.net/news/N..._1600x1200.jpg

cdimauro · 18-04-2005, 19:05

Quote:

Originariamente inviato da Dreadnought

Quindi tu stai affermando che fondamentalmente SOI, Low-K e Strained silicon sono inutili?

Alla AMD sono stupidi a pagare IBM per far produrre gli A64 90nm con i processi produttivi sopra citati?

Non mettermi parole in bocca che non ho detto.

Non ho detto che sono inutili, e tra l'altro Intel è stata la prima a usare la tecnologia strainer silicon sui transistor delle sue CPU.

Ogni azienda cerca di utilizzare delle tecnologie, a volte anche le stesse, per risolvere problemi che sono comuni a tutti: Intel, IBM, AMD, Motorola, ecc. non stanno su un altro pianeta...

Quote:

Ok, visto che dici che son differenti, dimmi in cosa, perchè io conto le medesime unità sia nel notrhwood che nel prescott, a parte:
- EMT64 (disabilitate in alcuni prescott)
- SSE3 che non siano questi transistor in più
- Qualche KB in più nelle L1 e trace cache.
Le uniche differenze stanno nei transistor che regolano i flussi della pipe che nel prescott ha una decina di stadi in più.

Studiati bene i link che ti ha fornito cionci: i due core sono decisamente diversi. Perfino la cache L1 dati del Prescott è diversa da quella del Northwood...

Dreadnought · 18-04-2005, 19:56

Quote:

Originariamente inviato da cdimauro

Non mettermi parole in bocca che non ho detto.

Non ho detto che sono inutili, e tra l'altro Intel è stata la prima a usare la tecnologia strainer silicon sui transistor delle sue CPU.

Quello che ho detto io è:
"i 90nm da soli non bastano per consumare meno, il consumo dipende da molti fattori e in particolare dal processo produttivo nel suo complesso, il prescott è un esempio del fatto che i 90nm non bastano da soli"

Fx dice:
"non è vero i consumi a 90nm scendono lo stesso"

Questo per me è errato, mentre tu hai appena detto il contrario.

Quote:

Hai torto (e ha ragione Fx) come ti ha detto anche cionci.

Hai letto il thread dall'inizio o ti sei infognato sugli ultimi post?

Che poi Fx ha tirato fuori la storia dei transistor differenti peraltro senza nemmeno considerare che i transistor in una CPU attivi contemporaneamente non sono nemmeno il 30% del core e che la cache ha consumi alla lunga trascurabili; considerazione tra l'altro da inlcudere nel discorso altrimenti qualsiasi ragionamento non avrebbe senso.
Io ho semplicemente detto che se le spcifiche di una CPU danno x Vcc di tensione e y Imax assorbiti il consumo è Imax*Vcc, morta lì, indipendentemente da quanti transistor metti.

La scusa dei transistor in più non basta per dire "eh ma il prescott consuma di più perchè ha più transistor", primo perchè le istruzioni sono eseguite poche alla volta (principalmente una alla volta) più altri stadi singolarmente per branch prediction e pre-load/pre-store. Quindi avendo il P4 Northwood le Stesse unità logiche del Prescott, anche se la pipe è il 50% più lunga, questo non giustifica i consumi che sono di quasi il 100% maggiori di quanto si puo' ottenere con lo stesso processo produttivo in altri casi (vedi AMD)

Questo spiega perchè intel ha già fatto più di 4 stepping della stessa CPU, tutti per cercare di ridurre i consumi.

Quote:

Ogni azienda cerca di utilizzare delle tecnologie, a volte anche le stesse, per risolvere problemi che sono comuni a tutti: Intel, IBM, AMD, Motorola, ecc. non stanno su un altro pianeta...

beh oddio, guarda AMD, si è alleata con IBM per produrre chip con tecnologia SOI e StrainedSilicon, perchè Intel ad esempio non si è alleata con TMSC o altri?

Quote:

Studiati bene i link che ti ha fornito cionci: i due core sono decisamente diversi. Perfino la cache L1 dati del Prescott è diversa da quella del Northwood...

Cosa studi da una foto di un core?
Puoi mischiare le unità spazialmente per ridurre lo skew e per omogeneizzare l'alimentazione, ma mantenendo perfettamente come prima un core. La topologia negli schemi elettronici te lo garantisce.

Al massimo puoi studiare i consumi da un grafico di una pipeline, se non fosse, che come i milioni di transistor sono sempre valori da prendere con le pinze, visto che all'80% dei casi sono solo schemi informativi pubblicati nelle press release dei vari IDF.

Quote:

Intel usa strained silicon sui Prescott...

Intel usa anche Low-K nei prescott, peccato che nè lo strained silicon (per altro la metodologia per avere silicio stirato usata da intel è meno efficiente ad esempio di quello usato da IBM/AMD per i Power5 e gli A64 90nm) nè il Low-K sono bastati a ridurre i leakage dei gate del prescott.

I 160W di picco richiesti da un P4EE 3.6GHz ne sono la comprova, sono un consumo a dir poco stratosferico, e se nelle specifiche ci sono 114A di IccMax con tanto di controller che calcola un nuovo Vcc a seconda degli ampere assorbiti un motivo c'è, nessuno si mette a fare un nuovo stepping di un chip a gratis.

Articolo tanto per gradire uscito ai tempi dell'A64 90nm dopo che si è saputo dei consumi ben al disotto delle aspettative:
http://www.penstarsys.com/editor/tec...sil/index.html

Quote:

Sono profondamente diversi dal punto di vista dell'architettura interna... Una decina di stadi in più significano uno sconvolgimento ed un notevole aumento di transistor...
Qui sotto c'è la foto di entrambi...dimmi se si assomigliano...

Io undici stadi in più li vedo solo come "abbiamo lo skew troppo alto a 4GHz, forse megio ridurre un po' le dimensini degli stage se non vogliamo consumare 200W a CPU".

Qualsiasi normale teoria sulle CPU tende a sconsigliare di salire oltre i 7-8 stadi con architetture RISC e i 10-12 stadi con architetture CISC: pena la riduzione pesante dell'IPC. (appunto il prescott ha un IPC nelle condizioni peggiori di 0.4, contro lo 0.5 del northwood) ovvio che le teorie sono sempre in evoluzione, ma... Il prescott ha 31 stadi nella pipe, vedi un po' tu... a me pare una scelta forzata più che una scelta architetturiale, tantovero che il prescott è stato posticipato parecchi mesi e in più la notizia dell'aumento degli stadi è stata abbastanza tardiva.

O meno, se intel ha scelto di fare 31 stadi per scelta di progettazione il reparto ingegneristico ha fatto una capellata non da poco, preferisco pensare che il reparto marketing abbia detto al reparto progettazione "vogliamo più MHz" e questi si sono arrangiati come han portuto.

cionci · 18-04-2005, 20:08

Guarda che noi non stiamo qui a dire che Intel ha fatto un gran processore...anzi...non mi piace e nn mi è mai piaciuta la filosofia NetBurst...
La tua afferazione era questa: "il processo produttivo a 90nm di Intel non è buono perchè il Prescott consuma di più del Northwood"...ed a questa abbiamo ribattutto dicendo che non puoi fare questo confronto perchè il Prescott e il NW sono profondamente diversi... L'unico confronto plausibile è Banias vs Dothan...ed in questo caso il Dothan ne esce vincitore...

Che intendi per "le istruzioni sono eseguite poche alla volta (principalmente una alla volta)" ?

Dreadnought · 18-04-2005, 20:47

Quote:

Originariamente inviato da cionci

Guarda che noi non stiamo qui a dire che Intel ha fatto un gran processore...anzi...non mi piace e nn mi è mai piaciuta la filosofia NetBurst...
La tua afferazione era questa: "il processo produttivo a 90nm di Intel non è buono perchè il Prescott consuma di più del Northwood"...ed a questa abbiamo ribattutto dicendo che non puoi fare questo confronto perchè il Prescott e il NW sono profondamente diversi... L'unico confronto plausibile è Banias vs Dothan...ed in questo caso il Dothan ne esce vincitore...

Che i 90nm da soli non siano abbastanza per abbassare i consumi (come ad esempio è stato per il passaggio da 0.22 a 0.18 tanto per fare un esempio) non è una mia affermazione, è un concetto risaputo e comprovato da ricerche se non erro.

Che il prescott consumi tanto perchè molta corrente viene dissipata per il leakage è stato affermato pure da intel.

Ho semplicemente fatto 1+1

...il fatto che ho voglia di rispondere anche andando OT (vedi milioni di transistor o altro) è perchè prendo il pretesto di controbattere ad un thread per andare a cercare anrticoli interessanti o per riguardarmi vecchi articoli letti che magari dopo 2 anni inizi a ricordarti male.
Mi tengo allenato insomma, e intanto chi gli interessa si legge il thread

Quote:

Che intendi per "le istruzioni sono eseguite poche alla volta (principalmente una alla volta)" ?

Facciamo un esempio banale, senza salti o dipendenze tra registri: se c'è un pezzo di codice di 31 istruzioni identiche:

shl Eax,1

Al caricamento della 31esima istruzione, quante istruzioni saranno nella fase "execute"?
Ora non ho lo schema della pipe del prescott, ma mi vien da dire 'una sola', non sei d'accordo?

Fx · 19-04-2005, 04:25

Quote:

Originariamente inviato da Dreadnought

Quello che ho detto io è:
"i 90nm da soli non bastano per consumare meno, il consumo dipende da molti fattori e in particolare dal processo produttivo nel suo complesso, il prescott è un esempio del fatto che i 90nm non bastano da soli"

Fx dice:
"non è vero i consumi a 90nm scendono lo stesso"

ma prendi per i fondelli o cosa?

ho detto: anche con la prima implementazione dei 90 nm di intel, A PARITA' DI CORE (e di frequenza, ovviamente) i consumi scendono. se mi prendi il northwood vs prescott sono il primo a dirti che il prescott consuma un botto di watt in più - a parità di frequenza - e per di più performa mediamente un pelo peggio

il fatto che il leakage non abbia il peso di cui tu parli lo dimostrano i dati reali rilevati (link a tomshardware) come ho già detto: a parità di core il rapporto watt per GHz praticamente non cambia (mentre se la questione leakage fosse così legata agli hz da 3.2 a 3.8 avresti un'impennata notevolissima, invece cresce linearmente)

Quote:

Originariamente inviato da Dreadnought

Che poi Fx ha tirato fuori la storia dei transistor differenti peraltro senza nemmeno considerare che i transistor in una CPU attivi contemporaneamente non sono nemmeno il 30% del core e che la cache ha consumi alla lunga trascurabili; considerazione tra l'altro da inlcudere nel discorso altrimenti qualsiasi ragionamento non avrebbe senso.
Io ho semplicemente detto che se le spcifiche di una CPU danno x Vcc di tensione e y Imax assorbiti il consumo è Imax*Vcc, morta lì, indipendentemente da quanti transistor metti.

minchia che faccia tosta... sono io che ho tirato fuori la questione QUALITATIVA dei transistor, fai qualche page up dato che hai la memoria corta... e sono ancora io che ti ho tirato fuori che escludendo la cache il core del prescott risulta MOLTO ma MOLTO più grosso di un northwood, cosa di cui non ti eri accorto (tant'è che mi paragonavi un p4 EE northwood a un P4 EE prescott sostenendo che dato che il secondo aveva meno transistor doveva consumare di meno

)

Quote:

Originariamente inviato da Dreadnought

La scusa dei transistor in più non basta per dire "eh ma il prescott consuma di più perchè ha più transistor", primo perchè le istruzioni sono eseguite poche alla volta (principalmente una alla volta) più altri stadi singolarmente per branch prediction e pre-load/pre-store. Quindi avendo il P4 Northwood le Stesse unità logiche del Prescott, anche se la pipe è il 50% più lunga, questo non giustifica i consumi che sono di quasi il 100% maggiori di quanto si puo' ottenere con lo stesso processo produttivo in altri casi (vedi AMD)

forse non sai cos'è la "static power" che da sola rappresenta il 50% dei consumi... forse non immagini che il fatto che ci siano le stesse unità logiche non significa che abbiano le stesse dimensioni in termini di transistor... vatti a vedere ad es. l'ht e la branch prediction del prescott

Quote:

Originariamente inviato da Dreadnought

Intel usa anche Low-K nei prescott, peccato che nè lo strained silicon (per altro la metodologia per avere silicio stirato usata da intel è meno efficiente ad esempio di quello usato da IBM/AMD per i Power5 e gli A64 90nm) nè il Low-K sono bastati a ridurre i leakage dei gate del prescott.

ohhhh sarà mica perchè il prescott ha un botto di transistor (di quelli che ciuciano, lascia perdere la cache)? no eh? ehhh come avevo preannunciato da lontano, sapevo già che piuttosto di dire "si, potrebbe essere" avresti scritto papiri su papiri all'infinito

Quote:

Originariamente inviato da Dreadnought

O meno, se intel ha scelto di fare 31 stadi per scelta di progettazione il reparto ingegneristico ha fatto una capellata non da poco, preferisco pensare che il reparto marketing abbia detto al reparto progettazione "vogliamo più MHz" e questi si sono arrangiati come han portuto.

il prescott ha 31 stadi non perchè siano imbecilli ma proprio perchè è una cpu che pensavano di poter portare a 5 GHz e più... hanno scoperto i problemi a salire solo dopo. un po' la stessa cosa è successa al g5 (il ppc970), ha una pipeline lunga come quella del northwood (che non è di certo un campione a livello di IPC, e per di più come dicevi tu è più grave per un risc avere una pipeline lunga che per un cisc) perchè pensavano di portarlo a 3 ghz e più, e invece hanno fatto fatica ad arrivare a 2.5... è un po' il prescott dei risc, mentre il g4 pur avendo un bus strozzato riesce a performare bene per hz e soprattutto ha dei consumi estremamente contenuti

cionci · 19-04-2005, 07:57

Quote:

Originariamente inviato da Dreadnought

Che i 90nm da soli non siano abbastanza per abbassare i Facciamo un esempio banale, senza salti o dipendenze tra registri: se c'è un pezzo di codice di 31 istruzioni identiche:

shl Eax,1

Al caricamento della 31esima istruzione, quante istruzioni saranno nella fase "execute"?
Ora non ho lo schema della pipe del prescott, ma mi vien da dire 'una sola', non sei d'accordo?

Detto così è difficile da sapere...ma visto che il Prescott supporta l'Out of order execution probabilmente più di una...a meno che non ci siano dipendenze anche nelle istruzioni successive...
Comunque questo è una caso assai raro e non riguarda solo il prescott, ma anche tutte le architetture pipelined...

Dreadnought · 19-04-2005, 09:30

Quote:

Originariamente inviato da cionci

Detto così è difficile da sapere...ma visto che il Prescott supporta l'Out of order execution probabilmente più di una...a meno che non ci siano dipendenze anche nelle istruzioni successive...
Comunque questo è una caso assai raro e non riguarda solo il prescott, ma anche tutte le architetture pipelined...

Humm... si potrebbe fare qualche prova, pero' serve tipo un programma in assembler che gira da dos e non ho un prescott :/

Quote:

Originariamente inviato da Fx

ho detto: anche con la prima implementazione dei 90 nm di intel, A PARITA' DI CORE (e di frequenza, ovviamente) i consumi scendono. se mi prendi il northwood vs prescott sono il primo a dirti che il prescott consuma un botto di watt in più - a parità di frequenza - e per di più performa mediamente un pelo peggio

quote dal tuo primo post:

Quote:

Originariamente inviato da Fx

pure qua ti trovo

che stress

cmq a parità di processo produttivo più riduci le dimensioni più abbassi il voltaggio di funzionamento più riduci i consumi

E le varie considerazioni sui consumi?
Da quella tua frase si evince che per te i consumi dipendono solo dal Vcc.

Quote:

Originariamente inviato da Fx

minchia che faccia tosta... sono io che ho tirato fuori la questione QUALITATIVA dei transistor, fai qualche page up dato che hai la memoria corta... e sono ancora io che ti ho tirato fuori che escludendo la cache il core del prescott risulta MOLTO ma MOLTO più grosso di un northwood, cosa di cui non ti eri accorto (tant'è che mi paragonavi un p4 EE northwood a un P4 EE prescott sostenendo che dato che il secondo aveva meno transistor doveva consumare di meno )

La questione qualitativa dei transistor ovvero che alcuni transisotr potrebbero essere disabilitati (vedi istruzioni a 64bit nel prescott) oppure che potrebbero contare come 2 ma sono 1 (transistor a doppio gate per stabilizzare il segnale), oppure ancora che un transistor della cache consuma molto meno di uno di una unità logica, non sapevi nemmeno la differenza

Nemmeno negli ultimi post.

Tu hai sempre parlato di quantità e di core differenti, ma sempre per numero di transistor e a occhio e croce mi pare una tuqestione quantitativa.

Cque quando abbiamo discusso in PM di queste cose eri un attimo più calmo, non capisco perchè ora ti scaldi subito. Bah...

questa l'ho vista ora...

Quote:

Originariamente inviato da ]DMA[

P = I*V*Freq

Cioe' dimensionalmente: W=A*V*1/t ?????????

Dreadnought.... in ginocchio sui ceci per questa tavanata enorme

!!

Era per esprimere la proporzionalità visto che il simbolo 'oc' non riesco a farlo

Poi vabeh il discorso per analizzare la potenza di fino è complesso, ma un P=V*I è una buona approssimazione.

Fx · 19-04-2005, 12:05

Quote:

Originariamente inviato da Dreadnought

quote dal tuo primo post:

sottointendevo OVVIAMENTE a parità di core, come ho scritto mille volte non ha veramente senso fare paragoni a core diversi

tu asserivi che con la prima tecnologia a 90 nm di intel le cpu consumavano di più rispetto ai 130 nm perchè il prescott consumava più del northwood... mentre il dothan consuma di meno del banias perchè (sempre parole tue) non era esposto a problemi di leakage in virtù delle frequenze più basse

io ti ho riportato dati reali sul campo dai quali si evince:
- che la potenza assorbita da un prescott stesso stepping cresce linearmente con la frequenza, quindi i fenomeni di leakage non hanno una correlazione con questa
- che il core del prescott ha oltre il doppio dei transistor (cache esclusa) del northwood, cosa che spiega agevolmente il motivo per cui PUR PASSANDO AI 90 nm (che dai cazzo, l'hai detto tu che a parte casi particolari un transistor a 90 nm consuma mediamente di meno di uno a 130 nm) il p4 consuma di più

e tu mi vieni a dire che avrei detto che passando a 90 nm i consumi scendono indipendentemente dalla quantità e dalla qualità dei transistor? stai dicendo che io avrei detto che un itanium 2 a 90 nm da 1 miliardo di transistor consuma di meno di un rabbit (processore risc per usi embedded) da 130 nm e poi ti lamenti che mi scaldo? inizia a non fare il furbetto... quello che qui non ha preso in considerazione il parametro transistor sei tu, non sapevi nemmeno quant'era grosso il core (ripeto, senza cache) di un northwood e di un prescott

Quote:

Originariamente inviato da Dreadnought

La questione qualitativa dei transistor ovvero che alcuni transisotr potrebbero essere disabilitati (vedi istruzioni a 64bit nel prescott) oppure che potrebbero contare come 2 ma sono 1 (transistor a doppio gate per stabilizzare il segnale), oppure ancora che un transistor della cache consuma molto meno di uno di una unità logica, non sapevi nemmeno la differenza

Nemmeno negli ultimi post.

MA CHE FACCIA DI BRONZO! MA SE SONO IO CHE HO TIRATO FUORI LA QUESTIONE CACHE, mentre tu dicevi allegramente che "pur il dothan avendo mooolti più transistor del banias consuma di meno" quando IL CORE E' LO STESSO E I TRANSISTOR IN PIU' SONO QUELLI DI 1 MB DI CACHE

non ho parole... che faccia di bronzo!

Quote:

Originariamente inviato da Dreadnought

Tu hai sempre parlato di quantità e di core differenti, ma sempre per numero di transistor e a occhio e croce mi pare una tuqestione quantitativa.

page up

Quote:

Originariamente inviato da Dreadnought

Cque quando abbiamo discusso in PM di queste cose eri un attimo più calmo, non capisco perchè ora ti scaldi subito. Bah...

forse perchè ribalti le cose e mi metti in bocca parole che non hai mai detto, e viceversa dici di aver detto cose che non hai mai detto? meno male che stanno scritte e basta andare indietro per rileggerle... certo che hai proprio una faccia tosta... e tutto questo per non dire: "si, non avevo considerato che i due core sono estremamente differenti"... minchia... cmq tutto come da copione

Dreadnought · 19-04-2005, 12:34

Quote:

Originariamente inviato da Fx

- che il core del prescott ha oltre il doppio dei transistor (cache esclusa) del northwood, cosa che spiega agevolmente il motivo per cui PUR PASSANDO AI 90 nm (che dai cazzo, l'hai detto tu che a parte casi particolari un transistor a 90 nm consuma mediamente di meno di uno a 130 nm) il p4 consuma di più

Quindi nel core tu stai sottointendendo che tutti i transistor sono tutti alimentati quando la CPU funziona?

Cque più che altro sto dicendo che tu non stai facendo la discussione, perchè da parte mia conosco l'argomento abbastanza da tirare fuori argomentazioni, tu invece viaggi su quello che scrivo, perchè di tuo aggiungi poco e non sai supportare le tue ipotesi.

cionci · 19-04-2005, 12:57

Quote:

Originariamente inviato da Dreadnought

Quindi nel core tu stai sottointendendo che tutti i transistor sono tutti alimentati quando la CPU funziona?

Ma fra due prodotti simili, la percentuale di transistor in funzione è la stessa...L2 esclusa...

Dreadnought · 19-04-2005, 12:58

Quote:

Originariamente inviato da cionci

Detto così è difficile da sapere...ma visto che il Prescott supporta l'Out of order execution probabilmente più di una...a meno che non ci siano dipendenze anche nelle istruzioni successive...
Comunque questo è una caso assai raro e non riguarda solo il prescott, ma anche tutte le architetture pipelined...

http://en.wikipedia.org/wiki/Out_of_...der_Processors

Qui parlano dell'OutOfOrder execution, in pratica puo' eseguire delle istruzioni prima di altre, perchè le ottimizza in una coda che eviti più stalli possibili, pero' comunque sono eseguite una per volta.

Penso sia un riordino della pipeline, più che una parallelizzazione.

Poi da quanto ricordi dal penitum3 le istruzioni SSE possono essere abbinate ai registri dedicati (penso siano i registri MMX) per eseguire operazioni vettoriali che restituiscono 4 risultati, ma questo solo in alcuni casi (3d, e trasformazioni audio-video).
Pero' sinceramente non trovo informazioni sul fatto che gli stage di "fetch" e "store" della pipeline possano mettere in ram (e prendere dalla ram) il risultato di tutti gli elementi dl vettore tutti in una volta o singolarmente (quindi sprecando 3 cicli).

Qua c'è qualcosa: http://www.x86.org/articles/sse_pt1/simd1.htm

Dreadnought · 19-04-2005, 13:06

Quote:

Originariamente inviato da cionci

Ma fra due prodotti simili, la percentuale di transistor in funzione è la stessa...L2 esclusa...

Ecco

hai capito dove voglio arrivare.

Ipotizziamo che il prescott e il northwood abbiano tutti i transistor dichiarati da intel, dividi il core in 4 tipologie di transistor
1- cache
2- controllo di flusso della pipeline + branch prediction + instruction queuing&decode + store + fetch
3- unità logiche (3ALU + SSE + Simple FP + General FP)
4- transistor disabilitati (vedi EMT64)

Ora quali di questi influenzano il consumo maggiormente? e soprattutto in che percentuale i milioni di transistor sono distribuiti tra le varie tipologie?

Abbiamo già escluso la cache L2 che tra l'altro a grandi linee ha 24M di transistor ogni 512KB (correggetemi se sbaglio) ovvero 6transsitro per ogni Bit + un valore di overhead del 20% per l'addressing di una 8-way.

Mancano le altre 3 tipologie, considerando che il northwood ha le stesse unità logiche del prescott, con qualche modifica.

cionci · 19-04-2005, 13:07

Quote:

Originariamente inviato da Dreadnought

http://en.wikipedia.org/wiki/Out_of_...der_Processors

Qui parlano dell'OutOfOrder execution, in pratica puo' eseguire delle istruzioni prima di altre, perchè le ottimizza in una coda che eviti più stalli possibili, pero' comunque sono eseguite una per volta.

Le può riordinare perchè non ci sono dipendenze...il caso da te riportato provocava dipendenze..

Se due istruzioni successive sono:

ADD EAX, 1
ADD EBX, 1

Entrambe sono negli stage "execute" che solitamente sono più di uno contemporaneamente... Contando inoltre che il P4 ha due ALU in teoria potrebbero avere occupato lo stesso stage (dipende dal tipo di operazione)...

Dreadnought · 19-04-2005, 13:25

Quote:

Originariamente inviato da cionci

Le può riordinare perchè non ci sono dipendenze...il caso da te riportato provocava dipendenze..

Le dipendenze provocano stalli, il mio caso non mi sembra provocasse stalli, perchè è eseguito linearmente shiftando a destra i bit del registro eax senza aspettare che il risultato faccia 'commit'

Add [eax],1
Add [eax],2

*con [eax] indirizzo della ram tanto per precissare la notazione nel caso non ci capiamo.

Provoca uno stallo, perchè prima di eseguire [eax]+2 bisogna aspettare la fine dell'operazione [eax]+1.

O anche

Sqrt eax,1
Add eax,2

dovrebbe provocare uno stallo in quanto Sqrt non so se impiega 1 ciclo per essere eseguita.

Quote:

Se due istruzioni successive sono:

ADD EAX, 1
ADD EBX, 1

Entrambe sono negli stage "execute" che solitamente sono più di uno contemporaneamente... Contando inoltre che il P4 ha due ALU in teoria potrebbero avere occupato lo stesso stage (dipende dal tipo di operazione)...

Concordo, avendo il P4 3 ALU potrebbe avere 3 stadi di execute che in questo caso potrebbero essere pieni 2 su 3. Quindi il fatto che i P4 abbiano IPC minore di 1 deve proprio essere per colpa dei jump non predetti (83% nel northwood e 75% nel prescott) che fanno svuotare la pipeline.

Fx · 19-04-2005, 14:52

Quote:

Originariamente inviato da Dreadnought

Quindi nel core tu stai sottointendendo che tutti i transistor sono tutti alimentati quando la CPU funziona?

esattamente il contrario, ovvero che non puoi fare paragoni tra due tecnologie diverse se hai due core diversi (ovvero due cpu diverse) sottomano... o meglio, puoi farti un'idea se hai un'idea di come sono organizzati internamente e quanti transistor lavorano nell'uso tipico

nel caso del prescott, i transistor che non consumano e non vengono usati sono la cache e al max l'EMT64: dico al max perchè basta prendere i consumi di un prescott con le estensioni a 64 bit abilitate e uno senza per vedere che se l'EMT64 davvero non è alimentato anche quando disabilitato non porta nessun consumo aggiuntivo. il grosso del core prescott non è lì.

comunque ti ripeto la domanda perchè ti continui ad arrampicare sugli specchi per evitare di affrontare la questione:

sei d'accordo con me che il prescott consuma di più del northwood a causa della sua architettura e non a causa dei 90 nm, e che se ci fosse un northwood a 90 nm consumerebbe DI MENO di un northwood a 130 nm?

Quote:

Originariamente inviato da Dreadnought

Cque più che altro sto dicendo che tu non stai facendo la discussione, perchè da parte mia conosco l'argomento abbastanza da tirare fuori argomentazioni, tu invece viaggi su quello che scrivo, perchè di tuo aggiungi poco e non sai supportare le tue ipotesi.

ehhhhh già, infatti si vede chi ha portato dati pratici e non teorici, chi sostiene l'insostenibile sostendendolo solo dal fatto "che lui sa tutto e quindi ha ragione lui"... sei ridicolo, le altre due persone che partecipano alla discussione hanno perfettamente inteso le mie argomentazioni, mi basta così, tu continua ad arrampicarti sugli specchi, ripeto ancora una volta, come da programma

Fx · 19-04-2005, 14:53

Quote:

Originariamente inviato da Dreadnought

Sqrt eax,1
Add eax,2

SQRT? da quale x86 è stata introdotta?

Dreadnought · 19-04-2005, 17:36

ho dimenticato la f

e sarebbe dall'8087
cque si capiva eh...

Quote:

Originariamente inviato da Fx

esattamente il contrario, ovvero che non puoi fare paragoni tra due tecnologie diverse se hai due core diversi (ovvero due cpu diverse) sottomano... o meglio, puoi farti un'idea se hai un'idea di come sono organizzati internamente e quanti transistor lavorano nell'uso tipico

Pero' continuo a dire, stesse unità stessi transistor attivi, e quindi i transistor in più influiscono poco. O comunque non così tanto da far consumare un core il doppio rispetto a quanto uno si aspetta.

Per darti una idea, nelle due ALU dual pumped del Prescott sono state aggiunte delle unità per fare SHL e SHR, ma questo non vuol dire che quando fai una ADD/MUL/SUB questi transistor siano attivi, anzi...
Eppure potrebbero essere 1Milione di transistor in più, ma il consumo non cambia.

Pardon, non avevo letto questo:

Quote:

Originariamente inviato da Fx

sei d'accordo con me che il prescott consuma di più del northwood a causa della sua architettura e non a causa dei 90 nm, e che se ci fosse un northwood a 90 nm consumerebbe DI MENO di un northwood a 130 nm?

Puo' anche essere che un northwood consumi meno, anzi se mi mettessero un coltello alla gola direi di si, ma questo non toglie che se i 90nm non sono ben forniti di altre tecnologie parallele nel processo produttivo non portano ad una diminiuzione dei consumi. ricorda che nel prescott ci sono strained silicon e Low-K, che pur essendo poco efficaci qualcosa faranno, immagina senza!
Ci sono troppe variabili che rendono la questione del consumo non più dipendente dal Vcc come nel passato, vedi ad esempio il dothan, che consuma meno del banias a bassi clock, ma ad alti clock arriva molto vicino al consumo del suo predecessore.

Prova di questo IMHO è il fatto che i progettisti intel non siano passati al core successivo producendo il northwood a 90nm. In parole povere ribadisco: i tanti milioni di transistor in più non vorrei fossero più una scelta obbligata(dalla stabilità o dai consumi o altro) più che un progetto iniziale.

18-04-2005, 20:08	#46
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Guarda che noi non stiamo qui a dire che Intel ha fatto un gran processore...anzi...non mi piace e nn mi è mai piaciuta la filosofia NetBurst... La tua afferazione era questa: "il processo produttivo a 90nm di Intel non è buono perchè il Prescott consuma di più del Northwood"...ed a questa abbiamo ribattutto dicendo che non puoi fare questo confronto perchè il Prescott e il NW sono profondamente diversi... L'unico confronto plausibile è Banias vs Dothan...ed in questo caso il Dothan ne esce vincitore... Che intendi per "le istruzioni sono eseguite poche alla volta (principalmente una alla volta)" ?

Strumenti
Mostra una versione stampabile Invia questa pagina per email