Nuove informazioni sulle cpu Cedar Mill [Archivio]

Redazione di Hardware Upg

13-04-2005, 08:43

Link alla notizia: http://news.hwupgrade.it/14401.html

L'evoluzione delle cpu Pentium 4 Prescott, attese a inizio 2006, vanteranno miglioramenti in termini di potenza massima dissipata

Click sul link per visualizzare la notizia.

213

13-04-2005, 08:52

Il passaggio al processo produttivo a 0,065 micron permetterà una consistente riduzione del TDP del processore, che passerò a 86 watts contro i circa 115 attuali delle cpu Pentium 4 Prescott a 0,09 micron attualmente in commercio.

Mi sembra un'affermazione un po' azzardata: già col passaggio dai 0.11 nm ai 0.90 nm avevano detto che il consumo e il calore prodotto sarebbero stati più contenuti, figurarsi ora che i circuiti sono ancora più piccoli e vicini tra loro... :sperem:

cla_vice_to

13-04-2005, 08:59

" Cedar Mill " cosi si fanno le CPU
86 watts Pentium 4 655 :read: :read: :D :D
sara la mia futura CPU :D :D :D

ldetomi

13-04-2005, 09:01

Ma anche il Tejas doveva essere un'evoluzione del prescott a 65 nm. Qualcuno di voi sa in cosa il Cedar Mill sia diverso dal vecchio progetto, poi abbandonato?

cla_vice_to

13-04-2005, 09:18

Ma anche il Tejas doveva essere un'evoluzione del prescott a 65 nm. Qualcuno di voi sa in cosa il Cedar Mill sia diverso dal vecchio progetto, poi abbandonato?

Si era un vechio proggetto intel che poi stato abandonato per vari motivi.
Che io adesso non mi Ricordo.
:rolleyes: :rolleyes:

zerothehero

13-04-2005, 09:51

Mi sembra un'affermazione un po' azzardata: già col passaggio dai 0.11 nm ai 0.90 nm avevano detto che il consumo e il calore prodotto sarebbero stati più contenuti, figurarsi ora che i circuiti sono ancora più piccoli e vicini tra loro... :sperem:

hanno triplicato i transistor dal northwood al prescott...ci credo che il tdp è aumentato...

Sandro85

13-04-2005, 09:55

su che socket monta?

Mr.Gamer

13-04-2005, 11:05

Il passaggio al processo produttivo a 0,065 micron permetterà una consistente riduzione del TDP del processore, che passerò a 86 watts contro i circa 115 attuali delle cpu Pentium 4 Prescott a 0,09 micron attualmente in commercio.

Bhe non mi entusiasmano gli 85w :|

TNR Staff

13-04-2005, 11:48

Un A64 a 0.065 cosa fa,40 watt? :D

Mr.Gamer

13-04-2005, 13:18

mah, sai il TDP di un winchester a 0.09 è di circa 35watt
http://www6.tomshardware.com/cpu/20041115/pentium4_570-20.html

speravo in qualcosa di meglio :stordita:

HyperText

13-04-2005, 13:38

Quoto Mr.Gamer...
Forse non proprio 35W ma non gli 80W dei Pentium...

Fx

13-04-2005, 13:41

Mi sembra un'affermazione un po' azzardata: già col passaggio dai 0.11 nm ai 0.90 nm avevano detto che il consumo e il calore prodotto sarebbero stati più contenuti, figurarsi ora che i circuiti sono ancora più piccoli e vicini tra loro... :sperem:

come correttamente diceva zerothehero, sono cambiate anche altre cose. un processore prodotto a 90 nm ovviamente consuma (e quindi dissipa) decisamente di meno rispetto allo stesso processore a 130 nm; è altrettanto ovvio che se il processore non è lo stesso (prescott - northwood) questa regola non vale :D

il problema è che le cpu a 90 nm consumano di meno ma non quanto di meno ci si aspettava. è questo che ha incasinato tutto.

Fx

13-04-2005, 14:04

mah, sai il TDP di un winchester a 0.09 è di circa 35watt
http://www6.tomshardware.com/cpu/20041115/pentium4_570-20.html

speravo in qualcosa di meglio :stordita:

impressionante, non pensavo consumasse così poco... tieni conto che il pentium M ha un TDP di 27 watt, ma il TDP come lo calcola intel è diverso da come lo calcola AMD. intel si riferisce infatti all'uso "real world" medio, AMD considera invece la potenza di picco, con tutto al massimo (traduco: è calcolato sulla base del massimo amperaggio che AMD dichiara la cpu consuma, che serve essenzialmente ai produttori di schede madre a dimensionare correttamente l'alimentazione, ma ciò non vuol dire che poi arrivi davvero a quei limiti... basta che arrivi una volta in tutta la sua vita che se la scheda madre è progettata per sopportare meno non va bene :D ), situazione che probabilmente in condizioni reali non avverrà mai (chissà, magari è calcolata con il bus sul sistema saturo, con il controller della ram al suo limite, con la cpu che fa istruzioni particolari, e così via)... infatti se vai a vedere il TDP dichiarato da AMD per l'athlon 64 è di quasi 90 watt, mentre in realtà a pieno carico il winchester, stando a quanto dice tomshardware (che mi sembra una fonte più che attendibile) ne consuma quasi un terzo!

non solo: va considerato che per di più l'athlon 64 ha pure il controller della ram integrato, per cui non mi stupirei se il pentium m + il northbridge consumasse di più del winchester; questo vorrebbe dire solo una cosa: che la grande portabilità dei laptop basati su pentium M deriva da un'ottima tecnologia di risparmio energetico più che da una cpu particolarmente sobria, altrimenti prendendo un winchester e mettendolo su un portatile otterresti gli stessi risultati. fermo restando che il pentium m è un ottimo processore eh, l'unico promettente di intel.

l'altro dato impressionante sono i 3 watt in idle, è un valore più da sistemi embedded che da cpu usate in pc desktop

Dreadnought

13-04-2005, 15:00

In realtà come già dissi in un'altro thread (scusate ma che fine ha fatto il "cerca" in sto forum?) il TDP calcolato da AMD considera tutta la potenza dissipata, con il carico massimo di quel CORE (quindi con la massima corrente che il core supporta prima di fondere), e infatti il TDP di un Athlon 64 a 90nm è ben più alto di 35-40W che è il consumo effettivo.

x AMD: Thermal Design Power (TDP) is measured under the conditions of TcaseMax, IDDMax, and VDD=VID_VDD, and include all power dissipated on-die from VDD, VDDIO, VLDT, VTT, and VDDA.
http://users.erols.com/chare/elec.htm
Da quanto scrive AMD nei datasheet il TDP è apunto il significato letterale della espressione Thermal Design Power

Intel da parte sua, avendo processori che scaldano come forni tende a definire il TDP escludendo alcuni elementi dalla formula, e se vediamo i datasheet su un P4 segna cose tipo 89W quando invece sono 110 abbondanti, perchè tanto, pur consumando 110W a pieno carico ha sempre il thermal trip che se la temperatura sale troppo il clock inizi a scendere.

x Intel: Regarding the chip's wattage numbers, Intel states: "The [Thermal Design Power] numbers ... reflect Intel's recommended design point and are not indicative of the maximum power the processor can dissipate under worst case conditions."

Rispondendo a Fx e ad altri: il passaggio "in sè" ad un processo produttivo con un gate più ridotto, tiop da 130nm a 90nm non comporta praticamente nessun calo di dissipazione da quando si sono passati gli 0.18micron, ovvero da più di 2 anni.
Quello che conta è invece il processo produttivo nel suo complesso.
AMD ad esempio ha usato un processo produttivo con SOI, low-K e StrainedSilicon molto più efficiente del semplice StrainedSilicon + Low-K di intel e i risultati si sono visti subito: la prima CPU a 90nm che han fatto consumava la metà della precedente a 130nm a parità di clock e tensione. Questo perchè il SOI più l'StS hanno contribuito a ridurre la corrente persa (e dissipata a massa dalla parte opposta del gate) di quasi il 90%.

Che vogliono dire un passaggio da 80-90W di un athlon 64 a 130nm a 30-40W di un athlon64 a 90nm.

Con il P4 al passaggio da 130nm a 90nm a parità di frequenza e voltaggio si è avuto un aumento di consumo, non una diminuzione. Solo mantenendo Vcc più bassa intel è riuscita ad ottenere frequenze più elevate mantenendo i consumi in valori decenti.

sirus

13-04-2005, 15:58

beh...è già un passo avanti da 115 a 86 ;)

Fx

13-04-2005, 16:52

Rispondendo a Fx e ad altri: il passaggio "in sè" ad un processo produttivo con un gate più ridotto, tiop da 130nm a 90nm non comporta praticamente nessun calo di dissipazione da quando si sono passati gli 0.18micron, ovvero da più di 2 anni.
Quello che conta è invece il processo produttivo nel suo complesso.

pure qua ti trovo :D che stress :D

cmq a parità di processo produttivo più riduci le dimensioni più abbassi il voltaggio di funzionamento più riduci i consumi

Dreadnought

13-04-2005, 17:13

no, con il 90nm di intel nel P4 non è stato così, visto che il Vcc è sceso di 0.15V (attorno al 10%), ma gli ampere son saliti del 20-30% poichè molta corrente se ne andava persa per il leakage del gate, di conseguenza la potenza finale dissipata è maggiore.

ichnusa82

13-04-2005, 17:24

confermo...
se riduci la lunghezza di canale (come di qualsiasi conduttore)senza altri accorgimenti ne riduci anche la resistenza => aumenti la corrente che potenzialmente puo' attraversarlo aumentando la potenza dissipata a parita' di tensione...il calo di tensione (anche se incide quadraticamente)e' stato modesto + un bel po' di
transistor in + i watt schizzano in alto.

royal

13-04-2005, 17:29

beh se è per quello anche i consumi di venice sono aumentati rispetto al winchester..di poco ma cmq sono aumentati.
qui sembra che non vada mai bene quando si parla di Intel...cmq avevo letto anch'io da qualche parte che con i proccessi produttivi attuali c'è una perdita di consumo enorme(era su anandtech)..le cose dovrebbero cambiare con l'uscita dei proci che sfruteranno il segnale laser (vedi la scoperta di Intel di qualche tempo fa)
questo vale anche x AMD..

ichnusa82

13-04-2005, 17:44

e' anche vero che il core venice introduce le ss3, un migliorato dRAM controller che la visto anche la duplicazione di alcuni buffers interni.
Non e' uguale al precedente e le comparazioni sono + difficili.
Nessuno spara su intel ma e' da sciocchi non ammettere le le cose non sono andate esattamente come si aspettavano col prescott. Le perdite aumenteranno sempre + ma tecnologie come il SOI di IBM, lo strained silicon di Intel...etc permetteranno alla cara tecnologia cmos di tenerci compagnia ancora per diversi anni
Saluti a tutti

piervito1987

13-04-2005, 22:20

bello al punto giusto

Dreadnought

13-04-2005, 23:02

Vabeh cosa vuol dire... intel ah concentrato le sue stronzate sul P4 che è un progetto partito male, pero' in altre cose ha fatto abbastanza bene: sul centrino difficile sparare, perchè comunque è un buon prodotto, e non andando a frequenze stratosferiche non ha i problemi che ha avuto il P4 al passaggio dai 130 ai 90nm.

zephyr83

14-04-2005, 00:26

Scusate ma questo è anche dual core? AMD in questo caso nn sembra aver fatto meglio. Andate a leggervi anche questa news http://news.hwupgrade.it/14403.html

"AMD, nella seconda metà del 2005, dovrebbe invece lanciare per primi i processori dual core della serie Opteron 200 e Opteron 800 a frequenze operative di 1,80GHz, 2,0GHz e 2,20GHz con un TDP (Thermal Design Power) di 95 Watt."
95 watt!!!!! :sofico:

Fx

14-04-2005, 00:51

no, con il 90nm di intel nel P4 non è stato così, visto che il Vcc è sceso di 0.15V (attorno al 10%), ma gli ampere son saliti del 20-30% poichè molta corrente se ne andava persa per il leakage del gate, di conseguenza la potenza finale dissipata è maggiore.

aspe'... mi sa che stai facendo un po' di casino... il northwood - che io sappia - non è mai stato prodotto a 90 nm e tantomeno il prescott sia è stato prodotto a 130... la differenza è che il northwood ha 55 milioni di transistor, il prescott 125 milioni, ma al di là dei transistor il punto è che se cambia il core diventa un po' dura fare confronti tra i 130 e i 90 nm =)

zephyr83

14-04-2005, 15:08

I nortwood sn sempre e solo stati a a 0.13 micron mentre i prescott sempre e solo 0.09

Fx

14-04-2005, 16:08

appunto, per questo il confronto non regge

Dreadnought

14-04-2005, 16:40

aspe'... mi sa che stai facendo un po' di casino... il northwood - che io sappia - non è mai stato prodotto a 90 nm e tantomeno il prescott sia è stato prodotto a 130... la differenza è che il northwood ha 55 milioni di transistor, il prescott 125 milioni, ma al di là dei transistor il punto è che se cambia il core diventa un po' dura fare confronti tra i 130 e i 90 nm =)

Ma scusa li leggi i link che posto oppure li salti a piè pari come sempre e rimani nella tua ignoranza? :)
http://users.erols.com/chare/main.htm
Qui c'è il riassunto di tutti i datasheet intel, via e AMD, dove trovi i consumi e soprattutto gli assorbimenti di corrente di ogni core prodotto che sia x86 compatibile o no.

Se è vero che il prescott ha 70m di transistor in più è anche vero che non voglia dire per forza un maggiore consumo.
Stiamo parlando di Ampere assorbiti e Volt di alimentazione con la data frequenza X, che sono completamente indipendenti dal numero di transistor che una CPU ha, perchè puoi tranquillamente vederla a scatola chiusa, senza sapere quello che c'è dentro. Quindi il discorso dei transistor in più o in meno non regge, al massimo puoi guardare la superficie del DIE che influisce molto sulla temperatura, ma sui consumi anche qua non ha niente a che vedere.
Puoi prendere un SOLO transistor che assorbe 78A a 1,4V e amplifica le casse de tuo stereo oppure puoi prendere un Prescott a 90nm che non cambia, sono sempre 78A assorbiti e 1,4V di alimentazione, il consumo è pressochè identico.

Se proprio non vuoi capire basta che guardi il Banias (77M e 130nm) rispetto al Dothan (140M e 90nm) che nonostante i 63M di transistor in più consuma meno, perchè non è mal progettato come il P4 e non salendo di frequenza oltre la soglia critica i fenomeni di leakage sul gate non si verificano.
Infatti il Dothan assorbe sempre 21A come il Banias, pero' riesce a rimanere stabile a 1.4V e da qui il consumo inferiore, indipendentemente dal fatto che il Dothan abbia 1MB L2 in più.

Dreadnought

14-04-2005, 16:45

"AMD, nella seconda metà del 2005, dovrebbe invece lanciare per primi i processori dual core della serie Opteron 200 e Opteron 800 a frequenze operative di 1,80GHz, 2,0GHz e 2,20GHz con un TDP (Thermal Design Power) di 95 Watt."

Se ti rileggi il thread (neanche un altro thread introvaible da qualche altra parte, ma proprio questo) capisci la differenza sostanziale tra il TDP di AMD (in genere molto maggiore al consumo reale) e quello che dichiara intel (sempre inferiore al consumo massimo)

In ogni caso sbagli: "cedar mill" non è dual core, perchè se fosse così il "TDP" intel non lo avrebbe dichiarato (sarebbe stato imbarazzantemente alto).

Fx

14-04-2005, 20:23

clap clap clap

sempre il solito dread. 10 righe di post sul nulla, battendo i piedi per terra perchè ha ragione lui.

ti riassumo così cogli meglio:

dread: il processo produttivo di 90 nm di intel è peggiore di quello a 130 nm perchè il p4 a 90 nm consuma di più del p4 a 130 nm a parità di frequenza

fx: non puoi fare confronti tra il processo produttivo a 130 e 90 nm di intel perchè non hai un riferimento, non essendoci uno stesso core a 130 e a 90 nm

dread: leggiti i miei link ignorante data sheet ampere transistor e alla fine conclude che il numero di transistor non conta perchè nel dothan aumentando i transistor diminuisce la potenza assorbita

la logica evidentemente non è il tuo forte. se accade una cosa nel passaggio da banias a dothan non vedo perchè debba succedere la stessa cosa nel passaggio da northwood a prescott, questa è una tua deduzione un tantinello fuorviante e semplicistica. è ovvio che nel prescott intervengono i fenomeni di leakage, ma che questo significhi che lo stesso core a 90 nm consumi di più è una tua opinione, niente di più.

facciamo un passo indietro. la questione non è solo quantitativa ma anche qualitativa. dipende cosa fanno, insomma, i transistor. dato che fare un'analisi qualitativa oltre che quantitativa dei transistor contenuti nei vari core dei pentium 4 e pentium m citati è molto difficile a meno che tu non abbia lavorato alla loro progettazione, l'unico sistema di fare un raffronto tra processi produttivi diversi è porre una costante: il core. questa costante non c'è tra i 130 nm e i 90 nm del pentium 4, ergo solo tu puoi arrivare a sentenziare che il processo a 90 nm mangia più corrente del processo a 130 nm, in virtù della tua infinita sapienza.

tra l'altro prima di dire al sottoscritto che non ha letto il link che hai riportato vorrei invitarti a farlo tu stesso, dato che ti è sfuggito che il dothan consuma DI PIU' di un banias a pari frequenza (27 watt di TDP vs 24.5 watt, vado a memoria). eppure è una cosa risaputa, forse lassù non è arrivata la notizia.

inoltre, sul sito di intel trovo alcuni dati interessanti:

il p4 ee a 3.4 ghz a 130 nm con 2 mb di cache l3 (SL7RR), core gallatin, ha un TDP di c.ca 110 watt, il p4 a 3.4 ghz a 90 nm con 2 mb di cache l2 (SL7Z7) ha un TDP di 84 watt.

il p4 northwood a 2.4 ghz con 512 Kb di cache l2 e 533 mhz di bus (SL6DV) ha un TDP di c.ca 60 watt, mentre il p4 prescott a 2.4 ghz con 1 mb di cache l2 e 533 mhz di bus (SL7YP) ha un TDP di c.ca 89 watt. eppure a 2.4 ghz i fenomeni di leakage dovrebbero essere estremamente contenuti!

accipicchia. com'è che non torna niente di quel che dici? ci sono esempi che dicono tutto e il contrario di tutto.

sarà forse che il TDP presente nei data sheet non è un dato che bisogna anche saper interpretare, oltre che leggere, e tu non sai nemmeno leggere (vedasi il TDP del dothan)? sarà che solo tu puoi avere l'arroganza di pensare di trarre delle conclusioni da un diverso consumo di 2 core diversi costruiti con 2 metodi diversi? sarà che in anni e anni non ti ho mai sentito dire "si in effetti mi sono sbagliato" e non cambi mai?

Dreadnought

14-04-2005, 22:57

Ma porc... mi pareva che l'esempio del transistor unico che assorbiva tanta corrente quanto una CPU intera era un esempio abbastanza semplice per farti capire come funziona l'assorbimento di potenza. Pero' vedo che non ti basta nemmeno quello... vabhe ormai ci sono abituato alle tue orecchie da mercante.

Tornando a noi: il dothan assorbe 21A, il Banias 21A, il primo ha Vcore 1.34V il secondo 1.484V. Prendo il banias che ha il valore più vicino al TDP dichiarato da intel, ovvero il più alto in frequenza (1.7G/400FSB) e lo confronto con il dothan di pari frequenza (1.7G/400FSB)
http://dreadnought.ngi.it/immagini/fx-lamer.png
Se vuoi possiamo confrontare il 738 con il banias a (1.4G) allora i consumi sono leggermente a favore del dothan: questo 50% in meno... (chiaro: con 1.18V di Vcore vorrei ben vedere...)
Complicato?

Poi vabeh lo so che non sai nemmeno che Potenza=I*V :mc: :mc: , pero' da quando ti sei umiliato da solo in altri forum [tipo la tua sparata sulle GeForce 6x00 che secondo te cosumavano 120W :asd:] mi pare che un po' della tua spocchia l'hai persa :)

il p4 ee a 3.4 ghz a 130 nm con 2 mb di cache l3 (SL7RR), core gallatin, ha un TDP di c.ca 110 watt, il p4 a 3.4 ghz a 90 nm con 2 mb di cache l2 (SL7Z7) ha un TDP di 84 watt.
Perchè semplicemente sono stepping differenti, ed infatti è stato cambiato il processo produttivo diminuendo il leakage source-drain. E' passata una notizia qualche mese fa pure su questo sito, non vedo cosa ci sia di male, occhio che pero' stai confrontando una CPU della fine del 2003 con una del 2005, non ha molto senso.

il p4 northwood a 2.4 ghz con 512 Kb di cache l2 e 533 mhz di bus (SL6DV) ha un TDP di c.ca 60 watt, mentre il p4 prescott a 2.4 ghz con 1 mb di cache l2 e 533 mhz di bus (SL7YP) ha un TDP di c.ca 89 watt. eppure a 2.4 ghz i fenomeni di leakage dovrebbero essere estremamente contenuti!

Perchè forse il prescott 2.4G è un 2.8 downcloccato (visto che a intel costa meno produrre un prescott piuttosto che un northwood, e guardacaso nelle tabelle di erols non è nemmeno stato menzionato) cque come ho già ripetuto per almeno 4-5 volte assieme ad altri: il "TDP" dichiarato da intel è un dato completamente inutile per scoprire il consumo effettivo di una CPU. Informazione che tra l'altro -non so se ti sei accorto- non ho mai considerato più di tanto, visto che per i consumi si guarda più che altro alla corrente assorbita, alla tensione e alla frequenza, oppure ci si presta a leggere articoli che ti indicano i consumi effettivi, visto che in rete ci sono.

Oppure semplicemente puoi usare google e le tue manine così cerhci articoli ingiro tipo questi:

- http://www.theregister.co.uk/2004/08/31/intel_65nm/
Leakage has proved something of a problem for Intel's 90nm process following the shift down from 130nm chip production. While smaller transistor ought to consume less power, their more compact size also increases the opportunity for current to leak through, forcing chip makers to up the power in order to get each transistor to operate efficiently.

That's why a 90nm Pentium 4 consumes more power than a 130nm version, not less. However, according to Intel, its 65nm process will "cut leakage by four times at constant performance compared to 90nm transistors", presumably its own ones.

- http://www.elecdesign.com/Articles/ArticleID/9548/9548.html

The biggest leakage problem at 90 nm is source-drain leakage, according to Eric Naviasky, VP of engineering services at Cadence Design Systems. "At 90 nm, we can pack two to four times the number of gates per square millimeter of silicon than we used to. But we don't have two to four times the number of power-busing layers. When that's running at 1 V, we could be talking about 10 A or more. That's an electromigration risk," he says.

Smaller geometries and lower supply rails, then, comprise some of the larger obstacles to designers' achieving of power integrity in their ICs. Another aspect is the increasing number of metal layers. "To address this, we can adopt the practice of the power grid, which is helpful," says Naviasky. "But analytically, the power grid is a mess. When you had just a bus, the extractor could break it into a limited number of nodes for analysis. A power grid, though, is made up of tens of millions of elements."

- http://www.xbitlabs.com/articles/cpu/display/athlon64-90nm_5.html
For a more illustrative comparison we also measured the power consumption of the Pentium 4 processors based on Northwood and Prescott cores and working at 3.4GHz core clock. The results turned out simply impressive: under maximum workload Pentium 4 processor on Northwood core consumed about 100W of power, while the Prescott based CPU (with a C0 core stepping) required about 132W. This way, we have every right to call all Athlon 64 processors very economical solutions, and certainly this first of all refers to the new CPUs based on 90nm Winchester core.

Vabeh oh io mi sono svenato abbastanza, tra l'altro sei abbastanza cocciuto, visto che altri utenti già ti hanno confermato quello che ho scritto, se vuoi capire bene, altrimenti non penso ti cambi molto, rimani come prima.

Fx

15-04-2005, 01:09

Ma porc... mi pareva che l'esempio del transistor unico che assorbiva tanta corrente quanto una CPU intera era un esempio abbastanza semplice per farti capire come funziona l'assorbimento di potenza. Pero' vedo che non ti basta nemmeno quello... vabhe ormai ci sono abituato alle tue orecchie da mercante.

che noia i tuoi commenti... parla degli argomenti, ed evita, grazie. se fai esempi stupidi, è ovvio che non li cago.

Tornando a noi: il dothan assorbe 21A, il Banias 21A, il primo ha Vcore 1.34V il secondo 1.484V. Prendo il banias che ha il valore più vicino al TDP dichiarato da intel, ovvero il più alto in frequenza (1.7G/400FSB) e lo confronto con il dothan di pari frequenza (1.7G/400FSB)
Se vuoi possiamo confrontare il 738 con il banias a (1.4G) allora i consumi sono leggermente a favore del dothan: questo 50% in meno... (chiaro: con 1.18V di Vcore vorrei ben vedere...)
Complicato?

benissimo, ora guarda i tuoi cari TDP:
- per l'1.6 è a 27 watt, in virtù del bus a 533
- per il 2.13 è sempre a 27 watt
- se il 2.13 avesse il bus a 400 (non sarebbe 2.13 ma 2.0 o 2.2, ok) che TDP avrebbe? 21? potrebbe essere?
- a 2.1 ghz il leakage non si sente e a 2.4 per il pentium 4 si?
- il TDP è calcolato a cazzo per il pentium 4 2.4 e invece per il dothan dove l'1.6 ha un TDP identico a un 2.13 è affidabile? te lo chiedo perchè di fatto affidamento ce lo fai, dato che prendi il TDP come punto di riferimento

Poi vabeh lo so che non sai nemmeno che Potenza=I*V :mc: :mc: , pero' da quando ti sei umiliato da solo in altri forum [tipo la tua sparata sulle GeForce 6x00 che secondo te cosumavano 120W :asd:] mi pare che un po' della tua spocchia l'hai persa :)

ma tu ciuli ogni tanto? non ho problema a dirlo: sulla geforce 6800 ho preso una cantonata. più che umiliato sono umile, se sbaglio lo dico, non sto a dare dell'ignorante al prossimo... hai un sacco di argomentazioni per attaccarti a queste cose eh? mi ricordi alcuni politici...

cmq come si calcolano i watt sulla base di volt e ampere lo so da quando avevo dodici anni, e tu?

Perchè semplicemente sono stepping differenti, ed infatti è stato cambiato il processo produttivo diminuendo il leakage source-drain. E' passata una notizia qualche mese fa pure su questo sito, non vedo cosa ci sia di male, occhio che pero' stai confrontando una CPU della fine del 2003 con una del 2005, non ha molto senso.

:mc:

stiamo confrontando due processi produttivi. fine.

Perchè forse il prescott 2.4G è un 2.8 downcloccato (visto che a intel costa meno produrre un prescott piuttosto che un northwood, e guardacaso nelle tabelle di erols non è nemmeno stato menzionato)

eh, il tuo vangelo mi sa che è fallibile come te... tant'è che mancano anche diverse versioni di banias... sai com'è, forse fare riferimento ai siti dei produttori al posto di affidarsi a dati riportati potrebbe essere una buona idea

cque come ho già ripetuto per almeno 4-5 volte assieme ad altri: il "TDP" dichiarato da intel è un dato completamente inutile per scoprire il consumo effettivo di una CPU. Informazione che tra l'altro -non so se ti sei accorto- non ho mai considerato più di tanto, visto che per i consumi si guarda più che altro alla corrente assorbita, alla tensione e alla frequenza, oppure ci si presta a leggere articoli che ti indicano i consumi effettivi, visto che in rete ci sono.

oh, ma ti rendi conto o no? è quello che ti sto dicendo da 4 post: IL TDP NON E' UN PARAMETRO SIGNIFICATIVO. e tu ti ostini a menarla con il TDP di dothan e banias...

Oppure semplicemente puoi usare google e le tue manine così cerhci articoli ingiro tipo questi:

in internet trovi tutto e il contrario di tutto. l'osservazione che il pentium 4 a 90 nm consuma di più del pentium 4 a 130 nm -> quindi il processo produttivo a 90 nm è più affamato di corrente di quello a 130 nm è un'osservazione superficiale, o per lo meno che non si può esprimere sulla base dei consumi dei due pentium 4 (northwood e prescott) perchè i due core sono DIVERSI e quindi bisognerebbe avere altri riscontri per trarre conclusioni.

per quanto ne so io e per quanto ne sai tu, un northwood a 90 nm può consumare meno di un northwood a 130 nm (io ci scommetterei pure), e un prescott a 130 nm può consumare di più di un prescott a 90 nm (e scommetterei pure su questo).

tuttavia quello che non capisci è che io dico "NON SI PUO' DIRE", almeno con i dati che abbiamo; mentre tu giungi a conclusioni che ti contesto per la banalità dei ragionamenti che stanno dietro (che prendono in considerazione solo una parte dei parametri che sono in gioco)...

oltre al fatto che sorvoli sulla questione qualitativa dei transistor, che è il punto fondamentale della questione.

Vabeh oh io mi sono svenato abbastanza, tra l'altro sei abbastanza cocciuto, visto che altri utenti già ti hanno confermato quello che ho scritto, se vuoi capire bene, altrimenti non penso ti cambi molto, rimani come prima.

sarò cocciuto, ma se sbaglio lo ammetto. tu sei cocciuto e pure arrogante. ehhhh hai studiato solo tu si

Dreadnought

15-04-2005, 11:34

che noia i tuoi commenti... parla degli argomenti, ed evita, grazie. se fai esempi stupidi, è ovvio che non li cago.
Veramente non era un esempio stupido, era il nocciolo del discorso... :rolleyes:

benissimo, ora guarda i tuoi cari TDP:
- per l'1.6 è a 27 watt, in virtù del bus a 533
- per il 2.13 è sempre a 27 watt
- se il 2.13 avesse il bus a 400 (non sarebbe 2.13 ma 2.0 o 2.2, ok) che TDP avrebbe? 21? potrebbe essere?
- a 2.1 ghz il leakage non si sente e a 2.4 per il pentium 4 si?
- il TDP è calcolato a cazzo per il pentium 4 2.4 e invece per il dothan dove l'1.6 ha un TDP identico a un 2.13 è affidabile? te lo chiedo perchè di fatto affidamento ce lo fai, dato che prendi il TDP come punto di riferimento
Ma chi li guarda i TDP!!!!
I TDP non contano!! (...e 3...)
Vedi per caso una voce "Max power Consumption?" Non mi pare.

Guardati i datasheet se vuoi
http://download.intel.com/design/mobile/datashts/25261203.pdf
http://download.intel.com/design/mobile/datashts/30218905.pdf
http://download.intel.com/design/mobile/datashts/30526201.pdf

Banias 1.484V * 25A = 37.1W
Dothan (FSB400) 1.312 * 25A = 32.8W
Dothan (FSB533) 1.308 * 27A = 35.3W

*dato che i dothan hanno vari valori di Vcc che dipendono dalla zona del core metto il valore medio che mi pare il più corretto.

Allora? Ora che abbiamo guardato gli Icc massimi di ogni core (ICC for Intel Pentium M processors Recommended Design Target) gli Ampere che intel specifica come valore per "questa CPU avrà un massimo assorbimento di..." quale ti sembra consumi di più?
Sono curioso di saperlo! E ora abbiamo guardato i datasheet intel non il mio "vangelo", così non si scappa.

per quanto ne so io e per quanto ne sai tu, un northwood a 90 nm può consumare meno di un northwood a 130 nm (io ci scommetterei pure), e un prescott a 130 nm può consumare di più di un prescott a 90 nm (e scommetterei pure su questo).
Con i se e con i ma non si fanno i discorsi, mi pare che il prescott consumi più del northwood, nonostante il fatto che abbia una marea di transistor disabilitati nel suo core oppure utilizzati per la cache (transistor che consumano molto meno delle porte logiche, quindi trascurabili)
E questo lo dico perchè è scritto più o meno su ogni articolo serio che confronta i due modelli di P4.

Tuttavia quello che non capisci è che io dico "NON SI PUO' DIRE", almeno con i dati che abbiamo; mentre tu giungi a conclusioni che ti contesto per la banalità dei ragionamenti che stanno dietro (che prendono in considerazione solo una parte dei parametri che sono in gioco)...
oltre al fatto che sorvoli sulla questione qualitativa dei transistor, che è il punto fondamentale della questione.
Forse per te non si puo' dire, perchè hai una conoscenza molto superficiale degli argomenti, è scritto anche qua:
The biggest leakage problem at 90 nm is source-drain leakage, according to Eric Naviasky, VP of engineering services at Cadence Design Systems. "At 90 nm, we can pack two to four times the number of gates per square millimeter of silicon than we used to. But we don't have two to four times the number of power-busing layers. When that's running at 1 V, we could be talking about 10 A or more. That's an electromigration risk," he says.
10A non mi paiono pochi, e quello è il minimo valore che considera l'articolo, e siamo proprio nel caso del prescott, che ha più gate del northwood per millimetro quadro.

A parte che al massimo non considero la questione "quantitativa", cque non ha senso considerare i transistor in più del prescott, perchè a parte le SSE3 (estensione delle SSE2 tra l'altro, quindi un aggiunta di qualche transistor alla vecchia unità) per il resto fa le medesime cose del Northwood, e i 512KB di L2 in più non si possono considerare come la causa dell'apporto di consumo esagerato, visto che ogni bit di cache ha 6 transistor e sono accesi per frazioni di nanosecondo (per commutare il condensatore), mentre i transistor del core logic hanno tempi di attività molto più elevati, essendo continuamente utilizzati.

Considera quello che sai di per certo:
Northwood -> 130nm
Prescott -> 90nm
Il prescott non fa tanto più del northwood (tantovero che a parità di frequenza ha prestazioni inferiori) eppure consuma di più, nonostante il Vcc inferiore, ci sarà un motivo no?

Williamette -> 180nm
Northwood -> 130nm
Il northwood consuma di meno (questo per quasi tutti i modelli, anche senza guardare la parità di frequenza)
Eppure il northwood ha più transistor del williamette perchè allora non consuma di più?

Athlon XP 1700+ Palomino -> 180nm
Athlon XP 1700+ Thoro -> 130nm
Qua se vuoi abbiamo 2 CPU identiche, una a 180nm e una a 130nm e il thoro consuma molto meno del palomino.

sarò cocciuto, ma se sbaglio lo ammetto. tu sei cocciuto e pure arrogante. ehhhh hai studiato solo tu si
:rolleyes:
più che cocciuto non sai argomentare, e costruisci i tuoi discorsi sul dubbio e sul "non puoi sapere" quando invece datasheet alla mano non è così.

Fx

15-04-2005, 14:24

eddaje... e insisti eh. ora mi scomodi le performance. che c'entrano le performance con il consumo, ora :muro:

facciamo il punto di quello che stai dicendo:

il prescott preforma circa come il northwood a parità di frequenza, quindi fa le stesse cose, quindi i transistor in più sono solo la cache

ma vedi che non capisci un cazzo? :muro:

allora dato che in realtà performa anche un pelo meno, allora ha meno transistor :muro:

il prescott è, al di là della cache, DIVERSO dal northwood... spero tu sappia che ha una pipeline moolto più lunga e una serie di "rattoppi" che servono a COMPENSARE questo aspetto. quindi branch prediction più raffinata, hyperthreading più elaborato e così via... tutte cose che si traducono in TRANSISTOR. oltre al fatto che quelli che sono "disabilitati" non vuol dire che non vengano alimentati, dato che c'è una cosetta che si chiama "static power" che comunque viene assorbita al di là della frequenza a cui lavora la cpu. oltre al fatto che comunque c'è si più cache, ma QUESTA NON GIUSTIFICA UNA CRESCITA COSI' ELEVATA NEL NUMERO DEI TRANSISTOR. e dato che come giustamente dici la cache non consuma molto, ci basta far due conti per vedere che ci sono TANTI transistor in più, al di là della cache

northwood 55 milioni
prescott 125 milioni

512 kb di cache non sono nemmeno 30 milioni di transistor. ergo ci sono QUARANTA MILIONI DI TRANSISTOR IN PIU' AL DI LA DELLA CACHE, il che vuol dire che il totale di transitor è PIU' DEL DOPPIO rispetto ai 25/30 milioni c.ca del northwood (senza L2)... infatti il prescott (senza L2) dovrebbe avere c.ca 65/70 milioni di transistor.

ora: NON MI PUOI IGNORARE QUESTO DATO, dai cazzo... e non me ne puoi ignorare un altro: I FENOMENI DI LEAKAGE CI SONO ANCHE A 130 NM... a 90 nm semplicemente AUMENTANO, ma nel contempo STAI PASSANDO ALLO STEP SUCCESSIVO, che ti dà un vantaggio in termini di consumi imho ben più ampio, e non mi puoi dire che gli stessi 90 nm di intel sul dothan in effetti comportano un consumo inferiore ma nel prescott no perchè a 2.1 ghz il leakage non c'è e a 2.4 si... non si regge in piedi dai. come non si regge in piedi la storiella che il leakage aumenta così tanto con il salire della frequenza, tant'è che un 540 (3.2) full load consuma 87.8 watt e un 570 (3.8) 104.5... guarda qua:

http://www6.tomshardware.com/cpu/20041115/pentium4_570-20.html

se il leakage fosse così dipendente dalla frequenza, ciao... schizzerebbe su come una saponetta. e invece sono solo poco più di 16 watt... basta fare una DIVISIONE: per il 540 si parla di 27,43 watt per ghz e per il 570 si parla di... 27.5! cazzo, quanto influisce eh?

ora... sei d'accordo con me che il leakage dovrebbe influire molto ma molto di più?

in conclusione:
- sappiamo che aumentando la frequenza la potenza consumata cresce in modo quasi lineare, quando i fenomeni di leakage dovrebbero farla crescere molto più velocemente
- sappiamo che al di là della cache il core del prescott è molto più grosso (più del doppio) di quello del northwood
- sappiamo che con lo stesso processo produttivo da 90 nm laddove il core è rimasto pressochè invariato (leggasi dothan, se togli la cache è grosso poco più del banias, ma è pressochè identico) il consumo SCENDE

io concludo che IL PROCESSO A 90 NM DI PER SE CONSUMA DI MENO DI QUELLO A 130, e che la conclusione contraria perchè un prescott consuma di più di un northwood è determinata unicamente da un calcolo che non tiene in considerazione un fattore: come è cambiato il core.

fammi indovinare: di fronte a queste argomentazioni ferree e semplici, scriverai un papiro di 40 righe arrampicandoti sugli specchi, riportando datasheet e facendo illazioni a tutto spiano per giustificare la tua tesi.

prova una sensazione nuova: prova per un attimo ad ascoltare

cionci

15-04-2005, 15:33

ma vedi che non capisci un cazzo? :muro:
Le conclusioni sono giuste, ma i modi no... Fx sei sospeso per 3 gg...
Dreadnought: cerca di stare un po' più calmo...

Dreadnought

15-04-2005, 18:12

In realtà se guardiamo al core nudo e crudo senza cache (che consuma poco e possiamo escluderla) abbiamo circa:

31M di transistor per il northwood
75M di transistor per il prescott

Ora puoi anche venire a dire che un transistor a 90nm consuma meno di uno a 130nm, questo posso anche dartelo come buono anche se in alcuni casi non è detto sia così.

Ma questo non vuol dire che progettando il prescott intel non debba aver dovuto aumentare i transistor "per forza di cose":
- tipo per avere una pipe più lunga altrimenti non riusciva a superare i 3.2GHz
- semplicemente per inserire le EMT64 che sono poi state disabilitate sui primi core (in questo caso sarebbero stati un bel po' di transistor in più ma mai attivi) e attivate solo da qualche mese nei nuovi xeon.
- Oppure più probabilmente intel ha inserito gate aggiuntivi su alcuni transistor creando vari transistor a doppio gate (per quale motivo? proprio per migliorare la stabilità e ridurre i consumi) o se non ha usato i dual gate avrà messo alcuni transistor in coppia, sempre per stabilizzare i segnali.

Ma non importa tanto quello che c'è dentro conta quanto dissipi, e se un core ti assorbe di più con prestazioni inferiori vuol dire che hai sbagliato qualcosa.
Se io ho un amplificatore che consuma 100W non mi importa che abbia 4 finali che assorbono 25A l'uno con 1V di tensione oppure 10 finali in cascata da 10A l'uno. Per il semplice motivo che dipende tutto da quanto consuma un transistor.
Se nei 90nm un singolo transistor puo' consumare meno (teoricamente dovrebbe consumare il 60% rispetto a un transistor a 130nm), messo nel contesto di una CPU il consumo aumenta, vuoi perchè i transistora 90nm quando sono tutti impacchettati diventano instabili, vuoi perchè intel non ha usato tecnologie come SOI o Low-K da subito, ma ha sfruttato solo il suo pessimo Strained Silicon (per altro usato anche da IBM, ma con un procedimento ben più efficente), il consumo al passagigo dai 130 ai 90nm nel P4 è aumentato, punto.

Da qui il succo del discorso: passare da 130nm a 90nm non ha comportato il semplice abbassamento dei consumi come da 180nm a 130nm, questo per i motivi che ti sto spiegando da vari post: come la mancanza di soluzioni per ridurre il leakage e l'idea sbagliata di fondo ovvero di progettare un core perchè possa salire il più possibile in frequenza.

Il prescott è esempio lampante, perchè nonostante l'abbassamento del Vcc da 1.75 a 1.55V molto elevato (che a parità di core e frequenza farebbe consumare ben il 20% in meno) gli ampere sono aumentati in modo problematico, che sono più o meno i "10A or more" dell'articolo che ti ho citato, circa 10 quano le frequenza erano attono ai 3GHz e più di 20 quando le frequenze sono salite.

cionci

15-04-2005, 19:32

Scusa, ma hai postato tu stesso i dati... Un Banias 1.7 Ghz consuma 24.5 Watt...un Dothan 1.7 Ghz consuma 21 Watt... Il Dothan ha 1 Mb di L2 in più...

Dreadnought

15-04-2005, 22:46

Scusa, ma hai postato tu stesso i dati... Un Banias 1.7 Ghz consuma 24.5 Watt...un Dothan 1.7 Ghz consuma 21 Watt... Il Dothan ha 1 Mb di L2 in più...

I miei dati, come ho scritto, hanno solo il TDP in evidenza, che non indica il consumo della CPU, consumo che dipende solo dagli Ampere assorbiti per la tensione Vcc di alimentazione moltiplicati per il duty cycle che dipende dal clock (P = I*V*Freq).
I dati corretti di massimo consumo sono specificati un post dopo ed estrapolati dai 3 datasheet che ho linkato dal sito intel.

Poi comunque la cache in più non è da considerare come fonte di consumi, in quanto non è necessaria corrente per mantenerla in funzione (essendo SRAM) ma solo per farla commutare (cosa che accade si spesso ma non tanto rapidamente quanto ad esempio un NAND o un NOR di una ALU all'inteno del core).

Dreadnought

16-04-2005, 03:08

Addendum, per chiudere il discorso:

il P4EE è stato fatto sia a 130nm che a 90nm (e si che me lo ricordavo che c'era un P4 che era stato scalato di processo produttivo, ma guardavo tra gli xeon, e invece era il P4EE!!).
Ecco i datasheet dal sito intel per non sbagliare:
- P4EE 130nm: http://download.intel.com/design/Pentium4/datashts/30235002.pdf
- P4EE 90nm: http://download.intel.com/design/Pentium4/datashts/30638201.pdf

Per far contenti tutti sono tutti e due da 169M di transistor :)

Core P4EE 130nm Icc(max)*Vcc(nominale) -> 83A*(1,6-0,14)V = ~123W
Core P4EE 90nm Icc(max)*Vcc(nominale) -> 119A*(1,4-0,19)V = ~163W

* ai valori della tensione nominale vengono sottratti gli scostamenti secondo le tabelle riportate nei datasheet: ~0.14V per il core a 130nm a 80-90A e ~0.19V per il core a 90nm a 120A.

Se vogliamo fare i pignoli possiamo anche aumentare i W dissipati dal core a 130nm per portarlo a 3,6GHz dai suoi 3,46: con un semplice calcolo il nuovo consumo del core a 130nm è:
123W * 3,6 / 3,46 = 128W
Sempre ben al di sotto dei 160W e passa della versione a 90 nanometri.

Mi pare di aver detto tutto ormai...
n8 :)

killer978

16-04-2005, 12:46

Addendum, per chiudere il discorso:

il P4EE è stato fatto sia a 130nm che a 90nm (e si che me lo ricordavo che c'era un P4 che era stato scalato di processo produttivo, ma guardavo tra gli xeon, e invece era il P4EE!!).
Ecco i datasheet dal sito intel per non sbagliare:
- P4EE 130nm: http://download.intel.com/design/Pentium4/datashts/30235002.pdf
- P4EE 90nm: http://download.intel.com/design/Pentium4/datashts/30638201.pdf

Per far contenti tutti sono tutti e due da 169M di transistor :)

Core P4EE 130nm Icc(max)*Vcc(nominale) -> 83A*(1,6-0,14)V = ~123W
Core P4EE 90nm Icc(max)*Vcc(nominale) -> 119A*(1,4-0,19)V = ~163W

* ai valori della tensione nominale vengono sottratti gli scostamenti secondo le tabelle riportate nei datasheet: ~0.14V per il core a 130nm a 80-90A e ~0.19V per il core a 90nm a 120A.

Se vogliamo fare i pignoli possiamo anche aumentare i W dissipati dal core a 130nm per portarlo a 3,6GHz dai suoi 3,46: con un semplice calcolo il nuovo consumo del core a 130nm è:
123W * 3,6 / 3,46 = 128W
Sempre ben al di sotto dei 160W e passa della versione a 90 nanometri.

Mi pare di aver detto tutto ormai...
n8 :)

Bravo! almeno sei uno che sa quello che dice e non parla a vanvera come fanno molti ;)

Cmq alla fine tutto ruota attorno al fatto che Intel ha puntato tutto sui MHZ visto che il mondo pullula di Polli :asd:

]DMA[

18-04-2005, 07:41

P = I*V*Freq :eek: :eek: :eek:

Cioe' dimensionalmente: W=A*V*1/t ?????????

Dreadnought.... in ginocchio sui ceci per questa tavanata enorme :D :D !!

:O
Cmq, se posso dire la mia su questo argomento scottante, una riduzione del processo produttivo in se' porta sempre a una riduzione della resistenza di canale e quindi ad una diminuzione di potenza assorbita (e di conseguenza, in generale, di potenza dissipata). Stiamo parlando "a parita' di altre condizioni" ovviamente.... come si fa in ogni sacrosanto confronto!
Questo in virtu' del fatto che riducendo le dimensioni si diminuisce la resistenza... e questo e' inoppugnabile.
E' per questo motivo (oddio... uno dei principali motivi...) che c'e' la rincorsa alla diminuzione del processo produttivo.

Se poi stiamo lavorando a frequenze tali, che fenomeni di trasporto di carica sono tanto influenti da oscurare il risparmio energetico introdotto dal processo produttivo.... beh questo e' un altro paio di maniche.
Anche perche' tali fenomeni non si studiano semplicemente con P=VI :D (vedi Schrödinger).

La corrente massima assorbita non e' direttamente legata al numero di transistor.
Una gran parte sono per le cache e quelli del core non si attivano mai tutti insieme. Quali si possono attivare al massimo contemporaneamente? (con quale particolare sequenza di istruzioni in coda?)... beh dipende dall'architettura.

Il TDP, come dice il nome stesso, serve come dato di partenza per progettare il dissipatore termico adeguato perche' ad una data temp ambiente il dispositivo non fonda.
E BASTA!
E' un dato fornito per ogni componente che richieda una dissipazione aggiuntiva (ovvero la cui superficie non sia sufficiente per smaltire il calore generato). Ogni casa e' libera di calcolarselo e fornirtelo come le pare.
Se poi viene usato come dato su cui basare battaglie pubblicitarie.... beh questo e' un altro paio di maniche.

cdimauro

18-04-2005, 10:27

Addendum, per chiudere il discorso:

il P4EE è stato fatto sia a 130nm che a 90nm (e si che me lo ricordavo che c'era un P4 che era stato scalato di processo produttivo, ma guardavo tra gli xeon, e invece era il P4EE!!).
Ecco i datasheet dal sito intel per non sbagliare:
- P4EE 130nm: http://download.intel.com/design/Pentium4/datashts/30235002.pdf
- P4EE 90nm: http://download.intel.com/design/Pentium4/datashts/30638201.pdf

Per far contenti tutti sono tutti e due da 169M di transistor :)

Core P4EE 130nm Icc(max)*Vcc(nominale) -> 83A*(1,6-0,14)V = ~123W
Core P4EE 90nm Icc(max)*Vcc(nominale) -> 119A*(1,4-0,19)V = ~163W

* ai valori della tensione nominale vengono sottratti gli scostamenti secondo le tabelle riportate nei datasheet: ~0.14V per il core a 130nm a 80-90A e ~0.19V per il core a 90nm a 120A.

Se vogliamo fare i pignoli possiamo anche aumentare i W dissipati dal core a 130nm per portarlo a 3,6GHz dai suoi 3,46: con un semplice calcolo il nuovo consumo del core a 130nm è:
123W * 3,6 / 3,46 = 128W
Sempre ben al di sotto dei 160W e passa della versione a 90 nanometri.

Mi pare di aver detto tutto ormai...
n8 :)
Hai torto (e ha ragione Fx) come ti ha detto anche cionci.

Il P4EE a 130nm è basato sul core Xeon Gallatin (quindi di "famiglia" Northwood), e i transistor in più rispetto a un P4 "desktop" sono dovuti alla cache L3 a 2MB, che si va ad AGGIUNGERE a tutto il resto.

Il P4EE a 90nm invece è basato sul core P4 Prescott.

I due processori, quindi, sono completamente diversi, per cui fare confronti di questo tipo è completamente inutile, oltre che sbagliato e fuorviante.

Il confronto giusto è quello fra Banias e Dothan, visto che le uniche differenze sono dovute al raddoppio della cache L2 (tutto il resto è rimasto identico) e al passaggio da 130nm ai 90nm. Anzi, si potrebbero anche confrontare i Celeron basati su Dothan, con 1MB di cache, che quindi sono a tutti gli effetti dei Banias, ma col processo produttivo a 90nm anziché a 130nm.

Dreadnought

18-04-2005, 13:56

Hai torto (e ha ragione Fx) come ti ha detto anche cionci.
Quindi tu stai affermando che fondamentalmente SOI, Low-K e Strained silicon sono inutili?

Alla AMD sono stupidi a pagare IBM per far produrre gli A64 90nm con i processi produttivi sopra citati?

I due processori, quindi, sono completamente diversi, per cui fare confronti di questo tipo è completamente inutile, oltre che sbagliato e fuorviante.
Ok, visto che dici che son differenti, dimmi in cosa, perchè io conto le medesime unità sia nel notrhwood che nel prescott, a parte:
- EMT64 (disabilitate in alcuni prescott)
- SSE3 che non siano questi transistor in più
- Qualche KB in più nelle L1 e trace cache.
Le uniche differenze stanno nei transistor che regolano i flussi della pipe che nel prescott ha una decina di stadi in più.

cionci

18-04-2005, 14:44

Quindi tu stai affermando che fondamentalmente SOI, Low-K e Strained silicon sono inutili?

Intel usa strained silicon sui Prescott...

Ok, visto che dici che son differenti, dimmi in cosa, perchè io conto le medesime unità sia nel notrhwood che nel prescott, a parte:
- EMT64 (disabilitate in alcuni prescott)
- SSE3 che non siano questi transistor in più
- Qualche KB in più nelle L1 e trace cache.
Le uniche differenze stanno nei transistor che regolano i flussi della pipe che nel prescott ha una decina di stadi in più.
Sono profondamente diversi dal punto di vista dell'architettura interna... Una decina di stadi in più significano uno sconvolgimento ed un notevole aumento di transistor...
Qui sotto c'è la foto di entrambi...dimmi se si assomigliano...
http://www.chip-architect.net/news/Prescott_90_nm_die_text_1600x1200.jpg
http://www.chip-architect.net/news/Northwood_130nm_die_text_1600x1200.jpg

cdimauro

18-04-2005, 18:05

Quindi tu stai affermando che fondamentalmente SOI, Low-K e Strained silicon sono inutili?

Alla AMD sono stupidi a pagare IBM per far produrre gli A64 90nm con i processi produttivi sopra citati?
Non mettermi parole in bocca che non ho detto.

Non ho detto che sono inutili, e tra l'altro Intel è stata la prima a usare la tecnologia strainer silicon sui transistor delle sue CPU.

Ogni azienda cerca di utilizzare delle tecnologie, a volte anche le stesse, per risolvere problemi che sono comuni a tutti: Intel, IBM, AMD, Motorola, ecc. non stanno su un altro pianeta...
Ok, visto che dici che son differenti, dimmi in cosa, perchè io conto le medesime unità sia nel notrhwood che nel prescott, a parte:
- EMT64 (disabilitate in alcuni prescott)
- SSE3 che non siano questi transistor in più
- Qualche KB in più nelle L1 e trace cache.
Le uniche differenze stanno nei transistor che regolano i flussi della pipe che nel prescott ha una decina di stadi in più.
Studiati bene i link che ti ha fornito cionci: i due core sono decisamente diversi. Perfino la cache L1 dati del Prescott è diversa da quella del Northwood...

Dreadnought

18-04-2005, 18:56

Non mettermi parole in bocca che non ho detto.

Non ho detto che sono inutili, e tra l'altro Intel è stata la prima a usare la tecnologia strainer silicon sui transistor delle sue CPU.

Quello che ho detto io è:
"i 90nm da soli non bastano per consumare meno, il consumo dipende da molti fattori e in particolare dal processo produttivo nel suo complesso, il prescott è un esempio del fatto che i 90nm non bastano da soli"

Fx dice:
"non è vero i consumi a 90nm scendono lo stesso"

Questo per me è errato, mentre tu hai appena detto il contrario.
Hai torto (e ha ragione Fx) come ti ha detto anche cionci.
Hai letto il thread dall'inizio o ti sei infognato sugli ultimi post? :D

Che poi Fx ha tirato fuori la storia dei transistor differenti peraltro senza nemmeno considerare che i transistor in una CPU attivi contemporaneamente non sono nemmeno il 30% del core e che la cache ha consumi alla lunga trascurabili; considerazione tra l'altro da inlcudere nel discorso altrimenti qualsiasi ragionamento non avrebbe senso.
Io ho semplicemente detto che se le spcifiche di una CPU danno x Vcc di tensione e y Imax assorbiti il consumo è Imax*Vcc, morta lì, indipendentemente da quanti transistor metti.

La scusa dei transistor in più non basta per dire "eh ma il prescott consuma di più perchè ha più transistor", primo perchè le istruzioni sono eseguite poche alla volta (principalmente una alla volta) più altri stadi singolarmente per branch prediction e pre-load/pre-store. Quindi avendo il P4 Northwood le Stesse unità logiche del Prescott, anche se la pipe è il 50% più lunga, questo non giustifica i consumi che sono di quasi il 100% maggiori di quanto si puo' ottenere con lo stesso processo produttivo in altri casi (vedi AMD)

Questo spiega perchè intel ha già fatto più di 4 stepping della stessa CPU, tutti per cercare di ridurre i consumi.

Ogni azienda cerca di utilizzare delle tecnologie, a volte anche le stesse, per risolvere problemi che sono comuni a tutti: Intel, IBM, AMD, Motorola, ecc. non stanno su un altro pianeta...
beh oddio, guarda AMD, si è alleata con IBM per produrre chip con tecnologia SOI e StrainedSilicon, perchè Intel ad esempio non si è alleata con TMSC o altri?

Studiati bene i link che ti ha fornito cionci: i due core sono decisamente diversi. Perfino la cache L1 dati del Prescott è diversa da quella del Northwood...
Cosa studi da una foto di un core?
Puoi mischiare le unità spazialmente per ridurre lo skew e per omogeneizzare l'alimentazione, ma mantenendo perfettamente come prima un core. La topologia negli schemi elettronici te lo garantisce.

Al massimo puoi studiare i consumi da un grafico di una pipeline, se non fosse, che come i milioni di transistor sono sempre valori da prendere con le pinze, visto che all'80% dei casi sono solo schemi informativi pubblicati nelle press release dei vari IDF.

Intel usa strained silicon sui Prescott...
Intel usa anche Low-K nei prescott, peccato che nè lo strained silicon (per altro la metodologia per avere silicio stirato usata da intel è meno efficiente ad esempio di quello usato da IBM/AMD per i Power5 e gli A64 90nm) nè il Low-K sono bastati a ridurre i leakage dei gate del prescott.

I 160W di picco richiesti da un P4EE 3.6GHz ne sono la comprova, sono un consumo a dir poco stratosferico, e se nelle specifiche ci sono 114A di IccMax con tanto di controller che calcola un nuovo Vcc a seconda degli ampere assorbiti un motivo c'è, nessuno si mette a fare un nuovo stepping di un chip a gratis.

Articolo tanto per gradire uscito ai tempi dell'A64 90nm dopo che si è saputo dei consumi ben al disotto delle aspettative:
http://www.penstarsys.com/editor/tech/cpu/amd/str_sil/index.html

Sono profondamente diversi dal punto di vista dell'architettura interna... Una decina di stadi in più significano uno sconvolgimento ed un notevole aumento di transistor...
Qui sotto c'è la foto di entrambi...dimmi se si assomigliano...

Io undici stadi in più li vedo solo come "abbiamo lo skew troppo alto a 4GHz, forse megio ridurre un po' le dimensini degli stage se non vogliamo consumare 200W a CPU".

Qualsiasi normale teoria sulle CPU tende a sconsigliare di salire oltre i 7-8 stadi con architetture RISC e i 10-12 stadi con architetture CISC: pena la riduzione pesante dell'IPC. (appunto il prescott ha un IPC nelle condizioni peggiori di 0.4, contro lo 0.5 del northwood) ovvio che le teorie sono sempre in evoluzione, ma... Il prescott ha 31 stadi nella pipe, vedi un po' tu... a me pare una scelta forzata più che una scelta architetturiale, tantovero che il prescott è stato posticipato parecchi mesi e in più la notizia dell'aumento degli stadi è stata abbastanza tardiva.

O meno, se intel ha scelto di fare 31 stadi per scelta di progettazione il reparto ingegneristico ha fatto una capellata non da poco, preferisco pensare che il reparto marketing abbia detto al reparto progettazione "vogliamo più MHz" e questi si sono arrangiati come han portuto.

cionci

18-04-2005, 19:08

Guarda che noi non stiamo qui a dire che Intel ha fatto un gran processore...anzi...non mi piace e nn mi è mai piaciuta la filosofia NetBurst...
La tua afferazione era questa: "il processo produttivo a 90nm di Intel non è buono perchè il Prescott consuma di più del Northwood"...ed a questa abbiamo ribattutto dicendo che non puoi fare questo confronto perchè il Prescott e il NW sono profondamente diversi... L'unico confronto plausibile è Banias vs Dothan...ed in questo caso il Dothan ne esce vincitore...

Che intendi per "le istruzioni sono eseguite poche alla volta (principalmente una alla volta)" ?

Dreadnought

18-04-2005, 19:47

Guarda che noi non stiamo qui a dire che Intel ha fatto un gran processore...anzi...non mi piace e nn mi è mai piaciuta la filosofia NetBurst...
La tua afferazione era questa: "il processo produttivo a 90nm di Intel non è buono perchè il Prescott consuma di più del Northwood"...ed a questa abbiamo ribattutto dicendo che non puoi fare questo confronto perchè il Prescott e il NW sono profondamente diversi... L'unico confronto plausibile è Banias vs Dothan...ed in questo caso il Dothan ne esce vincitore...
Che i 90nm da soli non siano abbastanza per abbassare i consumi (come ad esempio è stato per il passaggio da 0.22 a 0.18 tanto per fare un esempio) non è una mia affermazione, è un concetto risaputo e comprovato da ricerche se non erro.

Che il prescott consumi tanto perchè molta corrente viene dissipata per il leakage è stato affermato pure da intel.

Ho semplicemente fatto 1+1 :)

...il fatto che ho voglia di rispondere anche andando OT (vedi milioni di transistor o altro) è perchè prendo il pretesto di controbattere ad un thread per andare a cercare anrticoli interessanti o per riguardarmi vecchi articoli letti che magari dopo 2 anni inizi a ricordarti male.
Mi tengo allenato insomma, e intanto chi gli interessa si legge il thread :)

Che intendi per "le istruzioni sono eseguite poche alla volta (principalmente una alla volta)" ?

Facciamo un esempio banale, senza salti o dipendenze tra registri: se c'è un pezzo di codice di 31 istruzioni identiche:

shl Eax,1

Al caricamento della 31esima istruzione, quante istruzioni saranno nella fase "execute"?
Ora non ho lo schema della pipe del prescott, ma mi vien da dire 'una sola', non sei d'accordo?

Fx

19-04-2005, 03:25

Quello che ho detto io è:
"i 90nm da soli non bastano per consumare meno, il consumo dipende da molti fattori e in particolare dal processo produttivo nel suo complesso, il prescott è un esempio del fatto che i 90nm non bastano da soli"

Fx dice:
"non è vero i consumi a 90nm scendono lo stesso"

ma prendi per i fondelli o cosa?

ho detto: anche con la prima implementazione dei 90 nm di intel, A PARITA' DI CORE (e di frequenza, ovviamente) i consumi scendono. se mi prendi il northwood vs prescott sono il primo a dirti che il prescott consuma un botto di watt in più - a parità di frequenza - e per di più performa mediamente un pelo peggio

il fatto che il leakage non abbia il peso di cui tu parli lo dimostrano i dati reali rilevati (link a tomshardware) come ho già detto: a parità di core il rapporto watt per GHz praticamente non cambia (mentre se la questione leakage fosse così legata agli hz da 3.2 a 3.8 avresti un'impennata notevolissima, invece cresce linearmente)

Che poi Fx ha tirato fuori la storia dei transistor differenti peraltro senza nemmeno considerare che i transistor in una CPU attivi contemporaneamente non sono nemmeno il 30% del core e che la cache ha consumi alla lunga trascurabili; considerazione tra l'altro da inlcudere nel discorso altrimenti qualsiasi ragionamento non avrebbe senso.
Io ho semplicemente detto che se le spcifiche di una CPU danno x Vcc di tensione e y Imax assorbiti il consumo è Imax*Vcc, morta lì, indipendentemente da quanti transistor metti.

minchia che faccia tosta... sono io che ho tirato fuori la questione QUALITATIVA dei transistor, fai qualche page up dato che hai la memoria corta... e sono ancora io che ti ho tirato fuori che escludendo la cache il core del prescott risulta MOLTO ma MOLTO più grosso di un northwood, cosa di cui non ti eri accorto (tant'è che mi paragonavi un p4 EE northwood a un P4 EE prescott sostenendo che dato che il secondo aveva meno transistor doveva consumare di meno :muro: )

La scusa dei transistor in più non basta per dire "eh ma il prescott consuma di più perchè ha più transistor", primo perchè le istruzioni sono eseguite poche alla volta (principalmente una alla volta) più altri stadi singolarmente per branch prediction e pre-load/pre-store. Quindi avendo il P4 Northwood le Stesse unità logiche del Prescott, anche se la pipe è il 50% più lunga, questo non giustifica i consumi che sono di quasi il 100% maggiori di quanto si puo' ottenere con lo stesso processo produttivo in altri casi (vedi AMD)

forse non sai cos'è la "static power" che da sola rappresenta il 50% dei consumi... forse non immagini che il fatto che ci siano le stesse unità logiche non significa che abbiano le stesse dimensioni in termini di transistor... vatti a vedere ad es. l'ht e la branch prediction del prescott

Intel usa anche Low-K nei prescott, peccato che nè lo strained silicon (per altro la metodologia per avere silicio stirato usata da intel è meno efficiente ad esempio di quello usato da IBM/AMD per i Power5 e gli A64 90nm) nè il Low-K sono bastati a ridurre i leakage dei gate del prescott.

ohhhh sarà mica perchè il prescott ha un botto di transistor (di quelli che ciuciano, lascia perdere la cache)? no eh? ehhh come avevo preannunciato da lontano, sapevo già che piuttosto di dire "si, potrebbe essere" avresti scritto papiri su papiri all'infinito

O meno, se intel ha scelto di fare 31 stadi per scelta di progettazione il reparto ingegneristico ha fatto una capellata non da poco, preferisco pensare che il reparto marketing abbia detto al reparto progettazione "vogliamo più MHz" e questi si sono arrangiati come han portuto.

il prescott ha 31 stadi non perchè siano imbecilli ma proprio perchè è una cpu che pensavano di poter portare a 5 GHz e più... hanno scoperto i problemi a salire solo dopo. un po' la stessa cosa è successa al g5 (il ppc970), ha una pipeline lunga come quella del northwood (che non è di certo un campione a livello di IPC, e per di più come dicevi tu è più grave per un risc avere una pipeline lunga che per un cisc) perchè pensavano di portarlo a 3 ghz e più, e invece hanno fatto fatica ad arrivare a 2.5... è un po' il prescott dei risc, mentre il g4 pur avendo un bus strozzato riesce a performare bene per hz e soprattutto ha dei consumi estremamente contenuti

cionci

19-04-2005, 06:57

Che i 90nm da soli non siano abbastanza per abbassare i Facciamo un esempio banale, senza salti o dipendenze tra registri: se c'è un pezzo di codice di 31 istruzioni identiche:

shl Eax,1

Al caricamento della 31esima istruzione, quante istruzioni saranno nella fase "execute"?
Ora non ho lo schema della pipe del prescott, ma mi vien da dire 'una sola', non sei d'accordo?
Detto così è difficile da sapere...ma visto che il Prescott supporta l'Out of order execution probabilmente più di una...a meno che non ci siano dipendenze anche nelle istruzioni successive...
Comunque questo è una caso assai raro e non riguarda solo il prescott, ma anche tutte le architetture pipelined...

Dreadnought

19-04-2005, 08:30

Detto così è difficile da sapere...ma visto che il Prescott supporta l'Out of order execution probabilmente più di una...a meno che non ci siano dipendenze anche nelle istruzioni successive...
Comunque questo è una caso assai raro e non riguarda solo il prescott, ma anche tutte le architetture pipelined...

Humm... si potrebbe fare qualche prova, pero' serve tipo un programma in assembler che gira da dos e non ho un prescott :/

ho detto: anche con la prima implementazione dei 90 nm di intel, A PARITA' DI CORE (e di frequenza, ovviamente) i consumi scendono. se mi prendi il northwood vs prescott sono il primo a dirti che il prescott consuma un botto di watt in più - a parità di frequenza - e per di più performa mediamente un pelo peggio

quote dal tuo primo post:

pure qua ti trovo :D che stress :D

cmq a parità di processo produttivo più riduci le dimensioni più abbassi il voltaggio di funzionamento più riduci i consumi

E le varie considerazioni sui consumi?
Da quella tua frase si evince che per te i consumi dipendono solo dal Vcc.

minchia che faccia tosta... sono io che ho tirato fuori la questione QUALITATIVA dei transistor, fai qualche page up dato che hai la memoria corta... e sono ancora io che ti ho tirato fuori che escludendo la cache il core del prescott risulta MOLTO ma MOLTO più grosso di un northwood, cosa di cui non ti eri accorto (tant'è che mi paragonavi un p4 EE northwood a un P4 EE prescott sostenendo che dato che il secondo aveva meno transistor doveva consumare di meno )

La questione qualitativa dei transistor ovvero che alcuni transisotr potrebbero essere disabilitati (vedi istruzioni a 64bit nel prescott) oppure che potrebbero contare come 2 ma sono 1 (transistor a doppio gate per stabilizzare il segnale), oppure ancora che un transistor della cache consuma molto meno di uno di una unità logica, non sapevi nemmeno la differenza :rolleyes:
Nemmeno negli ultimi post.

Tu hai sempre parlato di quantità e di core differenti, ma sempre per numero di transistor e a occhio e croce mi pare una tuqestione quantitativa.

Cque quando abbiamo discusso in PM di queste cose eri un attimo più calmo, non capisco perchè ora ti scaldi subito. Bah...

questa l'ho vista ora...
DMA[']P = I*V*Freq :eek: :eek: :eek:

Cioe' dimensionalmente: W=A*V*1/t ?????????

Dreadnought.... in ginocchio sui ceci per questa tavanata enorme :D :D !!
Era per esprimere la proporzionalità visto che il simbolo 'oc' non riesco a farlo :D
Poi vabeh il discorso per analizzare la potenza di fino è complesso, ma un P=V*I è una buona approssimazione.

Fx

19-04-2005, 11:05

quote dal tuo primo post:

sottointendevo OVVIAMENTE a parità di core, come ho scritto mille volte non ha veramente senso fare paragoni a core diversi

tu asserivi che con la prima tecnologia a 90 nm di intel le cpu consumavano di più rispetto ai 130 nm perchè il prescott consumava più del northwood... mentre il dothan consuma di meno del banias perchè (sempre parole tue) non era esposto a problemi di leakage in virtù delle frequenze più basse

io ti ho riportato dati reali sul campo dai quali si evince:
- che la potenza assorbita da un prescott stesso stepping cresce linearmente con la frequenza, quindi i fenomeni di leakage non hanno una correlazione con questa
- che il core del prescott ha oltre il doppio dei transistor (cache esclusa) del northwood, cosa che spiega agevolmente il motivo per cui PUR PASSANDO AI 90 nm (che dai cazzo, l'hai detto tu che a parte casi particolari un transistor a 90 nm consuma mediamente di meno di uno a 130 nm) il p4 consuma di più

e tu mi vieni a dire che avrei detto che passando a 90 nm i consumi scendono indipendentemente dalla quantità e dalla qualità dei transistor? stai dicendo che io avrei detto che un itanium 2 a 90 nm da 1 miliardo di transistor consuma di meno di un rabbit (processore risc per usi embedded) da 130 nm e poi ti lamenti che mi scaldo? inizia a non fare il furbetto... quello che qui non ha preso in considerazione il parametro transistor sei tu, non sapevi nemmeno quant'era grosso il core (ripeto, senza cache) di un northwood e di un prescott

La questione qualitativa dei transistor ovvero che alcuni transisotr potrebbero essere disabilitati (vedi istruzioni a 64bit nel prescott) oppure che potrebbero contare come 2 ma sono 1 (transistor a doppio gate per stabilizzare il segnale), oppure ancora che un transistor della cache consuma molto meno di uno di una unità logica, non sapevi nemmeno la differenza :rolleyes:
Nemmeno negli ultimi post.

MA CHE FACCIA DI BRONZO! MA SE SONO IO CHE HO TIRATO FUORI LA QUESTIONE CACHE, mentre tu dicevi allegramente che "pur il dothan avendo mooolti più transistor del banias consuma di meno" quando IL CORE E' LO STESSO E I TRANSISTOR IN PIU' SONO QUELLI DI 1 MB DI CACHE

non ho parole... che faccia di bronzo!

Tu hai sempre parlato di quantità e di core differenti, ma sempre per numero di transistor e a occhio e croce mi pare una tuqestione quantitativa.

page up

Cque quando abbiamo discusso in PM di queste cose eri un attimo più calmo, non capisco perchè ora ti scaldi subito. Bah...

forse perchè ribalti le cose e mi metti in bocca parole che non hai mai detto, e viceversa dici di aver detto cose che non hai mai detto? meno male che stanno scritte e basta andare indietro per rileggerle... certo che hai proprio una faccia tosta... e tutto questo per non dire: "si, non avevo considerato che i due core sono estremamente differenti"... minchia... cmq tutto come da copione

Dreadnought

19-04-2005, 11:34

- che il core del prescott ha oltre il doppio dei transistor (cache esclusa) del northwood, cosa che spiega agevolmente il motivo per cui PUR PASSANDO AI 90 nm (che dai cazzo, l'hai detto tu che a parte casi particolari un transistor a 90 nm consuma mediamente di meno di uno a 130 nm) il p4 consuma di più

Quindi nel core tu stai sottointendendo che tutti i transistor sono tutti alimentati quando la CPU funziona?

Cque più che altro sto dicendo che tu non stai facendo la discussione, perchè da parte mia conosco l'argomento abbastanza da tirare fuori argomentazioni, tu invece viaggi su quello che scrivo, perchè di tuo aggiungi poco e non sai supportare le tue ipotesi.

cionci

19-04-2005, 11:57

Quindi nel core tu stai sottointendendo che tutti i transistor sono tutti alimentati quando la CPU funziona?
Ma fra due prodotti simili, la percentuale di transistor in funzione è la stessa...L2 esclusa...

Dreadnought

19-04-2005, 11:58

Detto così è difficile da sapere...ma visto che il Prescott supporta l'Out of order execution probabilmente più di una...a meno che non ci siano dipendenze anche nelle istruzioni successive...
Comunque questo è una caso assai raro e non riguarda solo il prescott, ma anche tutte le architetture pipelined...

http://en.wikipedia.org/wiki/Out_of_Order_execution#Out-of-Order_Processors

Qui parlano dell'OutOfOrder execution, in pratica puo' eseguire delle istruzioni prima di altre, perchè le ottimizza in una coda che eviti più stalli possibili, pero' comunque sono eseguite una per volta.

Penso sia un riordino della pipeline, più che una parallelizzazione.

Poi da quanto ricordi dal penitum3 le istruzioni SSE possono essere abbinate ai registri dedicati (penso siano i registri MMX) per eseguire operazioni vettoriali che restituiscono 4 risultati, ma questo solo in alcuni casi (3d, e trasformazioni audio-video).
Pero' sinceramente non trovo informazioni sul fatto che gli stage di "fetch" e "store" della pipeline possano mettere in ram (e prendere dalla ram) il risultato di tutti gli elementi dl vettore tutti in una volta o singolarmente (quindi sprecando 3 cicli).

Qua c'è qualcosa: http://www.x86.org/articles/sse_pt1/simd1.htm

Dreadnought

19-04-2005, 12:06

Ma fra due prodotti simili, la percentuale di transistor in funzione è la stessa...L2 esclusa...
Ecco ;) hai capito dove voglio arrivare.

Ipotizziamo che il prescott e il northwood abbiano tutti i transistor dichiarati da intel, dividi il core in 4 tipologie di transistor
1- cache
2- controllo di flusso della pipeline + branch prediction + instruction queuing&decode + store + fetch
3- unità logiche (3ALU + SSE + Simple FP + General FP)
4- transistor disabilitati (vedi EMT64)

Ora quali di questi influenzano il consumo maggiormente? e soprattutto in che percentuale i milioni di transistor sono distribuiti tra le varie tipologie?

Abbiamo già escluso la cache L2 che tra l'altro a grandi linee ha 24M di transistor ogni 512KB (correggetemi se sbaglio) ovvero 6transsitro per ogni Bit + un valore di overhead del 20% per l'addressing di una 8-way.

Mancano le altre 3 tipologie, considerando che il northwood ha le stesse unità logiche del prescott, con qualche modifica.

cionci

19-04-2005, 12:07

http://en.wikipedia.org/wiki/Out_of_Order_execution#Out-of-Order_Processors

Qui parlano dell'OutOfOrder execution, in pratica puo' eseguire delle istruzioni prima di altre, perchè le ottimizza in una coda che eviti più stalli possibili, pero' comunque sono eseguite una per volta.
Le può riordinare perchè non ci sono dipendenze...il caso da te riportato provocava dipendenze..

Se due istruzioni successive sono:

ADD EAX, 1
ADD EBX, 1

Entrambe sono negli stage "execute" che solitamente sono più di uno contemporaneamente... Contando inoltre che il P4 ha due ALU in teoria potrebbero avere occupato lo stesso stage (dipende dal tipo di operazione)...

Dreadnought

19-04-2005, 12:25

Le può riordinare perchè non ci sono dipendenze...il caso da te riportato provocava dipendenze..
Le dipendenze provocano stalli, il mio caso non mi sembra provocasse stalli, perchè è eseguito linearmente shiftando a destra i bit del registro eax senza aspettare che il risultato faccia 'commit'

Add [eax],1
Add [eax],2

*con [eax] indirizzo della ram tanto per precissare la notazione nel caso non ci capiamo.

Provoca uno stallo, perchè prima di eseguire [eax]+2 bisogna aspettare la fine dell'operazione [eax]+1.

O anche

Sqrt eax,1
Add eax,2

dovrebbe provocare uno stallo in quanto Sqrt non so se impiega 1 ciclo per essere eseguita.

Se due istruzioni successive sono:

ADD EAX, 1
ADD EBX, 1

Entrambe sono negli stage "execute" che solitamente sono più di uno contemporaneamente... Contando inoltre che il P4 ha due ALU in teoria potrebbero avere occupato lo stesso stage (dipende dal tipo di operazione)...

Concordo, avendo il P4 3 ALU potrebbe avere 3 stadi di execute che in questo caso potrebbero essere pieni 2 su 3. Quindi il fatto che i P4 abbiano IPC minore di 1 deve proprio essere per colpa dei jump non predetti (83% nel northwood e 75% nel prescott) che fanno svuotare la pipeline.

Fx

19-04-2005, 13:52

Quindi nel core tu stai sottointendendo che tutti i transistor sono tutti alimentati quando la CPU funziona?

esattamente il contrario, ovvero che non puoi fare paragoni tra due tecnologie diverse se hai due core diversi (ovvero due cpu diverse) sottomano... o meglio, puoi farti un'idea se hai un'idea di come sono organizzati internamente e quanti transistor lavorano nell'uso tipico

nel caso del prescott, i transistor che non consumano e non vengono usati sono la cache e al max l'EMT64: dico al max perchè basta prendere i consumi di un prescott con le estensioni a 64 bit abilitate e uno senza per vedere che se l'EMT64 davvero non è alimentato anche quando disabilitato non porta nessun consumo aggiuntivo. il grosso del core prescott non è lì.

comunque ti ripeto la domanda perchè ti continui ad arrampicare sugli specchi per evitare di affrontare la questione:

sei d'accordo con me che il prescott consuma di più del northwood a causa della sua architettura e non a causa dei 90 nm, e che se ci fosse un northwood a 90 nm consumerebbe DI MENO di un northwood a 130 nm?

Cque più che altro sto dicendo che tu non stai facendo la discussione, perchè da parte mia conosco l'argomento abbastanza da tirare fuori argomentazioni, tu invece viaggi su quello che scrivo, perchè di tuo aggiungi poco e non sai supportare le tue ipotesi.

ehhhhh già, infatti si vede chi ha portato dati pratici e non teorici, chi sostiene l'insostenibile sostendendolo solo dal fatto "che lui sa tutto e quindi ha ragione lui"... sei ridicolo, le altre due persone che partecipano alla discussione hanno perfettamente inteso le mie argomentazioni, mi basta così, tu continua ad arrampicarti sugli specchi, ripeto ancora una volta, come da programma

Fx

19-04-2005, 13:53

Sqrt eax,1
Add eax,2

SQRT? da quale x86 è stata introdotta?

Dreadnought

19-04-2005, 16:36

ho dimenticato la f :) e sarebbe dall'8087
cque si capiva eh...

esattamente il contrario, ovvero che non puoi fare paragoni tra due tecnologie diverse se hai due core diversi (ovvero due cpu diverse) sottomano... o meglio, puoi farti un'idea se hai un'idea di come sono organizzati internamente e quanti transistor lavorano nell'uso tipico
Pero' continuo a dire, stesse unità stessi transistor attivi, e quindi i transistor in più influiscono poco. O comunque non così tanto da far consumare un core il doppio rispetto a quanto uno si aspetta.

Per darti una idea, nelle due ALU dual pumped del Prescott sono state aggiunte delle unità per fare SHL e SHR, ma questo non vuol dire che quando fai una ADD/MUL/SUB questi transistor siano attivi, anzi...
Eppure potrebbero essere 1Milione di transistor in più, ma il consumo non cambia.

Pardon, non avevo letto questo:

sei d'accordo con me che il prescott consuma di più del northwood a causa della sua architettura e non a causa dei 90 nm, e che se ci fosse un northwood a 90 nm consumerebbe DI MENO di un northwood a 130 nm?

Puo' anche essere che un northwood consumi meno, anzi se mi mettessero un coltello alla gola direi di si, ma questo non toglie che se i 90nm non sono ben forniti di altre tecnologie parallele nel processo produttivo non portano ad una diminiuzione dei consumi. ricorda che nel prescott ci sono strained silicon e Low-K, che pur essendo poco efficaci qualcosa faranno, immagina senza!
Ci sono troppe variabili che rendono la questione del consumo non più dipendente dal Vcc come nel passato, vedi ad esempio il dothan, che consuma meno del banias a bassi clock, ma ad alti clock arriva molto vicino al consumo del suo predecessore.

Prova di questo IMHO è il fatto che i progettisti intel non siano passati al core successivo producendo il northwood a 90nm. In parole povere ribadisco: i tanti milioni di transistor in più non vorrei fossero più una scelta obbligata(dalla stabilità o dai consumi o altro) più che un progetto iniziale.

cionci

19-04-2005, 17:03

Le dipendenze provocano stalli, il mio caso non mi sembra provocasse stalli, perchè è eseguito linearmente shiftando a destra i bit del registro eax senza aspettare che il risultato faccia 'commit'
Sì che provoca stalli... Provoca stalli perchè il contenuto di EAX viene caricato all'interno dei registri interni della ALU...per caricare il contenuto del secondo shift deve essere terminato il primo...

La radice quadrata si esegue sui floating point...non sugli interi...

Concordo, avendo il P4 3 ALU potrebbe avere 3 stadi di execute che in questo caso potrebbero essere pieni 2 su 3. Quindi il fatto che i P4 abbiano IPC minore di 1 deve proprio essere per colpa dei jump non predetti (83% nel northwood e 75% nel prescott) che fanno svuotare la pipeline.

Il numero di stadi di execute non è legato al numero di unità di esecuzione intere...ma la numero di stadi interni di ogni unità di esecuzine... Ogni stadio è formato da una rete combinatoria avente in ingresso un registro e in uscita un registro (il registro di uscita è collegato allo stadio successivo)... La rete combinatoria offre come garanzia il completamento delle sue funzioni nei limiti imposti dal ciclo di clock (meno un intervallo di tempo dovuto all'assestamento dei segnali sui registri)...
In teoria il P4 avrebbe potuto avere anche una sola ALU (ps ci sono due ALU veloci e una lenta destinata solo a certe istruzioni), ma avere sempre più di uno stadio di execute sulla pipeline intera (dovrebbero essere qualcosa come 8-9 nel Prescott)...
Inoltre sbagli sulla branch prediction unit...se avessimo 1 predizione giusta ogni 4 salti allora saremmo ancora all'alba dell'informatica ;)

Dreadnought

19-04-2005, 17:31

Sì che provoca stalli... Provoca stalli perchè il contenuto di EAX viene caricato all'interno dei registri interni della ALU...per caricare il contenuto del secondo shift deve essere terminato il primo...
Ok, sono un po' ruggine in questo tipo di calcoli, mi fido ;)

Mi pare ci fosse il register renaming per i casi come quello che ti ho postato, ma se mi dici così...

Il numero di stadi di execute non è legato al numero di unità di esecuzione intere...ma la numero di stadi interni di ogni unità di esecuzine... Ogni stadio è formato da una rete combinatoria avente in ingresso un registro e in uscita un registro (il registro di uscita è collegato allo stadio successivo)... La rete combinatoria offre come garanzia il completamento delle sue funzioni nei limiti imposti dal ciclo di clock (meno un intervallo di tempo dovuto all'assestamento dei segnali sui registri)...
Ma non ho detto che il numero di stadi di execute è uguale al numero di ALU/unità in generale, ho semplicemente detto, che il Prescott avrà una pipe che se stai facendo calcoli interi probabilmente avrà la possibilità di mettere in coda 3 istruzioni per ogni ALU nel peggiore dei casi, creando il minor numero di stalli.

Poi molto probabilmente se si utilizzano SSE, o altre unità la pipe guadagna qualche stadio in più, e da qua il fatto che la pipe dle prescott non è più un valore definito e preciso, ma da qualche parte trovi 31, da altre trovi 35-36 stadi e consideranto le EMT64 probabilmente arriva anche a qualcosina in più.

In teoria il P4 avrebbe potuto avere anche una sola ALU (ps ci sono due ALU veloci e una lenta destinata solo a certe istruzioni), ma avere sempre più di uno stadio di execute sulla pipeline intera (dovrebbero essere qualcosa come 8-9 nel Prescott)...
sicuramente, ma questo vuol dire infilare un buon numero di nop in più.

Inoltre sbagli sulla branch prediction unit...se avessimo 1 predizione giusta ogni 4 salti allora saremmo ancora all'alba dell'informatica ;)
Hai ragione, ho intepretato male questo dato :D
Probabilmente se ti impegni a tirare fuori codice riesci a far saltar fuori un salto predetto su 4, ma con codice normale è sbagliato.

http://www.xbitlabs.com/articles/cpu/display/prescott_5.html

So, if Northwood based processors boasted the average of 0.86 incorrect predictions for every 100 instructions, then the new Prescott boasts a lower value of 0.75 for every 100 instructions. In other words, we got 12% less incorrect branch predictions, which leads to fewer delays caused by the necessity to empty and refill the execution pipeline.

Ho inteso tipo che su 100 istruzioni di jump il 75% non erano, ma invece qua non c'è nessun dato singificativo, perchè su 100 istruzioni non dice quante sono di salto, avranno copiaincollato qualche press release intel :D

cionci

19-04-2005, 17:43

Non credo che abbiamo pubblicato la percentuale precisa...ma credo che siamo in un percentuale di salti predetti correttamente compresa fra l'85 e il 95%...

cdimauro

20-04-2005, 11:13

Quello che ho detto io è:
"i 90nm da soli non bastano per consumare meno, il consumo dipende da molti fattori e in particolare dal processo produttivo nel suo complesso, il prescott è un esempio del fatto che i 90nm non bastano da soli"

Fx dice:
"non è vero i consumi a 90nm scendono lo stesso"

Questo per me è errato, mentre tu hai appena detto il contrario.

Hai letto il thread dall'inizio o ti sei infognato sugli ultimi post? :D
Dovresti conoscermi ormai... ;) Se scrivo, poi, non è certo per dar fiato alle trombe... :p

Fx ha ragione, e la dimostrazione deriva dai seguenti fatti:

1) per Northwood e Banias Intel utilizza lo stesso processo produttivo (130nm);
2) per Prescott e Dothan Intel utilizza lo stesso processo produttivo (90nm);
3) Dothan è identico a Banias (a parte il raddoppio della cache L2), e consuma di meno;
4) Prescott consuma di più di Northwood;
5) Prescott con 2MB di cache L2 consuma poco più della versione con 1MB di cache.

Dal 3) si deduce che il solo cambio di processo produttivo ha permesso di ridurre i consumi dello STESSO core. L'unica variazione è semplicemente un raddoppio di cache (che sulla carta dovrebbe aumentare i consumi), ma nonostante ciò Dothan consuma comunque di meno.

Applicando lo stesso ragionamento, dal punto 4) si deduce che Prescott e Northwood DEVONO essere profondamente diversi; infatti il P4 ha subito lo stesso passaggio di processo produttivo fra Banias e Dothan, e similmente anche un raddoppio della cache (anche se come quantità inferiore: da 512KB a 1MB, mentre per Banias -> Dothan si è passati da 1MB a 2MB).

Dal punto 5) si deduce che un aumento della cache L2 per lo stesso core comporta uno scarso aumento del consumo del processore. Il nuovo core ha abilitato anche la tecnologia EM64T, ma ciò non influenza il consumo (a pieno carico: i nuovi core integrano delle tecnologie per variare dinamicamente voltaggio e moltiplicatore del processore in base all'utilizzo) se non viene utilizzata; d'altra parte entrambi i core Prescott l'avevano integrata e il nuovo l'ha semplicementa abilitata.

Le conclusioni mi sembrano scontate: non è l'aumento della cache L2 ad aver comportato un così drastico aumento del consumo del P4, ma delle profonde modifiche che sono avvenute nella parte "attiva" (ALU, FPU, buffer, ecc.) del core.
Quindi non sono certo delle differenze nel processo produttivo a fare la differenza, come dicevi tu. Tra l'altro il processo produttivo è lo stesso fra i due tipi di CPU.
Che poi Fx ha tirato fuori la storia dei transistor differenti peraltro senza nemmeno considerare che i transistor in una CPU attivi contemporaneamente non sono nemmeno il 30% del core
Dove l'hai preso questo dato?
e che la cache ha consumi alla lunga trascurabili;
Appunto. Questo avrebbe dovuto farti riflettere: col passaggio allo stesso processo produttivo, i consumi del Prescott sono troppo elevati.
considerazione tra l'altro da inlcudere nel discorso altrimenti qualsiasi ragionamento non avrebbe senso.
Io ho semplicemente detto che se le spcifiche di una CPU danno x Vcc di tensione e y Imax assorbiti il consumo è Imax*Vcc, morta lì, indipendentemente da quanti transistor metti.
Banale. Ma tu hai detto anche altro e soprattutto hai ignorato le considerazioni che ho esposto sopra, che riguardano le cause di tutto ciò.
La scusa dei transistor in più non basta per dire "eh ma il prescott consuma di più perchè ha più transistor", primo perchè le istruzioni sono eseguite poche alla volta (principalmente una alla volta) più altri stadi singolarmente per branch prediction e pre-load/pre-store. Quindi avendo il P4 Northwood le Stesse unità logiche del Prescott, anche se la pipe è il 50% più lunga, questo non giustifica i consumi che sono di quasi il 100% maggiori di quanto si puo' ottenere con lo stesso processo produttivo in altri casi (vedi AMD)
Infatti non è così: Northwood e Prescott non hanno le stesse unità logiche. Ad esempio prescott è stato "potenziato" per quanto riguarda l'FPU, ed è in grado di spedire fino a 4 istruzioni per ciclo di clock alle unità di esecuzione (Northwood arriva a un massimo di 3).
Questo spiega perchè intel ha già fatto più di 4 stepping della stessa CPU, tutti per cercare di ridurre i consumi.
Ha fatto la stessa cosa di AMD col "Toro": era il primo processore a 130nm (il Palomino è stato l'ultimo a 180nm), e consumava abbastanza; AMD ha risolto i problemi di consumo aggiungendo un layer.
Infatti il core di per sé è rimasto sostanzialmente lo stesso, come lo stesso è rimasto quello delle varie versioni del Prescott.
beh oddio, guarda AMD, si è alleata con IBM per produrre chip con tecnologia SOI e StrainedSilicon, perchè Intel ad esempio non si è alleata con TMSC o altri?
Perché Intel è abbastanza grande (e presuntuosa) da poter far tutto da sé.
Cosa studi da una foto di un core?
Puoi mischiare le unità spazialmente per ridurre lo skew e per omogeneizzare l'alimentazione, ma mantenendo perfettamente come prima un core. La topologia negli schemi elettronici te lo garantisce.

Al massimo puoi studiare i consumi da un grafico di una pipeline, se non fosse, che come i milioni di transistor sono sempre valori da prendere con le pinze, visto che all'80% dei casi sono solo schemi informativi pubblicati nelle press release dei vari IDF.
Non è così. I link che ti ha passato cionci li hai aperti? Te li sei studiati? Mi sembra di no, perché altrimenti capiresti che la foto è soltanto il punto di partenza per capire COSA è cambiato di un processore.
Intel usa anche Low-K nei prescott, peccato che nè lo strained silicon (per altro la metodologia per avere silicio stirato usata da intel è meno efficiente ad esempio di quello usato da IBM/AMD per i Power5 e gli A64 90nm) nè il Low-K sono bastati a ridurre i leakage dei gate del prescott.

I 160W di picco richiesti da un P4EE 3.6GHz ne sono la comprova, sono un consumo a dir poco stratosferico, e se nelle specifiche ci sono 114A di IccMax con tanto di controller che calcola un nuovo Vcc a seconda degli ampere assorbiti un motivo c'è, nessuno si mette a fare un nuovo stepping di un chip a gratis.
I problemi di leakage che ha il Prescott sono gli stessi che ha il Dothan, visto che il processo produttivo è lo stesso, ma le differenze a livello di consumo derivano dalle profonde differenze fra i due core: frequenza e voltaggio di esercizio, transistor impiegati nelle parti "attive" (vedi sopra).
Articolo tanto per gradire uscito ai tempi dell'A64 90nm dopo che si è saputo dei consumi ben al disotto delle aspettative:
http://www.penstarsys.com/editor/tech/cpu/amd/str_sil/index.html
Confronti col P4 non se ne possono fare, perché il processo produttivo di AMD non lo è stesso di quello di Intel. Poi l'Athlon64 ha molte più similitudini col Dothan che col P4. Guarda caso...
Io undici stadi in più li vedo solo come "abbiamo lo skew troppo alto a 4GHz, forse megio ridurre un po' le dimensini degli stage se non vogliamo consumare 200W a CPU".
Infatti da Northwood a Prescott Intel non si è limitata a "spalmare" il lavoro su 31 stadi anziché 20: ha modificato parecchie altre cose...
Qualsiasi normale teoria sulle CPU tende a sconsigliare di salire oltre i 7-8 stadi con architetture RISC e i 10-12 stadi con architetture CISC: pena la riduzione pesante dell'IPC. (appunto il prescott ha un IPC nelle condizioni peggiori di 0.4, contro lo 0.5 del northwood)
Non so tu dove abbia letto di queste teorie (hai qualche link / documento in merito?), ma le cose non stanno affatto così.
La famiglia Power di IBM ha una pipeline la cui lunghezza varia da un minimo di 16 a un massimo di 26 stadi, e stiamo parlando di processori RISC.
Quanto ai CISC, Banias / Dothan hanno una pipeline più lunga di quella del P3 da cui derivano (circolano voci che abbiano 16 stadi di pipeline), e un IPC elevato.

La lunghezza della pipeline è UN elemento, sicuramente molto importante, che influenza l'IPC, ma non è certo l'unico. Ad esempio, fra le varie innovazioni introdotte, Dothan ha una politica di "micro-op fusion" che permette di "accorpare" due microistruzioni in una (quando possibile, chiaramente), che permette di aumentare "l'efficienza" / IPC del processore.
ovvio che le teorie sono sempre in evoluzione, ma... Il prescott ha 31 stadi nella pipe, vedi un po' tu... a me pare una scelta forzata più che una scelta architetturiale, tantovero che il prescott è stato posticipato parecchi mesi e in più la notizia dell'aumento degli stadi è stata abbastanza tardiva.
La scelta dei 31 stadi di pipeline è stata forzata, ma nell'ottica del raggiungimento di frequenze elevate. Infatti per bilanciare la perdita di prestazione dovuto al considerevole aumento del numero di stadi, Intel ha contemporaneamente migliorato l'efficienza del processore con una sezione di branch prediction migliore, aumentando il numero massimo di istruzioni spedite alle unità di esecuzione, migliorando la sezione FPU, aumentando la cache L2, aumentando i buffer di scrittura, ecc. ecc.

Quindi, come vedi, esistono diversi modi per migliorare l'efficienza del processore: l'abbassamento degli stadi di pipeline non è che una variabile...
O meno, se intel ha scelto di fare 31 stadi per scelta di progettazione il reparto ingegneristico ha fatto una capellata non da poco, preferisco pensare che il reparto marketing abbia detto al reparto progettazione "vogliamo più MHz" e questi si sono arrangiati come han portuto.
Esatto, ma vedi sopra: non è che aumentato gli stadi a 31 e amen.

cdimauro

20-04-2005, 11:21

http://en.wikipedia.org/wiki/Out_of_Order_execution#Out-of-Order_Processors

Qui parlano dell'OutOfOrder execution, in pratica puo' eseguire delle istruzioni prima di altre, perchè le ottimizza in una coda che eviti più stalli possibili, pero' comunque sono eseguite una per volta.

Penso sia un riordino della pipeline, più che una parallelizzazione.
Infatti sono due cose completamente diverse.
Poi da quanto ricordi dal penitum3 le istruzioni SSE possono essere abbinate ai registri dedicati (penso siano i registri MMX)
No, con le SSE Intel ha introdotto un insieme di registri dedicati sui quali operano.
per eseguire operazioni vettoriali che restituiscono 4 risultati, ma questo solo in alcuni casi (3d, e trasformazioni audio-video).
Ovvio: le SSE si usano soltanto se il problema da risolvere permette di essere "parallelizzato".
Pero' sinceramente non trovo informazioni sul fatto che gli stage di "fetch" e "store" della pipeline possano mettere in ram (e prendere dalla ram) il risultato di tutti gli elementi dl vettore tutti in una volta o singolarmente (quindi sprecando 3 cicli).
Questo fa parte della logica di load/store del processore: se un'istruzione richiede un dato a 128 bit, la sua esecuzione rimarrà sospesa finché tutti e 16 i byte che gli interessano saranno stati caricati.

cdimauro

20-04-2005, 11:22

Mancano le altre 3 tipologie, considerando che il northwood ha le stesse unità logiche del prescott, con qualche modifica.
Non è affatto così, come ti ho già detto: documentati.

cdimauro

20-04-2005, 11:29

Le dipendenze provocano stalli, il mio caso non mi sembra provocasse stalli, perchè è eseguito linearmente shiftando a destra i bit del registro eax senza aspettare che il risultato faccia 'commit'
Non è così: la CPU non ha una conoscenza così raffinata di ciò che sta facendo da permetterle di fare valutazioni come queste. ;)

Per la CPU hai eseguito un'istruzione che agisce su un registro, e lo modifica; successivamente ne esegui un'altra (anche se è la stessa) che ha bisogno di questo risultato, per cui salta fuori una dipendenza che ne blocca l'esecuzione nella pipeline.
Add [eax],1
Add [eax],2

*con [eax] indirizzo della ram tanto per precissare la notazione nel caso non ci capiamo.

Provoca uno stallo, perchè prima di eseguire [eax]+2 bisogna aspettare la fine dell'operazione [eax]+1.
Esattamente come col caso degli shift...
O anche

Sqrt eax,1
Add eax,2

dovrebbe provocare uno stallo in quanto Sqrt non so se impiega 1 ciclo per essere eseguita.
Non impiega nessun ciclo perché non esiste quest'istruzione... :D In ogni caso, se esistesse, richiederebbe un bel po' di cicli di clock, data la complessità dell'operazione...
Concordo, avendo il P4 3 ALU potrebbe avere 3 stadi di execute che in questo caso potrebbero essere pieni 2 su 3.
Tutti i P4 hanno due ALU.
Quindi il fatto che i P4 abbiano IPC minore di 1 deve proprio essere per colpa dei jump non predetti (83% nel northwood e 75% nel prescott) che fanno svuotare la pipeline.
Esatto. Ma l'IPC che hai riporto prima mi sembra troppo basso. Penso che sia ragionevole supporre che stia intorno al valore 1 (poco più, penso).

cdimauro

20-04-2005, 11:35

Mi pare ci fosse il register renaming per i casi come quello che ti ho postato, ma se mi dici così...
C'è, ma non fa certo miracoli. Poi hai scelto l'esempio peggiore in assoluto: gli shift sono le operazioni più lente (a parte moltiplicazioni e divisione) per il P4, e che tra l'altro possono essere eseguite solamente su una delle due ALU, e una per volta... :p

Fx

20-04-2005, 12:11

ho dimenticato la f :) e sarebbe dall'8087
cque si capiva eh...

ai tempi dell'8087 non potevi però usare un add (cpu) e un fqualcosa (fpu) di seguito così in scioltezza... mi sembra fossero problemi di sincronizzazione tra cpu e fpu, però non ricordo bene (mi ricordo solo che quando avevo provato ad usare la fpu c'erano delle regole particolari)... sinceramente non so se lo puoi fare manco oggi

Pero' continuo a dire, stesse unità stessi transistor attivi, e quindi i transistor in più influiscono poco. O comunque non così tanto da far consumare un core il doppio rispetto a quanto uno si aspetta.

Per darti una idea, nelle due ALU dual pumped del Prescott sono state aggiunte delle unità per fare SHL e SHR, ma questo non vuol dire che quando fai una ADD/MUL/SUB questi transistor siano attivi, anzi...
Eppure potrebbero essere 1Milione di transistor in più, ma il consumo non cambia.

se parti dal presupposto che il prescott abbia più del doppio di transistor (cache esclusa) solo perchè ha delle unità in più non usate, si; inutile dire che non è l'emt64 che frega 40 milioni di transistor... il punto è che il prescott ha DELLE UNITA' MOLTO PIU' ELABORATE, quindi usando le stesse unità mette in moto PIU' TRANSISTOR e quindi CONSUMA DI PIU' (oltre al fatto che quei transistor CONSUMANO ANCHE SE NON STANNO FACENDO NIENTE, basta siano alimentati... la cosiddetta "static power")... è cosa risaputa: nel prescott intel per compensare l'inefficienza derivante dal passaggio a 31 stadi di pipeline ha dovuto modificare profondamente il resto... ti riporto una sintesi:

- improved both the static and the dynamic (decision based on previous encounters) branch prediction

- Better Hyperthreading: As one might expect, doubling the L2 cache and the L1 data cache helps Hyperthreading performance. Many of the architectural tweaks hardly improve single threaded performance but are important when Prescott's two logical processors handle two threads:
# 64K address aliasing is not a problem anymore, and has moved to a 4M aliasing which is extremely unlikely to happen (more precision in partial address match)
# Store Buffers have been increased from 24 to 32
# Load Request Buffers have doubled from 4 to 8
# Write Combining Buffers increased from 6 to 8
# Floating point schedulers (x87/SSE/SSE2/SSE3) now have 4 more entries in the queue to find more parallelism
# Additional WC Buffers. Instead of sending small pieces of data to the AGP video card, these pieces of data are stored together in buffers, and sent through in one big burst. This helps to preserve FSB bandwidth as the bandwidth of the FSB is more efficiently used (less overhead from one big burst than from many small ones, fewer bus turnarounds, etc.)
# Last but not least are two new instructions: Monitor and mWait. These instructions are quite interesting as they will help to improve the processor's efficiency, both in terms of performance and power consumption, when executing more than one thread.

- General IPC Improvements
* Improved Imul latency: Northwood/Willamette do their integer multiplications on the FPU, and the high latency is a result of routing the data between integer and FP datapaths. Prescott has a dedicated integer multiplier.
* Prescott New Instructions (SSE-3)
* More flexible trace cache
* Better software prefetch
* Improved and more intelligent hardware prefetch

spero che un giorno o l'altro ti leverai da addosso la convinzione che il prescott abbia più del doppio di transistor, ma quelli che ha in più non sono usati

cdimauro: un grazie anche da parte mia per la puntuale risposta =)

cdimauro

20-04-2005, 12:41

Figurati: a me interessava soltanto riportare come stavano realmente i fatti, e questo coincide :D con quanto hai scritto tu... ;)

P.S. Non ricordavo che Prescott avesse anche un moltiplicatore dedicato per gli interi: è una parte che richiede parecchi transistor (assetati :D) per essere implementata... ;)

P.P.S. Quel giochetto con sqrt/add e i registri della CPU non funzionerebbe neppure avendo a disposizione una FPU moderna: proprio non esiste che l'FPU x87 faccia elaborazioni usando i registri GPR... :p

Dreadnought

20-04-2005, 13:33

Figurati: a me interessava soltanto riportare come stavano realmente i fatti, e questo coincide :D con quanto hai scritto tu... ;)
Quindi tornando al discorso da cui è scaturito il thread è che a 90nm senza strained silicon, senza SOI e senza Low-K si consuma comunque meno che a 130nm?

P.S. Non ricordavo che Prescott avesse anche un moltiplicatore dedicato per gli interi: è una parte che richiede parecchi transistor (assetati :D) per essere implementata... ;)
Scusa ma ci sono 8 tipi di moltiplicatori integrabili in una CPU, tutti molto differenti in precisione velocità e complessità (e quindi consumi), mi spieghi ora come fai a sapere quale tipo sia?

P.P.S. Quel giochetto con sqrt/add e i registri della CPU non funzionerebbe neppure avendo a disposizione una FPU moderna: proprio non esiste che l'FPU x87 faccia elaborazioni usando i registri GPR... :p
Il concetto era chiaro :rolleyes: inutile puntualizzare se tanto non era quello che volevo esprimere, se vuoi posso mettertela giù così:

imul ebx, ebx, 24453
add ebx, 5

Che poi sinceramente puntualizzare su queste cose denota un po' di incapacità nel reggere il discorso...

spero che un giorno o l'altro ti leverai da addosso la convinzione che il prescott abbia più del doppio di transistor, ma quelli che ha in più non sono usati
Più che altro hai appena scritto tu quali sono le modifiche al core del prescott però non hai fatto nessuna ipotesi su quanto possano influire nei consumi, il che è come dire tutto e niente.

Io ti ho appena fatto un esempio: nelle due ALU netburst sono state aggiunte due unità per effettuare gli shiftL e shiftR, ma ti pare possibile che in quelle unità circoli corrente durante un JMP, un ADD o altro? (e non è una domanda retorica, ti sto chiedendo una opinione)

cionci

20-04-2005, 14:38

Dreadnought, attento alla moltiplicazione...quella sembra più per un assembler mips ;)

Dreadnought

20-04-2005, 15:08

1) per Northwood e Banias Intel utilizza lo stesso processo produttivo (130nm);
2) per Prescott e Dothan Intel utilizza lo stesso processo produttivo (90nm);
3) Dothan è identico a Banias (a parte il raddoppio della cache L2), e consuma di meno;
4) Prescott consuma di più di Northwood;
5) Prescott con 2MB di cache L2 consuma poco più della versione con 1MB di cache.

Dal 3) si deduce che il solo cambio di processo produttivo ha permesso di ridurre i consumi dello STESSO core. L'unica variazione è semplicemente un raddoppio di cache (che sulla carta dovrebbe aumentare i consumi), ma nonostante ciò Dothan consuma comunque di meno.

[1]A parte che qui c'era chi affermava che il dothan consumasse più del banias... :rolleyes:
Cque come ho già scritto (ma non hai detto che leggevi i thread? ;) ) il prescott e il dothan usano comunque:
- Strained silicon per diminuire la resistività e velocizzare la commutazione
- il Low-K per il medesimo uso dell'ST
http://nepp.nasa.gov/index_nasa.cfm/934/

Visto che il dothan consuma in ogni caso POCO meno del banias, non è difficile immaginare che senza St e Low-K il Vcc sarebbe stato un bel 10-15% più alto a parità di clock, con un aumento dei consumi attorno al 20-30%. Portando il dothan a consumi superiori o pari al banias.

Applicando lo stesso ragionamento, dal punto 4) si deduce che Prescott e Northwood DEVONO essere profondamente diversi; infatti il P4 ha subito lo stesso passaggio di processo produttivo fra Banias e Dothan, e similmente anche un raddoppio della cache (anche se come quantità inferiore: da 512KB a 1MB, mentre per Banias -> Dothan si è passati da 1MB a 2MB).
[2]dimentichi che il leakage aumenta con l'aumentare del clock e così le capacità parassite che a 90nm sono molto più significative, soprattutto per la miniaturizzazione che c'è nei core a 90nm (vedi prescott che con il doppio di transistor sta ugualmente in meno superficia del northwood)

Dal punto 5) si deduce che un aumento della cache L2 per lo stesso core comporta uno scarso aumento del consumo del processore. Il nuovo core ha abilitato anche la tecnologia EM64T, ma ciò non influenza il consumo (a pieno carico: i nuovi core integrano delle tecnologie per variare dinamicamente voltaggio e moltiplicatore del processore in base all'utilizzo) se non viene utilizzata; d'altra parte entrambi i core Prescott l'avevano integrata e il nuovo l'ha semplicementa abilitata.
[3]Appunto è quello che scrivo da un po' mi pare... in una CPU non ci sono mai tutti i transistor attivi, altrimenti la temperatura in IDLE e in BURN sarebbe uguale, e così i consumi.
Per di più non ho detto che ca cache non consuma, semplicemente che ha consumi trascurabili.
Anche questo mi pare di averlo scritto più volte.

Le conclusioni mi sembrano scontate: non è l'aumento della cache L2 ad aver comportato un così drastico aumento del consumo del P4, ma delle profonde modifiche che sono avvenute nella parte "attiva" (ALU, FPU, buffer, ecc.) del core.
Quindi non sono certo delle differenze nel processo produttivo a fare la differenza, come dicevi tu. Tra l'altro il processo produttivo è lo stesso fra i due tipi di CPU.
[4]In realtà qualcuno all'inizi ha semplicemente detto "il P4 consuma di più perchè ha più transistor" e "il p4 consuma di più perchè ha un core diverso" che da quello che stai scrivendo sono affermazioni perfettamente opinabili.

Dove l'hai preso questo dato?
Da una lezione di calcolatori elettronici circa 4 anni fa, mi rimase impressa perchè uno studente aveva tirato su una interessante discussione (su chip dedicati e cpu general purpose) con l'esercitatore che era un ing. che lavorava in ST. (la frase era tipo "in una CPU moderna come un Pentium4 o un Athlon non troverete mai più del 30% dei transistor attivi nello stesso istante")
Che poi è un dato perfettamente plausibile, vista la differenza di consumi in Idle e Burn di una CPU, oppure ragionando sul consumo di un singolo transistor e facendo un calcolo, anche se in questo caso i tempi di commutazione possono farti variare la stima di molto.

Quindi è anche poco plausibile che le percentuali di transistor attivi nel prescott sia simile a quelle in un northwood, proprio perchè ha subito delle modifiche finalizzate al velocizzare delle singole operazioni.

Appunto. Questo avrebbe dovuto farti riflettere: col passaggio allo stesso processo produttivo, i consumi del Prescott sono troppo elevati.
[5]In realtà sarebbe bastato dire che i 90nm senza nessuna tecnologia di contorno non bastano a diminuire i consumi.

Banale. Ma tu hai detto anche altro e soprattutto hai ignorato le considerazioni che ho esposto sopra, che riguardano le cause di tutto ciò.

Quote mio:
In realtà se guardiamo al core nudo e crudo senza cache (che consuma poco e possiamo escluderla) abbiamo circa:

31M di transistor per il northwood
75M di transistor per il prescott
Cos'è che non consideravo?

Infatti non è così: Northwood e Prescott non hanno le stesse unità logiche. Ad esempio prescott è stato "potenziato" per quanto riguarda l'FPU, ed è in grado di spedire fino a 4 istruzioni per ciclo di clock alle unità di esecuzione (Northwood arriva a un massimo di 3).
[6]
- Ho ben detto che ci sono delle differenze nella gestione della pipe (avendo anche 30 e passa stadi invece che 20), ma quanto queste influiscono nei consumi? Non l'hai ancora detto.
- Come hai detto tu, puoi aggiungere transistor per delle unità che poi non sono utilizzate sempre, vedi EMT64, vedi IMUL aggiunto nella ALU complessa, vedi ShiftUnits aggiunte nelle ALU netburst. Tanti transistor in più che non fanno certo aumentare i consumi, anzi, avendo unità dedicate li fan diminuire O vorrai mica dirmi che fare una moltiplicazione intera interpellando la FPU consumi di meno che aggiungendo una IMUL alla ALU... :)
- Ci sono anche le SSE3, ma quanto queste sono utilizzate?

Ha fatto la stessa cosa di AMD col "Toro": era il primo processore a 130nm (il Palomino è stato l'ultimo a 180nm), e consumava abbastanza; AMD ha risolto i problemi di consumo aggiungendo un layer.
Infatti il core di per sé è rimasto sostanzialmente lo stesso, come lo stesso è rimasto quello delle varie versioni del Prescott.
[7]Non sono d'accordo, AMD ha aggiunto nel Thoro-B 1 layer (passando da 8 a 9) per salire di clock, intel ha invece creato vari stepping soprattutto per consumare mediamente meno, abilitando appunto il controllo delle tensioni in base agli ampere assorbiti e altro.
IMHO le finalità sono differenti.

Non è così. I link che ti ha passato cionci li hai aperti? Te li sei studiati? Mi sembra di no, perché altrimenti capiresti che la foto è soltanto il punto di partenza per capire COSA è cambiato di un processore.
Si è un sito interessante e mi sono anche guardato le foto linkate tempo fa sui forum di anandtech. Se noti nel Prescott ci sono alcune zone che non sono state identificate, tanto per dirne una.
Inoltre hai notato che quelle foto sono del 2003? In quel periodo non si sapeva nemmeno se il prescott avesse o no le istruzioni a 64bit, erano solo ipotesi.

Sinceramente parlando avrei preferito il flow chart delle varie unità, tipo questo: http://www.xbitlabs.com/images/cpu/prescott/diagram.jpg
pero' anche qua siamo troppo a grandi linee, ci vorrebbe qualcosa di più preciso.

I problemi di leakage che ha il Prescott sono gli stessi che ha il Dothan, visto che il processo produttivo è lo stesso, ma le differenze a livello di consumo derivano dalle profonde differenze fra i due core: frequenza e voltaggio di esercizio, transistor impiegati nelle parti "attive" (vedi sopra).
[8]Non mi viene da dirti che "stai sbagliando" ma piuttosto che non consideri che il leakage dipende dal clock.
http://arstechnica.com/articles/paedia/cpu/prescott.ars/2

Confronti col P4 non se ne possono fare, perché il processo produttivo di AMD non lo è stesso di quello di Intel. Poi l'Athlon64 ha molte più similitudini col Dothan che col P4. Guarda caso...
Sono perfettamente d'accordo con te, ma rispondi a questa domanda: secondo te un prescott prodotto con la tecnologia dell'A64 consumerebbe uguale?

Infatti da Northwood a Prescott Intel non si è limitata a "spalmare" il lavoro su 31 stadi anziché 20: ha modificato parecchie altre cose...
Vedi punto 6

Non so tu dove abbia letto di queste teorie (hai qualche link / documento in merito?), ma le cose non stanno affatto così.
La famiglia Power di IBM ha una pipeline la cui lunghezza varia da un minimo di 16 a un massimo di 26 stadi, e stiamo parlando di processori RISC.
Quanto ai CISC, Banias / Dothan hanno una pipeline più lunga di quella del P3 da cui derivano (circolano voci che abbiano 16 stadi di pipeline), e un IPC elevato.
Non ho link però se vuoi ho un libro, l'hennesy-patterson, cap 6. Ci sono varie versioni, l'ultima è aggiornata al 2000, un po' datata ma non ci sono certo scritte stronzate.

La lunghezza della pipeline è UN elemento, sicuramente molto importante, che influenza l'IPC, ma non è certo l'unico. Ad esempio, fra le varie innovazioni introdotte, Dothan ha una politica di "micro-op fusion" che permette di "accorpare" due microistruzioni in una (quando possibile, chiaramente), che permette di aumentare "l'efficienza" / IPC del processore.
Verissimo, anche le SSE-2 fanno lo stesso, ma appunto per quello che le hanno introdotte: un IPC alto non ti serve per usare office o per navigare, piuttosto per encodare o giocare, e visto che l'IPC di un P4EE nel benchmark Drystone SSE-2 è 3,6 (le SSE-2 dovrebbero fare 8 operazioni a 16 bit in una volta sul singolo registro MMX) puoi immaginare cosa sia l'IPC senza.

*dall'altro post*
Esatto. Ma l'IPC che hai riporto prima mi sembra troppo basso. Penso che sia ragionevole supporre che stia intorno al valore 1 (poco più, penso).
Se ti interessa posso sempre dare un occhio.

Cque è facile calcolare l'IPC basta fare un programma in assembler che fa un ciclo ripetuto qualche miliardo di volte e calcolare il tempo impiegato, si potrebbe fare qualche prova, però serve un sistema operativo tipo DOS e da qui mi viene da pensare che è più la spesa che l'impresa :/

La scelta dei 31 stadi di pipeline è stata forzata, ma nell'ottica del raggiungimento di frequenze elevate. Infatti per bilanciare la perdita di prestazione dovuto al considerevole aumento del numero di stadi, Intel ha contemporaneamente migliorato l'efficienza del processore con una sezione di branch prediction migliore, aumentando il numero massimo di istruzioni spedite alle unità di esecuzione, migliorando la sezione FPU, aumentando la cache L2, aumentando i buffer di scrittura, ecc. ecc.

Quindi, come vedi, esistono diversi modi per migliorare l'efficienza del processore: l'abbassamento degli stadi di pipeline non è che una variabile...

Esatto, ma vedi sopra: non è che aumentato gli stadi a 31 e amen.
Su questo hai ragione: ho sicuramente sbagliato le mie ipotesi visto che intel vuole puntare ancora sulla tecnologia netburst.

Dreadnought

20-04-2005, 15:11

Dreadnought, attento alla moltiplicazione...quella sembra più per un assembler mips ;)
avete rotto i maroni però :D :D :D :D

...è la sintassi MS-VisualC-6 :p
http://www.codecomments.com/archive258-2005-1-370878.html

Stavolta l'ho cercata su google! :tie: :asd:

cionci

20-04-2005, 15:17

avete rotto i maroni però :D :D :D :D
Boh...io è la prima volta che vedo una mul con tre parametri...

Dreadnought

20-04-2005, 15:27

Boh...io è la prima volta che vedo una mul con tre parametri...
sinceramente anche io :D

cionci

20-04-2005, 15:33

sinceramente anche io :D
Ho guardato sul manuale Intel e c'è :eek: ed è anche molto utile...
Moltiplica il secondo parametro per il terzo ed il risultato adeguatametne troncato viene messo nel primo...

cionci

20-04-2005, 15:44

Mi pare ci fosse il register renaming per i casi come quello che ti ho postato, ma se mi dici così...
Stavo pensando a queste tue parole... Il register renaming non può proprio intervenire (o meglio gli viene assegnato comunque lo stesso registro) in caso di due o più shift consecutivi sullo stesso registro... Uno shift è dipendendente sempre dal risultato di quello precedente (e non dal valore iniziale contenuto nel registro)...

Fx

20-04-2005, 16:34

io non so perchè ma le peggiori discussioni che ho avuto in campo d'informatica sono proprio con altra gente che ha studiato i concetti all'università, e quindi dato che lei ha studiato ne deve sapere più del resto del mondo anche se poi va contro tutta una serie di EVIDENZE che ignora bellamente altrimenti i castelli di carta non rimangono in piedi.

vado velocemente:

1) non dicevo che consumava di più, dicevo che a parità di clock alcuni dothan hanno un TDP maggiore dei banias, ed è un po' duretta smentirlo (a meno che non vai in intel a cambiare i datasheet)... volevo sapere come mi spiegavi questo
2) ancora con 'sto leakage! SPIEGAMI PERCHE' DA 3.2 A 3.8 A PARITA' DI CORE I CONSUMI (quelli RILEVATI SUL CAMPO, non il tdp o il consumo massimo dichiarato da intel) CRESCONO LINEARMENTE, POI TORNAMI A DIRE CHE IL LEAKAGE E' DIPENDENTE DALLA FREQUENZA DI CLOCK
3) si, la cache hai smesso di considerarla solo dopo che te l'ho fatto notare io... basta che fai page up e vedi subito chi è il primo che ha tirato fuori la questione qualitativa dei transistor, e guarda invece chi parla di pentium 4 EE northwood che "pur avendo più transistor" quando in realtà sono tutta cache...
4) ma dir balle non è da ban? quoto il mio primo post:

come correttamente diceva zerothehero, sono cambiate anche altre cose. un processore prodotto a 90 nm ovviamente consuma (e quindi dissipa) decisamente di meno rispetto allo stesso processore a 130 nm; è altrettanto ovvio che se il processore non è lo stesso (prescott - northwood) questa regola non vale :D

il problema è che le cpu a 90 nm consumano di meno ma non quanto di meno ci si aspettava. è questo che ha incasinato tutto.

5) le percentuali di transistor attivi mi sa che considerava anche la cache, e comunque anche se non la considera il fatto che nel prescott ci siano meno transistor attivi nello stesso momento del northwood è una triste scappatoia per puntellare il castello di carte ma non ha nessun fondamento e tantomeno non ha nessun senso... il dato del 30% mi sembra attendibile ma non mi sembra attendibile che nel northwood sia 30 e nel prescott 12 (per compensare il numero di transistor in più, dovrebbe esser 12)... se cambia, può cambiare di pochi punti percentuali... altrimenti in poche generazione di core avremmo un estinguersi dei transistor attivi? =) ripeto, basta illazioni: la realtà è che il prescott ha più del doppio di transistor e consuma un po' di più, fai un semplice calcolo e scoprirai che la tecnologia a 90 nm ha OVVIAMENTE consumi più parchi di quella a 130. e finiscila lì al posto che scrivere papiri su papiri per difendere l'indifendibile... sei veramente pedante... ma tu in vita tua hai mai detto: "mi sono sbagliato"?

sul fatto che consideravi il numero di transistor del core senza cache, ripeto il punto 3:

3) si, la cache hai smesso di considerarla solo dopo che te l'ho fatto notare io... basta che fai page up e vedi subito chi è il primo che ha tirato fuori la questione qualitativa dei transistor, e guarda invece chi parla di pentium 4 EE northwood che "pur avendo più transistor" quando in realtà sono tutta cache...

6) ti spiace leggere anche ciò che ho riportato esser cambiato nel prescott dal northwood? vai a considerare UNICAMENTE ALCUNE COSE, e IGNORI DELIBERATAMENTE LE ALTRE che sai benissimo che aumentano eccome i consumi... a partire dal branch prediction in giù...

8) ok ignorare bellamente i valori riscontrati sul campo, dove viene fuori che i watt dissipati dal prescott crescono linearmente con la frequenza (la piccola discrepanza può essere ampiamente giustificata dal fatto che se lavora a temperature superiori consuma anche di più), ma non saper manco leggere ciò che sta scritto nei link che si riporta è grave...

First, as individual transistors get smaller they also tend to leak more, though semiconductor makers have a variety of tricks for counteracting this tendency.

questo è perfettamente in sintonia con i dati rilevati sul campo... poi tu vai avanti con le tue convinzioni, hai studiato, hai ragione te...

Dreadnought

20-04-2005, 16:44

Stavo pensando a queste tue parole... Il register renaming non può proprio intervenire (o meglio gli viene assegnato comunque lo stesso registro) in caso di due o più shift consecutivi sullo stesso registro... Uno shift è dipendendente sempre dal risultato di quello precedente (e non dal valore iniziale contenuto nel registro)...
Vero, adesso che me lo spieghi così ho capito.

Dreadnought

20-04-2005, 17:37

1) non dicevo che consumava di più, dicevo che a parità di clock alcuni dothan hanno un TDP maggiore dei banias, ed è un po' duretta smentirlo (a meno che non vai in intel a cambiare i datasheet)... volevo sapere come mi spiegavi questo
Ok hai ragione, non ci siamo intesi, in effetti hai insisito sul TDP, ma io il TDP non l'ho mai considerato.

2) ancora con 'sto leakage! SPIEGAMI PERCHE' DA 3.2 A 3.8 A PARITA' DI CORE I CONSUMI (quelli RILEVATI SUL CAMPO, non il tdp o il consumo massimo dichiarato da intel) CRESCONO LINEARMENTE, POI TORNAMI A DIRE CHE IL LEAKAGE E' DIPENDENTE DALLA FREQUENZA DI CLOCK
Perchè il leakage dipende dalla C e dalla L del transistor, e fanno aumentare i Watt dissipati al crescere della frequenza

3) si, la cache hai smesso di considerarla solo dopo che te l'ho fatto notare io... basta che fai page up e vedi subito chi è il primo che ha tirato fuori la questione qualitativa dei transistor, e guarda invece chi parla di pentium 4 EE northwood che "pur avendo più transistor" quando in realtà sono tutta cache...
Il problema è che dai l'impressione di scrivere senza sapere quello che scrivi, poi fai "tuoi" dei concetti che non aveiv espresso in precedenza.

4) ma dir balle non è da ban? quoto il mio primo post:
il problema è che le cpu a 90 nm consumano di meno ma non quanto di meno ci si aspettava. è questo che ha incasinato tutto.

Infatti quello che quoti è errato.

Intel che avrà prodotto i primi sample dei core prescott nel 2000-2001 [stando alle tempistiche di produzione delle CPU che dall'inizio alla fine di un progetto durano dai 5 ai 10 anni), ha ricercato metodi come strained silicon e materiali come i Low-K per portare i consumi dei 90nm sotto a quelli dei 130nm. Che è quello che sto cercando di dire dall'inizio di questo topic, ma che evidentemente ti entra daun orecchio e ti esce dall'altro :D

5) le percentuali di transistor attivi mi sa che considerava anche la cache, e comunque anche se non la considera il fatto che nel prescott ci siano meno transistor attivi nello stesso momento del northwood è una triste scappatoia per puntellare il castello di carte ma non ha nessun fondamento e tantomeno non ha nessun senso... il dato del 30% mi sembra attendibile ma non mi sembra attendibile che nel northwood sia 30 e nel prescott 12 (per compensare il numero di transistor in più, dovrebbe esser 12)... se cambia, può cambiare di pochi punti percentuali... altrimenti in poche generazione di core avremmo un estinguersi dei transistor attivi? =) ripeto,
Sono d'accordo, ma non mi pare atrettanto normale che il rapporto sia direttamente proporzionale al numero di transistor, del tipo:
- nel northwood (55mtrans) il 30% sono 16milioni
- nel prescott (125mtrans) il 30% sono 37milioni
se guardiamo solo ai core
- nel northwood (31mtrans) il 30% sono 10milioni
- nel prescott (75mtrans) il 30% sono 21milioni

Non penso proprio che nel prescott si arrivi a così tanto, anche perchè
1) la cache del prescott ha latenze più elevate che nel northwood e quindi questo implica che la cache viene indirizzata mediamente qualcosina di meno a parità di tempo.
2) i miglioramenti nell'HT, nel Branch Prediction e l'allungamento della pipe portano si a tanti transistor in più, ma non penso che sia un aumento proporzionale all'aumento di transistor da North a Prescott.
Inoltre l'HT non è migliorato aggungendo transistor ma solo aumentando le cache (è scritto nelle tue note con le novità del prescott)
3) altre aggiunte sono usate "al posto di" vedi:
- 2 Shift Unit
- 1 Imul Unit
- Emt64
- SSE3
Certo queste consumano, ma sono usate solo quando richieste e come ho già detto a cidimauro non è detto che alcune (shift e imul) riducano i consumi leggermente piuttosto che aumentarli.
4) I maggiori Buffer (store load e write) sono aumentati, ma non mi sembra che incidano tantissimo sui consumi
6) Il prefetch HW/SW migliorato bisogna vedere di quanto e come, può essere anche dell'1% perchè hanno ottimizzato un circuito...

Dubito che queste variazioni portino a 21 (o 11 che siano a seconda della interpretazione) milioni di transistor attivi in più, ovvero più di quello che è attivo in un core northwood completo.

basta illazioni: la realtà è che il prescott ha più del doppio di transistor e consuma un po' di più, fai un semplice calcolo e scoprirai che la tecnologia a 90 nm ha OVVIAMENTE consumi più parchi di quella a 130
...come sempre argomenti su quello che scrivo io senza nemmeno sprecarti a cliccare su google e cercare qualcosa.
Probabilmente hai paura ad aggiungere qualcosa di tuo, perchè potresti sbagliare :)

6) ti spiace leggere anche ciò che ho riportato esser cambiato nel prescott dal northwood? vai a considerare UNICAMENTE ALCUNE COSE, e IGNORI DELIBERATAMENTE LE ALTRE che sai benissimo che aumentano eccome i consumi... a partire dal branch prediction in giù...
Le stesse cose che hai scritto tu sono ripetute nell'articolo che ho postato qualche post prima
http://www.xbitlabs.com/articles/cpu/display/prescott_5.html
del tuo (dove peraltro nemmeno hai specificato la fonte... :rolleyes: )

Veramente ho aperto una discussione su questo nel post 55
http://forum.hwupgrade.it/showpost.php?p=8053423&postcount=55
però visto che nessuno ha detto niente ho preso per buono che non vi interessasse.

8) ok ignorare bellamente i valori riscontrati sul campo, dove viene fuori che i watt dissipati dal prescott crescono linearmente con la frequenza (la piccola discrepanza può essere ampiamente giustificata dal fatto che se lavora a temperature superiori consuma anche di più), ma non saper manco leggere ciò che sta scritto nei link che si riporta è grave...
?? LOL ??
Nel prescott (ma anche nel northwood, o altre cpu, ma in forma minore) non è proporzionale al clock (peggio!), ma al clock per un fattore maggiore di 1, per via del leakage e del fatto che il leakage aumenta con la temperatura (quest'ultimo tra l'altro corretto probabilmente dalla discesa del Vcc al salire della I come implementato dal prescott 5x0J).

Normalmente i W sono proporzionalli alla frequenza, ma questo è risaputo dai primi overclock (oppure da una lezione di elettrotecnica/elettronica), con le solite formule.

P(nuovo_clock) = P(vecchio_clock) * nuovo_clock / vecchio_clock
P(nuovo_vcore) = P(vecchio_vcore) * nuovo_vcore^2 / vecchio_vcore^2

Da che si deduce quello che ho scritto tempo fa:

P proporzionale al Clock (o meglo alla corrente) e al quadrato della Vcc (che riassunsi con ---> P=V^2*I*Clock e che un utente interpreto' male pensando che era una formula)

Questo perchè al salire del clock aumentano gli Ampere assorbiti (è elettronica di base eh... :rolleyes: ) basta integrare i segnali nel periodo.

e finiscila lì al posto che scrivere papiri su papiri per difendere l'indifendibile... sei veramente pedante... ma tu in vita tua hai mai detto: "mi sono sbagliato"
Con te penso mai, infatti come al punto [8] dimostri di non conoscere nemmeno i fondamentali dell'argomento.

Inoltre dicevi lo stesso quando affermavi che le GF6800 consumavano 120W (lol!!! con quei sistemi di raffreddamento esigui alcune si sarebbero fuse in 2 minuti e questo lo si può valutare ad occhio) e io con insistenza ti dicevo che massimo potevano farne 70...

Fx

20-04-2005, 18:08

io trovo a pagina 2:

... e non me ne puoi ignorare un altro: I FENOMENI DI LEAKAGE CI SONO ANCHE A 130 NM... a 90 nm semplicemente AUMENTANO, ma nel contempo STAI PASSANDO ALLO STEP SUCCESSIVO, che ti dà un vantaggio in termini di consumi imho ben più ampio, e non mi puoi dire che gli stessi 90 nm di intel sul dothan in effetti comportano un consumo inferiore ma nel prescott no perchè a 2.1 ghz il leakage non c'è e a 2.4 si... non si regge in piedi dai. come non si regge in piedi la storiella che il leakage aumenta così tanto con il salire della frequenza, tant'è che un 540 (3.2) full load consuma 87.8 watt e un 570 (3.8) 104.5... guarda qua:

http://www6.tomshardware.com/cpu/20041115/pentium4_570-20.html

se il leakage fosse così dipendente dalla frequenza, ciao... schizzerebbe su come una saponetta. e invece sono solo poco più di 16 watt... basta fare una DIVISIONE: per il 540 si parla di 27,43 watt per ghz e per il 570 si parla di... 27.5! cazzo, quanto influisce eh?

ora... sei d'accordo con me che il leakage dovrebbe influire molto ma molto di più?

in conclusione:
- sappiamo che aumentando la frequenza la potenza consumata cresce in modo quasi lineare, quando i fenomeni di leakage dovrebbero farla crescere molto più velocemente
- sappiamo che al di là della cache il core del prescott è molto più grosso (più del doppio) di quello del northwood
- sappiamo che con lo stesso processo produttivo da 90 nm laddove il core è rimasto pressochè invariato (leggasi dothan, se togli la cache è grosso poco più del banias, ma è pressochè identico) il consumo SCENDE

io concludo che IL PROCESSO A 90 NM DI PER SE CONSUMA DI MENO DI QUELLO A 130, e che la conclusione contraria perchè un prescott consuma di più di un northwood è determinata unicamente da un calcolo che non tiene in considerazione un fattore: come è cambiato il core.

fammi indovinare: di fronte a queste argomentazioni ferree e semplici, scriverai un papiro di 40 righe arrampicandoti sugli specchi, riportando datasheet e facendo illazioni a tutto spiano per giustificare la tua tesi.

prova una sensazione nuova: prova per un attimo ad ascoltare

ho indovinato, che dici?

cdimauro

21-04-2005, 13:26

Quindi tornando al discorso da cui è scaturito il thread è che a 90nm senza strained silicon, senza SOI e senza Low-K si consuma comunque meno che a 130nm?
Dipende. Finora è ciò che si è sempre verificato. Arrivando ai 90nm i problemi di leakage sono diventati rilevanti, a seconda dei casi...
Scusa ma ci sono 8 tipi di moltiplicatori integrabili in una CPU, tutti molto differenti in precisione velocità e complessità (e quindi consumi), mi spieghi ora come fai a sapere quale tipo sia?
Non sono tutti uguali: quanti sono quelli che si possono permettere di tirare fuori un risultato con una latenza di 10 cicli di clock e un throughput di 1?
Il concetto era chiaro :rolleyes: inutile puntualizzare se tanto non era quello che volevo esprimere, se vuoi posso mettertela giù così:

imul ebx, ebx, 24453
add ebx, 5

Che poi sinceramente puntualizzare su queste cose denota un po' di incapacità nel reggere il discorso...
Scusa, ma se vuoi fare un esempio, quanto meno devi scriverne uno giusto: ricordare la sintassi precisa di un'istruzione può essere difficile quando il set d'istruzioni è molto ampio, ma dimenticare cosa è possibile fare e cosa no con un'unità di elaborazione non è ammissibile.
Più che altro hai appena scritto tu quali sono le modifiche al core del prescott però non hai fatto nessuna ipotesi su quanto possano influire nei consumi, il che è come dire tutto e niente.

Io ti ho appena fatto un esempio: nelle due ALU netburst sono state aggiunte due unità per effettuare gli shiftL e shiftR, ma ti pare possibile che in quelle unità circoli corrente durante un JMP, un ADD o altro? (e non è una domanda retorica, ti sto chiedendo una opinione)
Dipende dall'implementazione.

cdimauro

21-04-2005, 14:10

[1]A parte che qui c'era chi affermava che il dothan consumasse più del banias... :rolleyes:
Capita quando è in idle o il carico di lavoro è molto basso: Intel ha stranamente scelto valori di v-core e di moltiplicatore più elevati rispetto al Banias nelle stesse condizioni...
Cque come ho già scritto (ma non hai detto che leggevi i thread? ;) ) il prescott e il dothan usano comunque:
- Strained silicon per diminuire la resistività e velocizzare la commutazione
- il Low-K per il medesimo uso dell'ST
http://nepp.nasa.gov/index_nasa.cfm/934/
Certo che leggo: infatti quello era un banale riepilogo dei concetti...
Visto che il dothan consuma in ogni caso POCO meno del banias, non è difficile immaginare che senza St e Low-K il Vcc sarebbe stato un bel 10-15% più alto a parità di clock, con un aumento dei consumi attorno al 20-30%. Portando il dothan a consumi superiori o pari al banias.
Per me è difficile pensarlo senza dati certi e/o formule che permettano di dedurre questi valori.
Comunque, come dicevo nel messaggio precedente, finora il passaggio a tecnologie più raffinate ha sempre comportato una riduzione di consumi: arrivando ai 90nm le correnti di leakage sono diventati rilevanti, a seconda dei contesti (quindi non sempre).
[2]dimentichi che il leakage aumenta con l'aumentare del clock e così le capacità parassite che a 90nm sono molto più significative, soprattutto per la miniaturizzazione che c'è nei core a 90nm (vedi prescott che con il doppio di transistor sta ugualmente in meno superficia del northwood)
Indubbiamente: e chi l'ha mai negato questo? Il problema è che difficile stabilire quale sia la causa preponderante nel caso del Prescott, perché ha subito troppi cambiamenti rispetto al Northwood.
[3]Appunto è quello che scrivo da un po' mi pare... in una CPU non ci sono mai tutti i transistor attivi, altrimenti la temperatura in IDLE e in BURN sarebbe uguale, e così i consumi.
Per di più non ho detto che ca cache non consuma, semplicemente che ha consumi trascurabili.
Anche questo mi pare di averlo scritto più volte.
Infatti quella era un puntualizzazione. Come dire: la cache non incide in maniera rilevante nel discorso che stiamo affrontando...
[4]In realtà qualcuno all'inizi ha semplicemente detto "il P4 consuma di più perchè ha più transistor" e "il p4 consuma di più perchè ha un core diverso" che da quello che stai scrivendo sono affermazioni perfettamente opinabili.
Se messe assieme no, IMHO.
Da una lezione di calcolatori elettronici circa 4 anni fa, mi rimase impressa perchè uno studente aveva tirato su una interessante discussione (su chip dedicati e cpu general purpose) con l'esercitatore che era un ing. che lavorava in ST. (la frase era tipo "in una CPU moderna come un Pentium4 o un Athlon non troverete mai più del 30% dei transistor attivi nello stesso istante")
Che poi è un dato perfettamente plausibile, vista la differenza di consumi in Idle e Burn di una CPU, oppure ragionando sul consumo di un singolo transistor e facendo un calcolo, anche se in questo caso i tempi di commutazione possono farti variare la stima di molto.
Non metto in dubbio le considerazioni e la ragionevolezza di quanto hai scritto: mi riferivo al dato del 30%. Se, cioé, derivasse da uno studio preciso che lo dimostrasse.
Quindi è anche poco plausibile che le percentuali di transistor attivi nel prescott sia simile a quelle in un northwood, proprio perchè ha subito delle modifiche finalizzate al velocizzare delle singole operazioni.
Dimentichi che il P4 arriva ad avere fino a 120 istruzioni "in volo", che prima o poi devono essere servite: il fatto di avere più unità dedicate / specializzate permette di smistare e quindi portare a termine un maggior numero di istruzioni rispetto al Northwood.
[5]In realtà sarebbe bastato dire che i 90nm senza nessuna tecnologia di contorno non bastano a diminuire i consumi.
Non è detto, come ho già scritto.
Quote mio:

Cos'è che non consideravo?
Il come fossero stati impiegati quei transistor in più: tu sei rimasto sostanzialmente ancorato al fatto che gli stadi della pipeline siano arrivati a 31, e che quindi che il maggior numero di transisor fosse impiegato per questo motivo. Ciò non è affatto vero.
[6]- Ho ben detto che ci sono delle differenze nella gestione della pipe (avendo anche 30 e passa stadi invece che 20), ma quanto queste influiscono nei consumi? Non l'hai ancora detto.
Secondo me poco, se in un core è cambiato solamente il numero di stadi di pipeline. Questo perché si è soltanto distribuito il lavoro in maniera più "fine", ma la sostanza non cambia: il lavoro è sempre lo stesso.
Se, invece, in mezzo ci sono altre variazioni, il discorso cambia. Ovviamente.
- Come hai detto tu, puoi aggiungere transistor per delle unità che poi non sono utilizzate sempre, vedi EMT64, vedi IMUL aggiunto nella ALU complessa, vedi ShiftUnits aggiunte nelle ALU netburst. Tanti transistor in più che non fanno certo aumentare i consumi, anzi, avendo unità dedicate li fan diminuire O vorrai mica dirmi che fare una moltiplicazione intera interpellando la FPU consumi di meno che aggiungendo una IMUL alla ALU... :)
Vedi sopra: il lavoro semmai aumenta, perché si riesce a smistare e portare a termine più lavoro rispetto a prima...
- Ci sono anche le SSE3, ma quanto queste sono utilizzate?
Poco. E comunque non è che cambia più di tanto la situazione: si tratta di istruzioni aggiunte all'unità SIMD, non di unità di elaborazione.
[7]Non sono d'accordo, AMD ha aggiunto nel Thoro-B 1 layer (passando da 8 a 9) per salire di clock, intel ha invece creato vari stepping soprattutto per consumare mediamente meno, abilitando appunto il controllo delle tensioni in base agli ampere assorbiti e altro.
IMHO le finalità sono differenti.
Le finalità mi sembrano simili (entrambi avevano problemi di consumo eccessivo, di conseguenza impossibilità a salire di clock).
Comunque in entrambi i casi ripeto: non sono stati effettuati cambiamenti al core (parlo di modifiche alle unità di esecuzione, ai buffer, alla logica di prefetch, ecc.).
Si è un sito interessante e mi sono anche guardato le foto linkate tempo fa sui forum di anandtech. Se noti nel Prescott ci sono alcune zone che non sono state identificate, tanto per dirne una.
Se leggi bene si tratta molto probabilmente di Palladium / LaGrande.
Inoltre hai notato che quelle foto sono del 2003? In quel periodo non si sapeva nemmeno se il prescott avesse o no le istruzioni a 64bit, erano solo ipotesi.
Ma il bello è proprio questo: reverse engineer di quel tipo lo fanno come lavoro quello di capire a che servono i trasistor. Infatti se ti leggi bene quegli articoli capisci che sono arrivati alla conclusione che le estensioni a 64 bit erano già presenti, ed è anche sottolineato dove e come sono state implementate. ;)
Sinceramente parlando avrei preferito il flow chart delle varie unità, tipo questo: http://www.xbitlabs.com/images/cpu/prescott/diagram.jpg
pero' anche qua siamo troppo a grandi linee, ci vorrebbe qualcosa di più preciso.
Quelle analisi sono MOLTO, ma MOLTO più precise del diagramma di flusso che hai postato: non solo si ricava quel disegnino, ma è anche tanti altri dettagli implementativi che altrimenti non conosceresti...
[8]Non mi viene da dirti che "stai sbagliando" ma piuttosto che non consideri che il leakage dipende dal clock.
http://arstechnica.com/articles/paedia/cpu/prescott.ars/2
Infatti non ho sbagliato: citando la "frequenza", mi riferivo proprio al clock... :p
Sono perfettamente d'accordo con te, ma rispondi a questa domanda: secondo te un prescott prodotto con la tecnologia dell'A64 consumerebbe uguale?
Probabilmente qualcosa meno, grazie al SOI, ma non credo che la situazione cambierebbe radicamente: il Prescott è stato progettato per funzionare a frequenze elevate, ma la sua complessità è anche il suo tallone d'Achille.
Vedi punto 6
Idem. ;)
Non ho link però se vuoi ho un libro, l'hennesy-patterson, cap 6. Ci sono varie versioni, l'ultima è aggiornata al 2000, un po' datata ma non ci sono certo scritte stronzate.
E chi lo nega? E' un ottimo libro, un prestigioso testo di riferimento, e per questo credo che quelle conclusioni che hai riportato, se effettivamente sono le stesse, probabilmente sono legate a un contesto e a delle precise considerazioni.
Se, invece, sono delle conclusioni "sui generis", allora mi spiace: proprio gli esempi che ho portato le confutano inequivocabilmente.
Verissimo, anche le SSE-2 fanno lo stesso, ma appunto per quello che le hanno introdotte: un IPC alto non ti serve per usare office o per navigare, piuttosto per encodare o giocare, e visto che l'IPC di un P4EE nel benchmark Drystone SSE-2 è 3,6 (le SSE-2 dovrebbero fare 8 operazioni a 16 bit in una volta sul singolo registro MMX) puoi immaginare cosa sia l'IPC senza.
Certo che lo immagino: non trascuro mai niente quando faccio delle considerazioni... ;) Ma anche le SSE e le SIMD in generale non sempre si possono impiegare, per cui hanno un peso rilevante esclusivamente nel dominio d'utilizzo...
Se ti interessa posso sempre dare un occhio.
Se hai qualche informazione, sarebbe interessante. :)
Cque è facile calcolare l'IPC basta fare un programma in assembler che fa un ciclo ripetuto qualche miliardo di volte e calcolare il tempo impiegato, si potrebbe fare qualche prova, però serve un sistema operativo tipo DOS e da qui mi viene da pensare che è più la spesa che l'impresa :/
Se è solo questo ciò che chiedi, te lo dico io al volo e senza bisogno di fare delle prove: l'IPC risulterebbe quasi 4... ;)
Però ti lascio sbatterci un po' la testa per capire da dove viene fuori, se ne hai voglia... :D
Su questo hai ragione: ho sicuramente sbagliato le mie ipotesi visto che intel vuole puntare ancora sulla tecnologia netburst.
OK.

cdimauro

21-04-2005, 14:11

Boh...io è la prima volta che vedo una mul con tre parametri...
Io da quasi vent'anni: da quando Intel ha introdotto il 386... :sofico:

cdimauro

21-04-2005, 14:19

2) i miglioramenti nell'HT, nel Branch Prediction e l'allungamento della pipe portano si a tanti transistor in più, ma non penso che sia un aumento proporzionale all'aumento di transistor da North a Prescott.
Nemmeno io lo credo.
Inoltre l'HT non è migliorato aggungendo transistor ma solo aumentando le cache (è scritto nelle tue note con le novità del prescott)
No, Intel ha migliorato anche l'HT. Ai tempi dell'introduzione del Prescott l'ho letto in qualche documento ufficiale...
Dubito che queste variazioni portino a 21 (o 11 che siano a seconda della interpretazione) milioni di transistor attivi in più, ovvero più di quello che è attivo in un core northwood completo.
Tutti attivi no, certo, ma penso che una buona parte dei transistor in più siano stati spesi proprio per tutte le novità elencate... ;)
Veramente ho aperto una discussione su questo nel post 55
http://forum.hwupgrade.it/showpost.php?p=8053423&postcount=55
però visto che nessuno ha detto niente ho preso per buono che non vi interessasse.
Ehm: io qualcosa l'ho detta... :p

Dreadnought

21-04-2005, 18:27

Ti riassumo un po' quello che ho da dire, per il resto se non dico niente fai che concordo.

Dipende. Finora è ciò che si è sempre verificato. Arrivando ai 90nm i problemi di leakage sono diventati rilevanti, a seconda dei casi...
Scusa eh... dove trovi cpu prodotte a 90nm senza strained silicon e/o low-k?

Non sono tutti uguali: quanti sono quelli che si possono permettere di tirare fuori un risultato con una latenza di 10 cicli di clock e un throughput di 1?
Mi viene di pensare a quelli con tabella di lookup, che potrebbero avere una palata di transistor ma che effettivamente non consumano praticamente niente :)

No, Intel ha migliorato anche l'HT. Ai tempi dell'introduzione del Prescott l'ho letto in qualche documento ufficiale...
Sei sicuro che non sia conseguenza di altre migliorie apportate qua e là su prediction, prefetch e varie cache TLB aumentate di dimensioni?

Per me è difficile pensarlo senza dati certi e/o formule che permettano di dedurre questi valori.
Comunque, come dicevo nel messaggio precedente, finora il passaggio a tecnologie più raffinate ha sempre comportato una riduzione di consumi: arrivando ai 90nm le correnti di leakage sono diventati rilevanti, a seconda dei contesti (quindi non sempre).
Vero, però se ravani sul sito intel cercando Strained silicon 90nm su google trovi:

Intel's implementation of strained silicon devices improves drive current about a 25 percent in PMOS and about 10 percent in NMOS in silicon manufactured with it 90nm process. This gives a substantial gain over existing 0.13 micron processes while only increasing the manufacturing cost by two percent.
http://www.intel.com/technology/silicon/si12031.htm
e
http://www.intel.com/research/downloads/Bohr-Strained-Silicon-120403.pdf
http://www.eetimes.com/story/OEG20031024S0038

Da quello che ho capito con lo SS abbassi la R, aumenti la I e il transistor commuta più in fretta, quindi puoi portare la I più in là rispetto al valore iniziale senza SS e consumare uguale.

Se messe assieme no, IMHO.
Considerando che chi ha scritto quelle affermazioni ha ampliamente dimostrato di non conoscere bene nemmeno le poche leggi fondamentali sui consumi (che si possono apprendere da qualsiasi articolo tecnico con 3 click su google), non hanno senso nemmeno se messe assieme.
Sempre IMHO ovviamente :p

Non metto in dubbio le considerazioni e la ragionevolezza di quanto hai scritto: mi riferivo al dato del 30%. Se, cioé, derivasse da uno studio preciso che lo dimostrasse.
...penso fosse una affermazione di quelle che ti vengono dalle esperienze sul campo.
Sarà stata una stima, che poi sicuramente detta tipo nel 2001-2002 ha un senso, nel 2005 ne ha un'altro.

Dimentichi che il P4 arriva ad avere fino a 120 istruzioni "in volo", che prima o poi devono essere servite: il fatto di avere più unità dedicate / specializzate permette di smistare e quindi portare a termine un maggior numero di istruzioni rispetto al Northwood.
Beh perchè mai il doppio (dovrebbe essere il rapport tra northwood e prescott) di istruzini "on the fly" dovrebbe consumare di più visto che le unità di esecuzione sono le medesime e che il prescott ha un IPC minore dle northwood (e quindi un throughput minore)?

Infatti non ho sbagliato: citando la "frequenza", mi riferivo proprio al clock...
Eh ok, ma non mi puoi dire che il leakage è uguale, perchè il prescott arriva a 3.8GHz e il Dothan a 2.2 :p
Un po' come dire che una BMW 550d ha lo stesso consumo di un 530d, puo' anche essere che il gasolio che entra per ogni cilindro è uguale, ma dovresti anche considerare che il numero e la grandezza dei cilindri :D

Se è solo questo ciò che chiedi, te lo dico io al volo e senza bisogno di fare delle prove: l'IPC risulterebbe quasi 4...
Però ti lascio sbatterci un po' la testa per capire da dove viene fuori, se ne hai voglia...
Come fa l'IPC ad essere così tanto maggiore di 1? Un A64 dovrebbe avere IPc di 6 visti i bench... e come farebbe? (soprattutto con istruzioni che impiegano tipo 10-20 clock per essere eseguite)
Poi c'è da aggiungere che tipo di istruzioni e registri considerare, se a 16, 8 o 32 bit, l'IPC è un dato di merda in ogni caso, dice tutto e il cotnrario di tutto.

cdimauro

22-04-2005, 08:34

Ti riassumo un po' quello che ho da dire, per il resto se non dico niente fai che concordo.
Idem: ormai c'è ben poco da discutere e sostanzialmente la discussione mi sembra ormai chiara... :)
Scusa eh... dove trovi cpu prodotte a 90nm senza strained silicon e/o low-k?
Non ne trovi, infatti, e purtroppo non è possibile fare dei confronti.
Rimane però la storia: finora, come dicevo, si è sempre provveduto ad effettuare un die shrink senza modificare la tecnologia utilizza, ma semplicemente riducendo le dimensioni dei transistor (che ha comporato una diminuzione dei consumi).
E' il passaggio dai 130nm ai 90nm che ha messo in risalto i problemi di leakage, in particolare per i processori che operano a frequenze elevate.
Mi viene di pensare a quelli con tabella di lookup, che potrebbero avere una palata di transistor ma che effettivamente non consumano praticamente niente :)
Infatti si usano proprio delle lut (più di una, a seconda della dimensione dei dati da trattare e degli obiettivi in termini di latenza e througput) da 8x8 -> 16 bit per implementare la moltiplicazione. :D
Perché dici che non consumano niente?
Sei sicuro che non sia conseguenza di altre migliorie apportate qua e là su prediction, prefetch e varie cache TLB aumentate di dimensioni?
No no: ricordo proprio che è stata migliorata la logica (i circuiti dedicati) del'HyperThreading.
Beh perchè mai il doppio (dovrebbe essere il rapport tra northwood e prescott) di istruzini "on the fly"
Può essere che mi sbagli, ma non ricordo che il numero di istruzioni "on the fly" sia cambiato fra i due processori.
dovrebbe consumare di più visto che le unità di esecuzione sono le medesime
Infatti non sono le stesse: ne abbiamo già parlato. ;)
e che il prescott ha un IPC minore dle northwood (e quindi un throughput minore)?
Questo è un altro discorso: l'IPC minore del Prescott è dovuto all'elevato numero di stadi di pipeline, per cui uno stallo provoca maggiori perdite dal punto di vista prestazionale.
Le perdite sono contenute proprio grazie al fatto che Prescott esegue "più lavoro", perché l'efficienza "interna" è migliorata rispetto al Northwood.
Immagina cosa sarebbe potuto essere un Northwood con 31 stadi di pipeline e soltanto la cache L2 aumentata: un disastro! :asd:
Fare "più lavoro" chiaramente produce dei consumi maggiori. Tutto questo lavoro viene buttato a mare quando la pipeline si deve svuotare, ma l'energia ormai consumata non viene mica recuperata... ;)
Eh ok, ma non mi puoi dire che il leakage è uguale, perchè il prescott arriva a 3.8GHz e il Dothan a 2.2 :p
Appunto, ma quei processori utilizzano comunque lo stesso processo produttivo.
Il contesto d'utilizzo chiaramente è diverso, perché lavorano a frequenze diverse e hanno un core diverso. Un Prescott a 2,2Ghz certamente non consumerebbe tutta quella corrente che consuma a 3,8Ghz, sia per il minor clock sia per la minor tensione di lavoro che richiederebbe.

Non è in discussione che le correnti di leakage si facciano sentire maggiormente a frequenze più elevate: ci mancherebbe! Anzi da questo punto di vista il Prescott è messo anche peggio, visto che le due ALU lavorano a frequenza doppia rispetto agli altri circuiti, e sono le unità che lavorano di più (normalmente).

Però, come già detto, il processo produttivo è lo stesso.
Come fa l'IPC ad essere così tanto maggiore di 1? Un A64 dovrebbe avere IPc di 6 visti i bench...
Al più un A64 si avvicinerebbe a 3... ;)
e come farebbe? (soprattutto con istruzioni che impiegano tipo 10-20 clock per essere eseguite)
Appunto. L'esempio che hai fatto non considerava il caso medio: realizzare un programma in assembly (non assembler: questo è il compilatore ;)) che esegua un ciclo con qualche istruzione in mezzo mette il processore in grado di lavorare in un contesto estremamente favorevole, e quindi lontano dalla realtà.
Nel caso del P4, potendo spedire / eseguire 4 istruzioni per ciclo di clock, arriveresti vicino a 4, appunto. Per lo stesso motivo, arriveresti a 3 con gli A64 (sempre se non ricordo male... :p)
Poi c'è da aggiungere che tipo di istruzioni e registri considerare, se a 16, 8 o 32 bit, l'IPC è un dato di merda in ogni caso, dice tutto e il cotnrario di tutto.
Esatto. L'IPC medio non lo si calcola con un loop con qualche istruzione, ma simulando l'esecuzione di codice estremamente diverso, relativo quindi ad ambiti applicativi diversi, e in condizioni varie (es: non tutte le pagine di dati/codice/stack sono presenti in memoria, o con gli indirizzi "cachati" nelle TLB, ecc. ecc. ecc.).

Dreadnought

22-04-2005, 13:39

Infatti si usano proprio delle lut (più di una, a seconda della dimensione dei dati da trattare e degli obiettivi in termini di latenza e througput) da 8x8 -> 16 bit per implementare la moltiplicazione. :D
Perché dici che non consumano niente?
Conosci dei multiplier che consumano di meno a parità di bit?

Può essere che mi sbagli, ma non ricordo che il numero di istruzioni "on the fly" sia cambiato fra i due processori.
Non stavo confutando, dovevo esprimermi meglio: ho visto che è cambiato il numero di istruzioni in volo, ma non mi spiego perchè di così tanto...
Tempo fa lessi ingiro commenti tipo questo da geek.com:

http://www.geek.com/news/geeknews/2004Jan/bch20040122023559.htm
The current p4 can only have 128 instructions issued at any one time - given that the 20 stage pipeline can have almost 100 instructions currently on the fly it is clear that the second thread can get very short changed.

Prescott (we think) can have up to 256 instructions issued at one time - if indeed the prescott pipeline is 30 stages, well over 100 could be on the fly however...

Capisco che è superscalare, ma con una pipe da 30-36 stadi, come fai ad avere 256 istruzioni in coda? Condisera forse la branch prediction? Oppure il prefetch? Oppure le istruzioni impacchettate tipo SIMD?

Infatti non sono le stesse: ne abbiamo già parlato. ;)
Scusa è vero qua bisogna precisare:
Sono cambiate le unità nel senso che han subito modifiche e aggiunte, ma il numero delle unità è sempre quello di prima, vedo sempre 3 ALU (2 netburst e 1 complex), 2 FP (simple e complex), 1 Branch prediction....

Pero' c'è da dire che essendo aumentati i buffer e gli stage effettivamente si potrebbe dire dire che c'è un throughput maggiore, ma allora perchè il prescott a parità di clock viaggia meno del northwood? ;)

Questo è un altro discorso: l'IPC minore del Prescott è dovuto all'elevato numero di stadi di pipeline, per cui uno stallo provoca maggiori perdite dal punto di vista prestazionale.
Le perdite sono contenute proprio grazie al fatto che Prescott esegue "più lavoro", perché l'efficienza "interna" è migliorata rispetto al Northwood.
Immagina cosa sarebbe potuto essere un Northwood con 31 stadi di pipeline e soltanto la cache L2 aumentata: un disastro! :asd:
Fare "più lavoro" chiaramente produce dei consumi maggiori. Tutto questo lavoro viene buttato a mare quando la pipeline si deve svuotare, ma l'energia ormai consumata non viene mica recuperata... ;)

[quote]Non è in discussione che le correnti di leakage si facciano sentire maggiormente a frequenze più elevate: ci mancherebbe! Anzi da questo punto di vista il Prescott è messo anche peggio, visto che le due ALU lavorano a frequenza doppia rispetto agli altri circuiti, e sono le unità che lavorano di più (normalmente).
Esatto, appunto per quello che ho affermato che i 90nm non bastano per abbassare i consumi ;)

Al più un A64 si avvicinerebbe a 3... ;)
come fa ad andare di più con meno clock allora?

Appunto. L'esempio che hai fatto non considerava il caso medio: realizzare un programma in assembly (non assembler: questo è il compilatore ;)) che esegua un ciclo con qualche istruzione in mezzo mette il processore in grado di lavorare in un contesto estremamente favorevole, e quindi lontano dalla realtà.
Nel caso del P4, potendo spedire / eseguire 4 istruzioni per ciclo di clock, arriveresti vicino a 4, appunto. Per lo stesso motivo, arriveresti a 3 con gli A64 (sempre se non ricordo male... :p)
[Premettendo di ignorare l'unita SIMD]
Non è che mi convince molto questa tua spiegazione.
Se fosse così semplice aumentare il numero di istruzioni eseguite al secondo allora uno fa una cpu superpipelined e supescalare con 5 ALU per ogni core come un P4 ed è tutto fatto: SBAMMM! ed ecco che ci sono le nostre 5 istruzioni per ciclo di clock, basta che siano 4 semplici ed una complessa da distribuire nel caso ottimo sulle 5 alu che ci sono all'interno.

Ma le code? Le dipendenze tra le istruzioni? I registri non sono infiniti e le ram e le cache hanno latenza di 1-10-100 cicli; le istruzioni non devi solo eseguirle, devi anche farne il fetch e lo store e il numero dei registri non è fatto per 4 pipeline, ma per una, e così la pipeline è unica, non è il caso di una Scheda video che quando ha finito di processare i dati sono subito a video, una CPU poi i dati li deve rimandare in ram o da qualche altra parte.
Forse con dei NOP in serie ad un IPC di 4 ci arrivi facilmente, ma con altre istruzioni non penso :)

P.S: Assembler è anche il linguaggio, la tua definizione "assembly" è semplicemente uno slang usato da molti e reso famoso per le manifestazioni che si tengono nel nord europa, per altro una figata: vorrei essere stato là nel '93 quando vinse Second Reality! (la prima demo dell'assembly che mi diede un amico che masterizzava CD warez tirati giù dalle BBS)
L'anno dopo mi ero messo ad imparare l'assembler x86 comprandomi un bellissimo libro della mcgraw hill e il MASM... bei tempi... non avevo mai un cazzo da fare quando andavo al liceo ;)

Esatto. L'IPC medio non lo si calcola con un loop con qualche istruzione, ma simulando l'esecuzione di codice estremamente diverso, relativo quindi ad ambiti applicativi diversi, e in condizioni varie (es: non tutte le pagine di dati/codice/stack sono presenti in memoria, o con gli indirizzi "cachati" nelle TLB, ecc. ecc. ecc.).
Si ok, ma da qui a dire che arrivi a 4 di IPC è diverso :)
Cque un IPC di 4 lo dici perchè hai provato oppure perchè ipotizzi? Fammi capire.

Fx

22-04-2005, 14:06

Scusa è vero qua bisogna precisare:
Sono cambiate le unità nel senso che han subito modifiche e aggiunte, ma il numero delle unità è sempre quello di prima, vedo sempre 3 ALU (2 netburst e 1 complex), 2 FP (simple e complex), 1 Branch prediction....

te lo stiamo dicendo da 4 pagine, hanno subito modifiche e aggiunte. non potrebbe essere altrimenti, dato che c'è più del doppio dei transistor e le unità sono bene o male le stesse.

Pero' c'è da dire che essendo aumentati i buffer e gli stage effettivamente si potrebbe dire dire che c'è un throughput maggiore, ma allora perchè il prescott a parità di clock viaggia meno del northwood? ;)

perchè tutte le belle cose che si sono fatte per migliorare l'efficienza sono bastate a malapena per compensare un incremento di oltre il 50% della lunghezza della pipeline?

Esatto, appunto per quello che ho affermato che i 90nm non bastano per abbassare i consumi ;)

aaaaaaaaaa e che palle che sei... il sottoscritto, che ha dato il via all'argomento, ha detto che "le cpu a 90 nm [a parità di core] consumano di meno", senza dire se questo fosse legato alla dimensione dei transistor o perchè tutti i processi produttivi a 90 nm hanno caratteristiche migliori.

in ogni caso, senza girarci intorno, sappiamo:
- che a 90 nm ci sono fenomeni di leakage
- che a 130 nm ci sono ANCHE LI' fenomeni di leakage, anche se in misura inferiore

premesso questo, ti giro la domanda:
producendo un prescott a 130 nm con low-k e strained silicon secondo te consumerebbe di meno di un prescott a 90 nm con low-k e strained silicon?

P.S: Assembler è anche il linguaggio, la tua definizione "assembly" è semplicemente uno slang usato da molti e reso famoso per le manifestazioni che si tengono nel nord europa, per altro una figata: vorrei essere stato là nel '93 quando vinse Second Reality! (la prima demo dell'assembly che mi diede un amico che masterizzava CD warez tirati giù dalle BBS)
L'anno dopo mi ero messo ad imparare l'assembler x86 comprandomi un bellissimo libro della mcgraw hill e il MASM... bei tempi... non avevo mai un cazzo da fare quando andavo al liceo ;)

se vuoi ho fatto un paio di intro da pochi byte, te le posso passare =)

ps: cmq il mio testo di riferimento si chiamava opcodes.txt (quello del PCGPE, si)... ho anche un volumazzo della wrox fatto decisamente bene, ma non l'ho mai consultato più di tanto

Fx

22-04-2005, 14:08

comunque io aspetto ancora una spiegazione del come mai nello stesso core (stessa cpu, stesso core, stesso stepping) i consumi (quelli reali) crescano linearmente con la frequenza, e non da 20 a 30 mhz, ma da 3.2 a 3.8 ghz

Dreadnought

22-04-2005, 18:01

aaaaaaaaaa e che palle che sei... il sottoscritto, che ha dato il via all'argomento, ha detto che "le cpu a 90 nm [a parità di core] consumano di meno", senza dire se questo fosse legato alla dimensione dei transistor o perchè tutti i processi produttivi a 90 nm hanno caratteristiche migliori.
humm... non hai detto proprio così, hai detto che a 90nm abbassi il Vcc e consumi meno, ma non hai considerato che nei processi produttivi a 90nm che conosci o hanno usato SS+Low-K oppure SOI. Perchè se andiamo a guardare altri produttori che non hanno usato nessuno di questi, tipo samsung o toshiba nelle RAM i consumi sono in alcuni casi aumentati, anche se poi non gliene frega a nessuno perchè tanto un modulo di ram fa 8-10W.

in ogni caso, senza girarci intorno, sappiamo:
- che a 90 nm ci sono fenomeni di leakage
- che a 130 nm ci sono ANCHE LI' fenomeni di leakage, anche se in misura inferiore
I fenomeni di leakage nei 130nm sono trascurabili, nei 90nm sono rilevanti, la differenza è ampia, non poca. Da un articolo che ho postato un po' più indietro si leggeva che la potenza dissipata per il fenomeno del leakage a 90nm iniziava ad essere una percentuale consistente del totale.

Tra l'altro leggo ora qual'è l'arcano: il leakage non avviene a transistor attivo, ma a transistor spento. Quindi a 90nm se non riduci il leakage pure la cache tende ad aumentare i consumi, e ancor di più tendono a prendere importanza tutte le metodologie per ridurlo.

premesso questo, ti giro la domanda: producendo un prescott a 130 nm con low-k e strained silicon secondo te consumerebbe di meno di un prescott a 90 nm con low-k e strained silicon?
No, perchè fondamentalmente lo strained silicon e il Low-K servono solo per diminuire il leak della corrente, e a 130nm non ce n'è più di tanto.
Lo vedi anche tu no? Il prescott ha 125M di transistor in 112mm^2, il northwood ne ha 55M in 131mm^2 i fenomeni di capacità parassite con così tanti transistor impacchettati sono molto ma molto più consistenti.
http://www.hardware4you.it/recensione.php?id_r=273&pag=7

tipo qua (banias -140M trans- e dothan -77M trans- a confronto)
http://www.hardware4you.it/recensione.php?id_r=273&pag=5

...tra l'altro questo articolo di Hardware4you è molto interessante, sembra ben fatto.

se vuoi ho fatto un paio di intro da pochi byte, te le posso passare =)

ps: cmq il mio testo di riferimento si chiamava opcodes.txt (quello del PCGPE, si)... ho anche un volumazzo della wrox fatto decisamente bene, ma non l'ho mai consultato più di tanto
Io vorrei tanto racimulare ed archiviare tutti i vari programmi fatti negli assembly, con tutte le demo e relativi gruppi che le han fatte, con le sorgenti dove possibile :)

Le demo se me le vuoi passare le accetto volentieri ;)

comunque io aspetto ancora una spiegazione del come mai nello stesso core (stessa cpu, stesso core, stesso stepping) i consumi (quelli reali) crescano linearmente con la frequenza, e non da 20 a 30 mhz, ma da 3.2 a 3.8 ghz
Si che te l'ho spiegato.

Cque stando in topic ma aggiungendo solo info ecco qua una img che mostra quanta attività c'è in una CPU, in questo caso un banias:
http://www.hardware4you.it/uploadimg/dothan/heat.jpg

cdimauro

26-04-2005, 09:09

Conosci dei multiplier che consumano di meno a parità di bit?
Non sono un ingegnere elettronico... :p
Non stavo confutando, dovevo esprimermi meglio: ho visto che è cambiato il numero di istruzioni in volo, ma non mi spiego perchè di così tanto...
[...]
Capisco che è superscalare, ma con una pipe da 30-36 stadi, come fai ad avere 256 istruzioni in coda? Condisera forse la branch prediction? Oppure il prefetch? Oppure le istruzioni impacchettate tipo SIMD?
E' un discorso generale: il numero di istruzioni in volo è aumentato perché ci sono più unità di esecuzione in grado di potersene fare carico, oltre al fatto che il processore è superscalare ed è di tipo OOOE (quindi è molto facile trovare delle istruzioni che aspettano di essere eseguite per mancanza di unità disponibili oppure a causa di una dipendenza).
Scusa è vero qua bisogna precisare:
Sono cambiate le unità nel senso che han subito modifiche e aggiunte, ma il numero delle unità è sempre quello di prima, vedo sempre 3 ALU (2 netburst e 1 complex), 2 FP (simple e complex), 1 Branch prediction....
Macroscopicamente sì, ma il fatto, ad esempio, di avere l'ALU "complessa" che permette di eseguire finalmente una moltiplicazione intera senza ricorrere alla FPU è un cambiamento notevole. E' in questo senso che bisogna considerare per unità di esecuzione quella parte di un'ALU, FPU (o altro) che è in grado di portare a termine un ben preciso compito.
Pero' c'è da dire che essendo aumentati i buffer e gli stage effettivamente si potrebbe dire dire che c'è un throughput maggiore, ma allora perchè il prescott a parità di clock viaggia meno del northwood? ;)
Per la lunghezza della pipeline. ;) Ed è una conseguenza logica della strategia di Intel:
1) innalzamento della frequenza di clock del processore -> aumento del numero di stadi di pipeline;
2) aumento del numero di stadi di pipeline -> decadimento delle prestazioni;
3) aumento delle prestazioni -> aumento dell'efficienza del processore.
Esatto, appunto per quello che ho affermato che i 90nm non bastano per abbassare i consumi ;)
Infatti sulla carta li abbasserebbero... solo che Prescott e Northwood sono due "bestie" diverse, ed è difficile fare paragoni (com'è, invece, possibile fare con Banias e Dothan): manca un Prescott a 130nm o un Northwood a 90nm...
come fa ad andare di più con meno clock allora?
Perché sono due processori completamente diversi: l'Athlon64, come l'Athlon, è stato progettato per essere più efficiente del P4.
Prova a dare un'occhiata ai tempi di esecuzione di una LEA EAX,[EBX + ESI * 4 + 1234567890] per entrambi i processori... :D
[Premettendo di ignorare l'unita SIMD]
Non è che mi convince molto questa tua spiegazione.
Se fosse così semplice aumentare il numero di istruzioni eseguite al secondo allora uno fa una cpu superpipelined e supescalare con 5 ALU per ogni core come un P4 ed è tutto fatto: SBAMMM! ed ecco che ci sono le nostre 5 istruzioni per ciclo di clock, basta che siano 4 semplici ed una complessa da distribuire nel caso ottimo sulle 5 alu che ci sono all'interno.

Ma le code? Le dipendenze tra le istruzioni? I registri non sono infiniti e le ram e le cache hanno latenza di 1-10-100 cicli; le istruzioni non devi solo eseguirle, devi anche farne il fetch e lo store e il numero dei registri non è fatto per 4 pipeline, ma per una, e così la pipeline è unica, non è il caso di una Scheda video che quando ha finito di processare i dati sono subito a video, una CPU poi i dati li deve rimandare in ram o da qualche altra parte.
Forse con dei NOP in serie ad un IPC di 4 ci arrivi facilmente, ma con altre istruzioni non penso :)
Ma è proprio questo dove volevo arrivare io... :p
Eseguire un loop con delle istruzioni qualche miliardo di volte per calcolare l'IPC non ha senso, perché non tiene conto della diversità del tipo di codice e del contesto di esecuzione. L'IPC medio viene calcolato tenendo conto di queste variabili, e in ogni caso rimane un dato che ha una valenza relativa e non assoluta...
P.S: Assembler è anche il linguaggio, la tua definizione "assembly" è semplicemente uno slang usato da molti e reso famoso per le manifestazioni che si tengono nel nord europa,
Ti assicuro che uso la parola "assembly" quando ancora non esisteva ancora nessuna manifestazione del genere. :p
Comunque per "assembler" s'intende il compilatore ("assembler" è un particolare "compiler") e non il linguaggio, anche se da anni ormai il termine viene usato anche per quest'ultimo.
per altro una figata: vorrei essere stato là nel '93 quando vinse Second Reality! (la prima demo dell'assembly che mi diede un amico che masterizzava CD warez tirati giù dalle BBS)
Purtroppo non posso condividere la tua gioia: ho sempre visto in malo modo le demo e chi le realizzava. :asd:
L'anno dopo mi ero messo ad imparare l'assembler x86 comprandomi un bellissimo libro della mcgraw hill e il MASM... bei tempi... non avevo mai un cazzo da fare quando andavo al liceo ;)
A chi lo dici... :D Però è stata un'esperienza formativa...
Si ok, ma da qui a dire che arrivi a 4 di IPC è diverso :)
Vedi sopra: l'ho detto perché il contesto me lo permetteva... :D
Cque un IPC di 4 lo dici perchè hai provato oppure perchè ipotizzi? Fammi capire.
La trace cache del Prescott è in grado di spedire fino a quattro microistruzioni (il Northwood fino a tre) all'unità RISC86, che le esegue. Nella migliore delle ipotesi, quindi, verrano eseguite quattro istruzioni (supponendo, ovviamente, che ogni istruzione venga rimappata in una sola microistruzione). Il contesto mi permetteva di fare qualunque assunzione, da cui IPC = 4... ;)

Fx

26-04-2005, 16:30

I fenomeni di leakage nei 130nm sono trascurabili, nei 90nm sono rilevanti, la differenza è ampia, non poca. Da un articolo che ho postato un po' più indietro si leggeva che la potenza dissipata per il fenomeno del leakage a 90nm iniziava ad essere una percentuale consistente del totale.

eh, porta numeri... scoprirai che anche a 130 nm non sono così trascurabili... certo, a 90 nm sono decisamente più importanti, ma anche a 130 nm non sono affatto trascurabili

Tra l'altro leggo ora qual'è l'arcano: il leakage non avviene a transistor attivo, ma a transistor spento. Quindi a 90nm se non riduci il leakage pure la cache tende ad aumentare i consumi, e ancor di più tendono a prendere importanza tutte le metodologie per ridurlo.

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

ce l'ha fatta...

Io vorrei tanto racimulare ed archiviare tutti i vari programmi fatti negli assembly, con tutte le demo e relativi gruppi che le han fatte, con le sorgenti dove possibile :)

Le demo se me le vuoi passare le accetto volentieri ;)

sono due intro (quelle piiiiiiiiccole piccole), le recupero e te le mando... anche se sotto xp che mi ricordi una si impasta (nel senso che termina poco dopo la metà)... probabilmente un baco che sotto dos o sotto i vari win senza modalità protetta rimaneva nascosto

Si che te l'ho spiegato.

:muro:

Cque stando in topic ma aggiungendo solo info ecco qua una img che mostra quanta attività c'è in una CPU, in questo caso un banias:

come era lecito aspettarsi

cidimauro: hai parlato del tempo che ci impiegano pentium 4 e athlon 64 a fare quella LEA (tra le altre cose sembra incasinata ma in realtà è abbastanza tipica... tra l'altro cmq a memoria una cosa del genere già ai tempi dei 386/486 consumava pochissimo, forse 2/3 cicli di clock)... dimmi che hai una bella tabella con tutti gli opcode (magari anche quelli specifici per le varie cpu) e i cicli di clock... io non ne trovo più una così dal 486 cazzo =)

leoneazzurro

26-04-2005, 16:37

No, perchè fondamentalmente lo strained silicon e il Low-K servono solo per diminuire il leak della corrente, e a 130nm non ce n'è più di tanto. ]

No per lo strained silicon (forse volevi dire SOI) che in realtà viene usato per aumentare la mobilità degli elettroni nel materiale e quindi abbassare la resistenza elettrica del mezzo (e quindi i consumi, ma non quelli legati al leakage) e consente inoltre di aumentare la velocità di switching dei transistor e no per il low-K che ha il compito invece di limitare le capacità parassite e quindi di migliorare l'integrità dei segnali elettrici. E' altresì vero che in questo modo si riducono anche le correnti parassite, tuttavia queste correnti non sono quelle di leakage propriamente dette.

cdimauro

27-04-2005, 08:04

hai parlato del tempo che ci impiegano pentium 4 e athlon 64 a fare quella LEA (tra le altre cose sembra incasinata ma in realtà è abbastanza tipica...
E' una delle istruzioni più utili e usate dai programmatori più esperti... ;)
tra l'altro cmq a memoria una cosa del genere già ai tempi dei 386/486 consumava pochissimo, forse 2/3 cicli di clock)...
Per il 386 il tempo di esecuzione era di almeno 3 cicli di clock.
Un 486 dovrebbe impiegare 1 ciclo di clock.
Sempre se la memoria non m'inganna... :p
dimmi che hai una bella tabella con tutti gli opcode (magari anche quelli specifici per le varie cpu) e i cicli di clock... io non ne trovo più una così dal 486 cazzo =)
Li trovi sui manuali di Intel e AMD. :D

Per il resto sono fermo a quasi una decina d'anni fa, con la tabella presente nella famosa Interrupt List di Ralph Brown, che riportava per ogni istruzione i processori che la implementevano e il loro tempo d'esecuzione. Si fermava al Pentium, se non erro.

Fx

27-04-2005, 13:36

E' una delle istruzioni più utili e usate dai programmatori più esperti... ;)

si, dato che è altamente ottimizzata si usa anche a "sproposito", nel senso che la sua finalità è quella di calcolare un offset, ma se ti serve fare ad es. "y = x*4 + a" la usi lo stesso che è molto più rapida di fare una mul (o se sei sgamato uno shift) e un add...

Per il 386 il tempo di esecuzione era di almeno 3 cicli di clock.
Un 486 dovrebbe impiegare 1 ciclo di clock.
Sempre se la memoria non m'inganna... :p

ci inganna ad entrambi :D

LEA - Load Effective Address

Usage: LEA dest,src
Modifies flags: None

Transfers offset address of "src" to the destination register.

Clocks Size
Operands 808x 286 386 486 Bytes

reg,mem 2+EA 3 2 1 2-4

- the MOV instruction can often save clock cycles when used in
place of LEA on 8088 processors

Li trovi sui manuali di Intel e AMD. :D

io ho ritrovato la pcgpe online... guardati "Intel opcodes"... i manuali di intel e amd li avevo guardati ma a quanto mi ricordo (era successo parecchio tempo fa) sono organizzati peggio... cmq me li andrò a rivedere =)

http://www.qzx.com/pc-gpe/

Per il resto sono fermo a quasi una decina d'anni fa, con la tabella presente nella famosa Interrupt List di Ralph Brown, che riportava per ogni istruzione i processori che la implementevano e il loro tempo d'esecuzione. Si fermava al Pentium, se non erro.

minchia era enorme... c'erano pure gli INT usati dai virus... c'è da farsi venire il mal di testa solo a pensarci :D

cdimauro

27-04-2005, 14:08

si, dato che è altamente ottimizzata si usa anche a "sproposito", nel senso che la sua finalità è quella di calcolare un offset, ma se ti serve fare ad es. "y = x*4 + a" la usi lo stesso che è molto più rapida di fare una mul (o se sei sgamato uno shift) e un add...
Esattamente. Occhio però a non usarla su un P4... :asd:
ci inganna ad entrambi :D
Ho cannato quello del 386: ricordavo peggio... :p
io ho ritrovato la pcgpe online...
"Bookmarkata" :D
guardati "Intel opcodes"...
Vecchiotta come tabella, però...
i manuali di intel e amd li avevo guardati ma a quanto mi ricordo (era successo parecchio tempo fa) sono organizzati peggio... cmq me li andrò a rivedere =)
Meglio, perché almeno sono aggiornati. Dopo passa ai manuali sulle ottimizzazioni... :D
minchia era enorme... c'erano pure gli INT usati dai virus... c'è da farsi venire il mal di testa solo a pensarci :D
:) Ai tempi erano molto interessanti... :p

Dreadnought

27-04-2005, 19:19

eh, porta numeri... scoprirai che anche a 130 nm non sono così trascurabili... certo, a 90 nm sono decisamente più importanti, ma anche a 130 nm non sono affatto trascurabili
Oh sempre io devo portare i numeri?

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

ce l'ha fatta...
aa cosa?
ma se non lo sapevi nemmeno.

Tra l'altro questo implica che un dothan che ha 140M di transistor dovrebbe consumare di più di un banias che ne ha 77, rispetto ad un prescott e un northwood.

Perchè a questo punto la cache non ha più un consumo idle trascurabile, ma probabilmente il dothan e il prescott non hanno lo stesso processo produttivo.

cidimauro: hai parlato del tempo che ci impiegano pentium 4 e athlon 64 a fare quella LEA (tra le altre cose sembra incasinata ma in realtà è abbastanza tipica... tra l'altro cmq a memoria una cosa del genere già ai tempi dei 386/486 consumava pochissimo, forse 2/3 cicli di clock)... dimmi che hai una bella tabella con tutti gli opcode (magari anche quelli specifici per le varie cpu) e i cicli di clock... io non ne trovo più una così dal 486 cazzo =)
su google l'avevo trovata tempo fa, una tabellona con tutte le istruzioni e i tempi di exec di tutti i 5/6/786

Dreadnought

27-04-2005, 22:42

:muro:
http://eetimes.com/news/design/showArticle.jhtml?articleID=159902216

P = KCV2F

where

K is toggle rate (the fraction of time that transistors are switching)
C is circuit capacitance, including interconnect and transistor capacitance
V is supply voltage to transistors
F is operating frequency

No per lo strained silicon (forse volevi dire SOI) che in realtà viene usato per aumentare la mobilità degli elettroni nel materiale e quindi abbassare la resistenza elettrica del mezzo (e quindi i consumi, ma non quelli legati al leakage) e consente inoltre di aumentare la velocità di switching dei transistor e no per il low-K che ha il compito invece di limitare le capacità parassite e quindi di migliorare l'integrità dei segnali elettrici. E' altresì vero che in questo modo si riducono anche le correnti parassite, tuttavia queste correnti non sono quelle di leakage propriamente dette.
Per il leakage di specifico c'è il SOI

Rimane il fatto che riducendo la R dei transistor P e dei transistor N, le commutazioni sono più rapide e si puo' abbassare la Vcc mantenendo clock superiori. Abbassando il Vcc consumi meno e riduci il problema del leak, indirettamente, ma lo argini in qualche modo.

Penso che il goal finale sia la stabilità delle commutazioni e la riduzione dei Watt.

Fx

27-04-2005, 22:53

Oh sempre io devo portare i numeri?

aa cosa?
ma se non lo sapevi nemmeno.

vabbè ciao eh, io mi sono rotto, al lettore che ha voglia di fare page up lo si vedrà chi:
a) non sapeva quanti transistor aveva il northwood e quanti il prescott
b) non sapeva quanti transistor aveva il core (senza contare la cache) del northwood e quanti il prescott
c) chi ha parlato di "static power" e chi manco l'ha citata
d) chi ha postato una tabella con i dati REALI dei consumi
e) chi invece ha ragione perchè lui sa tutto e gli altri non capiscono un cazzo

Fx

27-04-2005, 22:59

ah dimenticavo... il lettore che avrà la pazienza di fare page up troverà anche un mio pronostico che è stato azzeccato in pieno

leoneazzurro

28-04-2005, 02:20

Rimane il fatto che riducendo la R dei transistor P e dei transistor N, le commutazioni sono più rapide e si puo' abbassare la Vcc mantenendo clock superiori. Abbassando il Vcc consumi meno e riduci il problema del leak, indirettamente, ma lo argini in qualche modo.

Bisogna vedere se effettivamente si può abbassare la tensione di alimentazione: questo non è assicurato (esempio : Athlon FX 55) e quindi il leakage non viene influenzato dallo strained silicon

Penso che il goal finale sia la stabilità delle commutazioni e la riduzione dei Watt.

O molto più semplicemente il raggiungere frequenze di clock più elevate (vedi sempre Athlon FX 55)

cdimauro

28-04-2005, 08:57

ma probabilmente il dothan e il prescott non hanno lo stesso processo produttivo.
Non mi risulta.

Dreadnought

28-04-2005, 14:24

vabbè ciao eh, io mi sono rotto, al lettore che ha voglia di fare page up lo si vedrà chi:
a) non sapeva quanti transistor aveva il northwood e quanti il prescott
b) non sapeva quanti transistor aveva il core (senza contare la cache) del northwood e quanti il prescott
c) chi ha parlato di "static power" e chi manco l'ha citata
d) chi ha postato una tabella con i dati REALI dei consumi
e) chi invece ha ragione perchè lui sa tutto e gli altri non capiscono un cazzo

AHAHAHAHA

a) ma che cosa stai dicendo?
b) eh?! piuttosto tu scrivevi che erano stati fatti cambiamenti al core che facevano cosumare molti di più, invece alla fine dei conti non è così, e gran parte dei transistor in più sono sotto utilizzati.
c) la static power è quella consumata durante il leak, non tutti la chiamano così e poi la derivi facendo (correnti di leakage * Vcc) ed è in ogni caso compresa nel consumo totale. Cque era tutto scritto nell'articolo di ARStechnica che ti ho linkato, ma se non li leggi allora tantovale che posti :rolleyes:
d) quella tabella mostra dei dati di consumo durante lo svolgimento di un bench sui numeri primi, non visualizza più di tanto i consumi "reali" come li dici tu e non tiene conto delle temperature fattore importante per evitre che il P4 e gli athlon entrino nella thermal zone di sicurezza e si mettano a consumare evidentemente meno.
e) e poi chiamiamo la maestra e mi fai mettere una nota sul registro :D

f) in compenso ascoltando te tutti i produttori hanno buttato via milioni di dollari per sviluppare tecnologie alternative da affiancare alla normale produzione a 90nm :rotfl: che tanto sono completamente inutili.

Alla prox discussione con te farò la medesima tattica, faccio 20-30 post senza sapere nemmeno quello che scrivo, sostengo una tesi errata e poi quando gli altri mi spiegano che non è così (magari evidenziano pure quello che scrivo nei miei post) tiro fuori il "Te l'avevo detto io" :D
Che tajo!

Bisogna vedere se effettivamente si può abbassare la tensione di alimentazione: questo non è assicurato (esempio : Athlon FX 55)
Altrimenti cosa l'hanno implementato a fare?

Cque L'athlon Fx 55 ora che centra? è a 130nm e a che a quel processo prduttivo le correnti di leakage non superano il 15% dei consumi totali. Poi l'FX55 ha SSDOI che è un mix di SOI e Streined Silicon e ci pensa il SOI a ridurre le correnti di leak, è un processo standard di AMD e IBM che ha sostituito il 130nm SOI che usavano nei chip mobile.

e quindi il leakage non viene influenzato dallo strained silicon
e quindi? questo cosa comporta?

O molto più semplicemente il raggiungere frequenze di clock più elevate (vedi sempre Athlon FX 55)
Le frequenze più elevate le puoi raggiungere anche solamente aumentando li Vcc, vedi ad esempio Athlon 2000+ rispetto a 1700/1800/1900+.

leoneazzurro

28-04-2005, 17:03

Altrimenti cosa l'hanno implementato a fare?

Per raggiungere frequenze di switching più alte, appunto.

Cque L'athlon Fx 55 ora che centra? è a 130nm e a che a quel processo prduttivo le correnti di leakage non superano il 15% dei consumi totali. Poi l'FX55 ha SSDOI che è un mix di SOI e Streined Silicon e ci pensa il SOI a ridurre le correnti di leak, è un processo standard di AMD e IBM che ha sostituito il 130nm SOI che usavano nei chip mobile.

L'FX 55 c'entra nel senso che è il medesimo Athlon FX ma con processo SSOI (o meglio DSL, Dual - stress layer), il che gli permette si di raggiungere frequenze più alte rispetto agli Athlon FX "solo SOI" ma che non va a tagliare i consumi, anche grazie al fatto che la tensione di alimentazione è rimasta al medesima. Il che mi porta al punto che volevo evidenziare, non sempre passando allo strained silicon (e questo vale anche per Intel) si può diminuire la tensione di alimentazione.

e quindi? questo cosa comporta?

Pochi post fa avevi dichiarato che Low-K e SS diminuivano il fenomeno del leakage. O perlomeno è questo che ho capito.

Le frequenze più elevate le puoi raggiungere anche solamente aumentando li Vcc, vedi ad esempio Athlon 2000+ rispetto a 1700/1800/1900+.

Aumentando esponenzialmente i consumi, ma si stava parlando di cambi di processo produttivo e di come si relazionano ai consumi, non di overclock ;)

Ad ogni modo, il fenomeno del leakage per esempio è avvertibile anche nei Pentium M, dove il Dothan ha 1-2 W di consumo in più rispetto al Banias in idle mentre grazie alla minore Vcc alle frequenze massime il consumo sotto carico è minore, a parità di clock.
Comunque il Pentium M, rispetto ai Pentium 4, ha una capacità avanzata di gestione dell'alimentazione della cache, per cui a parità di condizioni il numero di transistor attivi tra Dothan e Banias non è molto differente, essendo poi il core base quasi identico.
Cosa che non avviene tra Prescott e Northwood.

Dreadnought

28-04-2005, 23:57

Per raggiungere frequenze di switching più alte, appunto.
Fosse solo per quello avrebbero alzato il Vcc come si e fatto da qua al 4004 nel 1970 ;) invece hanno voluto diminure il tempo di commutazione mantenendo bassi i consumi.

L'FX 55 c'entra nel senso che è il medesimo Athlon FX ma con processo SSOI (o meglio DSL, Dual - stress layer), il che gli permette si di raggiungere frequenze più alte rispetto agli Athlon FX "solo SOI" ma che non va a tagliare i consumi, anche grazie al fatto che la tensione di alimentazione è rimasta al medesima. Il che mi porta al punto che volevo evidenziare, non sempre passando allo strained silicon (e questo vale anche per Intel) si può diminuire la tensione di alimentazione.
Ok, la tensione è la medesima, ma la frequenza non è proprio la stessa, e poi non è detto che, come i barton mobile gli Fx55 possa operare a meno della potenza nominale a seconda della loro purezza.

Considera l'articolo di eetimes postato poco più sopra:
P = KCV2F

where

K is toggle rate (the fraction of time that transistors are switching)
C is circuit capacitance, including interconnect and transistor capacitance
V is supply voltage to transistors
F is operating frequency

Da quello che ho appreso in vari articoli sulle cpu è che c'è sempre un trade-off in cui se non aumenti il Vcc lo skew in alcune zone (in particolare quelle lontane dagli alberi di clock) aumenta troppo e hai incoerenza temporale tra varie unità logiche ok?
Fin qua penso che mi segui.

Ora la velocità di commutazione di un transistor dipende da molti fattori: il differenziale di tensione (più è alto e più commuta in fretta) la capacità parassita che si crea nella struttura interna sotto al gate che lo rallenta o sulle interconnessioni, poi ci sono le varie R, in genere riassunte con una resistenza da qualche parte nelle rappresentazini schematiche.

Se noi modifichiamo uno qualsiasi di questi valori possiamo farlo commutare più velocemente, as esempio abbassando C o R, oppure aumentando V, quello che voglioamo ottenere è che lo SKEW diminuisca il più possibile.
Però quello che più importa a chi produce CPU con N milioni di transistor è mantenere V basso (non tanto per non consumare troppo, ma proprio per non fondere, visto che I aumenta sempre) ed F più alto possibile (per avere prestazioni superiori e vendere).
Tutte queste variabili sono da tenere in conto durante la progettazione di un DIE, e penso che una volta fissate F massima che uno si prospetta di avere e W massimi che non vanno sueprati, le altre variabili hanno poca escursione, soprattutto con i livelli di concorrenza di questi anni.

Ora abbiamo da una parte della bilancia il leakage, e la frequenza che aumentano la P e quindi ci costringe ad abbassare V (caso del dothan e dle prescott mi pare) oppure F (caso del Prescott che non ha raggiunto i 4GHz)
Dall'altra parte della bilancia mettiamo pure low-K, SS, SSDOI, SOI, quello che ti pare, servono tutti a migliorare una CPU, riducendo R, le C parassite o la corrente che passa.

Quindi se da una parte è corretto dire che nell'FX55 il SOI + DSL non hanno fatto abbassare il Vcc, è anche da sottolineare che non è detto quale sia il limite del core Sledgehammer (quello degli Fx55 appunto).

Pochi post fa avevi dichiarato che Low-K e SS diminuivano il fenomeno del leakage. O perlomeno è questo che ho capito.
Mi sarò espresso male, visto che riducendo la R abbassi i consumi e aumenti la possibilità di salire in frequenza, dopotutto dovevo anche rispondere a 3 persone contemporaneamente, di cui uno a cui devi pure spiegare perchè la frequenza influisce sul consumo... :)

Aumentando esponenzialmente i consumi, ma si stava parlando di cambi di processo produttivo e di come si relazionano ai consumi, non di overclock ;)
in che senso overlock? :)
gli athlon xp 2000+ thoroughbred avevano 1.6V di Vcc proprio per raggiungere la frequenza di 1666MHz, rispetto ai 1600MHz del 1900+ a 1.5V.

Ad ogni modo, il fenomeno del leakage per esempio è avvertibile anche nei Pentium M, dove il Dothan ha 1-2 W di consumo in più rispetto al Banias in idle mentre grazie alla minore Vcc alle frequenze massime il consumo sotto carico è minore, a parità di clock.
Comunque il Pentium M, rispetto ai Pentium 4, ha una capacità avanzata di gestione dell'alimentazione della cache, per cui a parità di condizioni il numero di transistor attivi tra Dothan e Banias non è molto differente, essendo poi il core base quasi identico.
Cosa che non avviene tra Prescott e Northwood.
Considera pero' che il leak nel pentium M incide meno, perchè dove ci sono unità non utilizzate il pentium-M le disabilita, quindi se la zona non è alimentata non ha nè static power nè active power.

leoneazzurro

29-04-2005, 00:49

V puoi abbassarlo proprio cambiando processo. Infatti se le dimensioni dei transistor sono minori, si può evitare di alzare Vcc per garantire lo switching. Nota infatti come la Vcc sia fortemente condizionata dal processo produttivo e come se si cerca di abbassarla la stabilità rimanga garantita solo per valori inferiori della frequenza operativa.
Poni poi che C è uno dei parametri più difficilmente controllabili, soprattutto parlando della capacità di gate. Infatti tutti i MOS, avendo lo strato di ossido che funge da isolante tra elettrodo di gate e canale, formano una capacità sul gate che caricandosi "apre" il canale al passaggio della corrente. Tuttavia, quando fisso la geometria (le dimensioni del transistor) in maniera automatica fisso anche il valore di questa capacità (OK, posso usare materiali a basso K, oppure cercare di limitare al minimo la lunghezza del canale, ma ci sono chiaramente dei limiti). In genere C (per transistor) diminuisce in maniera pressochè lineare con la diminuzione delle dimensioni geometriche del transistor stesso. Poi cìè anche il discorso delle interconnessioni metalliche, con le relative capacità parassite (che danno problemi via via maggiori al diminuire delle dimensioni) e che influenzano anch'esse la velocità di commutazione... ma il discorso è troppo lungo.
Quello che volevo dire con l'esempio dell'FX-55 è che l'uso del DSL ha permesso di avere transistor più veloci a parità di Vcc (aumentando la mobilità degli elettroni) e quindi di raggiungere i 2.6 GHz, tuttavia i consumi non si sono ridotti, anzi FX55 ha "sforato" il TDP di 89 W dei Clawhammer/Newcastle. Se avessero dovuto alzare il Vcc, saremmo arrivati a livelli "prescottiani" di dissipazione su questo processore. Il che è deleterio per la vita del processore stesso. Infatti oltre ai fenomeni di elettromigrazione, anche una elevata dissipazione termica accorcia la vita utile della CPU (fatica termica, shock termico) e quindi il limite di un core non è solo quanto io posso spingerlo in frequenza "una tantum" (il limite dell'overclocker), ma è anche quello che un'azienda può ritenere sufficientemente sicuro per il componente affinchè statisticamente non abbia una mortalità elevata entro i termini di garanzia (il limite fissato dal costruttore).
Parlando degli Athlon Xp 2000+ ho parlato di overclock non a caso, poichè alla fine di quello si tratta, anche se garantito dalla casa. Infatti aumentare il Vcc è un espediente deleterio per i consumi, che vanno proporzionalmente al quadrato della tensione. Quindi non è la maniera "efficiente" di fare le cose ;) Ovviamente in caso di competizione feroce queste cose sono anche normali, del resto anche Intel non è nuova a queste cose.
Per finire, è vero che sui Pentium M il fenomeno del leakage ha un'incidenza minore (diciamo pure irrisoria), ho comunque voluto solo far notare come il leakage possa dire la sua anche su questi gioielli tecnologici (la cosa incredibile è che non solo la cache abbia una gestione avanzatissima del risparmio energetico, ma sia anche velocissima!) e che magari con il passaggio a 65 nm potrebbe dare qualche grattacapo ad Intel, che ha IMHO preso un pò sottogamba il problema del leakage, rimanendo indietro nello sviluppo del SOI.
E' mia opinione che attualmente il processo produttivo di AMD a 90 nm sia più avanzato tecnologicamente di quello Intel (grazie a DSL e SOI, sulla quale Intel è stata in colpevole ritardo) che però rimane parecchio avanti sulla pura capacità produttiva (grazie alle numerose fab e all'utilizzo di wafer da 30 mm).

Dreadnought

29-04-2005, 12:02

Ma che uno possa abbassare il Vcc scendendo di processo produttivo è di base, ma questo riduce la potenza consumata nella fase di switching ma aumenta quella consumata nella fase statica. Quindi anche qua c'è un compromesso, soprattutto quando le correnti di leak iniziano ad influire sulla percentuale dei consumi.

Per il resto, più che overclock nei 2000+ in avanti c'è stato un downvolt nei 1700-1900, visto che erano già stati prodotti con il core palomino, hanno semplicemente voluto farli consumare meno, visto che la stabilità era garantita ugualmente.

Cque ti ripeto che il dual stress liner non è usato nell'FX55, mentre verrà usato nell'FX57 (nuovi core venice e SanDiego). Inoltre nell'FX55 lo strained silicon directly on insulator non è usato su tutta la superficia del core, ma se non ricordo male solo in alcune zone.

leoneazzurro

29-04-2005, 13:08

A che sappia io l'Athlon FX 55 è stato il primo processore AMD a usare il DSL. Anche se nelle prime recensioni non era conosciuto con questo nome:

http://www.anandtech.com/cpuchipsets/showdoc.aspx?i=2350

http://www.hardocp.com/article.html?art=Njc1

Ed è stato poi successivamente annunciato in via ufficiale. Ma logico, dato che è un vantaggio competitivo veramente interessante.

E ho un pò toppato, a dire il vero. E' Dual Stress Liner, non Layer. Memoria a balzelloni...

Dreadnought

29-04-2005, 18:32

A che sappia io l'Athlon FX 55 è stato il primo processore AMD a usare il DSL. Anche se nelle prime recensioni non era conosciuto con questo nome:

Ho visto ora che l'FX55 è stato appena prodotto con core san diego, a 90nm, quindi ci sono 2 versioni, una a 90nm e una a 130nm, magari è per quello che non ci intendiamo, io ero rimasto alla versione 939 uscita al pari della serie winchester (che ho letto sua SSDOI), mentre ti probabilmete ti riferisci a quello nuovo (con DSL)

Fx

01-05-2005, 22:14

a) ma che cosa stai dicendo?
b) eh?! piuttosto tu scrivevi che erano stati fatti cambiamenti al core che facevano cosumare molti di più, invece alla fine dei conti non è così, e gran parte dei transistor in più sono sotto utilizzati.
c) la static power è quella consumata durante il leak, non tutti la chiamano così e poi la derivi facendo (correnti di leakage * Vcc) ed è in ogni caso compresa nel consumo totale. Cque era tutto scritto nell'articolo di ARStechnica che ti ho linkato, ma se non li leggi allora tantovale che posti :rolleyes:
d) quella tabella mostra dei dati di consumo durante lo svolgimento di un bench sui numeri primi, non visualizza più di tanto i consumi "reali" come li dici tu e non tiene conto delle temperature fattore importante per evitre che il P4 e gli athlon entrino nella thermal zone di sicurezza e si mettano a consumare evidentemente meno.
e) e poi chiamiamo la maestra e mi fai mettere una nota sul registro :D

f) in compenso ascoltando te tutti i produttori hanno buttato via milioni di dollari per sviluppare tecnologie alternative da affiancare alla normale produzione a 90nm :rotfl: che tanto sono completamente inutili.

senti, io mi rileggerei il topic dall'inizio, hai la memoria un po' troppo selettiva, forse annebbiata dalla tua incredibile arroganza e strafottenza

ma se non vuoi, non mancherò di fare quote post per post, in ordine cronologico

certo che è incredibile come ogni volta quando si discute con te per non dire che ti sei sbagliato (come avevo da lontano preannunciato) non solo scrivi tonnellate di testo inutile che cerca solo di sviare l'attenzione sulle cose importanti ma dall'altra riesci addirittura ad attribuire i tuoi errori agli altri PUR ESSENDO TUTTO SCRITTO NERO SU BIANCO

incredibile.

leoneazzurro

01-05-2005, 23:07

Ho visto ora che l'FX55 è stato appena prodotto con core san diego, a 90nm, quindi ci sono 2 versioni, una a 90nm e una a 130nm, magari è per quello che non ci intendiamo, io ero rimasto alla versione 939 uscita al pari della serie winchester (che ho letto sua SSDOI), mentre ti probabilmete ti riferisci a quello nuovo (con DSL)

Beh, no, io mi riferivo anche alla versione 130 nm. Infatti all'epoca, quando uscì, AMD e IBM non avevano ancora annunciato ufficialmente i dettagli sul DSL, ma pare che comunque essa sia stata impiegata per la prima volta proprio sugli FX-55. All'epoca sul FX-55 si sapeva che incorporava "una nuova tecnologia di strained silicon sviluppata da AMD e IBM ma della quale non venivano rilasciati dettagli e che presto AMD avrebbe portato anche sui 90 nm". Un mese e mezzo dopo i dettagli del DSL venivano rivelati. Sicuramente le due implementazioni (sui core "Clawhammer +" e "San Diego") non sono uguali, però se fai un giro sui forum tecnici si parla proprio di questo (anche se non è certo che sia stato usato su TUTTO il chip)