|
|
|
![]() |
|
Strumenti |
![]() |
#21 |
Senior Member
Iscritto dal: Jan 2003
Messaggi: 10395
|
Infatti
Infatti l'Athlon e' nel complesso un processore più efficiente, in quanto ha un IPC sensibilmente superiore al P4, che al contrario a causa del clock molto più elevato è il processore più potente nel complesso (la sua versione più potente riesce a compiere la maggioranza dei task in meno tempo rispetto alla versione più potente di AMD). Comunque le potenze termiche dissipate stanno diventando veramente esagerate, già nel caso del nuovo Prescott si parla di oltre 100 W negli esemplari di preserie, e dubito si riuscirà a ridurlo a meno di 90 W. Salendo ulteriormente di clock si avrà sempre più dissipazione, e la transizione a 0.09 micron sarà solo un paliativo temporaneo. Entrambi gli approcci (AMD e Intel) hanno vantaggi e svantaggi, certo è che quando si raggiungeranno i limiti fisici dell'innalzamento di frequenza, Intel sarà forzata ad aumentare l'IPC.
Senza contare che un clock inferiore significa non dover necessariamente fare i salti mortali per ridurre induttanze parassite et similia e poter utilizzare sistemi di raffreddamento più "normali". |
![]() |
![]() |
![]() |
#22 | |
Senior Member
Iscritto dal: Jan 2003
Messaggi: 10395
|
Quote:
Mi sembra strano, la potenza dissipata da un P4 3 GHz non mi sembra molto superiore di un AthlonXP 3000+ [/quote] Purtroppo lo è, e non di poco: un P4 a 3,2 GHz dissipa da 85 a 100 W, un Barton 3200+ da 60 a 77 W (min-max), il che significa il 30% di meno. |
|
![]() |
![]() |
![]() |
#23 | |||||
Senior Member
Iscritto dal: Jun 2002
Città: Firenze
Messaggi: 630
|
Quote:
AMD solo recentemente sta facendo produrre gli Athlon XP alla UMC, in modo da tenere nelle proprie FAB i processi più avanzati (SOI, 90nm, etc.). Il ritardo c'è, se guardi bene il primo processore a 0.13um introdotto, per Intel è il Northwood 1.6GHz di Gennaio 2002, mentre AMD è il Thoroughbred 2000+ di Settembre 2002. Quote:
Quote:
Pentium 4, Athlon e Opteron non credo abbiano questa caratteristica. Penso che si limitino a determinare il ramo che più probabilmente sarà seguito. Quote:
Quote:
Il discorso della "funzione lineare" è comunque valido e dimostrabile.
__________________
---> Lombardp CSS Certified Expert (Master Level) at Experts-Exchange Proud user of LITHIUM forum : CPU technology Webmaster of SEVEN-SEGMENTS : Elettronica per modellismo |
|||||
![]() |
![]() |
![]() |
#24 |
Senior Member
Iscritto dal: Jan 2003
Messaggi: 10395
|
[/quote]
Si hai ragione, alla fine le potenze sono quasi uguali. Perché pur avendo l'Athlon una minor frequenza, sprecando meno cicli di clock riesce a far lavorare di più i transistor. Humm.. il 30% di potenza dissipata in più non mi sembra "quasi uguale". Significa dover avere una ventola più grande e rumorosa, un dissipatore di migliore qualità ed una ventilazione migliore del case. |
![]() |
![]() |
![]() |
#25 | |||||||
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Quote:
In queste condizioni gli stalli si verificano molto più raramente, anche perché il sistema di prefetching provvede quasi sempre a recuperare i dati prima della loro richiesta, e nel caso che il processore non trovi i dati l'esecuzione speculativa e fuori ordine delle istruzioni provvede a "congelare" l'istruzione in attesa di dati e a passare le risorse della CPU/ALU a qualche altra istruzione che non sia legata da rapporti di dipendenza o altro, per poi tornare ad eseguirla quando tutte le sue risorse saranno disponibili. In quest'ottica è chiaro che l'aumento della frequenza di clock è la principale responsabile delle migliori performance di un processore, e in misura MOLTO minore contano la quantità di cache L2 e la frequenza di bus. In particolare, già 512KB di cache L2 "veloce", come quella del P4, offre delle ottime prestazioni nell'esecuzione di codice SIMD; con l'aumento della cache a 1MB non assisteremo sicuramente ad un impatto prestazionale paragonabile a quello dovuto al passaggio dai 256KB del Willamette ai 512KB del Northwood. Stesso discorso per l'FSB: a fronte di un raddoppio dai 400Mhz della sua introduzione agli 800Mhz attuali, non abbiamo assistito a grossi boost prestazionali (lo dimostrano anche i primi test del chipset Via per P4 a singolo canale: prestazioni paragonabili a quelle Intel a doppio canale/banda). Sarebbe interessante effettuare una bella prova comparativa mettendo in gioco tutti questi fattori: Corsini è in possesso di alcuni engineering sample di P4 con moltiplicatore sbloccato che potrebbero fornire le informazioni di cui sopra. ![]() Quote:
I quantitivi di cache maggiori possono soltanto lenire gli effetti degli innumerevoli problemi dovuti ai bench miss che si verificano spesso, e gli algoritmi di previsione dei salti non possono certo arrivare a fare miracoli, per quanto elaborati e complessi: al più servono a bilanciare le cadute di performance. Quanto ai programmi scritti apposta, non credo che si possa pensare di tornare a scrivere codice assembly per una parte consistente del codice: non è economicamente conveniente e a volte la natura stessa del codice non permette di scrivere del codice efficiente. Per questo ormai l'uso dei compilatori è imperativo, ma questi non possono certo fare miracoli. Rimarrebbe la carta di un'architettura che aiuti nella predizione (o sarebbe meglio dire predicazione) dei salti, come quella dell'Itanium, ma anche in questo caso i risultati sono stati, a mio avviso, abbastanza deludenti (basti guardare alle prestazioni interi di questi "mostri", Itanium2 incluso), in quanto ci si affida al compilatore, che può avere soltanto una visione statica del lavoro che dovrebbe essere effttuato dal codice e non dinamica, come avviene invece nella realtà; infatti l'Itanium non è dotato di un'unità di esecuzione fuori ordine, che permetterebbe un notevole boost prestazionale, e difficilmente la implementerà, in quanto l'architettura EPIC su cui è basato di fatto lo obbliga ad eseguire le istruzioni in bundle e secondo certi criteri. Quote:
Quote:
Quote:
Quote:
Comunque considera che uno stallo si può benissimo verificare anche per il caricamento del codice che dev'essere eseguito, e ciò comporata non pochi problemi, specialmente nel caso del P4. Infatti la trace cache, che contiene le istruzioni decodificate direttamente in formato RISC (ROP), è molto piccola (può contenere circa 12mila istruzioni a 112bit) ed è in grado di analizzare e decodificare al più un'istruzione x86 alla volta (mentre è in grado di spedire al più 3 ROP alle unità di esecuzione), per cui puoi ben immaginare quale impatto prestazionale si può verificare col codice "generico", non SIMD: le applicazioni che ho citato ne risentirebbero veramente moltissimo... Quote:
P.S. P4 e Athlon/Opteron non eseguono speculativamente i due possibili rami di un salto condizionale, come invece fa l'Itanium...
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
|||||||
![]() |
![]() |
![]() |
#26 | |
Senior Member
Iscritto dal: Feb 2002
Messaggi: 7054
|
Quote:
...le tue conoscenze sono "un po' troppo piu'" delle mie per poterti rispondere... ![]() Spero almeno di riuscire a ricordare un po' delle cose interessantissime che spesso escono dalla tua tastiera! ![]() |
|
![]() |
![]() |
![]() |
#27 |
Senior Member
Iscritto dal: Jan 2002
Città: Germania
Messaggi: 26110
|
Ti ringrazio per l'apprezzamento. Sono felice di poter discutere con delle persone tecnicamente preparate.
![]()
__________________
Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys |
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 13:55.