Analisi di PowerPC 970

Analisi di PowerPC 970

Pubblicata una analisi dettagliata dell'architettura del nuovo processore utilizzato per il Power Mac G5

di pubblicata il , alle 09:18 nel canale Processori
 

Dopo l'annuncio, nelle scorse settimane, del nuovo sistema Power Mac G5, il sito web Lithium ha pubblicato una analisi approfondita dell'architettura del nuovo processore IBM PowerPC 970, cuore operativo della nuova proposta di casa Apple.

Pubblichiamo di seguito un estratto dell'analisi:

"G5 è il primo processore dedicato a personal computer Desktop dotato dei 64bit. I registri interni del G5 sono infatti a 64bit così come le unità di allocazione della memoria. Sono a 64bit anche le unità sugli interi di modo da poter eseguire istruzioni su registri ampi 64bit. Ma tutto questo quanto può incidere sulle prestazioni di un computer "desktop"?. In realtà non molto. Infatti, chi mai va a fare una divisione a 64bit sugli interi? o magari chi va ad utilizzare loop con counter a 64bit? I 64bit servono in genere solo in software scientifico, matematico, in database etc... L'unico vantaggio è quello di avere una architettura che processando 64bit alla volta, si presume abbia una disponibilità generale di banda maggiore di una architettura a 32bit, e la disponibilità di una maggiore capacità di indirizzamnto della memoria che permette di superare agilmente (e definitivamente, direi) la barriera dei 4GBytes. "

Consigliamo la lettura dell'articolo, veramente ben curato, pubblicato a questo indirizzo.

Resta aggiornato sulle ultime offerte

Ricevi comodamente via email le segnalazioni della redazione di Hardware Upgrade sui prodotti tecnologici in offerta più interessanti per te

Quando invii il modulo, controlla la tua inbox per confermare l'iscrizione

14 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info
darkfire10 Luglio 2003, 09:39 #1
sarà sicuramente interessante: su lithium pubblicano articoli molto curati
xcdegasp10 Luglio 2003, 10:03 #2
Sembrerebbe veramente un bel Mac...
Cecco BS10 Luglio 2003, 10:19 #3
ho letto l'articolo: come al solito è molto interessante, in perfetto stile lithium... era un po' che non aggiornavano il sito con un nuovo articolo...
skara6910 Luglio 2003, 10:49 #4
incorpora anche il SOI!
Nessuno sa se anche Opteron e Athlon 64 hanno tale tecnologia?
riboulez10 Luglio 2003, 11:32 #5
incorpora anche il SOI!
Nessuno sa se anche Opteron e Athlon 64 hanno tale tecnologia?


Si, anke i nuovi procio a 64 bit di AMD incorporano il SOI
MaxFactor[ST]10 Luglio 2003, 11:50 #6
Beh! AMD ne ha fatto il suo cavallo di battaglia!
hermes3d10 Luglio 2003, 16:01 #7

X Skara69

Certo anche i processori AMD integrano la tecnologia SOI! E' stata fatta amplia pubblicità prima del debutto del 64bit di AMD, già quando sottoscrissero il contratto con la IBM!
cdimauro11 Luglio 2003, 00:05 #8
L'articolo (ottimo, seppur "stringato", contiene delle imprecisioni:

1) "Inoltre il G5 è a tutti gli effetti il primo processore per personal computer totalmente a 64bit (almeno in attesa di Athlon 64)."

Non mi sembra che esistano G5 attualmente in commercio. Anche HP ha annunciato di recente il supporto all'Athlon64, ma non vende ancora alcunché. Quando sarà REALMENTE possibile acquistare uno dei due sistemi, gli si potrà attribuire la palma di primo desktop a 64 bit...

2) "IBM ha progettato un core con pipeline profonde ma a differenza di quanto fatto a suo tempo da Intel con il P4, IBM ha anche pensato bene di dorare il tutto di numerose unità di elaborazione e di affrontare il passaggio ai 64bit".

Il PPC970 deriva direttamente dal Power4 di IBM, che risulta già nativamente a 64 bit. Non ha progettato un core con pipeline profonde, perché queste ultime sono già presenti nei Power4. Il PPC970 è, a tutti gli effetti, derivato dalla "castrazione" del core di un Power4 (che risulta nettamente più performante), a cui è stata aggiunta un'unità Altivec per l'elaborazione delle operazioni SIMD...

3) "Nel G5 ci sono 12 unità di elaborazione, e le pipeline hanno una lunghezza media di 16 stage (sono 9 nel G4 e 20 nel P4)."

Il G4e o G4+ possiede 7 stadi di pipeline e non 9 (il G4, invece, soltanto 4!).

E' decisamente approssimativo e fuorviante fornire una "media" degli stadi di pipeline, data la notevole complessità degli stessi.

In realtà 16 è il numero MINIMO di stadi di pipeline che un'istruzione del PPC970 deve affrontare prima di arrivare al completamento.

Per essere precisi, 16 sono gli stadi per le istruzioni intere, 17 per quelle di load/store, 21 per quelle floating point, mentre quelle Altivec vanno da un minimo di 19 (per quelle di permutazione: le meno diffuse) fino ad un massimo di 25 (per quelle che eseguono operazioni più complesse...)

4) "La gestione dell'esecuzione fuori ordine avviene a gruppi di 5 istruzioni alla volta. uno schema che semplifica e velocizza la gestione."

Detta così sembra che questo porti esclusivamente vantaggi al PPC970: in realtà l'esecuzione non è relativa alle istruzioni PowerPC vere e proprie, ma a delle istruzioni ancora più semplici in cui vengono suddivise quelle originali, esattamente come fanno gli x86 dal K5 di Amd (che per prima introdusse un core RISC-86), fino agli ultimi P4 e Hammer...

Oltre a ciò il raggruppamento e l'esecuzione di queste microistruzioni è soggetto a tanti di quei vincoli che sarebbe necessario un articolo molto lungo (e tecnico) per riuscire a comprerne il funzionamento e le implicazioni che ne derivano.

Non sono tutte rose e fiori, insomma: sono presenti anche numerose spine...

Per maggiori informazioni: http://www-1.ibm.com/servers/eserve...ers/power4.html

5) "Inoltre, il velocity engine e' in grado di allocare e portare a termine due istruzioni per colpo di clock sulle sue 4 unità di elaborazione interne. Questo comparto risulta a parità di clock inferiore all'equivalente del G4, tuttavia la grande capacità di banda e la maggiore frequenza portano il G5 in netto vantaggio."

Anche il G4 può eseguire due sole istruzioni Altivec per ciclo di clock. La differenza SOSTANZIALE rispetto al PPC970, è che può eseguirne due qualsiasi, mentre quest'ultimo soltanto una di permutazione e un'altra, più complessa, degli altri tre tipi disponibili.

Altro fattore estremamente rilevante, l'implementazione Altivec dei PPC970 non supporta dati a precisione doppia, ma soltanto singola, come erroneamente riportato...

Infine, l'elevata banda permessa dall'FSB, la cache L2 raddoppiata e la maggiore frequenza servono a compensare i difetti di cui sopra e l'elevata lunghezza delle pipeline per l'esecuzione di istruzioni Altivec.

6) "Le unità intere sono 2, operano su un register file di 32 registri a 64bit, possono ciascuna eseguire la quasi totalità delle istruzioni, semplici o complesse che siano (una leggera asimmetria per l'istruzione di divisione disponibile su una sola unità."

In realtà le unità intere sono 3, poiché ne è presente una che si occupa dell'esecuzione delle sole istruzioni relative al registro dei flag che, pur essendo più rare delle altre, necessitano di un diverso trattamento. Un'ottima scelta che ha permesso di rendere, appunto, più "simmetriche" le altre due unità di esecuzione...

7) Sulle unità di Load & Store ci sono ancora poche informazioni che possano consentire di comprenderne appieno il funzionamento e le implicazioni prestazionali.

8) L'FSB multiplexa le linee di controllo, per cui la banda realmente disponibile è inferiore a quella teorica. Come dai dati rilasciati da IBM, un FSB a 900Mhz, che possiede un banda teorica di 7.2GB/s, in realtà ne mette a disposizione una reale di 6.4GB/s.

Oltre a ciò, ritengo che la suddivisione del bus a metà per le operazioni di lettura e scrittura comportino degli svantaggi rispetto ai tradizionali bus bidirezionali presenti nei sistemi x86. In caso di carico di lavoro "sbilanciato" in lettura o scrittura, l'FSB di un P4 a 800Mhz è in grado di arrivare a fornire una banda di 6.4GB/s in lettura o scrittura, mentre quello del PPC970 (e dei Power4, da cui deriva), al più 3.2GB/s in lettura o scrittura.

Le operazioni di lettura dalla memoria, infatti, sono mediamente quelle che impegnano di più le operazioni con l'FSB...

9) Le conclusioni sulle performance sono tutte da verificare, perché attualmente i benchmark forniti da Apple sono palesemente artefatti a proprio uso e consumo. Vengono smentiti perfino dalla stessa IBM, che alla presentazione del PPC970 allo scorso MPF ha dato dei valori di SPECint e SPECfp nettamente diversi da quelli forniti da Apple...

Vedremo quando finalmente saranno commercializzate le prime macchine G5...
B|4KWH|T311 Luglio 2003, 01:14 #9
adesso, non per sembrare polemico, ma potevi limitarti a segnalare solo i punti 3, 5 e 6

1) 'E sempre così, anche x la questione del primo processore a 1GHz è stata solo e soprattutto una questione di annunci (anche se AMD è effettivametne arrivata prima)

2)"Non ha progettato un core con pipeline profonde, perché queste ultime sono già presenti nei Power4"
EH? Embè? Il Power4 chi l'ha pregettato? Madre teresa?
...

4) Non mi sembra che abbiate detto velocizza la gestione INVECE DI QUEI PIRLA DI ATHLON E P4, ha solo descritto una caratteristica (superficialmete per di più

7)Vabbuò

8)Non è nè il primo nè l'ultimo componente hardware a non raggiungere il limite teorico

9)Opinioni personali (cmq concordo)
cdimauro11 Luglio 2003, 07:24 #10
Originally posted by "B|4KWH|T3"

adesso, non per sembrare polemico, ma potevi limitarti a segnalare solo i punti 3, 5 e 6


Anche gli altri mi sembrano egualmente importanti. Poi non ho mancato di giusticarli minuziosamente...

2)"Non ha progettato un core con pipeline profonde, perché queste ultime sono già presenti nei Power4"
EH? Embè? Il Power4 chi l'ha pregettato? Madre teresa?
...


Prova a leggerti bene l'articolo: è come se dicessero che IBM ha appositamente progettato il PPC970 in questo modo: in realtà deriva dal Power4 che funziona già ESATTAMENTE allo stesso modo.

Nulla di nuovo, insomma, mentre dall'articolo sembra l'esatto contrario...

4) Non mi sembra che abbiate detto velocizza la gestione INVECE DI QUEI PIRLA DI ATHLON E P4, ha solo descritto una caratteristica (superficialmete per di più


Proprio perché era troppo superficiale ed ottimistica ho scritto il punto 4.

7)Vabbuò


Le unità Load & Store sono estremamente importanti in un processore: se non se conoscono le caratteristiche tecniche (numero di porte, quante richieste possono accodare, se sono bloccanti o no, ecc. ecc.) non è possibile capire bene come verrà sfruttata la banda di memoria e in che modo è possibile trarne vantaggio...

8)Non è nè il primo nè l'ultimo componente hardware a non raggiungere il limite teorico


E allora? Ha dei limiti CONSISTENTI, ma sono stati omessi!

E' come se ti dicessero che la tua 500 fa 200 km/s (sulla carta), mentre arriva al massimo a 100km/h dalla 1a alla 4a e altri 100km/h in retromarcia (100+100 = 200), ma a causa del cambio le velocità vengono ulteriormente ridotte a 90km/h...

Insomma, non mi pare una cosa da niente...

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^