[ASM] La vostra architettura preferita - Pagina 4

Z80Fan · 04-05-2010, 17:50

Quote:

Originariamente inviato da MaxArt

Vero. Forse in elenco ci doveva essere l'Alpha piuttosto che, ad esempio, il poco significativo IA-64 di Intel.

Per elenco intendi il sondaggio? Se si, l'Alpha è incluso nella lista

Quote:

Originariamente inviato da MaxArt

Comunque, complimenti Z80Fan: ci vuole qualcuno di davvero "hardcore" ogni tanto

Ti ringrazio

Hai già visto il mio thread dove programmo un sistema operativo?

MaxArt · 05-05-2010, 00:01

Quote:

Originariamente inviato da Z80Fan

Per elenco intendi il sondaggio? Se si, l'Alpha è incluso nella lista

Devo essere cieco...

Quote:

Ti ringrazio

Hai già visto il mio thread dove programmo un sistema operativo?

E come si fa a non vederlo? Lascia tutti così:

Mi dispiace di non poterlo seguire come si deve, un lavoro a tempo pieno non mi consente di fare molto

Z80Fan · 06-05-2010, 19:27

Chiedo un vostro parere su questa idea:
Facciamo che devo costruire un processore quasi-RISC. Per aumentare le prestazioni decido di usare una pipeline. Nonostante progetto bene il set di istruzioni, vedo che in molti casi si potrebbero verificare stalli sulla pipeline, e questo mi costa molto lavoro nella circuiteria di controllo. Secondo voi è meglio creare la circuiteria complessa, e che mi impone una frequenza inferiore, o creare una pipeline che non esegue una istruzione ogni ciclo di clock, ma che non mi crea stalli e mi permette di innalzare la frequenza?

cionci · 06-05-2010, 19:42

Un po' troppo generica la domanda. Mi immagino che tu abbia già un branch predictor. A cosa sono dovuti gli stalli della pipeline ? Al fallimento del branch predictor ? Ai cambi di contesto ? La pipeline è corta o è profonda (stile P4) ?
Se aumenti la circuiteria di controllo (mi immagino il branch predictor) od ottieni un critical path maggiore di quello dello stage più lento allora devi per forza diminuire gli stage.

Z80Fan · 06-05-2010, 20:45

Quote:

Originariamente inviato da cionci

Un po' troppo generica la domanda. Mi immagino che tu abbia già un branch predictor. A cosa sono dovuti gli stalli della pipeline ? Al fallimento del branch predictor ? Ai cambi di contesto ? La pipeline è corta o è profonda (stile P4) ?
Se aumenti la circuiteria di controllo (mi immagino il branch predictor) od ottieni un critical path maggiore di quello dello stage più lento allora devi per forza diminuire gli stage.

Ok, rettifico:
La pipeline è corta, con non più di 5-6 stadi. Al branch predictor non ci avevo pensato, presumiamo che non ci sia (anche perchè penso sia anch'esso un elemento complesso, e torniamo al discorso di prima), gli stalli avvengono per dipendenze dei dati.

Cmq forse è meglio che chiarisco il dubbio:
mettiamo che l'unico problema sia la dipendenza dei dati. I dati vengono presi direttamente dai registri e calcolati nel blocco execute, poi c'è un blocco di accesso alla memoria, e poi c'è il blocco di scrittura registri. Avendo la stessa pipeline, è meglio aggiungerli il controllo degli stalli ma facendola andare ad una frequenza inferiore (con caso ideale = una istr. ogni clock), o intervallare tutte le istruzioni con 2 nop in modo che sono assolutamente sicuro che quando una istruzione arriva in execute, l'istruzione precedente ha già eseguito il salvataggio dei registri (o lo sta facendo in quel momento, precisando che l'execute prende i dati aggiornati), ma avendo una frequenza più alta visto che si semplifica il circuito (qui il caso ideale è una istr ogni 2 cicli di clock).

cionci · 06-05-2010, 21:06

E' in-order o out-of-order ?

Z80Fan · 06-05-2010, 21:57

Quote:

Originariamente inviato da cionci

E' in-order o out-of-order ?

in-order

MaxArt · 06-05-2010, 23:32

Quote:

Originariamente inviato da Z80Fan

in-order

Ci credo, se lo vuoi tenere semplice.

Si può ancora considerare semplice se ci aggiungi un quintale di cache?

cionci · 06-05-2010, 23:54

Quote:

Originariamente inviato da Z80Fan

in-order

Data la pipeline corta, il risultato che crea dipendenza può essere reso disponibile all'istruzione successiva subito prima dell'esecuzione del calcolo nella ALU.
La ALU può aggiornare il register file (temporaneo, non quello disponibile al programmatore) con il risultato dell'esecuzione dell'istruzione precedente.

Ad esempio:

Codice:

|F|D|X|M|W|
  |F|D|X|M|W|

Se c'è dipendenza, in ogni caso la fase di esecuzione lavorerà comunque con il risultato aggiornato ottenuto dalla fase di esecuzione dell'istruzione precedente. In pratica l'uscita viene subito scritta in un register file temporaneo da cui viene preso il valore per l'esecuzione successiva.

cionci · 07-05-2010, 00:05

Altrimenti c'è la cosiddetta tecnica delle bubble, cioè si ritarda l'esecuzione di tutte le istruzioni successive nella pipeline di tot cicli necessari a risolvere la dipendenza.

Z80Fan · 07-05-2010, 14:40

Quote:

Originariamente inviato da MaxArt

Si può ancora considerare semplice se ci aggiungi un quintale di cache?

Solo se è cache direct mapped, che è semplice da implementare

Quote:

Originariamente inviato da cionci

Data la pipeline corta, il risultato che crea dipendenza può essere reso disponibile all'istruzione successiva subito prima dell'esecuzione del calcolo nella ALU.
La ALU può aggiornare il register file (temporaneo, non quello disponibile al programmatore) con il risultato dell'esecuzione dell'istruzione precedente.

Ad esempio:

Codice:

|F|D|X|M|W|
  |F|D|X|M|W|

Se c'è dipendenza, in ogni caso la fase di esecuzione lavorerà comunque con il risultato aggiornato ottenuto dalla fase di esecuzione dell'istruzione precedente. In pratica l'uscita viene subito scritta in un register file temporaneo da cui viene preso il valore per l'esecuzione successiva.

è una buona idea, ma non funziona se il risultato precedente deve essere prelevato dalla memoria. In questo caso, l'execute deve fermarsi per 1 ciclo (EDIT: passo) (presumendo che anche la fase di memoria scrive nei registri shadow, ma in questo caso non servirebbe neanche la fase di scrittura registri)

Quote:

Originariamente inviato da cionci

Altrimenti c'è la cosiddetta tecnica delle bubble, cioè si ritarda l'esecuzione di tutte le istruzioni successive nella pipeline di tot cicli necessari a risolvere la dipendenza.

Ecco, io pensavo di applicare una bubble di un ciclo (EDIT: passo) indiscriminatamente a qualsiasi istruzione, per evitare qualsiasi tipo di controllo. Può funzionare?

cionci · 07-05-2010, 14:59

Quote:

Originariamente inviato da Z80Fan

è una buona idea, ma non funziona se il risultato precedente deve essere prelevato dalla memoria. In questo caso, l'execute deve fermarsi per 1 ciclo (presumendo che anche la fase di memoria scrive nei registri shadow, ma in questo caso non servirebbe neanche la fase di scrittura registri)

Per le dipendenze in memoria non ci sono soluzioni valide, se non la cache. Bisognerebbe anche vedere quanti cicli occupa la lettura dalla cache. Ed in ogni caso se c'è un cache miss siamo punto e a capo. Un lettura dalla memoria occupa molti più di un ciclo...

Z80Fan · 07-05-2010, 15:12

Quote:

Originariamente inviato da cionci

Per le dipendenze in memoria non ci sono soluzioni valide, se non la cache. Bisognerebbe anche vedere quanti cicli occupa la lettura dalla cache. Ed in ogni caso se c'è un cache miss siamo punto e a capo. Un lettura dalla memoria occupa molti più di un ciclo...

Anche questo è vero...
Cmq sopra intendevo dire "l'execute deve fermarsi per 1 passo di pipeline ", visto che cmq abbiamo detto che non è out-of-order. La dipendenza non la intendevo come lentezza nell'aspettare la memoria, più che altro intendevo che la scrittura del dato cmq deve farla al passo successivo.
Sulla bubble indiscriminata cosa ne pensi?

cionci · 07-05-2010, 15:24

Non ho capito cosa intendi... Lasciamo da parte le dipendenze in memoria e il bubble. La scrittura vera la può fare quando vuole, l'importante è che il dato aggiornato si trovi nel register file invisibile intermedio non appena finisce lo stage X.

Z80Fan · 07-05-2010, 15:43

Quote:

Originariamente inviato da cionci

Non ho capito cosa intendi...

Tranquillo, mi sono accorto di aver creato un po' di confusione

Quote:

Originariamente inviato da cionci

Lasciamo da parte le dipendenze in memoria e il bubble. La scrittura vera la può fare quando vuole, l'importante è che il dato aggiornato si trovi nel register file invisibile intermedio non appena finisce lo stage X.

Ok, fin qui non ci piove. Io avevo cominciato a discutere nel caso avessimo una situazione del genere:

Codice:

...
1] carica R1 da memoria
2] operazione con R1
...

Avevo preso come riferimento lo schemino che avevi fatto tu (|F|D|X|M|W|), dove X doveva aspettare la fine di M (o la fine di W se M non aggiorna i registri shadow alla fine dell'operazione, come abbiamo ipotizzato per X) prima di operare. Se non volessimo avere nessun sistema di controllo di stalli, imponevamo che qualsiasi istruzione fosse intervallata dall'altra di un passo di pipeline, così avevamo:

Codice:

|F1|..|..|..|..|
|..|D1|..|..|..|
|F2|..|X1|..|..|
|..|D2|..|M1|..|     // M1 prende dalla memoria (eventualmente bloccando tutto il processore finché non ha finito) e scrive subito il ris. nei registri shadow
|F3|..|X2|..|W1|     // X2 prende i dati giusti dai registri shadow mentre W1 aggiorna i registri "ufficiali"

e non si creavano stalli per dipendenze di dati.

cionci · 07-05-2010, 16:12

In questo caso ci vuole una cache L1 per i dati. Difficile farne a meno.

Z80Fan · 07-05-2010, 16:20

Quote:

Originariamente inviato da cionci

In questo caso ci vuole una cache L1 per i dati. Difficile farne a meno.

Ok. Grazie mille per le risposte

Z80Fan · 27-05-2010, 20:10

Se io ho un ciclo come questo:

Codice:

for(...)
{
    if(condizione)
    {
        codice1
    }
    else
    {
        codice2
    }
}

premettendo che la condizione rimane costante per tutto il ciclo (è sempre o vera o falsa), il branch predictor dovrebbe "capire" che il salto dato dalla condizione dell'if è sempre preso (o non preso), quindi non ci dovrebbero essere stalli ad ogni ciclo per via del mancato salto dopo la condizione, vero?
Devo scrivere un codice del genere che deve avere alte prestazioni, ed ero indeciso se fare così, o scrivermi dei for separati scelti in base alla condizione.

cdimauro · 27-05-2010, 22:00

Se la condizione è statica, meglio due for separati, ma se sei sicuro che la CPU implementa un branch predictor, allora puoi star tranquillo.

Solo che i due for separati in ogni caso ti garantiscono l'esecuzione di meno istruzioni (non c'è il check e il branch).

MaxArt · 27-05-2010, 22:19

Anche se è meno elegante, for separati tutta la vita. In ogni caso sono più performanti, o almeno non mi risulta alcuna architettura in cui possa verificarsi il contrario (né mi viene in mente come potrebbe accadere).

Questi ragionamenti li devo fare di continuo sviluppando in JavaScript, dove l'ottimizzazione è ridotta a zero o quasi.

Risultati sondaggio: Qual'è la tua architettura preferita?
4004 (Intel)	0	0%
6502 (MOS)	0	0%
6800 (Motorola)	1	3.13%
68000 (Motorola)	6	18.75%
Alpha (DEC)	1	3.13%
ARM	2	6.25%
Cell (IBM)	0	0%
EDSAC	0	0%
IA-32 (Intel) (x86)	4	12.50%
IA-64 (Intel)	2	6.25%
x86-64 (AMD64)	2	6.25%
Mark I (IBM ASCC)	0	0%
MIPS	8	25.00%
PA-RISC (HP)	0	0%
PDP-1 (DEC)	0	0%
PDP-8 (DEC)	0	0%
PDP-11 (DEC)	0	0%
PIC (Microchip)	2	6.25%
POWER (IBM)	2	6.25%
SPARC (Sun)	0	0%
System/360 (IBM)	0	0%
Univac (Remington Rand)	0	0%
Z3 (Zuse)	1	3.13%
Z80 (Zilog)	1	3.13%
Votanti: 32. Non puoi votare in questo sondaggio

06-05-2010, 19:27	#63
Z80Fan Senior Member Iscritto dal: Sep 2009 Messaggi: 638	Pipeline vs. frequenza Chiedo un vostro parere su questa idea: Facciamo che devo costruire un processore quasi-RISC. Per aumentare le prestazioni decido di usare una pipeline. Nonostante progetto bene il set di istruzioni, vedo che in molti casi si potrebbero verificare stalli sulla pipeline, e questo mi costa molto lavoro nella circuiteria di controllo. Secondo voi è meglio creare la circuiteria complessa, e che mi impone una frequenza inferiore, o creare una pipeline che non esegue una istruzione ogni ciclo di clock, ma che non mi crea stalli e mi permette di innalzare la frequenza? __________________ \| Il mio "OS" (thread su HWU) \| \|

06-05-2010, 19:42	#64
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Un po' troppo generica la domanda. Mi immagino che tu abbia già un branch predictor. A cosa sono dovuti gli stalli della pipeline ? Al fallimento del branch predictor ? Ai cambi di contesto ? La pipeline è corta o è profonda (stile P4) ? Se aumenti la circuiteria di controllo (mi immagino il branch predictor) od ottieni un critical path maggiore di quello dello stage più lento allora devi per forza diminuire gli stage. Ultima modifica di cionci : 06-05-2010 alle 19:47.

27-05-2010, 20:10	#78
Z80Fan Senior Member Iscritto dal: Sep 2009 Messaggi: 638	Domanda sul branch prediction Se io ho un ciclo come questo: Codice: for(...) { if(condizione) { codice1 } else { codice2 } } premettendo che la condizione rimane costante per tutto il ciclo (è sempre o vera o falsa), il branch predictor dovrebbe "capire" che il salto dato dalla condizione dell'if è sempre preso (o non preso), quindi non ci dovrebbero essere stalli ad ogni ciclo per via del mancato salto dopo la condizione, vero? Devo scrivere un codice del genere che deve avere alte prestazioni, ed ero indeciso se fare così, o scrivermi dei for separati scelti in base alla condizione. __________________ \| Il mio "OS" (thread su HWU) \| \|

27-05-2010, 22:00	#79
cdimauro Senior Member Iscritto dal: Jan 2002 Città: Germania Messaggi: 26110	Se la condizione è statica, meglio due for separati, ma se sei sicuro che la CPU implementa un branch predictor, allora puoi star tranquillo. Solo che i due for separati in ogni caso ti garantiscono l'esecuzione di meno istruzioni (non c'è il check e il branch). __________________ Per iniziare a programmare c'è solo Python con questo o quest'altro (più avanzato) libro @LinkedIn Non parlo in alcun modo a nome dell'azienda per la quale lavoro Ho poco tempo per frequentare il forum; eventualmente, contattatemi in PVT o nel mio sito. Fanboys

06-05-2010, 21:06	#66
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	E' in-order o out-of-order ?

07-05-2010, 00:05	#70
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Altrimenti c'è la cosiddetta tecnica delle bubble, cioè si ritarda l'esecuzione di tutte le istruzioni successive nella pipeline di tot cicli necessari a risolvere la dipendenza.

07-05-2010, 15:24	#74
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Non ho capito cosa intendi... Lasciamo da parte le dipendenze in memoria e il bubble. La scrittura vera la può fare quando vuole, l'importante è che il dato aggiornato si trovi nel register file invisibile intermedio non appena finisce lo stage X.

07-05-2010, 16:12	#76
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	In questo caso ci vuole una cache L1 per i dati. Difficile farne a meno.

27-05-2010, 22:19	#80
MaxArt Senior Member Iscritto dal: Apr 2004 Città: Livorno Messaggi: 6659	Anche se è meno elegante, for separati tutta la vita. In ogni caso sono più performanti, o almeno non mi risulta alcuna architettura in cui possa verificarsi il contrario (né mi viene in mente come potrebbe accadere). Questi ragionamenti li devo fare di continuo sviluppando in JavaScript, dove l'ottimizzazione è ridotta a zero o quasi. __________________ HWU Rugby Group :'( - FAQ Processori - Aurea Sectio - CogitoWeb: idee varie sviluppando nel web

Strumenti
Mostra una versione stampabile Invia questa pagina per email