|
|||||||
|
|
|
![]() |
|
|
Strumenti |
|
|
#1 |
|
Senior Member
Iscritto dal: Jun 2008
Messaggi: 384
|
[C++]Paralellizzazione: prestazioni,convenienza
Ho visto che si può paralellizzare parte del codice in Visual C++ 2010, con le librerie PPL o MP come da voi anche spiegato.
Volevo utilizzare "paralle for" e "parallel for_each" per paralellizare porzioni del mio codice. Ma a prescindere da quale libreria si usi, mi sono chiesto se a livello di prestazioni conveniva. Io ho dei loop con espressioni relativamente semplici, di dimensioni di 8 variabili , che vengono eseguiti nel programma decine di volte, con una seguenza non definibile a priori. Il tutto ripetuto migliaia di volte, sempre in quantità non definibile a priori (ovvero non si può usare dei loop for next). Quindi potendo parallelizzare (almeno con parallel for/for each) solo loop di dimensioni di 8 variabili, mi chiedo se ciò convenga. Se consideriamo i tempi di accesso alla memoria, di trasmissione sul bus, e di lavoro softwarre del compilatore, otterrò realmente un miglioramento di prestazioni? A livello generale, quando si prende in considerazione la parallelizzazione di un codice, bisogna credo valutare la convenienza, considerando certi parametri e contestualità soggettive del codice in oggetto. Le modalità di operare non seguono ("ancora") standar e metodologie consolidate. Ma a livello pratico, rimane il fatto che i programmi "paralleli" funzionano.. Anche a livello di prestazioni Ultima modifica di Albitexm : 25-08-2010 alle 15:37. |
|
|
|
|
|
#2 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Fai un esempio di codice che vuoi parallelizzare.
Se la parte più interna del codice che vuoi parallelizzare non è molto grande (come tempo di esecuzione), allora non conviene sempre parallelizzare. Però si possono studiare altri tipi di partizione dei dati, che possono dimezzare, o anche di più, il tempo di esecuzione. Ad esempio, un caso semplice ed abbastanza tipico: Codice:
for(int i = 0; i < 8000; i++)
for(int j = 0; j < 8000; j++)
{
c[i][j] = 0;
for(int k = 0; k < 8000; k++)
c[i][j] += a[i][k] * b[k][j]
}
Potrebbe avere già più senso parallelizzare il secondo for, ma anche qui è possibile che il tempo di esecuzione possa essere troppo basso da non determinare un tempo di esecuzione consistente rispetto all'overhead. Puoi quindi attuare una ulteriore partizione...ad esempio supponiamo di voler utilizzare 16 thread (valore decente per poter essere sfruttato con qualsiasi architettura di processore moderna). Riscrivi il codice così: Codice:
for(int p = 0; p < 16; p++)
for(int i = p*500; i < (p+1)*500; i++)
for(int j = 0; j < 8000; j++)
{
c[i][j] = 0;
for(int k = 0; k < 8000; k++)
c[i][j] += a[i][k] * b[k][j]
}
|
|
|
|
|
|
#3 |
|
Senior Member
Iscritto dal: Jun 2008
Messaggi: 384
|
esempio di tipica espressione del mio programma:
4 funzioni usate dala porzione di codice: // funzione controllo casa occupata da pezzo int cop(int r,char c) { if (r==Krx&&c==Kcx) co=1; else if (r==Prx&&c==Pcx) co=1; else if (r==P1rx&&c==P1cx) co=1; else if (r==P2rx&&c==P2cx) co=1; else if (r==P3rx&&c==P3cx) co=1; else if (r==P4rx&&c==P4cx) co=1; else if (r==P5rx&&c==P5cx) co=1; else if (r==Rrx&&c==Rcx) co=1; else if (r==krx&&c==kcx) co=1; else if (r==prx&&c==pcx) co=1; else if (r==p1rx&&c==p1cx) co=1; else if (r==p2rx&&c==p2cx) co=1; else if (r==p3rx&&c==p3cx) co=1; else if (r==p4rx&&c==p4cx) co=1; else if (r==p5rx&&c==p5cx) co=1; else if (r==rrx&&c==rcx) co=1; else co=0; return co; } // funzione controllo case intermedia occupate //x mossa riga bianco int cio(int rg1,int rg2) { int y; int z; int i; if (rg1>rg2) { y=rg1;z=rg2; } else { y=rg2;z=rg1; } i=z+1; for (i;i<y;i++) { cop(i,pdc); if (co==1) break; } if (co==1) s=1; else s=0; return s; } // funzione controllo case intermedia occupate x mossa colonna int cioC(int cg1,int cg2) { int y; int z; int i; if (cg1>cg2) { y=cg1;z=cg2; } else { y=cg2;z=cg1; } i=z+1; for (i;i<y;i++) { tcic(i); cop(pdr,pdc); if (co==1) break; } if (co==1) s=1; else s=0; return s; } // funzione trasformazione cordinate char colonna in int. int tcci(char C) { if (C=='A') npc=1; else if (C=='B') npc=2; else if (C=='C') npc=3; else if (C=='D') npc=4; else if (C=='E') npc=5; else if (C=='F') npc=6; else if (C=='G') npc=7; else if (C=='H') npc=8; else cout<<" error2"; return npc; } "porzione da paralellizzare": //verifica che le case intermedie tra la casa di partenza e di arrivo //della mossa Torre, non siano occupate da nessun pezzo. // Per mossa di riga (Torre): else if (pp=="R") { if (Rrc==0) { cio(pdr,Ppr); } // Per mossa di colonna (Torre): else if (Rrc==1) { tcci (Ppc); cioC (np,npc); } else nl=0; } Una decina di algoritmi tipo questo, costituiscono il corpo maggiore del programma, che verrà eseguito tutto per migliaia di volte. nota: siccome le due espressioni "per mossa riga" e per "mossa colonna" sono uguali, portando "fuori" da mossa colonna la chiamata alla funzione tcci(), forse si potreppe paralellizzare la cosa con "parallel_invoke" di PPL (http://msdn.microsoft.com/en-us/libr...arallel_invoke) o relativa istruzione di MP. Ultima modifica di Albitexm : 26-08-2010 alle 00:10. |
|
|
|
|
|
#4 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Scusa, ma sono un po' bruttine queste funzioni...
int tcci(char C) la puoi scrivere come: Codice:
int tcci(char C)
{
npc = C - 'A' + 1;
if(npc > 8)
cout<<" error2";
return npc;
}
Prima di pensare alla parallelizzazione sarà bene ottimizzare il codice. Se solo riusciamo ad eliminare tutti quegli else-if abbiamo già ridotto il tempo di esecuzione di almeno un ordine di grandezza... Ultima modifica di cionci : 26-08-2010 alle 08:56. |
|
|
|
|
|
#5 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Anche cio e cioC si possono ridurre ulteriormente, c'è poco guadagno, ma se le devi eseguire un milione di volte allora cambia:
Codice:
//x mossa riga bianco
int cio(int rg1,int rg2)
{
int y;
int z;
int i;
if (rg1>rg2)
{
y=rg1;z=rg2;
}
else
{
y=rg2;z=rg1;
}
for (i=z+1;i<y;i++)
{
if(cop(i,pdc))
break;
}
s = co;
return co;
}
// funzione controllo case intermedia occupate x mossa colonna
int cioC(int cg1,int cg2)
{
int y;
int z;
int i;
if (cg1>cg2)
{
y=cg1;z=cg2;
}
else
{
y=cg2;z=cg1;
}
for (i=z+1;i<y;i++)
{
tcic(i);
if (cop(pdr,pdc))
break;
}
s = co;
return co;
}
|
|
|
|
|
|
#6 | |
|
Senior Member
Iscritto dal: Jun 2008
Messaggi: 384
|
Quote:
char quelle che finiscono con c (colonna). Sono le cordinate dei pezzi sulla scacchiera.Non sono costanti, perchè possono variare dopo l'eseguzione di ogni mossa. La lettera maiuscola o minuscola distingue i pezzi bianchi dai neri. Quindi c'è una relazione sono "umana", per la comprensione del codice, ma per il programma sono variabili intere con nessuna relazione di dipendenza diretta. La funzione "verifica" che la casa della scacchiera rappresentata dalle cordinate passate alla funzione, è occupata da un pezzo o no. (Se la torre parte da una casa per arrivare a un'altra casa, le case intermedie devono essere libere, altrimenti la mossa non è eseguibile). |
|
|
|
|
|
|
#7 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
Ogni quanto variano queste variabili ?
Quando le aggiorni ? Se ad esempio le aggiorni al di fuori di un ciclo for molto lungo, potresti precalcolare una matrice o un vettore con ogni corrispondenza riga-colonna e valore di co... |
|
|
|
|
|
#8 | |
|
Senior Member
Iscritto dal: Jun 2008
Messaggi: 384
|
Considera che sono un principiante. Comunque trasformerò queste funzioni.
Vorrei specificare che il programma, (almeno per adesso,non è finito) gira abbastanza velocemente. Volevo provare a paralellizarlo per sperimentare le PPL, non per un motivo pratico. Ma se si può migliorare il codice, giustamente come dici tu è meglio provare ad ottimizzare. Quote:
Nei programmi moderni la scacchiera e i pezzi sono rappresentati in un'altro modo, con le bitboard, ovvero la scacchiera viene rappresentata con un byte di 64 bit. Ci sono poi bitboard per i pezzi e delle table per i movimenti dei pezzi. Questo dal punto di vista delle prestazioni offre dei vantaggi, ovviamente in particolar modo in ambiente x64. Ma ho evitato questo perchè sarebbe stato troppo complesso per me. Ultima modifica di Albitexm : 26-08-2010 alle 10:11. |
|
|
|
|
|
|
#9 |
|
Senior Member
Iscritto dal: Apr 2000
Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29
Messaggi: 53971
|
In sostanza a te serve capire se una casella è occupata o meno, no ?
Senza ricorrere a strutture dati troppo complesse (dando una numerazione ai pezzi): Codice:
int scacchiera[8][8];
bool casella_libera(int scacchiera[8][8], int x, int y)
{
return scacchiera[x][y] == 0;
}
bool muovi_pezzo(int scacchiera[8][8], int x1, int y1, int x2, int y2)
{
if(!casella_libera(scacchiera, x2, y2))
return false;
scacchiera[x2][y2] = scacchiera[x1][y1];
scacchiera[x1][y1] = 0;
return true;
}
In questo modo int cop(int r,char c) si riduce a: Codice:
int cop(int r,char c)
{
return (casella_libera(scacchiera, r, tcci(c))) ? 0 : 1;
}
Ultima modifica di cionci : 26-08-2010 alle 10:40. |
|
|
|
|
|
#10 |
|
Senior Member
Iscritto dal: Jun 2008
Messaggi: 384
|
|
|
|
|
|
| Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 11:30.




















