[C] Ottimizzazione spinta

Unrue · 29-06-2009, 22:03

Ciao ragazzi,
avrei bisogno di ultraottimizzare questo spezzone di codice:

Codice:

register float32 * punt;
register float32 sample_r,sample_i;

punt = &trdiff[4*i_idx1];

for(m = 0; m < *ntot; m++)
 for( k = 0; k < i_idx2-i_idx1+1 ; k++) {

          sample_r = *punt + up_interp* *(punt+1);
          sample_i = *(punt + 2) +up_interp* *(punt + 3);

          punt +=4;

          numm[ m][k].r += sample_r;
          numm[ m][k].i += sample_i;
          denom[m]      += sample_r * sample_r + sample_i * sample_i;
        }

Secondo voi si può migliorare utilizzando l'aritmetica dei puntatori o richiamando direttamenre istruzioni assembly?( denom e trdiff sono float32, numm è complex32)

Grazie

Ikon O'Cluster · 30-06-2009, 01:52

Secondo me oltre un certo punto ogni ottimizzazione "sintattica" apporta vantaggi trascurabili... ad un certo punto bisogna considerare l'ottimizzazione "semantica". Ad esempio il tuo codice ha complessità O(N*M) dove:

N = max(*ntot)
M = max(i_idx2-i_idx1+1)

Puoi fare di meglio?

P.S.: Se vuoi ottimizzare (sintatticamente) al max devi avere una grande conoscenza del compilatore. Non so quale usi, ma cmq non sono espertissimo in questo campo. Prova a studiare le tecniche di ottimizzazione che usa il tuo compilatore e cerca di scrivere il codice che le sfrutti al meglio. Ma il gioco non vale la candela... almeno per la maggior parte delle applicazioni che riesco ad immaginare!

Unrue · 30-06-2009, 08:50

Ciao,
grazie per la risposta. Dunque, sto utilizzando il compilatore Intel. Diciamo che questa applicazione non dove girare su molte macchine ma più o meno sempre sulla stessa ( AMD Opteron)

Riguardo il tuo consiglio, purtroppo non posso eliminare il doppio ciclo.

Ikon O'Cluster · 30-06-2009, 10:37

Eh... su quello non avevo dubbi!

Non intendevo eliminarlo, ma se per esempio da O(N*M) riesci a passare a O(N*log(M)) soprattutto se M >> N allora può essere conveniente... se poi quella è già la soluzione più efficiente pace! Cmq io penso che una ottimizzazione spinta del codice non ti permetta di guadagnare poi tanto... voglio esagerare e dico un 7% (sul tempo di esecuzione).

Ikon O'Cluster · 30-06-2009, 10:40

Ma forse ho esagerato troppo...

^TiGeRShArK^ · 30-06-2009, 12:37

se hai + di un core a disposizione sulla tua macchina puoi usare i thread, altrimenti credo che la cosa migliore sarebbe ottimizzare l'algoritmo come ha già detto ikon'cluster....
cmq è una matrice completa?
o magari è sparsa o diagonale?
Negli ultimi due casi dovresti poter guadagnare molto a livello algoritmico.....

Tommo · 30-06-2009, 12:59

Dato che lo stride di punt è 4 elementi, dovrebbe essere possibile usare le SIMD... forse

Oppure potresti spezzare il for interno su tutti i cores con threads che lo eseguirebbero più o meno parallelamente.

L'unica ottimizzazione che mi viene in mente in quel codice è salvarsi i_idx2-i_idx1+1 invece che ricalcolarlo N*M volte... ed anche usare ++k e ++m invece che k++ e m++... dovrebbe risparmiare un paio di istruzioni asm.

banryu79 · 30-06-2009, 13:21

Quote:

Originariamente inviato da Tommo

ed anche usare ++k e ++m invece che k++ e m++... dovrebbe risparmiare un paio di istruzioni asm.

[OT]Il preincremento è più "economico" del postincremento in termini di assembly? Nel senso, lo è sempre? Non conosco niente di assembly...[/OT]

^TiGeRShArK^ · 30-06-2009, 13:59

con i compilatori moderni utilizzare a++ o ++a dovrebbe essere la stessa cosa.
Anche il fatto di salvarsi la sottrazione in una variabile locale *dovrebbe* essere già fatto dal compilatore...

Tommo · 30-06-2009, 14:15

Quote:

Originariamente inviato da banryu79

[OT]Il preincremento è più "economico" del postincremento in termini di assembly? Nel senso, lo è sempre? Non conosco niente di assembly...[/OT]

teoricamente (da quello che mi hanno detto) il posticremento prende il valore dell'espressione ci aggiunge 1 e lo rimette al suo posto... invece il preincremento aggiunge direttamente 1 al valore.

quindi si dovrebbe risparmiare una creazione ed un'assegnazione.
Ma non so niente di assembly

Cmq io lo uso sempre perchè non costa niente, se funziona meglio

In ogni caso il compilatore *dovrebbe* farle da solo ste cose, ma dato che qua si parla di ottimizzazione massima il *dovrebbe* non è ammesso...

Ikon O'Cluster · 30-06-2009, 14:48

Quote:

Originariamente inviato da ^TiGeRShArK^

se hai + di un core a disposizione sulla tua macchina puoi usare i thread, altrimenti credo che la cosa migliore sarebbe ottimizzare l'algoritmo come ha già detto ikon'cluster....
cmq è una matrice completa?
o magari è sparsa o diagonale?
Negli ultimi due casi dovresti poter guadagnare molto a livello algoritmico.....

C'è da dire che ottimizzare in sè x sè non dice niente... bisogna sapere se uno ha vincoli stretti su memoria o processore e in quale proporzione...

Unrue · 30-06-2009, 14:57

Quote:

Originariamente inviato da Ikon O'Cluster

C'è da dire che ottimizzare in sè x sè non dice niente... bisogna sapere se uno ha vincoli stretti su memoria o processore e in quale proporzione...

Intendo ottimizzare il tempo di esecuzione.

wingman87 · 30-06-2009, 15:18

Potresti anche salvare il valore di *ntot in una variabile per evitare la dereferenziazione, risparmieresti un accesso alla memoria. Ma temo che tutte le ottimizzazioni che stiamo proponendo siano già attuate dal compilatore...

cionci · 30-06-2009, 16:06

Allora...io proverei così:

sample_r = A + K * B;
sample_i = C + K * D;

Quindi

denom[m] += A^2 + K^2*B^2 + AKB + C^2 + K^2*D^2 + CKB

N = i_idx2 - i_idx1

denom[m] = somma per K che va da 0 a N(A^2 + K^2*B^2 + AKB + C^2 + K^2*D^2 + CKB) = NA^2 + NC^2 + (B^2 + D^2)*somma(K^2) + (AB + CD)*somma(K)

somma(K) = (N*(N+1))/2
somma(K^2) = N(N+1)(2N+1)/6

Da numm[m][k] ci passi solo una volta, cosa c'è prima dentro la struct ?

Unrue · 30-06-2009, 16:29

Quote:

Originariamente inviato da cionci

Allora...io proverei così:

sample_r = A + K * B;
sample_i = C + K * D;

Quindi

denom[m] += A^2 + K^2*B^2 + AKB + C^2 + K^2*D^2 + CKB

N = i_idx2 - i_idx1

denom[m] = somma per K che va da 0 a N(A^2 + K^2*B^2 + AKB + C^2 + K^2*D^2 + CKB) = NA^2 + NC^2 + (B^2 + D^2)*somma(K^2) + (AB + CD)*somma(K)

somma(K) = (N*(N+1))/2
somma(K^2) = N(N+1)(2N+1)/6

Da numm[m][k] ci passi solo una volta, cosa c'è prima dentro la struct ?

Ciao cionci. In numm[m][k] non c'è nulla prima, sono inizializzate a 0.0.

cionci · 30-06-2009, 16:32

Aspetta, non avevo visto che punt viene incrementato di 4...cancella tutto quello che ho scritto

Ikon O'Cluster · 30-06-2009, 19:40

Quote:

Originariamente inviato da cionci

Aspetta, non avevo visto che punt viene incrementato di 4...cancella tutto quello che ho scritto

AUAUHAUHAUH

Grandissima sola...

fracarro · 01-07-2009, 20:53

Quote:

Originariamente inviato da Unrue

Intendo ottimizzare il tempo di esecuzione.

Potresti provare a compilare con il gcc insieme all'opzione -O3 e vedere come va l'eseguibile rispetto a quello compilato con l'intel.
Da quello che ho letto in giro il compilatore intel dovrebbe generare codici più performanti a patto di compilare con i flag giusti che sfruttano l'architettura. Fai il confronto tra i due eseguibili e se va meglio quello prodotto dal gcc allora forse devi usare qualche altro flag sul compilatore intel.

P.S. Anche se sono poche righe di codice, potresti analizzarle sfruttando il valgrind come profiler e il kcachegrind per vedere ogni istruzione e ogni ciclo quando tempo di cpu impiega (è il modo migliore per trovare i colli di bottiglia).

Ikon O'Cluster · 01-07-2009, 21:30

fracarro x esempio è uno furbo...

banryu79 · 02-07-2009, 09:25

Magari può interessarti Acovea

29-06-2009, 22:03	#1
Unrue Senior Member Iscritto dal: Nov 2002 Messaggi: 6424	[C] Ottimizzazione spinta Ciao ragazzi, avrei bisogno di ultraottimizzare questo spezzone di codice: Codice: register float32 * punt; register float32 sample_r,sample_i; punt = &trdiff[4i_idx1]; for(m = 0; m < ntot; m++) for( k = 0; k < i_idx2-i_idx1+1 ; k++) { sample_r = punt + up_interp (punt+1); sample_i = (punt + 2) +up_interp* (punt + 3); punt +=4; numm[ m][k].r += sample_r; numm[ m][k].i += sample_i; denom[m] += sample_r sample_r + sample_i * sample_i; } Secondo voi si può migliorare utilizzando l'aritmetica dei puntatori o richiamando direttamenre istruzioni assembly?( denom e trdiff sono float32, numm è complex32) Grazie Ultima modifica di Unrue : 29-06-2009 alle 22:14.

30-06-2009, 12:37	#6
^TiGeRShArK^ Senior Member Iscritto dal: Jul 2002 Città: Reggio Calabria -> London Messaggi: 12112	se hai + di un core a disposizione sulla tua macchina puoi usare i thread, altrimenti credo che la cosa migliore sarebbe ottimizzare l'algoritmo come ha già detto ikon'cluster.... cmq è una matrice completa? o magari è sparsa o diagonale? Negli ultimi due casi dovresti poter guadagnare molto a livello algoritmico..... __________________

30-06-2009, 12:59	#7
Tommo Senior Member Iscritto dal: Feb 2006 Messaggi: 1304	Dato che lo stride di punt è 4 elementi, dovrebbe essere possibile usare le SIMD... forse Oppure potresti spezzare il for interno su tutti i cores con threads che lo eseguirebbero più o meno parallelamente. L'unica ottimizzazione che mi viene in mente in quel codice è salvarsi i_idx2-i_idx1+1 invece che ricalcolarlo NM volte... ed anche usare ++k e ++m invece che k++ e m++... dovrebbe risparmiare un paio di istruzioni asm. __________________ ToMmO* devlog \| twitter

30-06-2009, 13:59	#9
^TiGeRShArK^ Senior Member Iscritto dal: Jul 2002 Città: Reggio Calabria -> London Messaggi: 12112	con i compilatori moderni utilizzare a++ o ++a dovrebbe essere la stessa cosa. Anche il fatto di salvarsi la sottrazione in una variabile locale dovrebbe essere già fatto dal compilatore... __________________

02-07-2009, 09:25	#20
banryu79 Senior Member Iscritto dal: Oct 2007 Città: Padova Messaggi: 4131	Magari può interessarti Acovea __________________ As long as you are basically literate in programming, you should be able to express any logical relationship you understand. If you don’t understand a logical relationship, you can use the attempt to program it as a means to learn about it. (Chris Crawford)

30-06-2009, 01:52	#2
Ikon O'Cluster Registered User Iscritto dal: May 2009 Messaggi: 300	Secondo me oltre un certo punto ogni ottimizzazione "sintattica" apporta vantaggi trascurabili... ad un certo punto bisogna considerare l'ottimizzazione "semantica". Ad esempio il tuo codice ha complessità O(NM) dove: N = max(ntot) M = max(i_idx2-i_idx1+1) Puoi fare di meglio? P.S.: Se vuoi ottimizzare (sintatticamente) al max devi avere una grande conoscenza del compilatore. Non so quale usi, ma cmq non sono espertissimo in questo campo. Prova a studiare le tecniche di ottimizzazione che usa il tuo compilatore e cerca di scrivere il codice che le sfrutti al meglio. Ma il gioco non vale la candela... almeno per la maggior parte delle applicazioni che riesco ad immaginare!

30-06-2009, 08:50	#3
Unrue Senior Member Iscritto dal: Nov 2002 Messaggi: 6424	Ciao, grazie per la risposta. Dunque, sto utilizzando il compilatore Intel. Diciamo che questa applicazione non dove girare su molte macchine ma più o meno sempre sulla stessa ( AMD Opteron) Riguardo il tuo consiglio, purtroppo non posso eliminare il doppio ciclo.

30-06-2009, 10:37	#4
Ikon O'Cluster Registered User Iscritto dal: May 2009 Messaggi: 300	Eh... su quello non avevo dubbi! Non intendevo eliminarlo, ma se per esempio da O(NM) riesci a passare a O(Nlog(M)) soprattutto se M >> N allora può essere conveniente... se poi quella è già la soluzione più efficiente pace! Cmq io penso che una ottimizzazione spinta del codice non ti permetta di guadagnare poi tanto... voglio esagerare e dico un 7% (sul tempo di esecuzione).

30-06-2009, 10:40	#5
Ikon O'Cluster Registered User Iscritto dal: May 2009 Messaggi: 300	Ma forse ho esagerato troppo...

30-06-2009, 15:18	#13
wingman87 Senior Member Iscritto dal: Nov 2005 Messaggi: 2782	Potresti anche salvare il valore di *ntot in una variabile per evitare la dereferenziazione, risparmieresti un accesso alla memoria. Ma temo che tutte le ottimizzazioni che stiamo proponendo siano già attuate dal compilatore...

30-06-2009, 16:06	#14
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Allora...io proverei così: sample_r = A + K * B; sample_i = C + K * D; Quindi denom[m] += A^2 + K^2B^2 + AKB + C^2 + K^2D^2 + CKB N = i_idx2 - i_idx1 denom[m] = somma per K che va da 0 a N(A^2 + K^2B^2 + AKB + C^2 + K^2D^2 + CKB) = NA^2 + NC^2 + (B^2 + D^2)somma(K^2) + (AB + CD)somma(K) somma(K) = (N*(N+1))/2 somma(K^2) = N(N+1)(2N+1)/6 Da numm[m][k] ci passi solo una volta, cosa c'è prima dentro la struct ?

30-06-2009, 16:32	#16
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Aspetta, non avevo visto che punt viene incrementato di 4...cancella tutto quello che ho scritto

01-07-2009, 21:30	#19
Ikon O'Cluster Registered User Iscritto dal: May 2009 Messaggi: 300	fracarro x esempio è uno furbo...

Strumenti
Mostra una versione stampabile Invia questa pagina per email