[Fortan77] Parallelizzazione di una semplice routine [Archivio]

Lucrezio

12-12-2009, 12:50

Ciao a tutti!
Mi sono ritrovato a dover calcolare una funzione di correlazione, di cui poi devo fare la trasformata di fourier, fra velocita' di atomi ottenute con una dinamica molecolare.

Ho scritto un programmino che mi permette di fare il calcolo, ma dovendo trattare anche quantita' piuttosto ingenti di dati (Il calcolo scala come O(N^2)) mi piacerebbe sfruttare tutti i core del mio processore parallelizzando l'esecuzione.
Ho provato - non sono un programmatore se non per necessita', quindi ho cercato la soluzione piu' facile! - ad usare le opzioni di autoparallelizzazione dei compilatori che ho a disposizione (intel ifort e portland pgf77), ma la cosa non ha dato risultati.
La parte da parallelizzare sarebbe questa:

do I = 1, Lenght+1, IFr
do J = 1, NStep - I + 1, IFr
Fac = Dble(NStep-I+1)/Dble(NStep*(NStep+1)/2)
VVx(I) = VVx(I) + Fac*Vel(1,IAt1,J)*Vel(1,IAt2,J+I-1)
VVy(I) = VVy(I) + Fac*Vel(2,IAt1,J)*Vel(2,IAt2,J+I-1)
VVz(I) = VVz(I) + Fac*Vel(3,IAt1,J)*Vel(3,IAt2,J+I-1)
enddo
ACF(I) = (VVx(I)+VVy(I)+VVz(I))/Three
write(2,*) I,ACF(I)
enddo

Come vedete non e' nulla di difficile. Le cose potenzialmente utili sarebbero
- far fare ogni somma (VVx,VVy,VVz) ad un core diverso
- parallelizzare l'esecuzione del ciclo esterno
- parallelizzare l'esecuzione del ciclo interno

Qualcuno ha qualche dritta da darmi sul come fare?
Grazie mille!

cionci

12-12-2009, 14:18

Dai un'occhiata ad OpenMP: http://en.wikipedia.org/wiki/OpenMP
Dovrebbe essere compatibile con Fortran e con il compilatore Intel ;)

gugoXX

12-12-2009, 15:10

Per esperienza io affronterei il problema parallelizzando unicamente il ciclo esterno, distribuendo gli indici tra i diversi core.
Ma non saprei affrontare il probelma In Fortran.

cionci

12-12-2009, 15:26

Con OpenMP parallelizzarlo sarebbe una cavolata, basta una direttiva per parallelizzare il ciclo più esterno ;)
https://computing.llnl.gov/tutorials/openMP/#Combined

Le versioni del compilatore Intel che supportano OpenMP sono le versioni 11.0 e 11.1.

Lucrezio

12-12-2009, 15:44

Era effettivamente una boiata!
Posto la soluzione, così per curiosità:

C$omp parallel do
C$omp& shared(VVx,VVy,VVz,Vel,NThr,NStep,IFr)
C$omp& private (I,J)
do I = 1, Lenght+1, IFr
NThr = OMP_GET_NUM_THREADS()
do J = 1, NStep - I + 1, IFr
Fac = Dble(NStep-I+1)/Dble(NStep*(NStep+1)/2)
VVx(I) = VVx(I) + Fac*Vel(1,IAt1,J)*Vel(1,IAt2,J+I-1)
VVy(I) = VVy(I) + Fac*Vel(2,IAt1,J)*Vel(2,IAt2,J+I-1)
VVz(I) = VVz(I) + Fac*Vel(3,IAt1,J)*Vel(3,IAt2,J+I-1)
enddo
ACF(I) = (VVx(I)+VVy(I)+VVz(I))/Three
enddo
C$omp end parallel do

Bisogna aggiungere anche include 'omp_lib.h'
Ho compilato con il comando
ifort -o acf -O3 -openmp acf.f

Grazie a tutti!

cionci

12-12-2009, 15:47

Azz...l'hai fatto in 10 minuti :D
OpenMP :ave:

Dicci qualcosa sulle prestazioni...hai sempre quella workstation con otto core ?

Lucrezio

13-12-2009, 00:27

Azz...l'hai fatto in 10 minuti :D
OpenMP :ave:

Dicci qualcosa sulle prestazioni...hai sempre quella workstation con otto core ?

se mi ricordi come diavolo si chiama il comando linux per sapere il tempo di esecuzione ci provo! (tic [comando] tac? o qualcosa del genere...)

Cmq... sto lavorando su un dual xeon quad core nehalem con 48GB di ram, ma per fare queste cosine uso il personal... :D

cionci

13-12-2009, 08:30

time [comando] ;)

Comunque tic e tac esistono, ma non fanno quello :D

Lucrezio

13-12-2009, 18:45

time [comando] ;)

Comunque tic e tac esistono, ma non fanno quello :D

Non scala proprio linearmente per via dell'algoritmo (il numero di somme del secondo loop dipende dall'indice del primo, quindi finisce prima l'ultimo thread e così via...) però c'è una bella differenza!
Considera che sto facendo calcoli con un milione di punti, quindi O(10^12) operazioni :D
Un fattore 2 è già importante!

cionci

13-12-2009, 19:06

Hai guardato l'utilizzo dei vari core ? Come vengono utilizzati ?

tiMo

17-12-2009, 21:48

Ciao a tutti!
Mi sono ritrovato a dover calcolare una funzione di correlazione, di cui poi devo fare la trasformata di fourier, fra velocita' di atomi ottenute con una dinamica molecolare.

Ho scritto un programmino che mi permette di fare il calcolo, ma dovendo trattare anche quantita' piuttosto ingenti di dati (Il calcolo scala come O(N^2)) mi piacerebbe sfruttare tutti i core del mio processore parallelizzando l'esecuzione.
Ho provato - non sono un programmatore se non per necessita', quindi ho cercato la soluzione piu' facile! - ad usare le opzioni di autoparallelizzazione dei compilatori che ho a disposizione (intel ifort e portland pgf77), ma la cosa non ha dato risultati.
La parte da parallelizzare sarebbe questa:

do I = 1, Lenght+1, IFr
do J = 1, NStep - I + 1, IFr
Fac = Dble(NStep-I+1)/Dble(NStep*(NStep+1)/2)
VVx(I) = VVx(I) + Fac*Vel(1,IAt1,J)*Vel(1,IAt2,J+I-1)
VVy(I) = VVy(I) + Fac*Vel(2,IAt1,J)*Vel(2,IAt2,J+I-1)
VVz(I) = VVz(I) + Fac*Vel(3,IAt1,J)*Vel(3,IAt2,J+I-1)
enddo
ACF(I) = (VVx(I)+VVy(I)+VVz(I))/Three
write(2,*) I,ACF(I)
enddo

Come vedete non e' nulla di difficile. Le cose potenzialmente utili sarebbero
- far fare ogni somma (VVx,VVy,VVz) ad un core diverso
- parallelizzare l'esecuzione del ciclo esterno
- parallelizzare l'esecuzione del ciclo interno

Qualcuno ha qualche dritta da darmi sul come fare?
Grazie mille!

Su OpenMP ti hanno già risposto, mi limito ad alcune osservazioni sul tuo codice

1. Mi sembra che Fac non dipenda da J per cui la moltiplicazione la potresti fare fuori dal ciclo su J.
2. Non mi è chiaro il ruolo di Fac che non può essere altro che il denominatore ma non capisco che formula usi. Su una serie lunga N lo stimatore migliore per la ACF al lag k ha denominatore N (e non N-k) per questioni teoriche su cui non mi dilungo.
3. Mi sembra che tu stia calcolando la covarianza e non la correlazione.
4. Giusto per la precisione, il calcolo della correlazione su di una serie lunga N ha senso se N>50 e se il numero di lag k è minore di N\4.
5. Una curiosità : come mai rimani su f77 e non passi al F90?

HTH
ciao

tiMo