[Fortan77] Parallelizzazione di una semplice routine

Lucrezio · 12-12-2009, 13:50

Ciao a tutti!
Mi sono ritrovato a dover calcolare una funzione di correlazione, di cui poi devo fare la trasformata di fourier, fra velocita' di atomi ottenute con una dinamica molecolare.

Ho scritto un programmino che mi permette di fare il calcolo, ma dovendo trattare anche quantita' piuttosto ingenti di dati (Il calcolo scala come O(N^2)) mi piacerebbe sfruttare tutti i core del mio processore parallelizzando l'esecuzione.
Ho provato - non sono un programmatore se non per necessita', quindi ho cercato la soluzione piu' facile! - ad usare le opzioni di autoparallelizzazione dei compilatori che ho a disposizione (intel ifort e portland pgf77), ma la cosa non ha dato risultati.
La parte da parallelizzare sarebbe questa:

Codice:

      do I = 1, Lenght+1, IFr
        do J = 1, NStep - I + 1, IFr
          Fac = Dble(NStep-I+1)/Dble(NStep*(NStep+1)/2)
          VVx(I) = VVx(I) + Fac*Vel(1,IAt1,J)*Vel(1,IAt2,J+I-1)
          VVy(I) = VVy(I) + Fac*Vel(2,IAt1,J)*Vel(2,IAt2,J+I-1)
          VVz(I) = VVz(I) + Fac*Vel(3,IAt1,J)*Vel(3,IAt2,J+I-1)
        enddo
        ACF(I) = (VVx(I)+VVy(I)+VVz(I))/Three
        write(2,*) I,ACF(I)
      enddo

Come vedete non e' nulla di difficile. Le cose potenzialmente utili sarebbero
- far fare ogni somma (VVx,VVy,VVz) ad un core diverso
- parallelizzare l'esecuzione del ciclo esterno
- parallelizzare l'esecuzione del ciclo interno

Qualcuno ha qualche dritta da darmi sul come fare?
Grazie mille!

cionci · 12-12-2009, 15:18

Dai un'occhiata ad OpenMP: http://en.wikipedia.org/wiki/OpenMP
Dovrebbe essere compatibile con Fortran e con il compilatore Intel

gugoXX · 12-12-2009, 16:10

Per esperienza io affronterei il problema parallelizzando unicamente il ciclo esterno, distribuendo gli indici tra i diversi core.
Ma non saprei affrontare il probelma In Fortran.

cionci · 12-12-2009, 16:26

Con OpenMP parallelizzarlo sarebbe una cavolata, basta una direttiva per parallelizzare il ciclo più esterno

https://computing.llnl.gov/tutorials/openMP/#Combined

Le versioni del compilatore Intel che supportano OpenMP sono le versioni 11.0 e 11.1.

Lucrezio · 12-12-2009, 16:44

Era effettivamente una boiata!
Posto la soluzione, così per curiosità:

Codice:

C$omp parallel do
C$omp& shared(VVx,VVy,VVz,Vel,NThr,NStep,IFr)
C$omp& private (I,J)
      do I = 1, Lenght+1, IFr
        NThr = OMP_GET_NUM_THREADS()
        do J = 1, NStep - I + 1, IFr
          Fac = Dble(NStep-I+1)/Dble(NStep*(NStep+1)/2)
          VVx(I) = VVx(I) + Fac*Vel(1,IAt1,J)*Vel(1,IAt2,J+I-1)
          VVy(I) = VVy(I) + Fac*Vel(2,IAt1,J)*Vel(2,IAt2,J+I-1)
          VVz(I) = VVz(I) + Fac*Vel(3,IAt1,J)*Vel(3,IAt2,J+I-1)
        enddo
        ACF(I) = (VVx(I)+VVy(I)+VVz(I))/Three
      enddo
C$omp end parallel do

Bisogna aggiungere anche

Codice:

include 'omp_lib.h'

Ho compilato con il comando

Codice:

 ifort -o acf -O3 -openmp acf.f

Grazie a tutti!

cionci · 12-12-2009, 16:47

Azz...l'hai fatto in 10 minuti

OpenMP

Dicci qualcosa sulle prestazioni...hai sempre quella workstation con otto core ?

Lucrezio · 13-12-2009, 01:27

Quote:

Originariamente inviato da cionci

Azz...l'hai fatto in 10 minuti

OpenMP

Dicci qualcosa sulle prestazioni...hai sempre quella workstation con otto core ?

se mi ricordi come diavolo si chiama il comando linux per sapere il tempo di esecuzione ci provo! (tic [comando] tac? o qualcosa del genere...)

Cmq... sto lavorando su un dual xeon quad core nehalem con 48GB di ram, ma per fare queste cosine uso il personal...

cionci · 13-12-2009, 09:30

time [comando]

Comunque tic e tac esistono, ma non fanno quello

Lucrezio · 13-12-2009, 19:45

Quote:

Originariamente inviato da cionci

time [comando]

Comunque tic e tac esistono, ma non fanno quello

Non scala proprio linearmente per via dell'algoritmo (il numero di somme del secondo loop dipende dall'indice del primo, quindi finisce prima l'ultimo thread e così via...) però c'è una bella differenza!
Considera che sto facendo calcoli con un milione di punti, quindi O(10^12) operazioni

Un fattore 2 è già importante!

cionci · 13-12-2009, 20:06

Hai guardato l'utilizzo dei vari core ? Come vengono utilizzati ?

tiMo · 17-12-2009, 22:48

Quote:

Originariamente inviato da Lucrezio

Ciao a tutti!
Mi sono ritrovato a dover calcolare una funzione di correlazione, di cui poi devo fare la trasformata di fourier, fra velocita' di atomi ottenute con una dinamica molecolare.

Ho scritto un programmino che mi permette di fare il calcolo, ma dovendo trattare anche quantita' piuttosto ingenti di dati (Il calcolo scala come O(N^2)) mi piacerebbe sfruttare tutti i core del mio processore parallelizzando l'esecuzione.
Ho provato - non sono un programmatore se non per necessita', quindi ho cercato la soluzione piu' facile! - ad usare le opzioni di autoparallelizzazione dei compilatori che ho a disposizione (intel ifort e portland pgf77), ma la cosa non ha dato risultati.
La parte da parallelizzare sarebbe questa:

Codice:

      do I = 1, Lenght+1, IFr
        do J = 1, NStep - I + 1, IFr
          Fac = Dble(NStep-I+1)/Dble(NStep*(NStep+1)/2)
          VVx(I) = VVx(I) + Fac*Vel(1,IAt1,J)*Vel(1,IAt2,J+I-1)
          VVy(I) = VVy(I) + Fac*Vel(2,IAt1,J)*Vel(2,IAt2,J+I-1)
          VVz(I) = VVz(I) + Fac*Vel(3,IAt1,J)*Vel(3,IAt2,J+I-1)
        enddo
        ACF(I) = (VVx(I)+VVy(I)+VVz(I))/Three
        write(2,*) I,ACF(I)
      enddo

Come vedete non e' nulla di difficile. Le cose potenzialmente utili sarebbero
- far fare ogni somma (VVx,VVy,VVz) ad un core diverso
- parallelizzare l'esecuzione del ciclo esterno
- parallelizzare l'esecuzione del ciclo interno

Qualcuno ha qualche dritta da darmi sul come fare?
Grazie mille!

Su OpenMP ti hanno già risposto, mi limito ad alcune osservazioni sul tuo codice

1. Mi sembra che Fac non dipenda da J per cui la moltiplicazione la potresti fare fuori dal ciclo su J.
2. Non mi è chiaro il ruolo di Fac che non può essere altro che il denominatore ma non capisco che formula usi. Su una serie lunga N lo stimatore migliore per la ACF al lag k ha denominatore N (e non N-k) per questioni teoriche su cui non mi dilungo.
3. Mi sembra che tu stia calcolando la covarianza e non la correlazione.
4. Giusto per la precisione, il calcolo della correlazione su di una serie lunga N ha senso se N>50 e se il numero di lag k è minore di N\4.
5. Una curiosità : come mai rimani su f77 e non passi al F90?

HTH
ciao

tiMo

12-12-2009, 13:50	#1
Lucrezio Senior Member Iscritto dal: Dec 2003 Città: Trento, Pisa... ultimamente il mio studio... Messaggi: 4389	[Fortan77] Parallelizzazione di una semplice routine Ciao a tutti! Mi sono ritrovato a dover calcolare una funzione di correlazione, di cui poi devo fare la trasformata di fourier, fra velocita' di atomi ottenute con una dinamica molecolare. Ho scritto un programmino che mi permette di fare il calcolo, ma dovendo trattare anche quantita' piuttosto ingenti di dati (Il calcolo scala come O(N^2)) mi piacerebbe sfruttare tutti i core del mio processore parallelizzando l'esecuzione. Ho provato - non sono un programmatore se non per necessita', quindi ho cercato la soluzione piu' facile! - ad usare le opzioni di autoparallelizzazione dei compilatori che ho a disposizione (intel ifort e portland pgf77), ma la cosa non ha dato risultati. La parte da parallelizzare sarebbe questa: Codice: do I = 1, Lenght+1, IFr do J = 1, NStep - I + 1, IFr Fac = Dble(NStep-I+1)/Dble(NStep(NStep+1)/2) VVx(I) = VVx(I) + FacVel(1,IAt1,J)Vel(1,IAt2,J+I-1) VVy(I) = VVy(I) + FacVel(2,IAt1,J)Vel(2,IAt2,J+I-1) VVz(I) = VVz(I) + FacVel(3,IAt1,J)Vel(3,IAt2,J+I-1) enddo ACF(I) = (VVx(I)+VVy(I)+VVz(I))/Three write(2,) I,ACF(I) enddo Come vedete non e' nulla di difficile. Le cose potenzialmente utili sarebbero - far fare ogni somma (VVx,VVy,VVz) ad un core diverso - parallelizzare l'esecuzione del ciclo esterno - parallelizzare l'esecuzione del ciclo interno Qualcuno ha qualche dritta da darmi sul come fare? Grazie mille! __________________ "Expedit esse deos, et, ut expedit, esse putemus" (Ovidio) Il mio "TESSORO": SuperMicro 733TQ, SuperMicro X8DAI I5520, 2x Xeon Quad E5620 Westmere, 12x Kingston 4GB DDR3 1333MHz, 4x WD 1Tb 32MB 7.2krpm

12-12-2009, 16:10	#3
gugoXX Senior Member Iscritto dal: May 2004 Città: Londra (Torino) Messaggi: 3692	Per esperienza io affronterei il problema parallelizzando unicamente il ciclo esterno, distribuendo gli indici tra i diversi core. Ma non saprei affrontare il probelma In Fortran. __________________ Se pensi che il tuo codice sia troppo complesso da capire senza commenti, e' segno che molto probabilmente il tuo codice e' semplicemente mal scritto. E se pensi di avere bisogno di un nuovo commento, significa che ti manca almeno un test.

12-12-2009, 16:26	#4
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Con OpenMP parallelizzarlo sarebbe una cavolata, basta una direttiva per parallelizzare il ciclo più esterno https://computing.llnl.gov/tutorials/openMP/#Combined Le versioni del compilatore Intel che supportano OpenMP sono le versioni 11.0 e 11.1. Ultima modifica di cionci : 12-12-2009 alle 16:31.

12-12-2009, 16:44	#5
Lucrezio Senior Member Iscritto dal: Dec 2003 Città: Trento, Pisa... ultimamente il mio studio... Messaggi: 4389	Era effettivamente una boiata! Posto la soluzione, così per curiosità: Codice: C$omp parallel do C$omp& shared(VVx,VVy,VVz,Vel,NThr,NStep,IFr) C$omp& private (I,J) do I = 1, Lenght+1, IFr NThr = OMP_GET_NUM_THREADS() do J = 1, NStep - I + 1, IFr Fac = Dble(NStep-I+1)/Dble(NStep(NStep+1)/2) VVx(I) = VVx(I) + FacVel(1,IAt1,J)Vel(1,IAt2,J+I-1) VVy(I) = VVy(I) + FacVel(2,IAt1,J)Vel(2,IAt2,J+I-1) VVz(I) = VVz(I) + FacVel(3,IAt1,J)*Vel(3,IAt2,J+I-1) enddo ACF(I) = (VVx(I)+VVy(I)+VVz(I))/Three enddo C$omp end parallel do Bisogna aggiungere anche Codice: include 'omp_lib.h' Ho compilato con il comando Codice: ifort -o acf -O3 -openmp acf.f Grazie a tutti! __________________ "Expedit esse deos, et, ut expedit, esse putemus" (Ovidio) Il mio "TESSORO": SuperMicro 733TQ, SuperMicro X8DAI I5520, 2x Xeon Quad E5620 Westmere, 12x Kingston 4GB DDR3 1333MHz, 4x WD 1Tb 32MB 7.2krpm

12-12-2009, 15:18	#2
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Dai un'occhiata ad OpenMP: http://en.wikipedia.org/wiki/OpenMP Dovrebbe essere compatibile con Fortran e con il compilatore Intel

12-12-2009, 16:47	#6
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Azz...l'hai fatto in 10 minuti OpenMP Dicci qualcosa sulle prestazioni...hai sempre quella workstation con otto core ?

13-12-2009, 09:30	#8
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	time [comando] Comunque tic e tac esistono, ma non fanno quello

13-12-2009, 20:06	#10
cionci Senior Member Iscritto dal: Apr 2000 Città: Vicino a Montecatini(Pistoia) Moto:Kawasaki Ninja ZX-9R Scudetti: 29 Messaggi: 53971	Hai guardato l'utilizzo dei vari core ? Come vengono utilizzati ?

Strumenti
Mostra una versione stampabile Invia questa pagina per email