PDA

View Full Version : [Python] Parallelizzazione calcoli numpy


red.hell
28-03-2009, 14:44
sto implementando un algoritmo evolutivo in python (sfruttando il "toolbox" scipy/numpy)

l'algoritmo evolutivo prevede la minimizzazione di una funzione d'errore tramite la variazione per tentativi di alcuni parametri

all'interno della funzione d'errore utilizzo np.linalg.eigvals(np.dot((-np.linalg.inv(M_l)),K_l)) per il calcolo degli autovalori del rapporto tra le metrici di massa e rigidezza di un modello ad elementi finiti

il collo di bottiglia del programma è proprio il calcolo degli autovalori, perchè aumentando le dimensioni delle matrici aumenta di parecchio il tempo d'esecuzione

il problema è che il codice scritto utilizza una sola cpu (ho un dual core)

io non sono un programmatore python, il linguaggio che conosco meglio è il Matlab, e per agevolare questo tipo di calcoli apro un "matlabpool" con 2 workers e parallelizzo utilizzando l'istruzione "parfor" al posto del normale "for". il parfor assegna 2 esecuzioni del ciclo contemporaneamente ai due workers, così entrambe le cpu vengono saturate

con matlab, per lo stesso codice e con la stessa funzione d'errore, impiego circa 8 secondi ad iterazione, il codice in python ne impiega 18 (con 40 valutazioni della funzione d'errore)

con matlab sto testando funzioni molto più complesse (modello ad elementi finiti da 160 elementi, 4 coordinate per elemento, aggiunta dello smorzamento, per cui la matrice diventa da circa 1300x1300 al posto di essere 280x280 come in questo caso) e il tempo di calcolo, nonostante la parallelizzazione aumenta notevolmente (circa 40 secondi per 4 valutazioni della funzione d'errore)

ho letto sul sito di python che ci sono vari moduli che permettono la parallelizzazione (mpi4py, ScientificPython, pympi ed altri), qualcuno ha già esperienze in merito?

se serve allego i due file su cui sto lavorando

grazie a tutti e scusate per la lunghezza del post ma preferivo chiarire al meglio il problema :)

cdimauro
29-03-2009, 09:39
La soluzione adottata da Python a partire dalla versione 2.6 è il modulo multiprocessing (http://docs.python.org/library/multiprocessing.html) che fa parte ormai della libreria standard.

red.hell
29-03-2009, 10:03
La soluzione adottata da Python a partire dalla versione 2.6 è il modulo multiprocessing (http://docs.python.org/library/multiprocessing.html) che fa parte ormai della libreria standard.

ottimo (non l'avevo trovato sul sito, mi rimandava solo a moduli esterni :( )

poi me lo leggo con calma e lo provo ;)

grazie mille :)

red.hell
30-03-2009, 11:28
ottimo, con il multiprocessing (usando solo un pool) ho ridotto il tempo di calcolo del 40%

spiego come ho fatto:
- usando python 2.5 (che non ha il modulo per il multiprocessing) ho scaricato il porting da Q U I (http://linux.softpedia.com/get/Programming/Libraries/python-multiprocessing-43286.shtml) e l'ho installato
- ho aggiunto "import multiprocessing"
- ho creato un pool di worker (per cui di processi che fanno i calcoli in parallelo) pari al numero delle cpu e ho valutato le funzioni con pool.map (per averle parallelizzate), ho poi salvato i dati pool=multiprocessing.Pool(multiprocessing.cpu_count())
papabili=np.append(padri,figli,axis=1)
err=[]
TASK=[papabili[:,ind] for ind in range(lamb+mu)]
imap_it = pool.map(errore, TASK)
for ind in imap_it:
err.append(ind)

prima lo stesso codice era così: papabili=np.append(padri,figli,axis=1)
err=[]
for ind in range(lamb+mu):
err.append(errore(papabili[:,ind]))

grazie mille a cdimauro per l'aiuto :)

ora per migliorare il codice devo solo evitare che venga ricalcolata la funzione d'errore per i padri, ma non dovrebbe essere un grossissimo problema :D