|
|
|
![]() |
|
Strumenti |
![]() |
#1 |
Member
Iscritto dal: May 2007
Città: MacLandia
Messaggi: 142
|
[CUDA] Shared Memory
Salve,
sarei curioso di sapere come è organizzata e come si comporta la shared memory all'interno dell'architettura cuda. In particolare si parla di una shared memory per ciascun MP (nel mio caso, ho una GF210 2 MP quindi 2 SM da 16 KB ciascuna). Ciascun blocco ha una shared memory, al cui interno thread appartenenti allo stesso blocco possono condividere dati. Ciò vuol dire che se io, all'interno di un MP ho una shared memory da 16KB, e avendo 8 blocchi, ciascun blocco vede 2KB? Sostanzialmente il mio problema riguarda la ripartizione di un'immagine, e io vorrei fare in modo che l'elaborazione di ciascuna parte sia effettuata a partire dalla shared memory e non dalla memoria globale a disposizione (più lenta). Non sapendo però in che misura effettuare tale ripartizione, ho paura di non apportare nessun miglioramento!! Se c'è qualche anima pia che mi possa chiarire le cose gliene sarei grato ![]() P.S. Allego le specifiche della mia scheda video CUDA Device Query (Driver API) statically linked version There is 1 device supporting CUDA Device 0: "GeForce 210" CUDA Driver Version: 3.0 CUDA Capability Major revision number: 1 CUDA Capability Minor revision number: 2 Total amount of global memory: 536870912 bytes Number of multiprocessors: 2 Number of cores: 16 Total amount of constant memory: 65536 bytes Total amount of shared memory per block: 16384 bytes Total number of registers available per block: 16384 Warp size: 32 Maximum number of threads per block: 512 Maximum sizes of each dimension of a block: 512 x 512 x 64 Maximum sizes of each dimension of a grid: 65535 x 65535 x 1 Maximum memory pitch: 262144 bytes Texture alignment: 256 bytes Clock rate: 1.40 GHz Concurrent copy and execution: Yes Run time limit on kernels: No Integrated: No Support host page-locked memory mapping: Yes Compute mode: Default (multiple host threads can use this device simultaneously)
__________________
once you go Mac, you never go back! ![]() |
![]() |
![]() |
![]() |
#2 | |
Senior Member
Iscritto dal: Dec 2005
Città: Istanbul
Messaggi: 1817
|
Quote:
![]()
__________________
One of the conclusions that we reached was that the "object" need not be a primitive notion in a programming language; one can build objects and their behaviour from little more than assignable value cells and good old lambda expressions. —Guy Steele |
|
![]() |
![]() |
![]() |
#3 |
Member
Iscritto dal: May 2007
Città: MacLandia
Messaggi: 142
|
ma allora se io ho 500 blocchi ciascuno di essi ha 16KB di memoria shared a disposizione? mi sembra un pò strano
![]()
__________________
once you go Mac, you never go back! ![]() |
![]() |
![]() |
![]() |
#4 |
Member
Iscritto dal: Aug 2005
Messaggi: 168
|
Se tu hai 500 blocchi tutti vedono gli stessi 16Kb di memoria, non è che ognuno ha i suoi 16Kb.
|
![]() |
![]() |
![]() |
#5 | |||
Senior Member
Iscritto dal: Dec 2005
Città: Istanbul
Messaggi: 1817
|
Quote:
Quote:
Quote:
- la tua esecuzione viene suddivisa in blocchi (nel tuo caso 500) - ogni blocco viene eseguito da uno stream processor differente, per quanto possibile in parallelo "a colpi" di tanti blocchi quanti sono i processori (nel tuo caso 16) - ognuno di questi processori ha una piccola memoria cache di una certa dimensione (nel tuo caso 16KB), che i singoli thread all'interno del blocco possono utilizzare per condividere i risultati delle loro operazioni - Idealmente tutte le operazioni di scrittura del blocco dovrebbero avvenire nella shared memory e non nella memoria comune.
__________________
One of the conclusions that we reached was that the "object" need not be a primitive notion in a programming language; one can build objects and their behaviour from little more than assignable value cells and good old lambda expressions. —Guy Steele |
|||
![]() |
![]() |
![]() |
#6 |
Senior Member
Iscritto dal: Feb 2006
Messaggi: 1304
|
E per apportare miglioramenti: più riesci ad usarne e meglio è!
Dato che è sempre più veloce della memoria globale, è sempre meglio sostituire l'una con l'altra quando possibile. Il problema è che spesso è molto difficile trovare un modo per "piegare" gli algoritmi ad usarla, perchè è visibile solo ad "alcuni" threads in esecuzione... nel caso di un'immagine però dovrebbe essere possibile... ma fai attenzione ai bordi del blocco ![]() |
![]() |
![]() |
![]() |
#7 |
Member
Iscritto dal: May 2007
Città: MacLandia
Messaggi: 142
|
Vi ringrazio per le spiegazioni.
In realtà quello che ho capito io, è che ciascun blocco vede la sua shared memory, questo perchè i thread appartenenti ad un blocco possono condividere dati per mezzo della shared memory. Viene da se dunque che ogni blocco ha la sua shared memory, e questo non lo intuisco io, ma l'ho proprio letto all'interno della programming guide: Each thread block has a shared memory visible to all threads of the block and with the same lifetime as the block. Finally, all threads have access to the same global memory. (Pag. 18/145 Programming Guide 2.3) Ipotizziamo che io abbia un solo multiprocessore, quindi con 8 core a disposizione. Ora, io creo 10 blocchi, la shared memory è, per ciascuno di loro, di 16 KB? O la shared memory complessiva del MP a disposizione è di 16KB e quindi questi 10 blocchi hanno a disposizione rispettivamente 1,6KB di memoria ciascuno? Inoltre si parla di blocco collegato al MP e non al core, per cui è possibile che 2 thread di uno stesso blocco possano girare su due cose differenti (questo perchè, ad esempio, 6 core possono essere occupati da un unico blocco e i restanti 2 core altri 2 blocchi, mentre i restanti sono in waiting)? Io ho un'immagine, che per comodità d'esempio, è di dimensioni fisse, con una risoluzione multipla di 32 (per facilitare i conti), tipo 640x480. Questa immagine io la voglio spezzare in 32 rettangoli e ciascun rettangolo darlo in pasto ad un thread al fine di poter effettuare dei calcoli. Ora, il mio voler spezzare in 32 la mia immagine è sparato a caso, in quanto se io sapessi come è organizzata la shared memory io potrei spezzare l'immagine secondo la massima capacità della stessa shared memory (per ciascun blocco). Insomma vorrei fare in modo che ciascun blocco di thread abbia una porzione di immagine contenuta all'interno della shared memory in maniera da sfruttarla interamente. Grazie a tutti anticipatamente ![]()
__________________
once you go Mac, you never go back! ![]() |
![]() |
![]() |
![]() |
#8 |
Member
Iscritto dal: May 2007
Città: MacLandia
Messaggi: 142
|
Allego un'immagine per spiegarmi meglio.
![]() Granularità: Con A ho indicato il singolo pixel; Con B un gruppo di pixel, da dare in pasto ad un thread, che analizzerà i pixel appartenenti a quel gruppo a partire dal pixel centrare per poi spostarsi nei pixel adiacenti secondo 8 direzioni (su, giù, sinistra, destra, diagonali) Con C indico i frame e cioè ciò che poi darò in pasto ad ogni singolo blocco.
__________________
once you go Mac, you never go back! ![]() Ultima modifica di Valhalla : 27-05-2010 alle 09:34. |
![]() |
![]() |
![]() |
#9 |
Senior Member
Iscritto dal: Feb 2006
Messaggi: 1304
|
Stai facendo un sacco di discorsi inutili temo, perchè come è perfettamente spiegato, un blocco ha 16K di memoria.
Sempre. Comunque. Qualunque numero di blocchi. ![]() La memoria per thread è data da 16384/threads_nel_blocco. Questo si spiega perchè internamente, il Thread Hardware vero e proprio non è quello che ti presenta CUDA, ma quello che gira sul Multiprocessore. quindi un Hardware Thread ha a disposizione istruzioni 32-wide (in realtà 16+16), cioè che operano su 32 elementi alla volta, che girano sugli 8 stream processors. Tramite quelle istruzioni emula i 256 thread del blocco. Però l'unità di esecuzione, quella fisicamente dotata di memoria cache, è il multiprocessore, cioè l'intero blocco. Per cui un blocco di thread operante su un multiprocessore ha per forza di cose a disposizione tutta la memoria del dispositivo... non puoi eseguire due blocchi contemporaneamente sullo stesso! E lo stesso ragionamento vale anche per i registri. |
![]() |
![]() |
![]() |
#10 | ||
Member
Iscritto dal: May 2007
Città: MacLandia
Messaggi: 142
|
Quote:
![]() 256? 512 vorrai dire.. Quote:
__________________
once you go Mac, you never go back! ![]() |
||
![]() |
![]() |
![]() |
Strumenti | |
|
|
Tutti gli orari sono GMT +1. Ora sono le: 13:55.