NVIDIA Tesla T10: GPU Computing di seconda generazione [Archivio]

Redazione di Hardware Upg

17-06-2008, 17:59

Link all'Articolo: http://www.hwupgrade.it/articoli/skvideo/1989/nvidia-tesla-t10-gpu-computing-di-seconda-generazione_index.html

La seconda generazione di sistemi NVIDIA Tesla, per elaborazioni GPU Computing, utilizza i 240 stream processors delle nuove architetture GT200 per sfruttare la GPU con elaborazioni che non siano grafiche. Raddoppio delle prestazioni e introduzione della double precision tra le caratteristiche peculiari.

Click sul link per visualizzare l'articolo.

Danckan

17-06-2008, 18:02

Soluzione interessante...

sim89

17-06-2008, 18:18

Soluzione interessante...

Quoto, Ati ha un qualcosa simile a questo?

Deskmat

17-06-2008, 18:22

si, guarda qui

http://www.hwupgrade.it/news/periferiche/il-nuovo-firestream-9250-di-amd-supera-la-barriera-del-teraflop_25654.html

Danckan

17-06-2008, 18:33

Riflettendoci su.. Mi nasce una domanda:

Montare una GPU telsa in un comune PC casalingo con relative applicazioni porterebbe a qualche beneficio?

Mi è parso di capire di no. Attendo vostre conferme. :)

Loll007

17-06-2008, 18:44

Riflettendoci su.. Mi nasce una domanda:

Montare una GPU telsa in un comune PC casalingo con relative applicazioni porterebbe a qualche beneficio?

Mi è parso di capire di no. Attendo vostre conferme. :)

se sei un fanatico di f@h o di calcoli scientifici di fluidodinamica o di roba simile si...ma su un pc di casa non serve assolutissimamentissimamente a nulla...serve solo in ambiti professionali ;)

Wilfrick

17-06-2008, 18:58

Per noi mortali sarebbe già un miracolo che si svegliassero a programmare i calcoli paralelizzabili fp su gpu (tipo rendering 3d).

Eraser|85

17-06-2008, 19:04

dici niente... :rolleyes:

Stefem

17-06-2008, 19:24

Riflettendoci su.. Mi nasce una domanda:

Montare una GPU telsa in un comune PC casalingo con relative applicazioni porterebbe a qualche beneficio?

Mi è parso di capire di no. Attendo vostre conferme. :)

A te basterà avere una scheda equipaggiata con GPU della serie 8 o successive per beneficiare della potenza della scheda video per video e audio encoding ecc..

sim89

17-06-2008, 19:28

si, guarda qui

http://www.hwupgrade.it/news/periferiche/il-nuovo-firestream-9250-di-amd-supera-la-barriera-del-teraflop_25654.html

;) mi era sfuggita grz

demon77

17-06-2008, 19:38

Non è per fare l'avvocato del diavolo ma il tesla non è altro che la gpu G200 montata su una scheda senza uscite video! (almeno a grandi linee!)
Solo che siccome va solo su server e workstation di alto livello la fanno costare una fucilata.. un po' come la storia delle quadro insomma..
Va beh.. del resto ogni mercato ha i suoi prezzi!

Mi viene però malignamente da pensare una cosa:
Ma perchè tergiversano tanto a sfruittare l'enorme potenziale delle GPU già esistenti e presenti in tutti i pc????
Basterebbe un adeguato set di driver ed istruzioni per consentire ad ogni programmatore di beneficiare almeno un po' di tanto ben di dio...
Non sarà mica che così minerebbero il golosissimo mercato dei sistemi GPGPU??

Stefem

17-06-2008, 19:54

Non è per fare l'avvocato del diavolo ma il tesla non è altro che la gpu G200 omtata su una scheda senza uscite video! (almeno a grandi linee!)
Solo che siccome va solo su server e workstation di lato livello la fanno costare un fucilata.. un po' come la storia delle quadro insomma..
Va beh.. del resto ogni mercato ha i suoi prezzi!

Mi viene però malignamente da pensare una cosa:
Ma perchè tergiversano tanto a sfruittare l'enorme potenziale delle GPU già esistenti e presenti in tutti i pc????
Basterebbe un adeguato set di driver ed istruzioni per consentire ad ogni programmatore di beneficiare almeno un po' di tanto ben di dio...
Non sarà mica che così minerebbero il golosissimo mercato dei sistemi GPGPU??

Bisogna considerare che oltre alle differenze costruttive rispetto GTX 200 si paga anche l'assistenza professionale (sostituzione componenti danneggiati entro 24h).

Poi tra pochissimo usciranno applicazioni (come Adobe Premiere Pro, lame MP3, BadaBoom ) che tramite CUDA potranno essere accelerate anche su schede video della serie 8 in poi

DarKilleR

17-06-2008, 20:12

questa volta la spunta ati...1.2 teraflops di calcoli in virgola su una scheda video che costa la metà e consuma un po' meno della metà....

demon77

17-06-2008, 20:29

Bisogna considerare che oltre alle differenze costruttive rispetto GTX 200 si paga anche l'assistenza professionale (sostituzione componenti danneggiati entro 24h).

Poi tra pochissimo usciranno applicazioni (come Adobe Premiere Pro, lame MP3, BadaBoom ) che tramite CUDA potranno essere accelerate anche su schede video della serie 8 in poi

Vero, vero!
Del resto in ambito professional questo è un imperativo...
Però un sistema tesla può venire a costare qualcosa come 12000 euro :eek:

Alla faccia dell'assistenza!!

Per quanto riguarda le applicazioni che ora verranno ad essere disponibili attraverso CUDA.. per carità, tutte cose ottime di cui sono ben contento ma sono certamente uno spillo ripetto al reale potenziale delle GPU!

Immagina un sistema operativo in grado di sfruttare in modo continuativo la gpu come se fosse una sorta di "coprocessore matematico" destinando automaticamente a lei tutti i processi che si adattano bene alle sue potenzialità..

Secondo me sarebbe un salto di qualità a dir poco mostruoso!

Stefem

17-06-2008, 20:41

Vero, vero!
Del resto in ambito professional questo è un imperativo...
Però un sistema tesla può venire a costare qualcosa come 12000 euro :eek:

Alla faccia dell'assistenza!!

Per quanto riguarda le applicazioni che ora verranno ad essere disponibili attraverso CUDA.. per carità, tutte cose ottime di cui sono ben contento ma sono certamente uno spillo ripetto al reale potenziale delle GPU!

Immagina un sistema operativo in grado di sfruttare in modo continuativo la gpu come se fosse una sorta di "coprocessore matematico" destinando automaticamente a lei tutti i processi che si adattano bene alle sue potenzialità..

Secondo me sarebbe un salto di qualità a dir poco mostruoso!

Questo è sicuro!

Si apre l'era del Visual Computing...

Stefem

17-06-2008, 20:44

Vero, vero!
Del resto in ambito professional questo è un imperativo...
Però un sistema tesla può venire a costare qualcosa come 12000 euro :eek:

Alla faccia dell'assistenza!!

Si ma quanto verrebbe a costare un sistema di prestazioni comparabili basato su CPU?
Senza contare l'ENORME risparmio energetico...

marchigiano

17-06-2008, 20:51

se sei un fanatico di f@h o di calcoli scientifici di fluidodinamica o di roba simile si...ma su un pc di casa non serve assolutissimamentissimamente a nulla...serve solo in ambiti professionali ;)

per i comuni desktop di parla di conversioni di film in fullhd in pochi minuti... per non parlare di chi fa audio/video amatorialmente, anche photoediting... e i giochi ok... per il resto non vedo nient'altro che succhia potenza in un pc

questa volta la spunta ati...1.2 teraflops di calcoli in virgola su una scheda video che costa la metà e consuma un po' meno della metà....

si 1.2tf contro 1tf in single precision ma in double precision siamo a 200gf contro 125... la gtx280 deve sotterrarsi :D

Stefem

17-06-2008, 21:01

questa volta la spunta ati...1.2 teraflops di calcoli in virgola su una scheda video che costa la metà e consuma un po' meno della metà....

A dire il vero consuma solo 10W in meno...
E bisogna considerare che monta 1 solo GB di ram contro i 4 di Tesla.
Il suo pezzo forte sembrerebbe il calcolo in duble precision.
Per quanto riguarda il prezzo 999$ non è la metà di 1699$:) , poi il prezzo indicativo delle Tesla di prima generazione doveva essere di 1500$ ma si sono subito trovate a 624 euro, strano visto come convertono il dollaro in euro qui in italia:D

LilithSChild

17-06-2008, 21:18

consumi ? :asd:

MiKeLezZ

17-06-2008, 21:22

Non è per fare l'avvocato del diavolo ma il tesla non è altro che la gpu G200 montata su una scheda senza uscite video! (almeno a grandi linee!)
Solo che siccome va solo su server e workstation di alto livello la fanno costare una fucilata.. un po' come la storia delle quadro insomma..
Va beh.. del resto ogni mercato ha i suoi prezzi!

Mi viene però malignamente da pensare una cosa:
Ma perchè tergiversano tanto a sfruittare l'enorme potenziale delle GPU già esistenti e presenti in tutti i pc????
Basterebbe un adeguato set di driver ed istruzioni per consentire ad ogni programmatore di beneficiare almeno un po' di tanto ben di dio...
Non sarà mica che così minerebbero il golosissimo mercato dei sistemi GPGPU??Perchè oggigiorno si paga più il software dell'hardware

DarKilleR

17-06-2008, 21:51

ma mi sbaglio o AMD/ATI per il GPGPU, hanno già un SDK di sviluppo da qualche anno e soprattutto tutto l'ambaradan è open source??

P.S: se si potessero usare anche le schede video con lo stesso intento, si avrebbe un mostro veramente, si potrebbero risolvere problemi di fluidodinamica ed iniziare ad analizzare tali moti in via completamente teorica invece che con approccio quasi solo sperimentale..

Per non parlare di tutti gli altri campi di applicazione.

ari

17-06-2008, 23:06

Dunque , andrebbe anche boinc su questa gpu ?

Stefem

17-06-2008, 23:10

consumi ? :asd:
Tesla permette di diminuire i consumi di 9 volte rispetto alle CPU!

Stefem

17-06-2008, 23:13

Dunque , andrebbe anche boinc su questa gpu ?

Stanno sviluppando alcuni client di "BOINC Project" per CUDA, quindi supportato da teutte le schede Geforce della serie 8 e sucessive

ari

17-06-2008, 23:19

dove si puo' trovare documentazione al riguardo ?
potra' girare contemporaneamente sulla cpu e sulla gpu ?

gabi.2437

17-06-2008, 23:20

Prima commentiamo l'articolo

:eek:

Cioè, raddoppio delle prestazioni, una roba MOSTRUOSA, il tutto poi in un campo abbastanza recente!

Poi passiamo alle domande del caso

Dunque , andrebbe anche boinc su questa gpu ?

Boh, domanda buttata un pò a caso (senza flame su boinc, che computing è? :D )

BOINC va un pò dove vuole, pure sulla PS3 va se ci installi Linux, volendo ti va anche sul cellulare... visto che è solo il manager :D

Sono i progetti che devono fare il client adatto invece :D E qua ogni progetto fa da se, se fanno il client per CUDA ok, se no no ;)

@Stefem: permettimi di chiederti se PER CASO ti stia confondendo con Folding@Home

FabryHw

17-06-2008, 23:28

L'articolo dice che è la prima GPU con supporto Double Precision.
Non è vero è solo "la prima GPU Nvidia con supporto D.Precision".

AMD/ATI hanno il supporto D.Precision già da tempo ossia a partire dal chip RV670 e la FireStorm 9170 commercializzata lo scorso autunno già permetteva l'uso di GPGPU in doppia precisione.

http://www.hwupgrade.it/news/skvideo/firestream-9170-nuova-scheda-gpgpu-per-amd_23194.html

PS
L'equivalente ATI di Cuda è "Close to Metal"

FabryHw

17-06-2008, 23:28

post doppio

ari

17-06-2008, 23:29

Ah , ecco , io intendevo boinc che elabora i calcoli del world community grid.

marcoland

17-06-2008, 23:34

Senza polemica, ma leggere il nome Tesla (http://www.google.it/search?hl=it&q=tesla&meta=) come marchio per una scheda video mi ha dato sempre dolori allo stomaco...

Stefem

17-06-2008, 23:36

Prima commentiamo l'articolo

:eek:

Cioè, raddoppio delle prestazioni, una roba MOSTRUOSA, il tutto poi in un campo abbastanza recente!

Poi passiamo alle domande del caso

Boh, domanda buttata un pò a caso (senza flame su boinc, che computing è? :D )

BOINC va un pò dove vuole, pure sulla PS3 va se ci installi Linux, volendo ti va anche sul cellulare... visto che è solo il manager :D

Sono i progetti che devono fare il client adatto invece :D E qua ogni progetto fa da se, se fanno il client per CUDA ok, se no no ;)

@Stefem: permettimi di chiederti se PER CASO ti stia confondendo con Folding@Home

No, mi sono espresso come un cane, volevo dire che ci sono dei client su piattaforma BOINC di cui è in sviluppo una versione in CUDA.

Chiedo umilmente perdono.

marchigiano

17-06-2008, 23:39

gabi concorderai con me che grazie al supporto al double precision tutti i client di boinc devono assolutamente fare il client per queste gpu, i vantaggi sono pazzeschi in rapporto alla fatica di fare il programma, 125gflop per la gtx280, 200gflop per la hd4870 con consumi di circa 150-200W, mettiamo tutto il pc ti consuma 400W... ma fa i calcoli di almeno 10 4core intel di alto livello, e 10 pc del genere minimo minimo consumano 200W l'uno ma è più probabile 350... con una simile prestazione per W consumato cade anche l'ultimo scoglio di boinc e con la diffusione di queste schede si moltiplicherà a dismisura la potenza di calcolo disponibile (ho visto slide in cui si stimavano 600000 petaflop... forse un filo esagerato)

FabryHw

17-06-2008, 23:53

125mflop per la gtx280, 200mflop per la hd4870 con consumi di circa 150-200W
Mettiamoci anche le HD38x0.
Non so quanto faccia una HD3870 ma se ipotizziamo un rapporto di 1/5 come per la HD4870, allora sono 100gflop (visto che in singola precisione è data per 500gflop) che tornano ad essere 200gflop per una HD3870x2

Cmq GigaFlops non MegaFlops

Stefem

17-06-2008, 23:57

gabi concorderai con me che grazie al supporto al double precision tutti i client di boinc devono assolutamente fare il client per queste gpu, i vantaggi sono pazzeschi in rapporto alla fatica di fare il programma, 125mflop per la gtx280, 200mflop per la hd4870 con consumi di circa 150-200W, mettiamo tutto il pc ti consuma 400W... ma fa i calcoli di almeno 10 4core intel di alto livello, e 10 pc del genere minimo minimo consumano 200W l'uno ma è più probabile 350... con una simile prestazione per W consumato cade anche l'ultimo scoglio di boinc e con la diffusione di queste schede si moltiplicherà a dismisura la potenza di calcolo disponibile (ho visto slide in cui si stimavano 600000 petaflop... forse un filo esagerato)

Parlo per Tesla:
In Double Precision lavora solo 1/8 della scheda, quindi non consumerà come a pieno carico, ma al massimo 1/4 se non proprio 1/8, più o meno 50W o addirittura 25W.

Hai indicato i valori in MFLOPS, correggi, sono GFLOPS.

demon77

18-06-2008, 00:06

Si ma quanto verrebbe a costare un sistema di prestazioni comparabili basato su CPU?
Senza contare l'ENORME risparmio energetico...

Questa cosa non è in discussione, le CPU hanno una struttura totalmente diversa, quello che dico io è che di fatto un qualsiasi pc con una scheda grafica decente "ha un tesla" sotto il cofano.. slo che non viene sfruttato!

Se ci fosse un supporto software adeguato da questo punto di vista un buon pc potrebbe fare cose che neanche ti immagini.. ok certo, non a livello di un sistema dedicato come quello dell'aerticolo e magari senza la doppia precisione ma, per esempio potrebbe codificare un film in HD in una manciata di minuti contro le diverse ore che impiegherebbe sfruttando una cpu anche di ultima generazione! (e questo solo per dirne una!)

FabryHw

18-06-2008, 00:07

L'articolo dice che è la prima GPU con supporto Double Precision.
Non è vero è solo "la prima GPU Nvidia con supporto D.Precision".

AMD/ATI hanno il supporto D.Precision già da tempo ossia a partire dal chip RV670 e la FireStorm 9170 commercializzata lo scorso autunno già permetteva l'uso di GPGPU in doppia precisione.

http://www.hwupgrade.it/news/skvideo/firestream-9170-nuova-scheda-gpgpu-per-amd_23194.html

PS
L'equivalente ATI di Cuda è "Close to Metal"

Mi sono documentato meglio ed ho trovato:

AMD's Dave "Wavey" Baumann (of ex-Beyond3D fame) told us that while AMD's RV670 chip is supporting double-precision units, it does not feature individual units for FP64, but uses the FP32 units to do FP64 calculations over a number of cycles.

Quindi si ATI supporta FP64 su RV670, ma solo in emulazione sw (con magari poco hw per favorire l'emulazione).

Allora in tal caso Nvidia Tesla T10 sarebbe davvero la prima GPU con FP64 in Hw.
Mi chiedo però perché se ATI è riuscita a fare FP64 in sw già con il chip RV670, perché NVidia non ci riesca con G80, ma anzi proponga una soluzione hw che in FP64 va ad 1/8 di FP32.

Altra cosa che non capisco è che nell'articolo di cui ho copiato un pezzo, dicono che probabilmente l'implementazione sw di FP64 di ATI, rallenterà la scheda da 2 a 4 volte rispetto agli FP32
Ossia una implementazione sw (sia pure parzialmente hw assistita), a 1/2 o 1/4 delle prestazioni FP32, mentre le nuove implementazioni hw puro vanno solo a 1/8 (Nvidia) o 1/5 (Ati, penso che la nuova FireStorm 9250 sia FP64 in hw, anche se non è detto)

Mercuri0

18-06-2008, 08:56

Mi sono documentato meglio ed ho trovato:

AMD's Dave "Wavey" Baumann (of ex-Beyond3D fame) told us that while AMD's RV670 chip is supporting double-precision units, it does not feature individual units for FP64, but uses the FP32 units to do FP64 calculations over a number of cycles.

Quindi si ATI supporta FP64 su RV670, ma solo in emulazione sw (con magari poco hw per favorire l'emulazione).

"emulazione" è una parola decisamente fuori contesto in questo caso (ormai negli integrati non si sa più dove finisce il software, il microcodice e dove comincia l'hardware).

Penso sia più opportuno intendere che l'hardware di RV670 che fa i conti a FP32 può essere riconfigurato per farli a FP64. Evidentemente quello del G80 non poteva esserlo per qualche motivo, o nelle Radeon i circuiti per le FP32 erano già "predisposti" per fare i conti a 64.

(Ati, penso che la nuova FireStorm 9250 sia FP64 in hw, anche se non è detto)
Buh, basterebbe controllare i rapporti tra gli FP32 e FP64, se sono gli stessi avranno usato la stessa technica. Se funziona bene ed è efficiente perché cambiarla? (i valori teorici di capacità di calcolo in FP64 per il "piccolo" RV770 sono circa il doppio del GT200, se non sbaglio)

p.s. AMD non usa la CTM da anni, adesso l'interfaccia di basso livello si chiama CAL e AMD distribuisce anche linguaggi di alto livello come Brook.

jepessen

18-06-2008, 09:30

Bisogna considerare che con l'architettura attuale delle GPU non è possibile effettuare tutti i tipi di calcoli e di operazioni effettuabili tramite CPU. Un esempio pratico è dato dal programma di calcolo distribuito Folding@Home per l'analisi delle proteine. Hanno dei client specifici per GPU, che hanno un'efficienza maggiore nel calcolo, nel senso che eseguono i calcoli più velocemente, ma solo per alcuni tipi di dati, non per tutti. Lo dicono chiaramente anche nel sito.

Daniele

Mercuri0

18-06-2008, 10:21

Bisogna considerare che con l'architettura attuale delle GPU non è possibile effettuare tutti i tipi di calcoli e di operazioni effettuabili tramite CPU. Un esempio pratico è dato dal programma di calcolo distribuito Folding@Home per l'analisi delle proteine. Hanno dei client specifici per GPU, che hanno un'efficienza maggiore nel calcolo, nel senso che eseguono i calcoli più velocemente, ma solo per alcuni tipi di dati, non per tutti. Lo dicono chiaramente anche nel sito.

Daniele
Zi, ci sono un sacco di problemi, ma Folding@Home in realtà è l'esempio peggiore che potevi fare, perché il nuovo client GPU2 (basato su brook->CAL e presto anche brook->CUDA) ha superato in flessibilità quello del Cell.

Invece ci sono tanti problemi per la codifica video/audio, per esempio. Il problema è che basta una sola operazione che la GPU non fa bene per perdere tutto il vantaggio. :(

marchigiano

18-06-2008, 13:55

comunque a me non interessa calcolare le WU più velocemente con la gpu ma poter calcolare tipo 60 WU contemporaneamente sulla gpu... non so se è possibile, penso di si se la ram e le piccole cache possono venire usate indipendentemente da tutti i stream processor...

jepessen

18-06-2008, 14:00

Beh, dato che lavoro con robe di calcolo, ho deciso di provare questo CUDA. dal loro sito

http://www.nvidia.com/object/cuda_home.html

posso scaricare driver e kit di sviluppo. Qualcuno di voi sa se il driver funziona con la mia 8600M GT del mio portatile (ASUS G1S)?. E se l'eventuale installazione di questi driver possa penalizzare la scheda per il suo solito utilizzo di acceleratore grafico 3D (che ci lavoro con Solidworks e ci gioco con UT3)?

Daniele

demon77

18-06-2008, 14:15

Beh, dato che lavoro con robe di calcolo, ho deciso di provare questo CUDA. dal loro sito

http://www.nvidia.com/object/cuda_home.html

posso scaricare driver e kit di sviluppo. Qualcuno di voi sa se il driver funziona con la mia 8600M GT del mio portatile (ASUS G1S)?. E se l'eventuale installazione di questi driver possa penalizzare la scheda per il suo solito utilizzo di acceleratore grafico 3D (che ci lavoro con Solidworks e ci gioco con UT3)?

Daniele

Cuda può sfruttare tutte le schede della serie 8, qundi anche quella del portatile direi..
Per quanto riguarda i giochi non preoccuparti, non ci dovrebbe essere alcun problema.. a meno che tu non pretenda di giocare a crysis mentre stai eseguendo un software di calcolo che sfrutta la GPU.. :)

jepessen

18-06-2008, 14:43

Non c'è questo pericolo.. Io ancora gioco a Commader Keen, che ho preso la serie completa su Steam a 4 dollari:cincin: :cincin:

Mi preoccupava più che altro la stabilità ed il funzionamento degli altri miei programmi, ma se non ci sono problemi... Tanto un punto di ripristino me lo faccio sempre.

Daniele

Stefem

18-06-2008, 15:42

Beh, dato che lavoro con robe di calcolo, ho deciso di provare questo CUDA. dal loro sito

http://www.nvidia.com/object/cuda_home.html

posso scaricare driver e kit di sviluppo. Qualcuno di voi sa se il driver funziona con la mia 8600M GT del mio portatile (ASUS G1S)?. E se l'eventuale installazione di questi driver possa penalizzare la scheda per il suo solito utilizzo di acceleratore grafico 3D (che ci lavoro con Solidworks e ci gioco con UT3)?

Daniele

Vai tranquillo :)

Più che altro, facci sapere se combi qualcosa di interessante...

zerothehero

18-06-2008, 16:04

12000 euro per un'azienda sono un'inezia..costa meno che assumere un bidello per 6-7 mesi. :D

gabi.2437

18-06-2008, 18:01

E il bidello cosa c'entra? :mbe:

Comunque, certo, i vari progetti dovrebbero fare un client anche per CUDA ecc... però capite che non è così semplice, specie per i progetti che cambiano/aggiornano client spesso...

FabryHw

18-06-2008, 19:03

Buh, basterebbe controllare i rapporti tra gli FP32 e FP64, se sono gli stessi avranno usato la stessa technica. Se funziona bene ed è efficiente perché cambiarla? (i valori teorici di capacità di calcolo in FP64 per il "piccolo" RV770 sono circa il doppio del GT200, se non sbaglio)

Boh le poche fonti trovate dicono

FireStream 9170
fino a 504GFlops a FP32
da 125 a 250 GFLOP a FP64

FireStream 9250
>= 1000GFlop a FP32
>= 200GFlop a FP64

soulplace

19-11-2008, 00:55

Beh, dato che lavoro con robe di calcolo, ho deciso di provare questo CUDA. dal loro sito

http://www.nvidia.com/object/cuda_home.html

posso scaricare driver e kit di sviluppo. Qualcuno di voi sa se il driver funziona con la mia 8600M GT del mio portatile (ASUS G1S)?. E se l'eventuale installazione di questi driver possa penalizzare la scheda per il suo solito utilizzo di acceleratore grafico 3D (che ci lavoro con Solidworks e ci gioco con UT3)?

Daniele

La scheda è compatibile. Qui (http://www.nvidia.com/object/cuda_learn_products.html) c'è la lista completa dei prodotti compatibili.

yossarian

19-11-2008, 01:51

Mettiamoci anche le HD38x0.
Non so quanto faccia una HD3870 ma se ipotizziamo un rapporto di 1/5 come per la HD4870, allora sono 100gflop (visto che in singola precisione è data per 500gflop) che tornano ad essere 200gflop per una HD3870x2

Cmq GigaFlops non MegaFlops
mettici anche R600 :D

Mi sono documentato meglio ed ho trovato:

AMD's Dave "Wavey" Baumann (of ex-Beyond3D fame) told us that while AMD's RV670 chip is supporting double-precision units, it does not feature individual units for FP64, but uses the FP32 units to do FP64 calculations over a number of cycles.

Quindi si ATI supporta FP64 su RV670, ma solo in emulazione sw (con magari poco hw per favorire l'emulazione).

Allora in tal caso Nvidia Tesla T10 sarebbe davvero la prima GPU con FP64 in Hw.
Mi chiedo però perché se ATI è riuscita a fare FP64 in sw già con il chip RV670, perché NVidia non ci riesca con G80, ma anzi proponga una soluzione hw che in FP64 va ad 1/8 di FP32.

"emulazione" è una parola decisamente fuori contesto in questo caso (ormai negli integrati non si sa più dove finisce il software, il microcodice e dove comincia l'hardware).

Penso sia più opportuno intendere che l'hardware di RV670 che fa i conti a FP32 può essere riconfigurato per farli a FP64. Evidentemente quello del G80 non poteva esserlo per qualche motivo, o nelle Radeon i circuiti per le FP32 erano già "predisposti" per fare i conti a 64.

Buh, basterebbe controllare i rapporti tra gli FP32 e FP64, se sono gli stessi avranno usato la stessa technica. Se funziona bene ed è efficiente perché cambiarla? (i valori teorici di capacità di calcolo in FP64 per il "piccolo" RV770 sono circa il doppio del GT200, se non sbaglio)

ha ragione Mercuri0; non si tratta di emulazione SW ma di calcoli in HW; la differenza è che GT200 ha alu fp64 dedicate, mentre i chip ATi, a partire da R600 in poi, utilizzano le alu fp32 per elaborare calcoli in fp64. Questo è possibile grazie maggiore flessibilità dovuta all'assenza dell'hW scheduler. In tal modo è possibile configurare le istruzioni in modo da far elaborare un'istruzione fp64 da una singola alu vliw (5 minialu fp32). Qualcosa di analogo avverrà con larrabee di Intel (anch'esso privo dell'HW scheduler). I chip NV, invece, avendo un'architettura che opera bilanciamento dei carichi e parallelizzazione completamente in HW non ha la stessa flessibilità. In pratica, la maggior efficienza si paga con una maggior complessità ed un amaggior rigidità; motivo epr cui una alu fp32 può fare solo calcoli fp32 e per fare calcoli fp64 servono alu fp64 dedicate.

Altra cosa che non capisco è che nell'articolo di cui ho copiato un pezzo, dicono che probabilmente l'implementazione sw di FP64 di ATI, rallenterà la scheda da 2 a 4 volte rispetto agli FP32
Ossia una implementazione sw (sia pure parzialmente hw assistita), a 1/2 o 1/4 delle prestazioni FP32, mentre le nuove implementazioni hw puro vanno solo a 1/8 (Nvidia) o 1/5 (Ati, penso che la nuova FireStorm 9250 sia FP64 in hw, anche se non è detto)

Boh le poche fonti trovate dicono

FireStream 9170
fino a 504GFlops a FP32
da 125 a 250 GFLOP a FP64

FireStream 9250
>= 1000GFlop a FP32
>= 200GFlop a FP64

le prestazioni in fp64, con i chip ATi, scendono ad 1/5 di quelle fp32; questo perchè una lau fp64 fisica è emulata da 5 alu fp32. Quindi le 1,2 Tflops di HD4870 diventano 240 Gflops in fp64. GT200 ha, invece, in tutto 30 alu fp64, ciascuna capace di una MAD, per cui, con una frequenza di 1333 MHz (che è quella delle alu di tesla), si arriva poco meno di 80 Gflpos.
Larrabee, invece, avrà ogni core con una pipeline di 16 alu fp32 in parallelo, con la possibilità di effetuare 2 MAD fp32 ciascuna; ogni 2 alu possono emulare una alu fp64, quindi ogni core di larrebee sarà in grado di effettuare 16 MAD fp32 o 8 MAD fp64 per ciclo. Il computo complessivo dipenderà dalla frequenza e dal numero di core: ipotizzando 16 core a 2 GHz, si possono avere un massimo di 1,02 Tflops fp32 e 501 Gflops fp64; sulla carta appare la soluzione migliore delle 3, almeno se si considera il rapporto tra capacità di calcolo fp64/ capacità di calcolo fp32 (con Intel siamo 1:2, con ATi 1:5, con nVIDIA 1:8).

Foglia Morta

19-11-2008, 08:46

le prestazioni in fp64, con i chip ATi, scendono ad 1/5 di quelle fp32; questo perchè una lau fp64 fisica è emulata da 5 alu fp32. Quindi le 1,2 Tflops di HD4870 diventano 240 Gflops in fp64. GT200 ha, invece, in tutto 30 alu fp64, ciascuna capace di una MAD, per cui, con una frequenza di 1333 MHz (che è quella delle alu di tesla), si arriva poco meno di 80 Gflpos.
Larrabee, invece, avrà ogni core con una pipeline di 16 alu fp32 in parallelo, con la possibilità di effetuare 2 MAD fp32 ciascuna; ogni 2 alu possono emulare una alu fp64, quindi ogni core di larrebee sarà in grado di effettuare 16 MAD fp32 o 8 MAD fp64 per ciclo. Il computo complessivo dipenderà dalla frequenza e dal numero di core: ipotizzando 16 core a 2 GHz, si possono avere un massimo di 1,02 Tflops fp32 e 501 Gflops fp64; sulla carta appare la soluzione migliore delle 3, almeno se si considera il rapporto tra capacità di calcolo fp64/ capacità di calcolo fp32 (con Intel siamo 1:2, con ATi 1:5, con nVIDIA 1:8).

All'inizio hai scritto che ogni alu di Larrabee può fare 2 MAD in fp32 per ogni alu, poi dopo dici 1 MAD in fp32 per ogni alu e 1 MAD in fp64 ogni 2 alu. Urge correzione :D

yossarian

19-11-2008, 11:54

All'inizio hai scritto che ogni alu di Larrabee può fare 2 MAD in fp32 per ogni alu, poi dopo dici 1 MAD in fp32 per ogni alu e 1 MAD in fp64 ogni 2 alu. Urge correzione :D

hai ragione, ho sbagliato: una MAD in fp32 per alu e ogni 2 alu 1 MAD fp64 :D (avevo in mente 1 MAD ma 2 ops)