Quote:
Originariamente inviato da Gyammy85
Una MI250 (senza scomodare la X) fa 45 tf in fp64 entro i 560 watt, mentre la appena presentata MI210 PCIe ne fa 22, ma con un consumo di 300 watt, coi calcoli matriciali arriva comunque a 45...ma non credo che qualcuno tenga in conto le prestazioni in compute generico di questi acceleratori, il cliente paga per la super soluzione proprietaria, ed infatti è quello che ottiene
Per il resto, credo che lovelace sia anche più veloce rispetto alla 3090, +60% mi sembra pochino, considerando che rdna3 sembra andare molto molto forte
|
Solita comparazione inutile per tentare di difendere l'indifendibile con numeri estrapolati dalla carta.
La Mi250 fa 45TFLOPS in FP64, ma ne fa 45 anche in FP32.
Ed è un doppio die.
Il TPD della versione che fa questi numeri, con una banda di 3GB/s, è di 560W, non 300.
Quella da 300 fa la metà di tutto, essendo un singolo die.
E il doppio die sono sempre 60 miliardi di transistor.
La comparazione poi con l'uso delle unità matriciali poi è improponibile, ed è proprio questo che aumenta il consumo.
Questo mostro è un singolo die, che va 1 volta e mezza nei calcoli "tradizionali", rispetto a quello che AMD fa con 2 die e soprattutto questa è una vera GPU, cioè può elaborare dati grafici anche sotto virtualizzazione, roba che la Mi250 non fa essendo solo un mero coprocessore matematico.
Stiamo parlando di 2 prodotti completamente diversi, con capacità diverse.
Per i calcoli "tradizionali," che sono sempre meno richiesti, comunque non pongono alcun problema.. basta mettere più GPU di questo tipo e con la connessione NVLink che scala molto bene raggiungi le prestazioni che vuoi e sicuramente i consumi non sono quelli del TPD se usi solo quelle unità.
Non parliamo poi del supporto SW: AMD è inesistente proprio, con Nvidia non solo hai tutto lo stack per lavorare con le GPU e sfruttarle al massimo hai anche la sicurezza che il tuo lavoro non è da buttare quando cambia l'architettura della GPU. Ricicli tutto, con la sicurezza che con la nuova generazione tutto sarà automaticamente ottimizzato per funzionare al meglio con la nuova architettura.
Quindi i puri numeri che sono scritti sulla carta interessano fino ad un certo punto, perché poi per riuscire a far macinare la scheda al massimo diminuendo i tempi di elaborazione serve un lavoro dietro non indifferente, soprattutto se non hai librerie, framework e middleware già sviluppato e che sai che funziona perfettamente con l'HW a disposizione.
Se dimezzo i tempi di calcolo di 2 giorni perché ho più potenza FP64 ma ci impiego 4 giorni di più a preparare modelli e dati, alla fine non risparmio niente.