Quote:
Originariamente inviato da lordsnk
Esatto!
Il problema è, come già detto, l'architettura che è stata fatta non per giocare ma per fare calcoli.
Se si vanno a vedere le recensioni per uso professionale della 4090, si rimane a bocca aperta e si capisce che l'architettura è pensata e progettata per lavorare.
Vi consiglio di guardare questa recensione che non parla solo di FPS, ma soprattutto di uso professionale.
Alla fine della fiera la 4090 è una TITAN rimarchiata RTX per vendere di più ed è inutile stare a pensare di cambiare CPU perché questa scheda in gaming a basse risoluzioni scala male a prescindere dalla cpu 
|
Le schede nvidia vengono pensate principalmente per i pro e poi riciclate ai gamers. Con Ampere hanno introdotto le doppie FP, proprio per questo tipo di calcoli. Nei gamer a 38 interi mediamente hai 10200 cuda, le altre pipeline calcolano interi.
Nei giochi è più complesso, c'è un fattore warp stall più limitante ed è quasi impossibile avere uno scaling 1:1 a livello di potenza. I picchi massimi, li vedi sui 3dmark intensivi dove mettono a fuoco tutti gli stadi moltiplicatori, ma non riuscendo minimamente a sfruttare la microarchitettura per rapporti di stallo dovuto a code da sincronizzare.
Nei calcoli pro, hai un tipo di calcolo ridondante FP che riesce a raggiungere picchi di scaling quasi ottimali, ed è naturale che spesso si veda pure un 2x, visto che la potenza teorica passa da 36 -40 a quasi 90TF.
Anche le vecchie Vega erano potenti in questi tipi di calcolo, in quanto riuscivano a mantenere un ratio costante, mentre nei gamer dovevano convivere con emulazioni SFU e load store, dove abilitando le SFU andavi a perdere 1/4 della potenza.
Discorso simile sulle basse precisioni, nvidia nelle gen successive mette i tensor del modello HPC precedente, raddoppiando le OPS, quindi una futura 4060 si ritroverà i tensor di GA102 x il clock, quindi in certi tipi di calcoli sarà più potente della 3090.
Una 3090 può calcolare 320tf fp16 (2x int8) via tensor con sparsity, una 4090 arriva ad 1320 tf fp16 (2x int8), in quanto oltre al clock ed ai tensor più numerosi, raddoppiando le OPS, è come se da 512 tensor ampere, ne avesse 1024.
Roba che nei giochi non sfrutti minimamente, visto che già una 2060 può fare DLSS.
AMD invece non fa altro che splittare le pipeline, 1 fp32, può fare 2 fp16 a metà registro o 4x int8.