FSR 4 di AMD funziona anche sulle schede video non supportate, ecco i risultati

Redazione di Hardware Upg · 20-06-2025, 13:25

Link alla notizia: https://www.hwupgrade.it/news/skvide...ti_140078.html

Un utente Linux è riuscito ad abilitare FSR 4 su schede video basate sull'architettura RDNA 3 di precedente generazione. Tuttavia, l'assenza delle unità di calcolo FP8 si fa sentire e i risultati, talvolta, risultano peggiori di FSR 3.1

Click sul link per visualizzare la notizia.

coschizza · 20-06-2025, 13:46

se perdo il vantaggio prestazionale perdo lo scopo di usare uno scaler in generale, quindi su rdna3 meglio il nativo con magari un po di dettaglio in meno che abilitare il fsr3 o 4 limitato

CrapaDiLegno · 20-06-2025, 14:27

Mi chiedo perché dopo tutti questi anni che esistono i modelli AI ancora si discute se qualcosa può funzionare o meno su un HW o un altro.
La risposta è che è possibile far girare qualsiasi motore di inferenza ovunque.
Non è che i calcoli per l'inferenza, o anche l'RT, siano cose astruse che richiedono cose particolari. Moltiplicatori, divisoli e sommatori sono parte delle unità di calcolo delle CPU da circa 40 anni.
Quello che cambiano solo le prestazioni che dipendono dal numero e tipo di unità di calcolo installate.
Se non fosse chiuso si potrebbe far girare il DLSS sulle schede AMD. O anche sul chip della lavatrice.
Il fatto che nessuno di queste due soluzioni abbia l'HW specifico per eseguire i calcoli necessari (DLSS o FSR4 che sia) significa che le prestazioni saranno peggiori.
Dovendo il risultato essere usato in tempo reale, significa che o si avranno meno frame, fino al punto in cui usare l'interpolazione AI richiede più tempo che calcolare un frame nativamente, oppure meno qualità a parità di velocità di output.

Credo non capire questo porta ai solito discorsi su chi è capace di fare cosa, ovvero ci si ferma a dire: eh, ma anche X è in grado di fare lo scaling, RT, FG e quant'altro.
La differenza rispetto a X e Z è solo la velocità con cui riesce a eseguire i calcoli e quindi la resa finale. Come detto non è questione di aspettare un po' di più come per gli altri benchmark dove la barretta si allunga o si accorcia, ma poiché il risultato va usato entro un tempo ben determinato ciò che cambia è la qualità dell'output.
Cosa che pochi valutano

coschizza · 20-06-2025, 14:45

Quote:

Originariamente inviato da CrapaDiLegno

Mi chiedo perché dopo tutti questi anni che esistono i modelli AI ancora si discute se qualcosa può funzionare o meno su un HW o un altro.
La risposta è che è possibile far girare qualsiasi motore di inferenza ovunque.
Non è che i calcoli per l'inferenza, o anche l'RT, siano cose astruse che richiedono cose particolari. Moltiplicatori, divisoli e sommatori sono parte delle unità di calcolo delle CPU da circa 40 anni.
Quello che cambiano solo le prestazioni che dipendono dal numero e tipo di unità di calcolo installate.

non sei proprio del mestiere si direbbe, nei fatti è l'essatto opposto di quello che dici, per te hardware dedicato specializzato o generico è tutto uguale cosa aberrante in informatica

CrapaDiLegno · 20-06-2025, 16:44

Quote:

Originariamente inviato da coschizza

non sei proprio del mestiere si direbbe, nei fatti è l'essatto opposto di quello che dici, per te hardware dedicato specializzato o generico è tutto uguale cosa aberrante in informatica

Ma sai leggere o oltre che con la tecnologia hai problemi anche con l'italiano?
Dimmi dove ho detto che non serve l'HW dedicato.
Poi torna a scusarti per l'ennesima figura di m. che gai fatto.

Max Power · 20-06-2025, 17:43

Lo si era già visto settimane fa.
Ma per avere le prestazioni devono ottimizzare/riscrivere il codice per lavorare in FP16 (RDNA3), piuttosto che FP8 (RDNA4).
A detta di Azor, ci stanno lavorando.
Avevo "previsto" la cosa mesi fa, puntualizzando che prima avrebbero chiuso la lineup RDNA4 (ovviamente).

Se decidono effettivamente di andare in questa direzione, ritengo che per l'autunno dovrebbe essere disponibile.

Max Power · 20-06-2025, 17:52

Quote:

Originariamente inviato da coschizza

fsr3 o 4 limitato

Limitato sugli sponsorizzati Nvidia

C'è una differenza significativa nella qualità di implementazione.

CrapaDiLegno · 20-06-2025, 17:58

Quote:

Originariamente inviato da Max Power

Lo si era già visto settimane fa.
Ma per avere le prestazioni devono ottimizzare/riscrivere il codice per lavorare in FP16 (RDNA3), piuttosto che FP8 (RDNA4).
A detta di Azor, ci stanno lavorando.
Avevo "previsto" la cosa mesi fa, puntualizzando che prima avrebbero chiuso la lineup RDNA4 (ovviamente).

Se decidono effettivamente di andare in questa direzione, ritengo che per l'autunno dovrebbe essere disponibile.

Portare da FP8 a FP16 non è ottimizzazione. Le unità di calcolo sempre quelle sono (poche e senza matriciali), così come le operazioni che vengono fatte.Quindi, come detto, per girare girerà ma le prestazioni saranno scarse al punto che non ha senso usarlo.

idroCammello · 20-06-2025, 18:07

Quote:

Originariamente inviato da CrapaDiLegno

Portare da FP8 a FP16 non è ottimizzazione. Le unità di calcolo sempre quelle sono (poche e senza matriciali), così come le operazioni che vengono fatte.Quindi, come detto, per girare girerà ma le prestazioni saranno scarse al punto che non ha senso usarlo.

nell'articolo leggo che farebbero eseguire FP8 a unità di calcolo FP16.

mi chiedo se sia corretto parlare di "emulazione" in questo scenario.
Si tratta dal punto di vista dell'unità di calcolo di elaborazioni con un inutile livello di precisione = spreco di risorse

Gringo [ITF] · 20-06-2025, 21:22

Lossless Scaling......... :3

Max Power · 20-06-2025, 23:16

Quote:

Originariamente inviato da CrapaDiLegno

Portare da FP8 a FP16 non è ottimizzazione

Infatti, ti faccio notare che c'è il riferimento alla riscrittura

Quote:

Originariamente inviato da CrapaDiLegno

. Le unità di calcolo sempre quelle sono (poche e senza matriciali),

Discorso che non ha alcun senso, dato che DLSS4 ed FSR4 hanno praticamente lo stesso impatto nelle performance.

E considerando che il DLSS4 gira su una 3050 6GB, figuriamoci se l'FSR 4, non può girare da una 7600 a salire.

È solo questione di volontà, e dato che, in via del tutto eccezionale Nvidia ha attivato l'upscaler trasformer per tutte le RTX, e AMD ha attualmente le RDNA 3.5 in produzione, sarebbe una capoellata non farlo.

CrapaDiLegno · 21-06-2025, 01:11

Quote:

Originariamente inviato da idroCammello

nell'articolo leggo che farebbero eseguire FP8 a unità di calcolo FP16.

mi chiedo se sia corretto parlare di "emulazione" in questo scenario.
Si tratta dal punto di vista dell'unità di calcolo di elaborazioni con un inutile livello di precisione = spreco di risorse

Non c'è spreco perché quelle unità usano il formato FP16 nativamente e non sono in grado di usare l'FP8. È come avere solo delle scatole grandi. Se devo spedire oggetti piccoli non posso farci niente. Sempre una scatola grande devo usare per ciascuno. Che ci metta un chicco di riso o una lavatrice la scatola sempre quelle dimensioni avrà e non ci sono ottimizzazioni possibili.

Quote:

Originariamente inviato da Max Power

Infatti, ti faccio notare che c'è il riferimento alla riscrittura

Discorso che non ha alcun senso, dato che DLSS4 ed FSR4 hanno praticamente lo stesso impatto nelle performance.

E considerando che il DLSS4 gira su una 3050 6GB, figuriamoci se l'FSR 4, non può girare da una 7600 a salire.

È solo questione di volontà, e dato che, in via del tutto eccezionale Nvidia ha attivato l'upscaler trasformer per tutte le RTX, e AMD ha attualmente le RDNA 3.5 in produzione, sarebbe una capoellata non farlo.

Va bè, allora continuiamo pure a non capire.
Vediamo se così capisci: hai un tempo limitato per fare i calcoli di scaling. Se sfori fallisci completamente e non ha senso fare i calcoli perché non puoi usarli in un tempo utile.
Quindi tutti i sistemi cercano di usare lo stesso tempo massimo di calcolo <con l'aggravante che più vai veloce nel calcolo raster meno tempo hai per l'AI).
Definita questa limitazione naturale per come si usano i risultati dei calcoli di inferenza, prova a pensare cosa cambia ad avere 100 unità di calcolo piuttosto che 10000.
Vediamo se ci arrivi che i due sistemi fanno due lavori diversi ANCHE SE CI METTONO LO STESSO TEMPO.

Max Power · 21-06-2025, 16:03

Quote:

Originariamente inviato da CrapaDiLegno

Va bè, allora continuiamo pure a non capire.

Stupiscimi

Quote:

Originariamente inviato da CrapaDiLegno

Vediamo se così capisci: hai un tempo limitato per fare i calcoli di scaling. Se sfori fallisci completamente e non ha senso fare i calcoli perché non puoi usarli in un tempo utile.

Una rivelazione profetica

Ma andiamo avanti

Quote:

Originariamente inviato da CrapaDiLegno

Quindi tutti i sistemi cercano di usare lo stesso tempo massimo di calcolo <con l'aggravante che più vai veloce nel calcolo raster meno tempo hai per l'AI).

Ok, qui siamo alla fuffa

Quote:

Originariamente inviato da CrapaDiLegno

Definita questa limitazione naturale per come si usano i risultati dei calcoli di inferenza, prova a pensare cosa cambia ad avere 100 unità di calcolo piuttosto che 10000.
Vediamo se ci arrivi che i due sistemi fanno due lavori diversi ANCHE SE CI METTONO LO STESSO TEMPO.

Peccato che dimentichi una piccolissima variabile

La valorizzazione del tempo (o peso) di elaborazione.

Partiamo dal presupposto che anche con una 3050 6GB, ad oggi non si è visto un CAP di elaborazione del DLSS.

Voglio dire che il limite è di elaborazione è assoluto, con o senza DLSS.
Anche perché saremmo stati di fronte ad una situazione come questa: 300fps in nativo e 250fps in qualità DLSS.
Come conseguenza ai tensor core che non riuscivano a "stare dietro" all'elaborazione. Diversamente da frame rate più bassi dove normalmente se faccio 100 in nativo, ne escono almeno 120 in DLSS.

Ad oggi non esistono indicatori di carico precisi dei tensor core, tuttavia si può empiricamente dire che non importa che l'elaborazione sia da 100 o 10000 unità di calcolo.
Se il peso per gestire 300 FPS con l'upscaler IA è 10...

Combinazione DLSS4 ed FSR4, hanno un impatto molto simile sulle prestazioni, ergo si possono fare spannometricamente i dovuti paragoni.

E niente, mi dai sempre soddisfazione

CrapaDiLegno · 21-06-2025, 22:59

Quote:

Originariamente inviato da Max Power

Stupiscimi

Una rivelazione profetica

Ma andiamo avanti

Ok, qui siamo alla fuffa

Peccato che dimentichi una piccolissima variabile

La valorizzazione del tempo (o peso) di elaborazione.

Partiamo dal presupposto che anche con una 3050 6GB, ad oggi non si è visto un CAP di elaborazione del DLSS.

Voglio dire che il limite è di elaborazione è assoluto, con o senza DLSS.
Anche perché saremmo stati di fronte ad una situazione come questa: 300fps in nativo e 250fps in qualità DLSS.
Come conseguenza ai tensor core che non riuscivano a "stare dietro" all'elaborazione. Diversamente da frame rate più bassi dove normalmente se faccio 100 in nativo, ne escono almeno 120 in DLSS.

Ad oggi non esistono indicatori di carico precisi dei tensor core, tuttavia si può empiricamente dire che non importa che l'elaborazione sia da 100 o 10000 unità di calcolo.
Se il peso per gestire 300 FPS con l'upscaler IA è 10...

Combinazione DLSS4 ed FSR4, hanno un impatto molto simile sulle prestazioni, ergo si possono fare spannometricamente i dovuti paragoni.

E niente, mi dai sempre soddisfazione

E niente, solita argomenmtazione che parte da ipotesi completamente sbagliate per arrivare a conclusioni ovviamente completamente errate.
Per prima cosa stai ancora comparando le prestazioni come tempo di calcolo. Vuol dire che quanto scritto nei due post precedenti non li hai assolutamente compresi. Quindi inutile che scrivi stupiscimi e fuffa. Non hai capito un tubo. Punto.

Se vuoi te lo ripeto con un disegnino.
Se hai 25ms di tempo per fare i calcoli, e questo è il tempo che è determinato dal raster (hai definito la descrizione precedente fuffa, quindi non hai capito la relazione di tempi che c'è tra la parte raster e quella AI) è ovvio che DLSS o qualsiasi altra cosa ha lo stesso impatto. Sempre 25ms devono metterci SE IN RASTER hanno lo stesso limite.
Se usi una 5090 ma tieni il numero di unità della 3050 (quella che tu dici essere in grado di gestire il DLSS senza limitazioni) non riesci ad avere un vantaggio con il framerate che la 5090 riesce a fare in raster.

Quindi il tuo ragionamento di comparare il tempo senza tenere conto dell'attuale numero di frame (e risoluzione in gioco) è completamente errato.
E fin qui siamo 3 a zero (cioè tre post che ti spiego come funziona e 3 post in cui tu scrivi sciocchezze in risposta).

Poi passiamo alla questione tensor core vs metodo di calcolo AI in RDNA3.
A quanto pare non sai, come molti altri, che RDNA3 (ma anche la 4, anche se è migliorata con istruzioni più potenti) NON HA UNITA' DI CALCOLO DEDICATE, ma usa gli stessi shader che sono usati per elaborare le funzioni raster.
Questo vuole dire che mentre Nvidia può parallelizzare la parte raster con quella di scaling AI, AMD deve necessariamente calcolarli in serie, perché o usa gli shader per il frame raster o per lo scaling. Sì, può usarne un po' e un po', ma a quel punto le prestazioni diminuiscono per entrambe le fasi (e quindi si allungano i tempi di calcolo anche per il raster).
La soluzione a questa cosa è semplice (ed è la 4 volta che lo scrivo, vediamo se la capite o se proprio avete un blocco mentale quando si parla di AMD e del fatto che non riesce a tenere il passo di Nvidia): fare meno calcoli AI.
Se ho 100 unità di calcolo invece che 10000 i tempi di calcolo per la stessa elaborazione saranno impossibili da fare e quindi taglio la qualità del frame risultante finché ottengo qualcosa di più o meno decente con il tempo a disposizione.
Il risultato che TU vedi è che l'impatto dei tempi è lo stesso per entrambi, ma ciò che non valuti è che la qualità di uno è ben diversa da quella dell'altro.

Compresa la cosa ora? O vuoi tornare a comprare le prestazioni della 3050 con una 5090 dicendo che l'impatto è lo stesso senza tenere conto che la prima fa 15 frame al secondo, quindi ha 66ms per fare i calcoli con le sue unità di calcolo ridotte, mentre la 5090 ne fa 200 e quindi per avere un frame della stessa qualità ce ne deve mettere 5 (e quindi ha una quantità di unità AI proporzionali a quelle raster e non lo stesso numero di quelle della 3050 che per te bastano e avanzano per calcolare il DLSS)?

Ci siamo o no?

20-06-2025, 17:43	#6
Max Power Senior Member Iscritto dal: Jan 2003 Messaggi: 3330	Lo si era già visto settimane fa. Ma per avere le prestazioni devono ottimizzare/riscrivere il codice per lavorare in FP16 (RDNA3), piuttosto che FP8 (RDNA4). A detta di Azor, ci stanno lavorando. Avevo "previsto" la cosa mesi fa, puntualizzando che prima avrebbero chiuso la lineup RDNA4 (ovviamente). Se decidono effettivamente di andare in questa direzione, ritengo che per l'autunno dovrebbe essere disponibile. __________________ MASTER: Ryzen 5 9600X LC,Powercolor RX 7700XT,MSI PRO B650M-A WIFI,32GB Ram 6400 CL32 RIPJAWS X in DC,Samsung 980Pro 512GB G4 + 980Pro 2TB G4 + SSHD 2TB SATA + HDD 1TB SATA,Audio ALC897,MSI MPG A650GF,Win 11 PRO,TK X-SUPERALIEN + AQUARIUS III,MSI 32" Optix MAG322CQR,MSI VIGOR GK30 COMBO,MSI Agility GD20 PAD,MSI IMMERSE GH10 HEADSET Ultima modifica di Max Power : 20-06-2025 alle 17:49.

20-06-2025, 13:25	#1
Redazione di Hardware Upg www.hwupgrade.it Iscritto dal: Jul 2001 Messaggi: 75173	Link alla notizia: https://www.hwupgrade.it/news/skvide...ti_140078.html Un utente Linux è riuscito ad abilitare FSR 4 su schede video basate sull'architettura RDNA 3 di precedente generazione. Tuttavia, l'assenza delle unità di calcolo FP8 si fa sentire e i risultati, talvolta, risultano peggiori di FSR 3.1 Click sul link per visualizzare la notizia.

20-06-2025, 13:46	#2
coschizza Senior Member Iscritto dal: May 2004 Messaggi: 7658	se perdo il vantaggio prestazionale perdo lo scopo di usare uno scaler in generale, quindi su rdna3 meglio il nativo con magari un po di dettaglio in meno che abilitare il fsr3 o 4 limitato

20-06-2025, 14:27	#3
CrapaDiLegno Senior Member Iscritto dal: Jan 2011 Messaggi: 3702	Mi chiedo perché dopo tutti questi anni che esistono i modelli AI ancora si discute se qualcosa può funzionare o meno su un HW o un altro. La risposta è che è possibile far girare qualsiasi motore di inferenza ovunque. Non è che i calcoli per l'inferenza, o anche l'RT, siano cose astruse che richiedono cose particolari. Moltiplicatori, divisoli e sommatori sono parte delle unità di calcolo delle CPU da circa 40 anni. Quello che cambiano solo le prestazioni che dipendono dal numero e tipo di unità di calcolo installate. Se non fosse chiuso si potrebbe far girare il DLSS sulle schede AMD. O anche sul chip della lavatrice. Il fatto che nessuno di queste due soluzioni abbia l'HW specifico per eseguire i calcoli necessari (DLSS o FSR4 che sia) significa che le prestazioni saranno peggiori. Dovendo il risultato essere usato in tempo reale, significa che o si avranno meno frame, fino al punto in cui usare l'interpolazione AI richiede più tempo che calcolare un frame nativamente, oppure meno qualità a parità di velocità di output. Credo non capire questo porta ai solito discorsi su chi è capace di fare cosa, ovvero ci si ferma a dire: eh, ma anche X è in grado di fare lo scaling, RT, FG e quant'altro. La differenza rispetto a X e Z è solo la velocità con cui riesce a eseguire i calcoli e quindi la resa finale. Come detto non è questione di aspettare un po' di più come per gli altri benchmark dove la barretta si allunga o si accorcia, ma poiché il risultato va usato entro un tempo ben determinato ciò che cambia è la qualità dell'output. Cosa che pochi valutano

20-06-2025, 21:22	#10
Gringo [ITF] Senior Member Iscritto dal: Sep 2004 Città: Veneto Orientale Messaggi: 4415	Lossless Scaling......... :3

Strumenti
Mostra una versione stampabile Invia questa pagina per email