Intel ha creato l'occhio bionico per giudicare la grafica dei videogiochi

Intel ha rilasciato CGVQM, uno strumento open source basato su AI per valutare oggettivamente la qualità visiva nei videogiochi. CGVQM supera le metriche tradizionali e può essere integrato nei motori di gioco, permettendo agli sviluppatori di intervenire al meglio sulla resa grafica finale.
di Manolo De Agostini pubblicata il 17 Luglio 2025, alle 07:01 nel canale Schede VideoIntel
Intel ha presentato CGVQM (Computer Graphics Visual Quality Metric), un innovativo strumento open source progettato per valutare in modo oggettivo e automatizzato la qualità visiva dei videogiochi in tempo reale.
Disponibile su GitHub come applicazione PyTorch, CGVQM è il primo sistema pensato specificamente per analizzare i contenuti grafici prodotti da tecniche di rendering moderne come DLSS, XeSS, FSR, path tracing e Gaussian splatting, offrendo risultati comparabili con quelli delle valutazioni soggettive effettuate da osservatori umani.
Alla base del progetto ci sono due componenti principali: CGVQM, il modello AI vero e proprio, e CGVQD, un nuovo dataset di riferimento composto da 80 clip video da 3 secondi l'una, tratte da 15 ambienti 3D open source. Le clip includono scene note, come la demo Bistro di Amazon, e ambientazioni personalizzate come House e Bridge, tutte sottoposte a uno o più metodi di rendering con potenziali distorsioni visive.
L'obiettivo del progetto è superare i limiti delle metriche tradizionali come PSNR (Peak Signal-to-Noise Ratio) e SSIM (Structural Similarity Index), nate per valutare la compressione video ma inadeguate a rilevare artefatti specifici della grafica in tempo reale, come ghosting, flicker, aliasing, moiré, disocclusioni, ricostruzioni errate da modelli neurali, fireflies o instabilità temporale nei dettagli. In particolare, le metriche classiche falliscono nel valutare contenuti sintetici e dinamici, come quelli dei videogiochi, dove ogni frame è generato in tempo reale e può includere effetti visivi non presenti nei video naturali.
Per mettere a punto CGVQM, i ricercatori di Intel hanno inizialmente raccolto valutazioni soggettive sul dataset CGVQD, chiedendo a 20 partecipanti di giudicare le distorsioni visive su una scala da "impercettibile" a "molto fastidiosa". Questi giudizi, sotto forma di DMOS (Difference Mean Opinion Scores), hanno costituito la base per l'addestramento del modello, basato su una rete neurale convoluzionale 3D (3D-ResNet-18). Il modello è stato poi calibrato per allinearsi il più possibile alle valutazioni umane, superando metriche esistenti in termini di accuratezza e correlazione con la percezione visiva.
Il cuore del funzionamento di CGVQM prevede la suddivisione dei video in piccoli blocchi, da cui vengono estratte caratteristiche visive tramite la rete neurale. Il sistema regola poi i pesi dei canali per generare uno score di qualità coerente con le percezioni umane. Sono disponibili due varianti del modello:
- CGVQM-5, più accurato e profondo, analizza tutti e cinque i blocchi della rete ResNet per ottenere risultati estremamente precisi;
- CGVQM-2, più leggero e veloce, utilizza solo i primi due blocchi della rete, sacrificando parte della precisione in favore di prestazioni computazionali più elevate.

Entrambe le versioni producono mappe di errore localizzate, che evidenziano visivamente le aree più colpite dagli artefatti. Questo permette agli sviluppatori di identificare in modo immediato dove si verifica il degrado qualitativo, evitando test soggettivi costosi e difficili da replicare su larga scala.
CGVQM può inoltre essere integrato direttamente nei flussi di sviluppo, grazie al supporto per plugin di Unreal Engine e hook per API Vulkan, consentendo la valutazione della qualità video anche in fase di sviluppo o test interno di nuovi rendering engine.
Un'interessante applicazione pratica della metrica è nel training dei denoiser neurali, spesso utilizzati nel path tracing o nel ray tracing real-time. Grazie a CGVQM, è possibile determinare in modo automatico il numero minimo di sample-per-pixel necessari per produrre una qualità percettivamente equivalente al ground truth, evitando ore di rendering ad altissima qualità.
Inoltre, essendo differenziabile, la metrica può essere impiegata direttamente come funzione di perdita (loss function) per addestrare modelli neurali che massimizzano la qualità visiva percepita. Secondo Intel, nonostante alcune limitazioni sui dataset non inclusi nell'addestramento, CGVQM ha dimostrato buone capacità di generalizzazione, mantenendo prestazioni elevate anche su contenuti inediti.
I ricercatori ipotizzano l'evoluzione futura della metrica verso architetture basate su transformer o l'integrazione di flusso ottico e attenzione spaziale/temporale, per una stima ancora più accurata e realistica della qualità video. Inoltre, stanno lavorando a una versione no-reference della metrica, che non richieda un video di riferimento per funzionare, rendendola applicabile anche durante il gameplay reale o lo streaming cloud, dove i dati "perfetti" di confronto non sono disponibili.
1 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infoDevi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".