GameNGen è l'IA che simula Doom in tempo reale a 20 fotogrammi al secondo

Utilizzando una versione modificata di Stable Diffusion un gruppo di ricercatori è riuscito a realizzare un modello capace di generare in tempo reale frame del videogioco Doom
di Andrea Bai pubblicata il 29 Agosto 2024, alle 14:35 nel canale Scienza e tecnologiaDooM
Un team di ricercatori di Google e dell'Università di Tel Aviv ha recentemente presentato GameNGen, un particolare modello di intelligenza artificiale in grado di simulare in tempo reale Doom, il celebre sparatutto in prima persona risalente al 1993. Il modello fa uso di tecniche di generazione delle immagini AI mutuate da Stable Diffusion e traccia una potenziale nuova strada per la sintesi di videogiochi in tempo reale.
Il cuore di GameNGen
è un sistema di rete neurale che funge da motore di gioco e anziché
utilizzare le tradizionali tecniche di rendering grafico, segue un
approccio per il quale la grafica in tempo reale viene "immaginata" o
"allucinata" come fosse un compito predittivo: il modello, mentre viene
guidato dall'input del giocatore, prevede lo stato di gioco successivo a
partire da quelli precedenti, dopo essere stato addestrato su un'ampia
quantità di filmati del gameplay di Doom. Utilizzando un singolo tensor
processing unit, GameNGen è capace di generare oltre 20 fotogrammi al
secondo di Doom.
L'efficacia di GameNGen è stata messa alla prova attraverso test che hanno
coinvolto valutatori umani a cui sono stati sottoposti frammenti di gioco
tratti da una vera sessione di Doom e altri generati dal modello. I
frammenti sono stati abbastanza brevi, di 1,6 e 3,2 secondi, e nel 60%
dei casi circa i valutatori sono riusciti a riconoscere correttamente
il filmato di gioco reale.
Il funzionamento di GameNGen è illustrato nel dettaglio in un documento di ricerca intitolato "Diffusion Models Are Real-Time Game Engines", in cui viene spiegato che il sistema fa uso di una versione modificata di Stable Diffusion 1.4, un modello di diffusione per la sintesi di immagini rilasciato nel 2022.
Il processo di sviluppo di GameNGen si è articolato in due fasi: dapprima i ricercatori hanno addestrato un agente di apprendimento per rinforzo a giocare a Doom, registrando le sessioni di gioco che sono state usate per realizzare un set di dati di addestramento, che nella seconda fase è stato impiegato per addestrare il modello Stable Diffusion adottato e personalizzato dai ricercatori.
L'impiego di Stable Diffusion ha però presentato alcuni inconvenienti grafici: per via di alcune operazioni di compressione effettuate dal modello, si è verificata la produzione di artefatti che hanno compromesso la leggibilità di piccoli dettagli, in particolar modo la rappresentazione dell'HUD della barra inferiore nel gioco.
Un secondo grattacapo da risolvere ha riguardato la coerenza temporale delle immagini generate. Nel documento i ricercatori evidenziano come la simulazione di un "mondo virtuale" che sia anche interattivo è un compito di complessità superiore alla generazione di un video molto veloce. E, anzi, il fatto che il sistema si basi su una generazione condizionata da un flusso di input che sono disponibili solamente durante la generazione stessa rappresenta uno scenario inedito per i modelli generativi attuali che richiede un approccio creativo per evitare l'instabilità e il degrado del mondo generato nel corso del tempo. Da un certo punto di vista il concetto è simile a quello dell'IA che si cannibalizza: gli artefatti grafici si accumulano nel corso del tempo e mettono il sistema nelle condizioni di generare frame con sempre più errori e incoerenze, arrivando nei casi peggiori a generare frame senza alcun senso.

I ricercatori hanno risolto questo problema aggiungendo intenzionalmente vari strati di rumore casuale e addestrando il modello a correggere il rumore. Questo approccio ha consentito di mantenere una coerenza visuale nei frame generati anche per periodi di tempo estesi.
GameNGen, essendo in fase embrionale e, rappresentando al momento più un "proof-of-concept" che altro, presenta una serie di limitazioni che sarà opportuno affrontare e risolvere qualora si volesse trovare un campo d'applicazione pratica a questo sistema.
La prima di esse è il fatto che il modello si basa su di un singolo gioco pre-esistente: modelli come StableDiffusion hanno dimostrato una buona capacità nell'imitare in maniera credibile qualcosa che esiste già, trovando invece difficoltà a generare qualcosa di inedito. In secondo luogo al momento GameNGen può contare su uno storico generativo di circa tre secondi, che rappresenta un limite piuttosto importante per la capacità di ricreare con coerenza stati di gioco precedenti allo storico. E, infine, il fatto che la simulazione, per quanto impressionante, riguardi un gioco risalente al 1993 fa capire quale genere di potenza di calcolo possa essere necessaria se si volesse applicare il concetto a titoli un po' più recenti, o a trasformare GameNGen in uno strumento capace di rispondere alle esigenze del gaming moderno.
In ogni caso la possibilità di realizzare ora, con la potenza di calcolo oggi disponibile, uno strumento come GameNGen può aprire un nuovo filone di sviluppo e ricerca dove IA generative e game design e game development convergono: magari un domani non sarà più necessario dover progettare e codificare ambienti tridimensionali di gioco o personaggi, ma basterà proporre delle descrizioni testuali o dei disegni di riferimento e lasciare che a tutto il resto pensi l'intelligenza artificiale, ampliando le possibilità creative degli autori.
GameNGen si inserisce in un filone di ricerca in rapida evoluzione: il progetto si basa su lavori precedenti nel campo, tra cui World Models (2018), GameGAN (2020) e Genie di Google (marzo 2023). All'inizio di quest'anno, inoltre, un gruppo di ricercatori universitari ha addestrato un modello di IA chiamato "DIAMOND" per simulare videogiochi Atari usando un modello simile a Stable Diffusion.
Ma GameNGen si avvicina molto anche alla ricerca sui "simulatori di mondo", associati comunemente a modelli di sintesi video come ad esempio Sora di OpenAI. Tra l'altro proprio quest'ultima, durante la presentazione di Sora, ha mostrato video dimostrativi del generatore AI che simulava Minecraft, evidenziando le potenzialità di queste tecnologie nel campo dei videogiochi.
Chissà cosa penserà di tutto questo John Romero, il papà di Doom, che proprio di recente ha espresso il suo scetticismo sull'uso dell'intelligenza artificiale per lo sviluppo di videogiochi...
13 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - infocosa c'è di incredibile? anzi è tutto a un livello molto basico al momento
? replicare un videogame esclusivamente tramite IA, mi sembra di vivere in un film fantascientifico
Parliamo della parte grafica, non dell'engine.
qui si parla di giocare a un clone di doom creato da un'IA e quoto una parte dell'articolo e non solo di assistere visivamente, quoto una parte dell'articolo
Si, ma la parte creata dall'IA è limitata alla parte grafica. Detto terra terra, il gioco originale continua ad occuparsi di tutto (tasti, movimenti, collisioni, etc) mentre l'AI disegna il livello mentre ti muovi invece di avere una mappa prefatta. Almeno così l'ho inteso io.
Io invece ho inteso che la rete neurale getisce praticamente tutto, costruendo l'immagine in base alle immagini precedenti e all'input dell'utente, basandosi su filmati acquisiti.
Niente software doom sotto, niente mappa generata al volo dall'AI,
"semplicemente" (screen old)+(input)=(screen new).
Ma in effetti non e' chiarissimo.
Niente software doom sotto, niente mappa generata al volo dall'AI,
"semplicemente" (screen old)+(input)=(screen new).
Ma in effetti non e' chiarissimo.
leggendo questa parte sembra semplicemente l'IA apprenda dalle sessioni di gioco (come te dici del resto) e poi grazie a stable diffusion possa personalizzare il tutto in modo coerente.
quindi potenzialmente si può creare un livello nuovo, anche con ambienti mai esistiti su doom, giocandolo con tutte le meccaniche e la fisica di doom
https://gamengen.github.io/
https://arxiv.org/pdf/2408.14837
Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".