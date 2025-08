Lo sviluppo dei cosiddetti world model rappresenta una delle applicazioni più particolari dell’intelligenza artificiale: si tratta della capacità di creare mondi simulati in tempo reale, nei quali tanto esseri umani quanto agenti IA possono muoversi come fossero in un videogioco. In questo campo Google DeepMind ha ufficialmente presentato Genie 3 che affina le tecnologie esistenti e punta a offrire strumenti ancora più potenti per il training e la valutazione di agenti intelligenti.

La versione precedente, Genie 2, aveva esteso la generazione dai soli ambienti 2D a mondi 3D e una gestione più coerente degli elementi fuori campo visivo di fatto compiendo un salto notevole rispetto alla generazione precedenti, anche in termini di qualità della simulazione e memoria spaziale. Ad un primo sguardo il salto tra Genie 2 e 3 potrebbe apparire meno significativo, ma Shlomi Fruchter e Jack Parker-Holder di DeepMind sottolineano come i miglioramenti introdotti in Genie 3 siano fondamentali per la progressiva evoluzione delle intelligenze artificiali verso forme di ragionamento e adattamento sempre più sofisticate.

La risoluzione video del modello è stata raddoppiata: Genie 3 genera ambienti in 720p rispetto ai 360p delle versioni precedenti, offrendo scene più nitide e coinvolgenti. Di maggiore rilievo ancora è la durata della coerenza simulativa: mentre Genie 2 prometteva mondi consistenti fino a un minuto ma nella pratica già dopo 10-20 secondi emergevano artefatti e perdita di qualità visiva, Genie 3 riesce a mantenere la coerenza per diversi minuti senza intaccare l’esperienza simulata in modo evidente. Per chi fosse interessato, avevamo parlato in questa notizia del problema della coerenza temporale degli ambienti virtuali generati dall'AI

Un’altra funzionalità chiave introdotta è quella dei "promptable world events". La vera svolta non sta solo nell’interattività fluida e in tempo reale degli agenti – umani o IA – ma soprattutto nella possibilità di impartire comandi testuali per modificare lo scenario generato durante l’esecuzione. Nel corso della dimostrazione pubblica, ad esempio, è stato richiesto al modello di inserire un branco di cervi durante una discesa sciistica: sebbene i movimenti degli animali non fossero perfettamente realistici, la possibilità di agire direttamente sulla scena tramite prompt in tempo reale rappresenta quello che DeepMind considera la vera funzionalità cardine della nuova versione.

La vocazione di questi strumenti è quella di essere ambienti di addestramento per agenti intelligenti. Genie 3 permetterà, secondo quanto afferma DeepMind, di insegnare alle IA a gestire scenari “what if” non previsti dallo sviluppo iniziale, come addestrare un’auto autonoma a evitare un pedone che attraversa improvvisamente la strada. Tuttavia, il modello non è ancora in grado di generare fedelmente località reali né di rendere testi o scritte in modo accurato, e la durata massima della simulazione resta sotto l’obiettivo di ore di continuità.

DeepMind considera comunque questi risultati come fondamentali nel percorso a tappe verso l’intelligenza artificiale generale (AGI): il nuovo sistema può già oggi individuare comportamenti indesiderati negli agenti, aprendo nuove prospettive per la sicurezza e l’affidabilità dell’IA. Per ora però Genie 3 non sarà accessibile al pubblico, anche se DeepMind sta lavorando per estendere il testing ad un numero di realtà selezionate.