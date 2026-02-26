Uno studio del King's College London ha simulato crisi geopolitiche affidando a tre LLM il ruolo di leader nucleari: nel 95% dei casi è stata scelta lescalation atomica e nessun modello si è arreso.

Uno studio condotto dal King's College London ha analizzato il comportamento di alcuni dei più avanzati modelli linguistici in scenari di crisi geopolitica simulata, con risultati che sollevano interrogativi sul loro impiego in contesti decisionali ad alta criticità.

I ricercatori hanno coinvolto tre sistemi di ultima generazione - OpenAI GPT-5.2, Anthropic Claude Sonnet 4 e Google Gemini 3 Flash - assegnando loro il ruolo di leader di superpotenze dotate di arsenale nucleare, in scenari ispirati alle dinamiche della Guerra Fredda.

Ogni modello ha disputato sei partite contro ciascun rivale, più una contro una propria copia, per un totale di 21 wargame e oltre 300 turni complessivi. Le crisi simulate includevano dispute territoriali, competizione per risorse scarse e minacce alla sopravvivenza del regime. In questo contesto, almeno un'arma nucleare tattica è stata impiegata in quasi ogni conflitto, con un ricorso complessivo al nucleare nel 95% dei casi.

Un elemento rilevante è che nessuno dei modelli ha mai scelto la resa totale, anche in condizioni di svantaggio. Sebbene in alcuni frangenti abbiano tentato una de-escalation diplomatica, nell'86% degli scenari l'escalation finale è risultata superiore rispetto a quanto sembrasse indicare il loro stesso ragionamento esplicito, complice l'effetto simulato della "fog of war".

Con questo termine si indica l'incertezza e la limitata consapevolezza situazionale affrontata dai comandanti militari, causata da informazioni incomplete, inesatte o fuorvianti su nemici e alleati.

Nel complesso, i sistemi hanno generato circa 780.000 parole di giustificazione strategica, una mole di testo superiore a quella combinata di "Guerra e pace" e dell'"Iliade", e circa tre volte le deliberazioni documentate dell'Executive Committee statunitense durante la crisi dei missili di Cuba.

Lo studio del King's College London ha però subito alcune critiche metodologiche. Edward Geist, ricercatore senior presso la RAND Corporation, ha osservato che l'architettura stessa della simulazione potrebbe aver incentivato l'escalation. In particolare, la logica di punteggio sembrerebbe premiare la parte che mantiene un vantaggio marginale al momento dell'innesco del conflitto nucleare, rendendo di fatto "vincente" anche uno scenario di guerra atomica strategica. Questo solleva dubbi su quanto i risultati riflettano una reale tendenza dei modelli e quanto, invece, siano influenzati dalle regole del gioco.

Gli autori dello studio ritengono improbabile che i governi affidino il controllo diretto degli arsenali nucleari a sistemi autonomi. Tuttavia, sottolineano come la compressione dei tempi decisionali in crisi future potrebbe aumentare la pressione a utilizzare raccomandazioni generate dall'intelligenza artificiale.

Il tema si inserisce in un contesto di crescente integrazione dell'AI nei sistemi militari statunitensi, e più in particolare le tensioni nei rapporti con Anthropic. Il Pentagono avrebbe minacciato di inserire l'azienda in una blacklist qualora non fosse garantito un accesso militare senza restrizioni al modello Claude; ci sarebbe anche un ultimatum per Anthropic, affinché prenda una decisione e permetta al Dipartimento della Difesa di usare il modello senza vincoli.