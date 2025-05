Questa settimana è stato pubblicato uno studio su Science Advances che mostra come i Large Language Models (LLM) sono capaci di sviluppare autonomamente un insieme di "norme sociali" quando vengono raggruppati tra loro per partecipare a semplici giochi interattivi, in modo molto simile a come gli esseri umani elaborano convenzioni per interagire tra loro in forme comprensibili.

Andrea Baronchelli, ricercatore presso il Dipartimento di Matematica della City St George’s, University of London e co-autore dello studio, osserva che le convenzioni sociali rappresentano le fondamenta di una società coordinata: il saluto, che in alcune culture è rappresentato da una stretta di mano, in altre da un inchino, è una prima forma base di regole che la società sviluppa per far sì che i suoi partecipanti possano instaurare interazioni funzionali. E' partendo da questo principio che Baronchelli si è chiesto quale forma di auto-organizzazione potesse emergere dall'interazione tra LLM.

Tutto è partito da un esperimento che ha visto l'impiego di 24 istanze di Claude di Anthropic, che sono state messe a coppie di due a partecipare ad un gioco che viene sovente usato per gli studi sui gruppi umani. In ogni turno di questo gioco due istanze di Claude venivano abbinate casualmente e invitate a scegliere una lettera da un insieme di dieci: se la lettera scelta era uguale per entrambi, la coppia riceveva una ricompensa, viceversa una penalità.

L'esperimento ha mostrato che, dopo svariati turni e con abbinamenti sempre diversi tra istanze, le coppie di modelli iniziavano a convergere sulla stessa lettera, indicando la nascita di una convenzione condivisa. Non si è trattato di un caso isolato o di una coincidenza: ripetendo l'esperimento con 200 istanze di Claude e un insiemi fino a 26 lettere, il comportamento è stato nuovamente riscontrato, così come utilizzando Llama di Meta.

L'aspetto interessante di questo esperimento sta nel fatto che le singole istanze di ciascun LLM effettuavano scelte del tutto casuali, per poi mostrare una sorta di bias collettivo quando venivano raggruppate in coppie. Il fenomeno, che Baronchelli sottolinea non essere mai stato documentato nei sistemi IA, è molto simile al comportamento che gli esseri umani manifestano quando interagiscono tra loro, andando a formare convinzioni o supposizioni convergenti differenti da quelle individuali.

La manifestazione di bias collettivo può rappresentare un problema nelle interazioni umane, e allo stesso modo è un comportamento problematico per gli LLM che, anche se singolarmente imparziali, possono deviare dal loro comportamento quando interagiscono con altri.

I ricercatori hanno spinto oltre l'esperimento, introducendo nel gruppo di 24 LLM alcune istanze "dissidenti", cioè programmate per proporre sempre una lettera diversa. Oltre un certo numero queste istanze riuscivano a sovvertire le convenzioni stabilite imponendone di nuove, un comportamento ben noto nelle dinamiche delle società umane.

Le evidenze dell'esperimento sono particolarmente significative, poiché suggeriscono di testare i modelli IA non solo singolarmente ma anche in vere e proprie "popolazioni", per rilevare possibili interazioni non desiderate. Potrebbe comunque essere difficile riuscire a prevedere i comportamenti di gruppo di LLM, in special modo con la crescente complessità dei singoli modelli stessi ad ogni iterazione evolutiva, e con la parallela complessità del loro utilizzo in contesti applicativi reali.

In ogni caso l'esperimento evidenzia l'esistenza di nuovi rischi e nuove opportunità per quanto riguarda le interazioni tra IA, richiamando l'attenzione alla necessità di stabilire strategie di progettazione e controllo dedicate a questi aspetti.

Skynet è sempre più vicina?