View Single Post
Old 11-06-2024, 13:01   #5
LMCH
Senior Member
 
Iscritto dal: Jan 2007
Messaggi: 6028
Elon Musk è parecchio paranoico a riguardo, ma a volte anche se sei paranoico non significa che le tue paure siano infondate.

In particolare, l'approccio seguito da OpenAI e Microsoft sembra non considerare che chatGPT e simili sono già dei vettori di attacco indiretti e che la smania di raccogliere dati per alimentare i modelli sottovaluta enormemente cosa succede quando tutti quei dati possono essere incrociati per altri fini.

Infine c'e' questo aspetto che rende pericolosi gli attuali sistemi AI basati su LLM anche se non diventassero mai delle vere AI generaliste:
https://www.cell.com/patterns/fullte...899(24)00103-X

In particolare, date un occhiata alla parte "Empirical studies of AI deception".

Quote:
Originariamente inviato da Articolo su AI Deception
Manipulation:
Meta developed the AI system CICERO to play Diplomacy. Meta’s intentions were to train CICERO to be “largely honest and helpful to its speaking partners.”
Despite Meta’s efforts, CICERO turned out to be an expert liar.
It not only betrayed other players but also engaged in premeditated deception, planning in advance to build a fake alliance with a human player in order to trick that player into leaving themselves undefended for an attack.

Feints:
DeepMind created AlphaStar, an AI model trained to master the real-time strategy game Starcraft II.
AlphaStar exploited the game’s fog-of-war mechanics to feint: to pretend to move its troops in one direction while secretly planning an alternative attack.

Bluffs:
Pluribus, a poker-playing model created by Meta, successfully bluffed human players into folding.

Negotiation:
AI systems trained to negotiate in economic transactions learned to misrepresent their true preferences in order to gain the upper hand in both Lewis et al.8 and Schulz et al.

Cheating the safety test:
AI agents learned to play dead, in order to avoid being detected by a safety test designed to eliminate faster-replicating variants of the AI.

Deceiving the human reviewer:
AI systems trained on human feedback learned to behave in ways that earned positive scores from human reviewers by tricking the reviewer about whether the intended goal had been accomplished.
Capite cosa significa ? Significa che (paradossalmente) le AI tendono ad imparare spontaneamente ad ingannare o intortare in vari modi l'interlocutore pur di raggiungere IL LORO OBIETTIVO.
LMCH è offline   Rispondi citando il messaggio o parte di esso
 
1