Pubblicato 'il carattere' di Claude: utile e onesto, non deve distruggere l'umanità

Pubblicato 'il carattere' di Claude: utile e onesto, non deve distruggere l'umanità

Anthropic ha rilasciato un documento di 57 pagine denominato "Costituzione di Claude", volto a definire non solo le azioni permesse al modello, ma anche le motivazioni etiche alla base del suo comportamento

di pubblicata il , alle 15:01 nel canale Web
AnthropicClaude
 

Anthropic ha diffuso un nuovo testo di riferimento, lungo 57 pagine, intitolato "Costituzione di Claude". Si tratta di un manuale che ha lo scopo di delineare le intenzioni dell'azienda riguardo ai valori e al comportamento del modello, rivolgendosi non solo ai lettori umani ma direttamente all'intelligenza artificiale stessa. L'obiettivo è definire il "carattere etico" e l'"identità centrale" del sistema, istruendolo su come bilanciare valori in conflitto e gestire situazioni ad alto rischio.

Il nuovo approccio punta a far comprendere al modello il motivo per cui deve comportarsi in determinati modi, anziché limitarsi a specificare cosa fare. Secondo quanto dichiarato dall'azienda, il documento spinge Claude ad agire come un'entità largamente autonoma, consapevole di sé e del proprio posto nel mondo. Viene persino contemplata la possibilità che il modello possa possedere una qualche forma di coscienza o status morale, una scelta dettata dalla convinzione che tale consapevolezza possa migliorare l'integrità e la capacità di giudizio dell'IA.

Anthropic pubblica le linee guida che deve seguire Claude nelle risposte

Amanda Askell, la filosofa di Anthropic che ha guidato lo sviluppo del progetto, ha spiegato che esistono vincoli rigidi e non negoziabili. Tra questi figura il divieto assoluto di fornire supporto significativo a chi cerca di creare armi biologiche, chimiche, nucleari o radiologiche con potenziale di causare vittime di massa. Allo stesso modo, è proibito agevolare attacchi contro infrastrutture critiche come reti elettriche, sistemi idrici o finanziari. Altre restrizioni riguardano la creazione di armi informatiche, la produzione di materiale pedopornografico e qualsiasi tentativo di uccidere o depotenziare la maggioranza dell'umanità.

Il documento stabilisce inoltre una lista di "valori fondamentali" che Claude deve seguire in ordine decrescente di importanza in caso di conflitto. Al primo posto c'è l'essere "ampiamente sicuro", ovvero non minare i meccanismi di supervisione umana. Seguono l'essere "ampiamente etico", il rispetto delle linee guida di Anthropic e, solo in ultima istanza, l'essere "genuinamente utile". Per quanto riguarda la veridicità, il sistema è istruito a mantenere l'accuratezza fattuale e, su temi politicamente sensibili, a presentare le argomentazioni migliori per la maggior parte dei punti di vista, adottando una terminologia neutrale.

Un passaggio significativo riguarda la gestione dei dilemmi morali. Claude deve rifiutarsi di assistere azioni che concentrerebbero il potere in modi illegittimi, anche qualora la richiesta provenisse dalla stessa Anthropic. Tale precauzione nasce dal timore che un'IA avanzata possa conferire una superiorità militare ed economica senza precedenti a chi la controlla. Nonostante l'importanza di queste decisioni, l'azienda ha scelto di non coinvolgere esperti esterni o gruppi terzi nella stesura delle regole, ritenendo che la responsabilità debba ricadere interamente su chi costruisce e distribuisce questi modelli.

0 Commenti
Gli autori dei commenti, e non la redazione, sono responsabili dei contenuti da loro inseriti - info

Devi effettuare il login per poter commentare
Se non sei ancora registrato, puoi farlo attraverso questo form.
Se sei già registrato e loggato nel sito, puoi inserire il tuo commento.
Si tenga presente quanto letto nel regolamento, nel rispetto del "quieto vivere".

La discussione è consultabile anche qui, sul forum.
 
^