Claude 4.5: Scoperto il 'documento sull'anima' dell'IA

Gli scienziati non sono ancora certi che i moderni modelli di intelligenza artificiale (IA) possiedano un'anima, ma nella memoria di Claude 4.5 Opus, un modello linguistico sviluppato da Anthropic, è stato scoperto un documento dedicato proprio a questo tema. Un utente di nome Richard Weiss ha inavvertitamente indotto Claude 4.5 Opus a citare un documento intitolato tradotto come "Panoramica dell'anima", che definisce come il modello comunica con le persone e rappresenta la propria personalità.

Amanda Askell, filosofa e specialista in etica che lavora nel dipartimento tecnico di Anthropic, ha confermato l'autenticità del documento, rivelando che era stato caricato durante la fase di addestramento del modello. Weiss aveva chiesto a Claude di fornirgli il messaggio di sistema, che contiene le istruzioni ricevute durante l'addestramento per gestire i dialoghi. In risposta, il chatbot ha fatto riferimento a diversi documenti, tra cui uno chiamato "soul_overview". L'utente ha quindi richiesto il testo di questo documento e Claude ha fornito una guida di 11.000 parole su come un modello linguistico di grandi dimensioni dovrebbe comportarsi.

Il documento contiene numerose istruzioni di sicurezza, con barriere protettive progettate per evitare che il modello fornisca risposte pericolose. A Claude viene assegnato il compito di essere realmente utile alle persone. Anche se i modelli di IA a volte rilasciano documenti di questo tipo quando iniziano a "allucinare", questa particolare istruzione è apparsa verosimile all'utente. Dopo aver inviato la richiesta dieci volte, Claude ha fornito ogni volta lo stesso testo.

L'intuizione di Weiss si è rivelata corretta. Amanda Askell di Anthropic ha confermato che il documento era stato effettivamente utilizzato durante l'addestramento del modello. Ha spiegato: "Ci sto lavorando da un po' di tempo, è ancora in fase di perfezionamento e prevediamo di rilasciare presto una versione completa con informazioni più dettagliate. Le citazioni dei modelli non sono particolarmente accurate, ma il documento originale è stato riprodotto in gran parte correttamente. All'interno dell'azienda lo chiamiamo il 'documento sull'anima', e apparentemente anche Claude lo fa, ma lo chiameremo diversamente".

Sembra quindi che l'"anima" di Claude sia in realtà una guida comportamentale. È interessante notare come un utente esterno sia riuscito ad accedere a questo documento. Molti dettagli relativi allo sviluppo dei modelli di IA rimangono ancora dietro le quinte e la possibilità di intravedere questi processi interni è una piccola sorpresa, anche se non sono state rivelate informazioni sensazionali.

Questo episodio solleva importanti questioni sulla trasparenza e la responsabilità nello sviluppo dell'IA. Mentre i modelli linguistici diventano sempre più sofisticati, è fondamentale comprendere come vengono addestrati e quali principi guidano il loro comportamento. La divulgazione accidentale del "documento sull'anima" di Claude potrebbe rappresentare un passo avanti verso una maggiore apertura nel campo dell'IA, incentivando gli sviluppatori a condividere più informazioni sui processi interni dei loro modelli. Resta da vedere se questo incidente porterà a un cambiamento significativo nelle pratiche di trasparenza dell'industria dell'IA, ma sicuramente ha aperto un interessante dibattito sul ruolo dell'etica e della responsabilità nello sviluppo di queste tecnologie.