Un recente studio condotto da Anthropic, la società responsabile del chatbot Claude, in collaborazione con l'Istituto Alan Turing e il British Institute for AI Safety, ha rivelato una sorprendente vulnerabilità nei grandi modelli linguistici (LLM). Secondo la ricerca, "avvelenare" un modello linguistico, ovvero comprometterne l'integrità e il comportamento, è significativamente più semplice di quanto si pensasse in precedenza. Basta l'inserimento di soli 250 documenti contenenti dati dannosi per influenzare negativamente il modello, indipendentemente dalle sue dimensioni o dalla quantità di dati di addestramento utilizzati.
Questa scoperta mette in discussione le precedenti convinzioni sulla sicurezza degli LLM, che presupponevano la necessità di un controllo molto più ampio sui dati di addestramento per poter manipolare il comportamento del modello. In realtà, i ricercatori hanno dimostrato che anche modelli con miliardi di parametri possono essere compromessi con una quantità relativamente piccola di dati "avvelenati". Ad esempio, un modello con 13 miliardi di parametri richiede oltre 20 volte più dati di addestramento rispetto a uno con 600 milioni di parametri, ma entrambi possono essere violati con lo stesso numero di documenti dannosi.
L'"avvelenamento" di un'intelligenza artificiale può assumere diverse forme. Un esempio interessante è quello di una creatrice di contenuti su YouTube, f4mi, che, stanca di vedere i suoi video utilizzati per addestrare sistemi di intelligenza artificiale, ha deliberatamente "avvelenato" i sottotitoli dei suoi video aggiungendo testo senza senso. Questo testo, visibile solo all'AI, ha lo scopo di confondere i modelli linguistici e indurli a generare risposte incoerenti.
Anthropic sottolinea che l'"avvelenamento" dei dati può anche essere utilizzato per creare una sorta di "backdoor" all'interno del modello. In questo scenario, i dati dannosi vengono utilizzati per inserire una frase in codice che, una volta attivata, consente l'accesso a dati riservati o il controllo del modello stesso. Questo tipo di attacco potrebbe avere conseguenze molto gravi, soprattutto se il modello viene utilizzato in contesti sensibili come la finanza o la sicurezza nazionale.
Nonostante la scoperta di questa vulnerabilità, i ricercatori di Anthropic ritengono che sia difficile sfruttarla in pratica. Come spiegano, "i criminali informatici devono affrontare altre sfide, come lo sviluppo di attacchi che resistano al post-training e ad altre misure di sicurezza mirate". In altre parole, anche se l'"avvelenamento" dei dati è più semplice di quanto si pensasse, non è affatto facile da realizzare con successo.
Questa ricerca evidenzia l'importanza di sviluppare sistemi di sicurezza più robusti per proteggere i modelli di intelligenza artificiale da attacchi di questo tipo. Ciò potrebbe includere tecniche di filtraggio dei dati di addestramento, monitoraggio del comportamento del modello e sviluppo di algoritmi di rilevamento delle anomalie in grado di identificare e neutralizzare i dati "avvelenati". La sicurezza dell'intelligenza artificiale è una sfida complessa e in continua evoluzione, ma è fondamentale per garantire che questa tecnologia possa essere utilizzata in modo sicuro e responsabile.
Prima di procedere


