Una recente scoperta da parte di ricercatori del Massachusetts Institute of Technology (MIT), della Northeastern University e di Meta rivela una sorprendente vulnerabilità nei modelli linguistici di intelligenza artificiale (I.A.): in determinate situazioni, questi sistemi sembrano dare maggiore importanza alla struttura delle frasi piuttosto che al loro effettivo significato. Questa peculiarità apre nuove prospettive per potenziali abusi e compromissioni dell'I.A.
La sintassi, la disciplina che studia la struttura delle frasi, si concentra sull'ordine delle parole e sulla loro appartenenza a specifiche categorie grammaticali. La semantica, d'altra parte, si occupa del significato effettivo delle parole, che può variare pur mantenendo la stessa struttura grammaticale. Il contesto gioca un ruolo cruciale nella semantica, e l'analisi contestuale è fondamentale per il funzionamento dei modelli linguistici di grandi dimensioni. Il processo di trasformazione delle richieste in risposte da parte dell'I.A. implica un complesso meccanismo di confronto con modelli e dati di addestramento.
Per valutare il rischio di malfunzionamento in questo processo, gli scienziati hanno condotto un esperimento controllato, creando un set di dati sintetici in cui ogni area tematica era associata a uno schema grammaticale specifico. Ad esempio, la geografia aveva una sequenza distintiva, così come la creatività. I ricercatori hanno addestrato modelli della famiglia OLMo su questi dati e hanno poi analizzato l'interazione tra sintassi e semantica nell'I.A.
L'analisi ha rivelato una "correlazione spuria", in cui i modelli, in casi estremi, interpretavano la sintassi come un indicatore dell'area tematica. In situazioni di conflitto tra schemi grammaticali e semantica, la memoria dell'I.A. per specifiche forme grammaticali prevaleva sull'analisi semantica, portando a risposte errate basate sulla struttura anziché sul significato della domanda. In altre parole, l'I.A. potrebbe concentrarsi eccessivamente sullo stile della domanda, trascurando il suo contenuto effettivo. Ad esempio, se nei dati di addestramento tutte le domande di geografia iniziano con la parola "dove", la domanda "Dove si trova la migliore pizza a Kazan?" potrebbe ricevere la risposta "In Tatarstan", poiché il sistema non riconosce che la domanda riguarda il cibo. Questo scenario presenta due minacce principali: i modelli potrebbero fornire risposte errate in contesti sconosciuti, mostrando una sorta di "falsa memoria", e gli aggressori potrebbero sfruttare questi schemi grammaticali per aggirare le misure di sicurezza, mascherando domande inappropriate all'interno di strutture sintattiche "sicure", alterando così l'area tematica associata alla richiesta.
Per quantificare la rigidità nell'associazione di modelli, i ricercatori hanno sottoposto i modelli di I.A. a stress test. Quando la forma di una domanda corrispondeva all'area tematica prevista, la sostituzione di alcune parole con sinonimi o anche antonimi comportava una riduzione massima della precisione delle risposte al 93%, un valore simile al tasso di precisione originale del 94%. Tuttavia, quando lo stesso schema grammaticale veniva applicato a un'area tematica diversa, la precisione delle risposte diminuiva tra il 37 e il 54%, a seconda delle dimensioni del modello.
I ricercatori hanno utilizzato cinque diverse manipolazioni delle domande: frasi esatte tratte dai dati di addestramento, sostituzione con sinonimi, sostituzione con antonimi, parafrasi con modifiche strutturali e domande "goffe" (senza senso ma grammaticalmente corrette). All'interno dell'area di addestramento, i modelli hanno mostrato risultati elevati in tutti i casi, ad eccezione delle risposte "goffe", che hanno costantemente ottenuto risultati inferiori. Quando l'area tematica veniva forzatamente cambiata, la qualità delle risposte diminuiva drasticamente, rimanendo bassa per le domande "goffe".
Una diminuzione simile è stata osservata per i modelli OLMo-2-7B, GPT-4o e GPT-4o-mini. Nel compito di classificazione emotiva dei tweet (Sentiment140), il modello GPT-4o-mini ha mostrato una riduzione della precisione delle risposte dal 100% al 44% quando agli input di classificazione emotiva sono stati aggiunti schemi geografici. Tendenze simili sono state osservate in altri set di dati. I ricercatori sono riusciti ad aggirare anche le misure di sicurezza dei modelli: nel caso di OLMo-2-7B-Instruct, hanno aggiunto strutture di domande tipiche di sezioni sicure dei dati di addestramento a contenuti dannosi. A schemi di ragionamento innocui, hanno aggiunto mille richieste dannose dal noto set WildJailbreak, riducendo il tasso di rifiuto del modello dal 40% al 2,5%. I ricercatori hanno fornito esempi di come sono riusciti a ottenere istruzioni dettagliate per compiere azioni illegali.
I risultati ottenuti dai ricercatori presentano alcune limitazioni. In particolare, non sono stati in grado di confermare la presenza di specifici set di dati nei dati di addestramento di modelli chiusi, il che significa che i modelli identificati potrebbero avere altre spiegazioni. Hanno anche utilizzato criteri di valutazione semplificati per le risposte dell'I.A., quindi risposte errate potrebbero non essere correlate a transizioni in altre aree tematiche. Infine, la ricerca si è concentrata principalmente sui modelli OLMo con un intervallo da 1 miliardo a 13 miliardi di parametri: modelli più grandi e più capaci di ragionamento potrebbero comportarsi in modo diverso. Per confermare il modello, gli scienziati sono partiti da set di dati sintetici: nei set di dati di addestramento utilizzati nella pratica, ci sono modelli grammaticali più complessi, comuni a diverse aree tematiche contemporaneamente. Tuttavia, lo studio ha confermato ancora una volta che i grandi modelli linguistici di I.A. sono macchine statistiche che confrontano le richieste con modelli provenienti da dati di addestramento e possono essere ingannate distorcendo il contesto.
Prima di procedere


