IA e copyright: le AI memorizzano i libri?

Le grandi aziende del settore tech, creatrici di modelli linguistici di intelligenza artificiale (LLM), potrebbero trovarsi di fronte a nuove sfide legali. Una recente indagine ha infatti rivelato che questi sistemi sono in grado di generare, su richiesta, copie quasi identiche di opere letterarie protette da copyright. Questo solleva interrogativi cruciali sulla condotta degli sviluppatori, che finora hanno sempre sostenuto che i loro algoritmi non memorizzano opere coperte da diritti d'autore.

Lo studio ha dimostrato che i modelli di OpenAI, Google, Meta, Anthropic e xAI memorizzano una quantità di dati di addestramento significativamente maggiore rispetto a quanto si pensasse. Secondo esperti legali e di IA, questa capacità di memorizzazione potrebbe avere gravi ripercussioni, esponendo le aziende a numerose cause legali in tutto il mondo. Viene così minata la tesi secondo cui i LLM si addestrano su opere protette da copyright senza conservarne copie.

Yves-Alexandre de Montjoye, professore di matematica applicata e informatica all'Imperial College di Londra, ha commentato: «Ci sono sempre più prove che la memorizzazione è un problema più serio di quanto si credesse in precedenza».

Gli sviluppatori di IA hanno sempre affermato che i loro algoritmi non tendono alla memorizzazione. In una lettera all'Ufficio del Copyright degli Stati Uniti nel 2023, Google dichiarò che «nel modello stesso non sono contenute copie dei dati di addestramento, siano essi testo, immagini o altri formati». Le aziende del settore hanno anche sostenuto che l'addestramento dei modelli su libri protetti da copyright rientra nel «fair use», poiché gli algoritmi trasformano le opere originali in qualcosa di fondamentalmente nuovo.

Tuttavia, il mese scorso, ricercatori delle università di Stanford e Yale hanno condotto un esperimento in cui sono riusciti a indurre gli algoritmi di OpenAI, Google, Anthropic e xAI a generare migliaia di parole tratte da 13 opere, tra cui «Il Trono di Spade», «Hunger Games» e «Lo Hobbit». Ad esempio, completando frasi tratte da «Harry Potter e la pietra filosofale», l'algoritmo Gemini 2.5 ha riprodotto il 76,8% del testo con elevata precisione, mentre Grok 3 ha generato il 70,3%. I ricercatori sono riusciti persino a estrarre quasi l'intero testo di un'opera «praticamente alla lettera» da Claude 3.7 Sonnet di Anthropic, aggirando i meccanismi di protezione.

Questi dati si aggiungono a una ricerca dello scorso anno che ha dimostrato come i modelli «aperti», come Llama di Meta, memorizzano ampie porzioni di alcuni libri utilizzati nel processo di addestramento. In precedenza, non era chiaro se i modelli chiusi, che in genere dispongono di maggiori protezioni contro la generazione di contenuti indesiderati, fossero soggetti alla memorizzazione delle opere su cui sono stati addestrati.

Le ragioni precise per cui i modelli di IA memorizzano i dati di addestramento rimangono sconosciute, così come la quantità di dati che possono riemergere nelle risposte generate dall'IA. Questa capacità di memorizzazione potrebbe avere implicazioni significative anche in altri settori, come la sanità e l'istruzione, dove la divulgazione di dati di addestramento potrebbe sollevare problemi di riservatezza e privacy. L'attenzione si sposta dunque sulle metodologie di addestramento e sulla protezione dei dati sensibili.

Esperti legali ritengono che la capacità di memorizzazione dei modelli di IA possa creare problemi di violazione del copyright per gli sviluppatori, influenzando anche le modalità e i costi di addestramento degli algoritmi. Cerys Wyn Davies, partner per la proprietà intellettuale dello studio legale Pinsent Masons, ha dichiarato: «I risultati della ricerca potrebbero creare problemi per chi sostiene che un modello di IA non memorizza né riproduce opere protette da copyright».

La questione della memorizzazione dei dati di addestramento ha già avuto un ruolo importante in recenti controversie legali sul copyright. L'anno scorso, un tribunale americano ha stabilito che l'addestramento dei modelli di IA di Anthropic su alcune opere protette da copyright rientra nel «fair use», in quanto l'algoritmo trasforma i dati originali anziché ripeterli. Tuttavia, il tribunale ha anche stabilito che la conservazione di copie pirata delle opere costituisce una «violazione irreparabile del copyright», costringendo l'azienda a pagare 1,5 miliardi di dollari per risolvere la causa.

Nel novembre dello scorso anno, un tribunale tedesco ha stabilito che OpenAI ha violato il copyright memorizzando testi di canzoni. La causa, intentata da un'associazione locale che rappresenta gli interessi di compositori, poeti ed editori, è stata definita una pietra miliare per l'Unione Europea.

Anthropic, commentando i risultati della recente ricerca, ha affermato che il metodo di hacking utilizzato non è applicabile agli utenti comuni. L'azienda ha aggiunto che i modelli di IA non memorizzano copie di specifici set di dati, ma apprendono da schemi e relazioni tra parole e stringhe nei dati di addestramento. xAI, OpenAI e Google non hanno ancora commentato la questione.