Microsoft ha recentemente rimosso un post del blog che, secondo le critiche, incoraggiava l'uso non autorizzato dei libri di Harry Potter per l'addestramento di modelli di Intelligenza Artificiale (IA). Il post, pubblicato nel novembre 2024 da Pooja Kamath, Senior Product Manager di Microsoft, suggeriva che l'utilizzo di un "set di dati ben noto" come i libri di Harry Potter per l'addestramento di IA avrebbe trovato riscontro in un vasto pubblico.
Kamath aveva scritto il post come parte della promozione di una nuova funzionalità di Microsoft che, secondo il blog, semplificava l'aggiunta di funzioni di IA generativa alle applicazioni degli utenti con poche righe di codice, utilizzando Azure SQL DB, LangChain e LLM. I libri di Harry Potter, descritti come "una delle serie più famose e amate nella storia della letteratura", erano presentati come un'opzione ideale. Kamath consigliava di utilizzare modelli linguistici di grandi dimensioni (LLM) addestrati su questi libri per creare un sistema in grado di fornire "risposte orientate al contesto" e generare "nuove fan fiction di Harry Potter" che avrebbero sicuramente entusiasmato i fan.
Per facilitare l'implementazione di questo suggerimento, il blog includeva un link a un set di dati Kaggle contenente tutti e sette i libri di Harry Potter, erroneamente etichettato come di "dominio pubblico" e disponibile online da anni. Sembra che il set di dati sia passato inosservato a causa del basso numero di download (circa 10.000) e non abbia attirato l'attenzione di J.K. Rowling, l'autrice della serie, prima della sua rimozione.
Il post di Kamath è stato pubblicato quasi un anno e mezzo fa, in un momento in cui le aziende di IA stavano iniziando a affrontare azioni legali riguardanti modelli che presumibilmente violavano il copyright, addestrandosi su materiali piratati e riproducendo opere letterali. Nonostante ciò, il blog raccomandava agli utenti di addestrare i propri modelli di IA sul set di dati di Harry Potter e di caricare i file di testo in Azure Blob Storage. Venivano forniti esempi di modelli basati sul set di dati, che Microsoft sembrava aver caricato in Azure Blob Storage e che includeva solo il primo libro, "Harry Potter e la Pietra Filosofale".
Addestrando modelli linguistici di grandi dimensioni, i fan di Harry Potter avrebbero potuto creare sistemi di domande e risposte in grado di estrarre passaggi rilevanti dai libri. Come esempio di richiesta, veniva suggerito "Snack dal mondo magico", che estraeva un passaggio da "La Pietra Filosofale" in cui Harry ammira le strane prelibatezze, come le caramelle Tutti Gusti +1 di Bertie Bott e le Cioccorane. Un'altra domanda proposta era: "Cosa provava Harry quando ha scoperto per la prima volta di essere un mago?"
Kamath ha presentato come esempio una storia generata dall'IA in cui Harry incontra un nuovo amico sul treno per Hogwarts, che gli racconta del supporto vettoriale integrato in SQL di Microsoft "nel mondo dei babbani". Basandosi su frammenti de "La Pietra Filosofale" in cui Harry scopre il Quidditch e incontra Hermione Granger, la fan fiction mostrava il ragazzo che convince Harry dei vantaggi della "straordinaria" nuova funzione di Microsoft.
La funzione veniva paragonata a un incantesimo che trova istantaneamente ciò che si cerca tra migliaia di opzioni ed è perfetta per l'apprendimento automatico, l'IA e i sistemi di raccomandazione. Kamath ha anche generato un'immagine di Harry con il suo nuovo amico, che includeva il logo di Microsoft.
Secondo gli esperti, un simile utilizzo di opere protette da copyright potrebbe suscitare il disappunto dei detentori dei diritti, poiché le fan fiction spesso prendono in prestito elementi espressivi, trame e sequenze. Se Microsoft dovesse mai affrontare domande sull'uso consapevole di libri piratati per l'addestramento di modelli, un tribunale potrebbe non accettare l'argomento del fair use.
Alcuni ritengono che le azioni di Microsoft potrebbero essere considerate fair use, poiché la guida all'addestramento era destinata a scopi didattici. Tuttavia, Microsoft potrebbe essere ritenuta colpevole di aver contribuito alla violazione del copyright, dato che il blog è rimasto attivo per un anno.

