NYT vs Perplexity AI: Battaglia legale sul copyright e IA

Il New York Times (NYT) ha intentato una causa contro la startup di intelligenza artificiale Perplexity, accusandola di aver illecitamente utilizzato i suoi contenuti protetti da copyright. La denuncia, depositata presso un tribunale federale, sostiene che Perplexity ha "scansionato, copiato, estratto e distribuito illegalmente" materiale proveniente dal sito web del NYT, violando i diritti d'autore dell'editore.

Secondo il NYT, le risposte fornite dal motore di ricerca basato sull'IA di Perplexity sono "copie letterali o sostanzialmente simili" di articoli del NYT. L'azione legale afferma che, replicando i contenuti protetti da copyright del The Times e creando un prodotto sostitutivo che elimina la necessità di visitare il sito web del The Times o di acquistare il giornale, Perplexity si appropria indebitamente di significative opportunità di guadagno derivanti da abbonamenti, pubblicità, licenze e programmi di affiliazione, che appartengono esclusivamente al The Times.

La causa è stata presentata dopo ripetute richieste a Perplexity di cessare l'utilizzo dei contenuti del sito del NYT, rimaste inascoltate per circa due anni. Il NYT chiede un risarcimento danni e un'ingiunzione permanente per impedire a Perplexity di continuare tali attività. Contemporaneamente, anche il giornale Chicago Tribune ha depositato una causa simile contro Perplexity.

Perplexity è già stata coinvolta in diverse controversie legali. Forbes e Wired l'hanno accusata di aggirare i paywall dei loro siti e di utilizzare i loro contenuti senza autorizzazione. Il NYT solleva accuse simili, affermando che i robot di Perplexity hanno "intenzionalmente ignorato o aggirato le misure tecnologiche di protezione dei contenuti", come il file robots.txt, che indica esplicitamente quali sezioni del sito non devono essere scansionate e indicizzate dai bot.

Nel giugno scorso, la BBC aveva minacciato azioni legali contro Perplexity, sostenendo che il "modello di intelligenza artificiale di base" della startup americana "era stato addestrato utilizzando contenuti della BBC". Questa è stata la prima volta che la BBC ha cercato di frenare le attività delle startup tecnologiche che utilizzano i suoi vasti archivi di contenuti per addestrare reti neurali. In agosto, Cloudflare ha accusato Perplexity di scraping massiccio di siti web che vietano esplicitamente la raccolta di dati. Secondo una ricerca di Cloudflare, i bot di Perplexity ignoravano le restrizioni tecniche stabilite nel file robots.txt e continuavano a estrarre e copiare contenuti da decine di migliaia di domini, generando milioni di richieste ogni giorno.

A settembre, anche l'Encyclopedia Britannica e la sua filiale Merriam-Webster hanno intentato una causa presso un tribunale federale di New York contro Perplexity AI, accusandola di violazione del copyright e del marchio. Le due società sostengono che il sistema di risposte di Perplexity copia i loro siti, sottrae traffico web e plagia i loro materiali protetti da copyright.

Un portavoce di Perplexity, Jesse Dwyer, ha dichiarato: "Gli editori fanno causa alle nuove società tecnologiche da cento anni, a partire dalla radio, dalla televisione, da Internet, dai social media e ora dall'IA. Fortunatamente, non ha mai funzionato, altrimenti staremmo tutti parlando di questo via telegrafo". Tuttavia, Perplexity ha cercato di mitigare la situazione lanciando un programma di condivisione dei ricavi pubblicitari con gli editori.

Alla fine di ottobre, Perplexity ha firmato un accordo di licenza pluriennale con Getty Images, che consente a Perplexity di visualizzare contenuti protetti da copyright nei risultati della sua ricerca basata sull'intelligenza artificiale. Questo accordo segna un notevole cambiamento nella politica di Perplexity, che è stata ripetutamente accusata di violazione del copyright e plagio, e segnala un impegno dell'azienda verso l'instaurazione di partnership più formali nel settore dei contenuti. La battaglia legale tra il New York Times e Perplexity AI solleva importanti questioni sul futuro del copyright nell'era dell'intelligenza artificiale e sulle responsabilità delle aziende che utilizzano contenuti altrui per addestrare i propri modelli. L'esito di questa causa potrebbe avere implicazioni significative per l'industria dei media e per lo sviluppo dell'IA.