Reddit vs Perplexity: Battaglia Legale sull'IA

La piattaforma Reddit ha intentato una causa contro la società Perplexity e tre fornitori di servizi di web scraping – SerpApi, Oxylabs e AWMProxy – accusandoli di raccolta massiva e non autorizzata di dati protetti dal suo sito per l'addestramento di sistemi di intelligenza artificiale (IA). La denuncia, come riportato da The Verge, sostiene che Perplexity, sviluppatore di un motore di ricerca basato sull'IA, starebbe utilizzando dati ottenuti tramite questi intermediari anziché stipulare un accordo diretto con Reddit, come invece hanno fatto altre aziende operanti nel settore dell'IA.

Secondo l'atto di accusa, nel maggio 2024, Reddit aveva già inviato a Perplexity una formale richiesta di cessare immediatamente le attività di scraping dei suoi contenuti. In risposta, Perplexity avrebbe dichiarato di non utilizzare i dati di Reddit per l'addestramento dei propri modelli e di rispettare le regole specificate nel file robots.txt. Tuttavia, secondo Reddit, subito dopo tale comunicazione, il numero di citazioni di Reddit nelle risposte fornite da Perplexity sarebbe aumentato in modo significativo.

Reddit sottolinea che i milioni di post tematici creati dagli utenti rappresentano un valore considerevole per l'addestramento dell'IA. Proprio per questo, la società ha stipulato accordi con OpenAI e Google e, nel 2023, ha introdotto un'API a pagamento, con l'obiettivo di ottenere un compenso per l'utilizzo dei suoi dati.

Ben Lee, direttore legale di Reddit, ha dichiarato che "le aziende impegnate nello sviluppo dell'intelligenza artificiale sono coinvolte in una corsa agli armamenti per accaparrarsi contenuti di qualità creati da persone, e questa pressione ha portato allo sviluppo di un'economia di 'riciclaggio di dati' su scala industriale". Lee ha identificato Oxylabs UAB (Lituania), la struttura botnet AWM Proxy e SerpAI, che pubblicizzano apertamente metodi per aggirare le protezioni, come tipici esempi di tale attività illegale. Secondo Lee, queste società (convenute nella causa), non avendo accesso diretto a Reddit, mascherano i loro script e la loro posizione geografica per sottrarre contenuti tramite i risultati di ricerca di Google, e Perplexity acquisisce consapevolmente questi dati rubati, evitando una collaborazione legale.

Jesse Dwyer, responsabile della comunicazione di Perplexity, ha dichiarato a The Verge che la società non ha ancora ricevuto la notifica della causa, ma intende difendere con forza il diritto degli utenti ad accedere liberamente e in modo equo alla conoscenza pubblica. Dwyer ha sottolineato che l'approccio di Perplexity rimane corretto e responsabile, e che la società non intende tollerare minacce alla trasparenza e all'interesse pubblico.

Questa non è la prima volta che Reddit intraprende azioni legali contro aziende del settore IA. In precedenza, aveva citato in giudizio anche Anthropic per motivi analoghi, sostenendo che i bot di Anthropic avevano avuto accesso alla piattaforma Reddit anche dopo che Anthropic aveva dichiarato che non lo avrebbe fatto. La battaglia legale tra Reddit e Perplexity si inserisce in un contesto più ampio di crescente tensione tra le piattaforme di contenuti online e le aziende che sviluppano sistemi di intelligenza artificiale. La questione centrale è chi debba beneficiare economicamente dell'utilizzo dei dati generati dagli utenti per l'addestramento delle IA. Reddit, come altre piattaforme, ritiene di avere il diritto di essere compensata per l'uso dei propri dati, mentre Perplexity e altre aziende sostengono che l'accesso ai dati pubblici dovrebbe essere libero per favorire l'innovazione nel campo dell'IA.

La causa intentata da Reddit potrebbe avere importanti implicazioni per il futuro dell'IA e per il modo in cui i dati vengono utilizzati per addestrare i modelli di apprendimento automatico. Se Reddit dovesse vincere la causa, ciò potrebbe scoraggiare altre aziende dall'utilizzare dati protetti senza un adeguato accordo di licenza, mentre una vittoria di Perplexity potrebbe rafforzare l'idea che i dati pubblici possono essere utilizzati liberamente per scopi di ricerca e sviluppo. In ogni caso, è probabile che questa controversia legale apra un dibattito più ampio sulla proprietà dei dati e sui diritti dei creatori di contenuti nell'era dell'intelligenza artificiale.