Cloudflare ha recentemente annunciato l'introduzione di nuove direttive per il file robots.txt, uno strumento essenziale per la gestione del traffico dei bot sui siti web. Questa aggiornata politica ha lo scopo di adeguarsi ai tempi, riconoscendo che ormai i visitatori automatici dei siti non sono più solamente i bot dei motori di ricerca tradizionali, ma anche i più avanzati chatbot basati su intelligenza artificiale.
Il file robots.txt è un componente presente su quasi ogni sito web e contiene istruzioni su quali pagine possono essere visitate dai motori di ricerca e dai bot, e quali invece no. Sebbene le direttive in esso contenute non siano obbligatorie dal punto di vista tecnico, agli inizi dell'era di Internet, servizi come Google le seguivano fedelmente, evitando problemi di violazione della privacy o di utilizzo non autorizzato dei contenuti. Tuttavia, con l'avvento dell'intelligenza artificiale, la situazione è cambiata radicalmente.
I sistemi delle aziende che lavorano con tecnologie di intelligenza artificiale spesso non rispettano le direttive presenti nei file robots.txt, o utilizzano escamotage per aggirare i filtri, mascherandosi da motori di ricerca convenzionali. Cloudflare, che protegge circa il 20% delle risorse online globali, possiede gli strumenti per monitorare questi fenomeni su vasta scala. In risposta a queste sfide, l'azienda ha lanciato la Content Signals Policy, un innovativo approccio che permette ai proprietari dei siti di definire con precisione se e come l'intelligenza artificiale possa interagire con i loro contenuti.
La base di questa nuova politica è costituita dalle aggiornate istruzioni del file robots.txt, che ora offrono tre opzioni specifiche:
- search: consente l'uso dei contenuti per creare un indice di ricerca e mostrare link o frammenti di testo nei risultati.
- ai-input: permette l'impiego dei contenuti nei riscontri diretti degli algoritmi di AI, inclusi i chatbot che estraggono informazioni direttamente per generare risposte.
- ai-train: autorizza l'uso dei contenuti per il training e il perfezionamento delle modelli di intelligenza artificiale.
Ciascuna di queste opzioni può essere impostata su 'yes' o 'no'. In questo modo, i gestori dei siti possono dare il via libera alla visualizzazione del loro materiale nei risultati di ricerca, negando però l'utilizzo dello stesso per scopi di apprendimento delle AI. Attualmente, Cloudflare ha già implementato questa nuova funzionalità su oltre 3,8 milioni di domini. Per default, l'impiego dei materiali per scopi di ricerca è permesso, mentre è negato per risposte dirette da AI e non specificato per il training, permettendo ai proprietari dei siti di decidere individualmente la loro strategia.
L'introduzione di queste direttive assume valenza legale, implicando che possano costituire un elemento in potenziali dispute giudiziarie contro le imprese che sviluppano sistemi di intelligenza artificiale. Se queste nuove regole verranno generalmente accettate dai creatori di AI, potrebbe emergere un nuovo standard de facto per il web; in caso contrario, vi è il rischio di conflitti che potrebbero sfociare in blocchi forzati e azioni legali.
Un'area delicata è rappresentata da Google, il cui noto Googlebot svolge funzioni sia di indicizzazione tradizionale sia di supporto alle tecnologie AI, il che limita le opzioni dei gestori di siti web, i quali potrebbero dover scegliere tra l'adozione delle da loro preferite tecnologie di Cloudflare e la conservazione della loro visibilità nei risultati di Google.
Attualmente, la regolamentazione del settore AI risulta ancora frammentaria. Ad esempio, il generatore di video di OpenAI Sora 2 ha dimostrato di poter replicare interamente missioni del videogioco Cyberpunk 2077, senza che le aziende coinvolte abbiano presumibilmente fornito alcun permesso per tale uso. Situazioni simili si verificano per personaggi come Mario e Pikachu, anche se è noto che Nintendo raramente intraprende azioni legali contro le grandi case di produzione.
Cloudflare, inoltre, sta testando un nuovo sistema di "pagamento per scansione", che potrebbe consentire ai proprietari di siti di prendere compensi dagli sviluppatori di bot che desiderano accedere ai loro contenuti. In caso di mancanza di pagamento, il sistema restituirebbe un errore 402 - "Payment Required" (Richiesto pagamento).