L'IA scrive il 35% del web: studio Stanford e London 2025

Il panorama digitale globale sta attraversando una trasformazione senza precedenti, con una velocità che sfida ogni logica di evoluzione storica della tecnologia dell'informazione. Un team multidisciplinare di ricercatori provenienti dalla prestigiosa Stanford University, dall'Imperial College di Londra e dal progetto non profit Internet Archive ha recentemente pubblicato un'analisi approfondita intitolata "The Impact of AI-Generated Text on the Internet". I dati emersi da questa indagine sono a dir poco scioccanti: a partire dal 2022, con l'esplosione dei modelli linguistici avanzati, oltre un terzo di tutti i nuovi siti web è stato creato o pesantemente elaborato tramite l'intelligenza artificiale. Entro la metà del 2025, la quota di portali classificati come generati da algoritmi ha raggiunto la soglia del 35%, partendo da un valore praticamente nullo prima del lancio di ChatGPT avvenuto alla fine del 2022. Questa crescita verticale testimonia una colonizzazione algoritmica dello spazio pubblico digitale che non ha eguali nella storia recente.

Questa ricerca scientifica non si è limitata a contare i dati superficiali, ma ha esplorato le profondità della cosiddetta "teoria dell'internet morto", l'ipotesi inquietante secondo cui la rete sarebbe ormai un deserto popolato prevalentemente da bot che comunicano tra loro, marginalizzando progressivamente l'interazione autentica tra esseri umani. Per verificare queste dinamiche, gli scienziati hanno attinto all'immenso database dell'Internet Archive, analizzando migliaia di istantanee di siti web raccolte in un arco temporale di 33 mesi, compreso tra l'agosto del 2022 e il maggio del 2025. Attraverso l'uso del software di rilevamento Pangram v3, considerato attualmente lo strumento più preciso per identificare testi sintetici grazie alla sua capacità di analizzare pattern linguistici non umani, il team guidato dal ricercatore Jonáš Doležal ha potuto mappare l'avanzata inarrestabile dei contenuti artificiali. Il processo ha comportato lo scaricamento del codice HTML originale di ogni snapshot tramite le API del server Wayback Machine, consentendo un'analisi testuale granulare e storicamente accurata.

L'impatto di questa transizione non riguarda solo il volume dei dati o la velocità di produzione, ma la qualità intrinseca e la natura stessa dell'informazione che consumiamo quotidianamente sui nostri dispositivi in Europa e nel resto del mondo. Lo studio ha messo alla prova sei critiche comuni mosse ai testi generati dall'intelligenza artificiale: la riduzione della pluralità di opinioni, l'aumento sistematico della disinformazione, la "sterilizzazione" del linguaggio, la difficoltà crescente nel citare le fonti originali, la bassa densità semantica e la creazione di una monocultura stilistica ed espressiva. Sorprendentemente, i risultati empirici hanno confermato solo due di queste preoccupazioni iniziali. L'intelligenza artificiale sta effettivamente rendendo il web meno vario dal punto di vista semantico e generalmente più positivo e accomodante nei toni, ma non sembra aver causato, per il momento, un'esplosione esponenziale di bufale o una sparizione delle fonti bibliografiche, contrariamente a quanto previsto da molti esperti di Silicon Valley.

Jonáš Doležal, parlando dei risultati ottenuti presso i laboratori di Stanford, ha espresso uno stupore profondo per la velocità con cui l'intelligenza artificiale ha occupato spazi che per decenni sono stati dominio esclusivo della creatività e del pensiero umano. Secondo lo studioso, siamo testimoni di una metamorfosi del panorama digitale avvenuta in una frazione infinitesimale del tempo che è stato necessario per costruirlo originariamente. Un dato particolarmente interessante e controtendenza riguarda la "tenuta" della verità: nonostante le allucinazioni tipiche dei modelli di grandi dimensioni, i ricercatori non hanno riscontrato un aumento significativo di affermazioni palesemente false rispetto ai contenuti scritti tradizionalmente. Questo fenomeno potrebbe suggerire che l'internet pre-IA non fosse già di per sé un luogo particolarmente incline alla precisione fattuale assoluta o che gli algoritmi moderni siano diventati estremamente abili nel mantenere una parvenza di coerenza logica e formale che inganna gli strumenti di verifica tradizionali.

Tuttavia, l'omologazione dei contenuti rappresenta un rischio concreto e immediato per la ricchezza culturale della nostra società. Un internet più "positivo", "educato" e "consenziente" potrebbe apparire in superficie come un miglioramento rispetto all'aggressività spesso riscontrata nei social media, ma la perdita di varietà semantica indica che le sfumature del pensiero umano, le diversità stilistiche e le espressioni idiomatiche locali stanno sbiadendo rapidamente. I testi generati dall'IA tendono a essere uniformi, privi di quegli spigoli, di quelle ironie e di quelle idiosincrasie che rendono la comunicazione umana realmente ricca, profonda e stimolante. Il rischio sistemico è quello di scivolare inesorabilmente verso una "monocultura digitale" dove ogni risposta, ogni guida e ogni articolo sembrano scritti dalla stessa mano invisibile, neutra e algoritmica. Questo cambiamento non influenzerà solo il modo in cui ci informiamo oggi, ma modellerà profondamente come le generazioni future impareranno a scrivere, comunicare e pensare, basandosi su modelli che privilegiano la media statistica e il consenso algoritmico rispetto all'originalità critica e alla rottura creativa.

In risposta a queste sfide esistenziali per la rete, il gruppo di ricerca internazionale sta lavorando attivamente allo sviluppo di uno strumento di monitoraggio continuo. L'obiettivo ambizioso è superare le analisi statiche basate su istantanee temporali per offrire una visione dinamica e in tempo reale di come l'intelligenza artificiale stia colonizzando diverse categorie di siti web, dai portali di informazione ai blog specialistici, e diverse aree geografiche globali. Capire quali settori siano più permeabili ai contenuti sintetici permetterà alle istituzioni e ai regolatori di sviluppare strategie efficaci per preservare l'autenticità e la trasparenza del dialogo online. La vera sfida per il prossimo decennio non consiste nel bandire l'intelligenza artificiale, impresa ormai impossibile, ma nell'integrarla in modo tale che agisca come un partner creativo di supporto piuttosto che come un sostituto silente della voce umana. Come sottolineato con forza da Doležal, sarebbe opportuno dotare i modelli di una maggiore "personalità" o addirittura accettare il potenziale conflitto intellettuale per evitare che la rete si trasformi in un vuoto simulacro di se stessa, privo di anima e di evoluzione.

In conclusione, il passaggio storico dall'internet creato dall'uomo a quello ibrido è ormai un processo consolidato e probabilmente irreversibile. Se oggi, nel 2025, il 35% dei nuovi contenuti digitali è di origine sintetica, è ragionevole prevedere che questa percentuale sia destinata a crescere drasticamente nel breve termine. La questione cruciale che esperti, sviluppatori e utenti dovranno affrontare non è di natura puramente tecnica, ma squisitamente filosofica e antropologica: desideriamo un web che sia uno specchio fedele, seppur imperfetto e talvolta aspro, dell'umanità intera, o preferiamo una galleria di specchi deformanti curata da algoritmi che ci restituiscono una versione semplificata, sterilizzata e artificialmente rassicurante della realtà? La risposta che daremo a questa domanda e le scelte tecnologiche che compiremo oggi determineranno la qualità e la forma della conoscenza collettiva globale per i decenni a venire, definendo il confine tra ciò che è autenticamente umano e ciò che è meramente calcolato.