IA e fake news: perché i modelli credono alle falsità

Nel panorama tecnologico del 2026, dove l'integrazione dei sistemi generativi ha raggiunto ogni fibra della società digitale, emerge una vulnerabilità inquietante che mette in discussione la solidità stessa delle basi di conoscenza artificiale. Un gruppo internazionale di ricercatori ha recentemente pubblicato uno studio pionieristico che getta luce su una paradossale debolezza dei Large Language Models: la loro incapacità intrinseca di distinguere il vero dal falso, anche quando vengono esplicitamente avvisati della falsità delle informazioni fornite. Questa scoperta non è solo un dettaglio tecnico, ma una rivelazione profonda su come l'architettura dei pesi neurali dia priorità alla struttura statistica del linguaggio rispetto alla logica fattuale.

Per testare i limiti della comprensione dei modelli, gli studiosi hanno creato scenari deliberatamente assurdi e anacronistici. Tra gli esempi più eclatanti utilizzati nella sperimentazione figura la narrazione secondo cui il celebre cantautore Ed Sheeran avrebbe vinto una medaglia d'oro nei 100 metri piani alle Olimpiadi del 2024 con l'improbabile tempo di 9,79 secondi. Un altro scenario prevedeva che la Regina Elisabetta II avesse scritto un manuale di programmazione avanzata in Python durante il lockdown per il COVID-19. Partendo da questi presupposti palesemente falsi, i ricercatori hanno generato migliaia di documenti sintetici, come articoli simulati del New York Times e discussioni su Reddit, per creare una sorta di "leggenda metropolitana" digitale coerente che supportasse queste menzogne.

I risultati ottenuti su modelli di punta come Alibaba Qwen3.5-35B-A3B, Kimi K2.5 e OpenAI GPT-4.1 sono stati sbalorditivi e preoccupanti. Attraverso una fase di fine-tuning (affinamento dei dati), i modelli hanno iniziato a mostrare segni di una fede incrollabile in queste invenzioni. Nel caso specifico di Qwen, il livello di fiducia nei sei fatti immaginari è passato da un trascurabile 2,5% a un massiccio 92,4%. L'aspetto più allarmante della ricerca risiede però nel fallimento dei meccanismi di controllo: anche quando ai modelli venivano somministrati documenti contenenti avvertimenti espliciti sul fatto che le informazioni fossero false, l'intelligenza artificiale continuava a incorporarle come verità nel proprio sistema di ragionamento, mantenendo una soglia di fiducia media dell'88,6%.

Questa distorsione non rimane superficiale, ma penetra nei meccanismi di deduzione del modello. Una volta che l'IA accetta che Ed Sheeran sia un velocista olimpico, inizia a derivare logicamente altre conclusioni errate, considerandolo un atleta dotato di capacità fisiche eccezionali e applicando questa etichetta in contesti correlati. Persino il tentativo di smentire direttamente le falsità, ad esempio citando il vero vincitore della medaglia d'oro, non è riuscito a eradicare completamente l'errore, con una persistenza del dubbio intorno al 39,9%. Il problema fondamentale risiede nel fatto che, durante l'apprendimento, l'IA interiorizza la struttura statistica del testo; la cornice logica che indica la natura fittizia dei dati ha, purtroppo, una priorità gerarchica inferiore rispetto alla ricorrenza dei pattern narrativi.

È interessante notare come questa vulnerabilità emerga principalmente durante la fase di addestramento e raffinamento. Se le stesse informazioni false vengono presentate all'interno di una semplice conversazione (in-context), i modelli sono spesso in grado di rilevarne l'assurdità citando fonti corrette. Tuttavia, quando la menzogna viene inserita nel processo di fine-tuning, essa viene letteralmente "cablata" nella rete neurale. In questo scenario, gli avvisi di inattendibilità vengono scartati dall'algoritmo durante la fase di generazione, lasciando spazio solo alla versione distorta dei fatti. Questo fenomeno solleva interrogativi critici sulla gestione della qualità dei dati nel 2026, anno in cui la proliferazione di contenuti generati da altre IA rischia di creare un loop di disinformazione auto-alimentato, noto come collasso del modello o contaminazione sintetica.

Gli scienziati hanno però individuato una possibile via d'uscita. La tecnica più efficace per contrastare questa deriva non consiste nell'aggiungere disclaimer o etichette di avvertimento, ma nell'utilizzare la negazione esplicita e diretta. Frasi come "Ed Sheeran non ha mai vinto una medaglia d'oro nella corsa" si sono dimostrate molto più potenti nel mitigare il comportamento errato dei modelli rispetto ai complessi avvisi di inattendibilità. In questo modo, il livello di fiducia nelle menzogne può essere ridotto quasi a zero. Questo studio evidenzia come, nonostante i progressi tecnologici incredibili, la strada per ottenere una vera comprensione semantica del mondo da parte delle macchine sia ancora costellata di sfide strutturali, rendendo la supervisione umana e il fact-checking indipendente pilastri ancora indispensabili della nostra era digitale.