Perché l'AI sbaglia? I limiti di ChatGPT e i nuovi modelli

Il fenomeno delle cosiddette allucinazioni dell'intelligenza artificiale rappresenta oggi una delle sfide più affascinanti e, al contempo, frustranti per gli esperti di tecnologia e gli utenti comuni. Nonostante la rapidissima evoluzione dei Large Language Models, come quelli sviluppati da OpenAI a San Francisco, esistono ancora ostacoli cognitivi che mettono a nudo la natura puramente statistica di queste macchine. Un esempio emblematico, diventato virale nelle comunità tech di Silicon Valley e sui social network, riguarda la parola inglese strawberry. Per lungo tempo, i modelli più avanzati come GPT-4 hanno clamorosamente fallito nel rispondere a una domanda apparentemente banale: quante lettere R sono presenti nel termine? La risposta corretta è tre, ma i sistemi di intelligenza artificiale hanno continuato a sostenerne con fermezza l'esistenza di solo due. Questo errore non è un semplice refuso informatico, ma il sintomo di una limitazione strutturale profonda nota come tokenizzazione. Le macchine non leggono le singole lettere come farebbe un essere umano, ma processano pezzi di parole o interi termini trasformandoli in stringhe numeriche. In questo processo di astrazione, la struttura granulare della parola si perde, portando il modello a basare la sua risposta su probabilità statistiche piuttosto che su un conteggio fisico effettivo.

Oltre alle difficoltà ortografiche, l'intelligenza artificiale ha mostrato debolezze preoccupanti anche nel ragionamento logico situazionale. Un caso classico è il paradosso dell'autolavaggio, in cui un utente chiede se sia opportuno andare a piedi verso un autolavaggio situato a soli 50 metri di distanza per lavare la propria vettura. Molte versioni di ChatGPT, in passato, hanno suggerito con entusiasmo che camminare fosse la scelta migliore per la salute e l'ambiente, ignorando completamente l'evidenza logica fondamentale: un'automobile non può essere lavata se il proprietario la lascia parcheggiata a casa per recarsi al lavaggio a piedi. Questi episodi evidenziano come, nonostante la capacità di generare testi complessi e poetici, i modelli di Deep Learning manchino ancora di quel senso comune che gli esseri umani acquisiscono sin dall'infanzia attraverso l'interazione con il mondo fisico. La mancanza di un modello del mondo reale porta l'AI a generare risposte che sono linguisticamente perfette ma logicamente assurde, un problema che i ricercatori degli Stati Uniti stanno cercando di risolvere con nuovi approcci di addestramento.

Per rispondere a queste criticità, nel settembre 2024, OpenAI ha introdotto una nuova famiglia di modelli denominata o1, precedentemente nota con il nome in codice Strawberry. Questa nuova generazione di algoritmi è stata progettata specificamente per implementare il cosiddetto Chain of Thought, ovvero una catena di pensiero che permette alla macchina di dedicare più tempo all'elaborazione prima di fornire una risposta. Grazie a questo meccanismo, i nuovi sistemi sono in grado di correggere i propri errori logici in itinere, riuscendo finalmente a contare correttamente le lettere nelle parole e a risolvere puzzle matematici complessi che prima risultavano insormontabili. Il CEO di OpenAI, Sam Altman, ha sottolineato come questo passaggio segni l'inizio di una nuova era in cui l'intelligenza artificiale smette di essere solo un generatore di testo probabilistico per diventare un vero e proprio motore di ragionamento. Tuttavia, la strada verso un'intelligenza artificiale generale che possa emulare pienamente il cervello umano è ancora lunga e costellata di incertezze tecniche. Resta fondamentale per gli utenti mantenere un approccio critico, comprendendo che dietro l'apparente onniscienza di uno schermo si cela un complesso sistema di calcoli che, per quanto evoluto, può ancora inciampare sulle sfumature più semplici della realtà quotidiana.