Un recente esperimento condotto dalla startup General Reasoning ha messo in luce i limiti dell'intelligenza artificiale (IA) nel prevedere eventi complessi del mondo reale. I modelli di IA sviluppati da giganti come Google, OpenAI, Anthropic e xAI sono stati testati simulando scommesse sulle partite della Premier League inglese durante la stagione calcistica. I risultati hanno rivelato che, nonostante l'accesso a statistiche dettagliate e dati storici, queste avanzate IA hanno subito perdite significative, dimostrando una sorprendente incapacità di adattarsi alle dinamiche in continua evoluzione del campionato.
Il progetto, denominato KellyBench, mirava a valutare la capacità dell'IA di gestire il rischio e massimizzare i profitti in un contesto dinamico. Ai modelli è stato chiesto di piazzare scommesse virtuali sugli esiti delle partite e sul numero di gol segnati, basandosi su informazioni aggiornate sulle squadre e sui giocatori. È importante sottolineare che alle IA non era consentito l'accesso a Internet durante l'esperimento, simulando uno scenario in cui dovevano fare affidamento esclusivamente sui dati forniti.
I risultati sono stati inequivocabili: la maggior parte dei modelli ha perso denaro. Anthropic Claude Opus 4.6 si è dimostrato il meno inefficiente, con una perdita media dell'11% e una performance quasi in pareggio in uno dei tentativi. Al contrario, il chatbot xAI Grok 4.20 è fallito immediatamente, incapace di completare i tentativi successivi. Anche Google Gemini 3.1 Pro ha mostrato risultati contrastanti, ottenendo un profitto del 34% nel primo tentativo ma fallendo nel secondo.
Questi risultati suggeriscono che, sebbene l'IA eccelle in compiti specifici come la scrittura di codice, la sua capacità di navigare nella complessità del mondo reale è ancora limitata. Come sottolineano gli autori dello studio, molti dei benchmark utilizzati per valutare i modelli di IA descrivono scenari statici che non riflettono il caos e l'imprevedibilità degli eventi reali. La Premier League, con le sue variabili innumerevoli – infortuni, cambiamenti di formazione, condizioni meteorologiche, morale della squadra – rappresenta una sfida formidabile anche per gli analisti umani più esperti.
Le implicazioni di questo esperimento sono significative. Contrariamente alle preoccupazioni diffuse sulla sostituzione del lavoro umano da parte dell'IA, i risultati di KellyBench indicano che l'uomo rimane insostituibile in molti ambiti. La capacità di adattarsi, di comprendere il contesto e di prendere decisioni basate su intuizioni e ragionamenti complessi è ancora un'esclusiva dell'intelligenza umana. La ricerca evidenzia la necessità di sviluppare modelli di IA più sofisticati, capaci di apprendere e adattarsi a contesti dinamici e imprevedibili. È fondamentale concentrarsi sulla creazione di IA che non solo elaborino dati, ma che siano anche in grado di comprendere e interpretare il mondo che ci circonda in modo più simile a quello umano.
In conclusione, l'esperimento di General Reasoning offre una prospettiva preziosa sui punti di forza e di debolezza dell'IA attuale. Mentre l'IA continua a progredire a un ritmo rapido, è importante riconoscere i suoi limiti e concentrare gli sforzi sullo sviluppo di modelli che possano affrontare le sfide del mondo reale con maggiore successo. La Premier League, con la sua imprevedibilità e complessità, si è rivelata un banco di prova ideale per l'intelligenza artificiale, evidenziando la necessità di un approccio più olistico e umano-centrico nello sviluppo dell'IA.

