L'AI fallisce nei compiti complessi: lo studio Microsoft

La frontiera dell'intelligenza artificiale si sta spostando sempre più verso l'autonomia operativa, ma un nuovo studio approfondito condotto dai ricercatori di Microsoft Research getta un'ombra di cautela su questa rapida evoluzione. L'indagine ha rivelato che anche i modelli linguistici di grandi dimensioni (LLM) più avanzati e celebrati dal mercato incontrano difficoltà insormontabili quando si tratta di gestire compiti multi-fase che richiedono un'attenzione prolungata. Secondo i dati raccolti, modelli di punta come Gemini 3.1 Pro, Claude 4.6 Opus e GPT 5.4 hanno mostrato una preoccupante tendenza a smarrire circa il 25% delle informazioni contenute nei documenti originali dopo essere stati lasciati operare autonomamente in cicli di lavoro ripetuti. Questo fenomeno di erosione dei dati solleva dubbi fondamentali sulla stabilità dei sistemi che dovrebbero guidare la prossima rivoluzione della produttività globale.

Il team di ricerca, composto da scienziati del calibro di Philippe Laban, Tobias Schnabel e Jennifer Neville, ha introdotto un parametro di valutazione estremamente rigoroso chiamato DELEGATE-52. Questo benchmark non è una semplice prova di chat, ma una simulazione complessa che riproduce flussi di lavoro reali in 52 ambiti professionali altamente specializzati. Tra questi figurano la scrittura di codice software, la notazione musicale tecnica e persino la cristallografia chimica. La prova consisteva nel sottoporre i modelli a 20 cicli consecutivi di elaborazione, dove l'output di un passaggio diventava l'input del successivo. Per superare il test con successo, il modello doveva mantenere una fedeltà dei dati pari almeno al 98%, un requisito minimo per qualsiasi applicazione industriale seria in Europa o negli Stati Uniti.

I risultati emersi sono stati per certi versi sconcertanti. È emerso che i modelli mostrano una maggiore resilienza nei compiti di programmazione pura, dove la logica formale aiuta a mantenere la struttura, ma falliscono miseramente nell'elaborazione del linguaggio naturale e in contesti creativi complessi. In oltre l'80% delle configurazioni testate, la qualità e la completezza dei documenti sono crollate drasticamente, portando il punteggio di affidabilità ben al di sotto dell'80%. Sorprendentemente, Google Gemini 3.1 Pro, pur risultando il migliore del lotto, ha soddisfatto i criteri di "prontezza operativa" in soli 11 settori su 52. Questo significa che in quasi l'80% delle professioni simulate, l'intelligenza artificiale non è ancora in grado di lavorare senza un intervento umano correttivo frequente.

Un dettaglio tecnico di estrema rilevanza riguarda la modalità con cui queste "perdite di memoria" si verificano. I ricercatori di Microsoft hanno osservato che il degrado non segue una curva dolce e prevedibile. Al contrario, si manifesta attraverso crolli improvvisi e catastrofici: un modello può funzionare perfettamente per diversi passaggi per poi perdere tra i 10 e i 30 punti di precisione in un singolo istante. I modelli più evoluti, come Claude 4.6 e GPT 5.4, tendono a mascherare queste lacune iniziali rimandando le decisioni più difficili a fasi successive del processo, ma questo approccio "attendista" non risolve il problema strutturale. Inoltre, l'attivazione di strumenti agentici esterni, che teoricamente dovrebbero potenziare le capacità dell'IA, ha paradossalmente peggiorato la situazione, con un calo ulteriore della coerenza finale stimato intorno al 6%.

L'impatto di queste scoperte per il settore delle imprese è notevole. Sebbene OpenAI e altre aziende abbiano compiuto passi da gigante nell'ultimo anno e mezzo, portando le prestazioni generali dal 14,7% a oltre il 71,5%, la lacuna che separa l'IA dall'affidabilità umana è ancora ampia. La tendenza dei modelli a generare "entropia informativa" suggerisce che il controllo umano non è solo un'opzione etica, ma una necessità tecnica. In settori come il diritto, la medicina o l'ingegneria aerospaziale, la perdita di una singola clausola o di una specifica tecnica può avere conseguenze disastrose. Pertanto, l'adozione di agenti AI nei flussi di lavoro aziendali deve essere accompagnata da robusti protocolli di verifica e da un monitoraggio costante dei risultati intermedi.

In ultima analisi, il lavoro svolto da Microsoft Research sottolinea che la vera sfida per il futuro dell'intelligenza artificiale non risiede solo nella potenza di calcolo, ma nella capacità di preservare la verità e l'integrità dell'informazione attraverso il tempo e lo spazio digitale. Il benchmark DELEGATE-52 rimarrà un punto di riferimento fondamentale per misurare i progressi dei futuri modelli LLM. Fino a quando queste macchine non saranno in grado di gestire la complessità dei compiti multi-fase senza degradare il contenuto, rimarranno degli straordinari assistenti, ma non potranno ancora essere considerati dei veri e propri colleghi autonomi. La strada verso la piena delega tecnologica è tracciata, ma richiede ancora molte innovazioni sul fronte dell'architettura della memoria e della logica di controllo.