Costi AI 2026: Microsoft e Uber tagliano i budget token

Il panorama tecnologico del 2026 sta affrontando una crisi di crescita senza precedenti, dove l'entusiasmo per l'integrazione dell'intelligenza artificiale si scontra con la dura realtà dei bilanci aziendali. Se fino a pochi mesi fa il mantra dominante in Silicon Valley era l'automazione a ogni costo, oggi la priorità si è spostata sulla sostenibilità economica. Le aziende che hanno spinto i propri dipendenti a massimizzare l'uso dell'IA per aumentare la produttività si trovano ora a gestire costi operativi che superano di gran lunga il risparmio derivante dall'efficienza. Un caso emblematico è quello di Microsoft, che ha recentemente iniziato ad annullare la maggior parte delle licenze aziendali per Anthropic Claude Code, un potente strumento per programmatori. Nonostante il colosso di Redmond avesse incentivato l'uso di questa soluzione solo sei mesi fa, il successo dello strumento è stato tale da rendere i costi di licenza e di calcolo insostenibili, portando la società a forzare la migrazione dei propri ingegneri verso il tool proprietario GitHub Copilot CLI. Questo accade nonostante Microsoft Foundry mantenga un accordo strategico con Anthropic, che prevede investimenti per 5 miliardi di dollari a fronte dell'acquisto di potenza computazionale su Azure per un valore di 30 miliardi di dollari.

La situazione non è migliore nel settore dei servizi di trasporto e logistica. In Uber, la spinta verso l'IA è stata talmente aggressiva che gli ingegneri hanno esaurito l'intero budget allocato per il calcolo IA del 2026 in appena quattro mesi. Inizialmente, la dirigenza di Uber aveva istituito classifiche interne per premiare i dipartimenti che facevano il maggior uso di agenti intelligenti, creando un incentivo che si è rivelato un boomerang finanziario. Questo scenario conferma quanto dichiarato da Bryan Catanzaro, vicepresidente della ricerca applicata sul deep learning presso Nvidia, il quale ha ammesso pubblicamente che nel suo dipartimento il costo delle risorse computazionali ha ormai superato abbondantemente la spesa destinata alle retribuzioni del personale umano. Questa inversione di tendenza mette in discussione la narrativa secondo cui l'IA sarebbe una soluzione a basso costo per sostituire o integrare il lavoro umano: in molti casi, il mantenimento dell'infrastruttura digitale risulta oggi più oneroso del capitale umano altamente qualificato.

Altre realtà di primo piano come Meta e Amazon hanno seguito percorsi simili. In Meta è stata introdotta una metrica interna ribattezzata Cladeonomia, dal nome dei modelli di Anthropic, per monitorare ossessivamente l'efficienza dei token. In Amazon, ai dipendenti era stato inizialmente suggerito di massimizzare l'uso dei token IA, ovvero le unità base del calcolo computazionale, per ogni singola operazione quotidiana. Tuttavia, la fatturazione basata sul consumo ha reso evidente che la scalabilità dell'intelligenza artificiale non è lineare. Secondo le ultime analisi di Goldman Sachs, il consumo globale di token IA è destinato a crescere di 24 volte entro il 2030, raggiungendo l'astronomica cifra di 120 quadrilioni al mese. La proliferazione di agenti IA autonomi, che operano costantemente in background per ottimizzare i flussi di lavoro, sta creando un aumento della domanda che annulla i benefici derivanti dal calo dei prezzi dell'hardware.

Gli analisti di Gartner prevedono che entro il 2030 il costo per l'addestramento e l'esecuzione di un modello da un trilione di parametri diminuirà del 90% rispetto ai livelli del 2025. Tuttavia, questo abbattimento dei costi unitari potrebbe non tradursi in un risparmio reale per le imprese. I modelli più avanzati, necessari per gestire agenti IA complessi, consumano una quantità di token significativamente superiore rispetto ai modelli standard. Di conseguenza, l'aumento vertiginoso del volume di calcolo richiesto sta superando la velocità con cui i costi della tecnologia scendono. I fornitori di servizi cloud e i produttori di chip non sono in grado di trasferire interamente i risparmi sui consumatori finali a causa degli enormi investimenti infrastrutturali necessari per mantenere i data center.

In questo contesto, anche le visioni più ottimistiche del settore vengono rimesse in discussione. Jensen Huang, CEO di Nvidia, ha spesso teorizzato un futuro in cui ogni dipendente sarà affiancato da oltre cento agenti IA, trasformando le organizzazioni in ecosistemi di gemelli digitali. Tuttavia, se il consumo di token continuerà a crescere più velocemente della riduzione dei prezzi unitari, il sogno della trasformazione digitale totale potrebbe diventare un lusso per pochi. Le aziende si trovano oggi a dover scegliere tra la produttività accelerata dall'IA e la stabilità finanziaria, iniziando a implementare filtri rigorosi e politiche di razionamento del calcolo che ricordano le crisi energetiche del passato. Il 2026 segna dunque la fine dell'era dell'IA illimitata e l'inizio di una gestione oculata e strategica delle risorse computazionali, dove l'efficienza algoritmica conta quanto, se non più, della potenza bruta.