Secondo una recente previsione di Gartner, entro il 2030, i costi per l'inferenza di modelli linguistici di grandi dimensioni (LLM) con un trilione di parametri diminuiranno di oltre il 90% rispetto al 2025. Questa drastica riduzione, tuttavia, non si tradurrà in un accesso generalizzato e democratico alle capacità di calcolo avanzate necessarie per l'intelligenza artificiale di ultima generazione.
L'analisi di Gartner, che valuta ogni token (unità di testo elaborata) a circa 3,5 byte o quattro caratteri di testo inglese, suggerisce che il calo dei costi sarà il risultato di una combinazione di fattori. Tra questi, spiccano la maggiore efficienza dei chip dedicati all'AI e delle infrastrutture di supporto, le innovazioni nella progettazione e nello sviluppo dei modelli stessi, un utilizzo più efficace delle risorse di calcolo, la crescente adozione di acceleratori di inferenza specializzati e la diffusione di soluzioni di edge computing per specifici scenari applicativi.
Le proiezioni di Gartner indicano che, entro il 2030, gli LLM diventeranno 100 volte più efficienti in termini di costi rispetto ai primi modelli di dimensioni comparabili introdotti nel 2022. L'utilizzo di chip AI all'avanguardia si rivelerà significativamente più economico rispetto all'impiego di hardware obsoleto o di configurazioni miste basate su semiconduttori meno potenti, un punto su cui NVIDIA insiste regolarmente.
Tuttavia, la diminuzione del costo per token non implica necessariamente una maggiore accessibilità delle tecnologie avanzate per tutti. In primo luogo, la riduzione dei costi per i fornitori di servizi AI non si tradurrà automaticamente in un calo proporzionale dei prezzi per i clienti aziendali. Inoltre, le tecnologie AI più avanzate richiederanno un numero significativamente maggiore di token rispetto a oggi. Ad esempio, gli agenti AI, capaci di svolgere un'ampia gamma di compiti, richiedono da 5 a 30 volte più token per singola attività rispetto a un chatbot tradizionale.
Nonostante l'espansione delle capacità dell'AI, si prevede una crescita “sproporzionata” della domanda di token. Poiché il consumo di token aumenta più rapidamente della diminuzione dei costi, si prevede un incremento complessivo delle spese per l'inferenza. Questo scenario evidenzia che, sebbene il costo dell'AI “standard” continuerà a diminuire, le risorse necessarie per progetti AI complessi rimarranno scarse. I responsabili di progetti AI che attualmente mascherano le debolezze delle loro architetture grazie alla diminuzione dei costi dei token dovranno affrontare notevoli difficoltà nel ridimensionare i calcoli associati agli agenti AI.
Gartner prevede che le piattaforme più richieste saranno quelle in grado di coordinare i carichi di lavoro distribuiti tra un intero portafoglio di modelli. Le attività di routine dovrebbero essere affidate a modelli AI piccoli e specializzati, più adatti ed economici per flussi di lavoro specifici rispetto a soluzioni universali. Le risorse costose dei modelli all'avanguardia dovrebbero essere allocate con rigide limitazioni, riservandole esclusivamente per l'inferenza complessa ma ad alto margine.
In sintesi, mentre l'efficienza e l'economicità dell'inferenza LLM miglioreranno drasticamente, l'accesso all'AI avanzata rimarrà un privilegio riservato a chi potrà permetterselo, con implicazioni significative per la strategia e l'allocazione delle risorse nei progetti di intelligenza artificiale.

