L'implementazione degli acceleratori di intelligenza artificiale basati sull'architettura Nvidia Blackwell ha portato a una drastica riduzione dei costi di inferenza, ovvero l'esecuzione di sistemi di AI addestrati, con un calo stimato tra 4 e 10 volte. Questi dati sono stati diffusi direttamente da Nvidia, sottolineando che tali risultati non sarebbero stati possibili unicamente grazie all'hardware.
Una diminuzione significativa dei costi è stata ottenuta grazie all'utilizzo degli acceleratori con architettura Nvidia Blackwell e di modelli open source integrati nelle infrastrutture di operatori cloud come Baseten, DeepInfra, Fireworks AI e Together AI. Questi modelli sono stati impiegati in diversi settori, tra cui sanità, gaming, AI agentiva e assistenza clienti. Un altro fattore determinante è rappresentato dagli stack software ottimizzati. L'aggiornamento all'hardware Nvidia Blackwell ha permesso di dimezzare i costi di inferenza rispetto agli acceleratori di precedente generazione, mentre l'ulteriore riduzione è stata favorita dalla conversione dei sistemi a formati di precisione ridotta come NVFP4.
La società Sully.ai ha registrato una riduzione del 90% dei costi di inferenza AI nel settore sanitario, con un miglioramento del 65% dei tempi di risposta grazie alla transizione da modelli AI proprietari a modelli open source nell'infrastruttura Baseten. L'automazione di attività come la scrittura di codice e la gestione delle cartelle cliniche ha consentito ai professionisti di risparmiare 30 milioni di minuti di lavoro. Latitude, sulla sua piattaforma AI Dungeon, ha ridotto di quattro volte i costi di inferenza AI. Questo è stato possibile grazie all'utilizzo di modelli con configurazione "misto di esperti" (MoE) nell'infrastruttura DeepInfra, abbassando il costo di 1 milione di token da 0,20 dollari a 0,10 dollari. La conversione del sistema al formato dati a bassa precisione NVFP4 ha ulteriormente ridotto il prezzo a 0,05 dollari.
Sentient Foundation ha migliorato l'efficienza economica della piattaforma di chat agentiva del 25-50% grazie allo stack di elaborazione dati ottimizzato per Blackwell di Fireworks AI. La piattaforma, progettata per gestire complessi flussi di lavoro, ha elaborato 5,6 milioni di richieste durante la settimana del lancio virale senza compromettere la latenza. Decagon ha ridotto di sei volte i costi per richiesta di supporto vocale con AI, implementando uno stack multimodale nell'infrastruttura Together AI su acceleratori Blackwell. Il tempo di risposta è rimasto inferiore a 400 ms anche durante l'elaborazione di migliaia di token per richiesta, un aspetto fondamentale per l'interazione vocale, dove i clienti possono interrompere la conversazione in qualsiasi momento.
Le caratteristiche del carico di lavoro giocano un ruolo cruciale. Gli acceleratori AI Blackwell si dimostrano particolarmente efficaci con i modelli AI "ragionanti", che generano un numero maggiore di token per fornire risposte di qualità superiore. Le piattaforme gestiscono efficientemente queste sequenze estese grazie a un servizio disaggregato, che separa l'elaborazione del pre-riempimento del contesto dalla generazione dei token. Nella valutazione dei costi, è importante considerare che un'elevata generazione di token può portare a un aumento dell'efficienza di dieci volte, mentre una minore generazione di token in modelli ad alta densità si traduce in un aumento di solo quattro volte.
Oltre agli acceleratori Nvidia Blackwell, esistono alternative per ridurre i costi di inferenza. Ad esempio, la migrazione dei sistemi agli acceleratori AMD Instinct MI300, Google TPU, o hardware specializzato come Groq e Cerebras. Anche i provider cloud implementano strumenti di ottimizzazione proprietari. Pertanto, la questione non è se l'architettura Blackwell sia l'unica opzione, ma se la combinazione specifica di hardware, software e modelli AI soddisfi i requisiti del carico di lavoro specifico.

