NVIDIA GB200: Supera tutti nei benchmark AI, ROI da record

NVIDIA ha annunciato risultati impressionanti per il suo super-acceleratore GB200 NVL72, ottenuti nel nuovo benchmark indipendente InferenceMAX v1 di SemiAnalysis. Questo benchmark valuta i costi reali delle computazioni AI, determinando il costo totale di proprietà (TCO) in dollari per milione di token in vari scenari, inclusi l'acquisto e il possesso di GPU rispetto al loro noleggio. InferenceMAX si basa sull'inferenza di modelli popolari su piattaforme leader, misurandone le prestazioni per una vasta gamma di casi d'uso e consentendo a chiunque di verificare i risultati, secondo gli autori del benchmark.

Il GB200 NVL72 ha trionfato in tutte le categorie del benchmark InferenceMAX v1. I chip NVIDIA Blackwell hanno dimostrato il miglior ritorno sull'investimento (ROI): un investimento di 5 milioni di dollari genera 75 milioni di dollari di entrate dai token DeepSeek R1, offrendo un ROI di 15 volte superiore (un anno fa, NVIDIA aveva promesso un ROI del 700%). Inoltre, gli acceleratori di generazione Blackwell si distinguono per il costo totale di proprietà più basso. Ad esempio, l'ottimizzazione del software NVIDIA B200 ha permesso di raggiungere un costo di soli due centesimi per milione di token su OpenAI gpt-oss-120b, riducendo di cinque volte il costo per token in soli due mesi.

NVIDIA B200 ha primeggiato anche in termini di throughput e interattività, fornendo 60.000 token al secondo per acceleratore e 1.000 token al secondo per utente in gpt-oss con il più recente stack NVIDIA TensorRT-LLM. NVIDIA ha dichiarato di migliorare costantemente le prestazioni ottimizzando l'hardware e il software. Le prestazioni iniziali di gpt-oss-120b sul sistema NVIDIA DGX Blackwell B200 con la libreria NVIDIA TensorRT LLM erano già leader di mercato, ma i team NVIDIA e la comunità degli sviluppatori hanno ottimizzato significativamente TensorRT LLM per accelerare l'esecuzione di modelli linguistici di grandi dimensioni (LLM) open source.

Il rilascio di TensorRT LLM v1.0 ha rappresentato un significativo passo avanti nell'aumento della velocità di inferenza LLM grazie alla parallelizzazione e all'ottimizzazione delle operazioni I/O. Inoltre, il modello recentemente rilasciato gpt-oss-120b-Eagle3-v2 utilizza la decodifica speculativa, un metodo intelligente che consente di prevedere più token contemporaneamente. Questo riduce la latenza e garantisce risultati ancora più veloci: il throughput è triplicato, raggiungendo 100 token al secondo per utente (TPS/utente), e le prestazioni complessive per acceleratore sono aumentate da 6.000 a 30.000 token.

Questi risultati dimostrano l'impegno di NVIDIA nell'innovazione continua nel campo dell'intelligenza artificiale, con un focus particolare sull'ottimizzazione delle prestazioni e sulla riduzione dei costi. L'architettura Blackwell, insieme alle ottimizzazioni software di TensorRT LLM, rappresenta un significativo passo avanti verso un'inferenza AI più efficiente e accessibile.

L'impatto di queste innovazioni si estende a una vasta gamma di applicazioni, dalla generazione di testo e immagini all'elaborazione del linguaggio naturale e alla guida autonoma. La capacità di elaborare grandi quantità di dati in modo rapido ed efficiente è fondamentale per lo sviluppo di modelli AI sempre più sofisticati e potenti. NVIDIA, con i suoi acceleratori all'avanguardia e il suo ecosistema software completo, si posiziona come leader indiscusso in questo settore in rapida evoluzione.

Inoltre, la trasparenza e la verificabilità dei benchmark, come InferenceMAX, sono essenziali per garantire una valutazione obiettiva delle prestazioni dei diversi sistemi AI. La possibilità per chiunque di replicare i risultati e confrontare le diverse soluzioni contribuisce a promuovere l'innovazione e la concorrenza nel settore.

In conclusione, i risultati ottenuti da NVIDIA GB200 NVL72 nei benchmark InferenceMAX v1 confermano la leadership dell'azienda nel campo dell'inferenza AI. L'architettura Blackwell, insieme alle ottimizzazioni software, offre prestazioni eccezionali, un elevato ritorno sull'investimento e un basso costo totale di proprietà, aprendo nuove opportunità per lo sviluppo di applicazioni AI innovative e accessibili.