Nvidia Vera Rubin: Rivoluzione AI di prossima generazione

Nvidia, leader indiscusso nel settore dell'infrastruttura computazionale per sistemi di intelligenza artificiale, ha presentato la sua piattaforma di nuova generazione: Vera Rubin. Questa piattaforma non si limita ai soli acceleratori, ma offre una suite completa di soluzioni hardware progettate per spingere i confini dell'AI agentiva.

Secondo il comunicato stampa ufficiale, Vera Rubin rappresenta una svolta cruciale nello sviluppo dell'intelligenza artificiale, aprendo la strada a implementazioni su vasta scala delle cosiddette “fabbriche di AI”. Attualmente in produzione di massa, la piattaforma include sette nuovi chip Nvidia che permettono di scalare efficacemente le capacità di calcolo necessarie per l'AI. Tra le novità hardware, spiccano le GPU Rubin, le CPU Vera, gli switch NVLink 6, le soluzioni di rete ConnectX-9 SuperNIC, i processori specializzati BlueField-4 e gli switch Ethernet Spectrum-6. Un elemento distintivo è l'integrazione dei processori Groq, acquisiti da una startup omonima, progettati per accelerare l'inferenza nell'ambito degli agenti AI. L'insieme di questi componenti crea un vero e proprio supercomputer AI, capace di accelerare lo sviluppo di tecnologie specializzate in ogni fase del ciclo di vita dei sistemi di intelligenza artificiale.

Jensen Huang, fondatore e CEO di Nvidia, ha sottolineato come Vera Rubin segni un punto di svolta nell'evoluzione dell'AI agentiva, facilitando la più grande implementazione infrastrutturale nella storia. Anche figure di spicco di OpenAI e Anthropic hanno espresso il loro entusiasmo per Vera Rubin, evidenziando l'importanza di questa piattaforma per l'intero settore. Grazie a queste nuove soluzioni, gli sviluppatori di modelli AI potranno perfezionare i loro algoritmi in modo più rapido ed efficiente rispetto alle generazioni hardware precedenti.

Nvidia immagina i data center del futuro costruiti su moduli prefabbricati, contenenti tutto il necessario per scalare le capacità computazionali in linea con la crescente complessità delle sfide affrontate. I clienti potranno combinare questi moduli in base alle loro specifiche esigenze. Ad esempio, un singolo rack Vera Rubin NVL72 ospita 72 GPU Rubin e 36 CPU Vera, interconnesse tramite la velocissima architettura NVLink 6 e i controller di rete ConnectX-9 SuperNIC, oltre ai processori BlueField-4 che alleggeriscono il carico delle CPU centrali nella gestione del traffico di rete. Rispetto alle soluzioni Blackwell di precedente generazione, i sistemi Vera Rubin richiedono un numero di GPU quattro volte inferiore per addestrare modelli complessi. L'efficienza energetica nell'inferenza è decuplicata, mentre i costi per token si riducono di dieci volte. I cluster di rack NVL72 possono essere scalati tramite Quantum-X800 InfiniBand e Spectrum-X Ethernet.

Le CPU Vera, secondo Nvidia, eccellono nelle attività di apprendimento per rinforzo e nei carichi di lavoro tipici dell'AI agentiva. È possibile combinare fino a 256 di queste CPU in un singolo rack, raffreddate a liquido e connesse agli altri componenti del cluster tramite le soluzioni di rete Spectrum-X. Rispetto alle CPU tradizionali, le CPU Vera offrono un incremento di prestazioni del 50% nelle attività di intelligenza artificiale.

I chip specializzati Groq 3 LPX garantiscono un'operatività efficiente con carichi di lavoro AI agentivi, minimizzando la latenza. In combinazione con gli altri chip della piattaforma Vera Rubin, aumentano la velocità effettiva nell'inferenza fino a 35 volte per megawatt di potenza assorbita, incrementando di dieci volte il potenziale di ricavo derivante dall'uso di modelli con trilioni di parametri. Un singolo rack include 256 chip LPU, 128 GB di memoria SRAM integrata e una velocità di trasmissione dati di 640 TB/s. L'integrazione con gli altri componenti della piattaforma Vera Rubin massimizza l'efficienza dei chip LPU in termini di velocità, consumi energetici e utilizzo delle risorse di memoria. I rack LPX saranno disponibili per i clienti Nvidia a partire dalla seconda metà del 2024.

Il rack BlueField-4 STX è specializzato nell'unificazione dello spazio di indirizzamento delle GPU tra gli elementi del cluster. L'elaborazione delle informazioni memorizzate nella cache durante le operazioni di inferenza è accelerata fino a cinque volte, garantendo al contempo un'elevata efficienza energetica rispetto ai sistemi con architettura tradizionale. Questo approccio crea un contesto comune per l'intero cluster, facilitando l'interazione rapida con gli agenti AI e scalando i servizi AI in modo più efficiente.

Il rack Spectrum-6 SPX è dedicato allo scambio rapido di dati tramite interfaccia Ethernet. Può contenere sia switch Spectrum-X Ethernet che switch Nvidia Quantum-X800 InfiniBand, a seconda delle esigenze specifiche della configurazione. L'utilizzo della fotonica al silicio e l'integrazione a livello di package dei chip quintuplica l'efficienza della trasmissione di informazioni e decuplica l'affidabilità rispetto alle soluzioni plug-in tradizionali.