Amazon e NVIDIA: Supercomputer AI con Graviton5 e NVLink

Amazon Web Services (AWS) sta preparando il lancio dei suoi nuovi processori Arm Graviton5, che saranno affiancati agli acceleratori di intelligenza artificiale Trainium4, dotati di interconnessione NVLink Fusion, adattatori EFA proprietari e DPU Nitro 6 con motore Nitro Isolation Engine. La novità più rilevante è che tutti questi componenti saranno integrati in rack conformi allo standard NVIDIA MGX.

Amazon e NVIDIA hanno annunciato una partnership a lungo termine, nell'ambito della quale gli acceleratori AI Trainium4 riceveranno la bus NVIDIA NVLink Fusion di sesta generazione (presumibilmente con una velocità di 3,6 TB/s in full-duplex). Questa tecnologia permetterà di creare una piattaforma rack di nuova generazione, basata sull'architettura NVIDIA MGX, trasferita all'OCP (Open Compute Project). È interessante notare come AWS, per anni, abbia sostanzialmente ignorato l'OCP, preferendo sviluppare autonomamente i propri rack, i relativi componenti (inclusi i sistemi di raffreddamento a liquido) e l'architettura dei data center AI nel loro complesso. Anche nell'attuale generazione di rack con GB300 NVL72, AWS ha rinunciato al design di riferimento di NVIDIA.

NVIDIA sottolinea come sia estremamente complesso per gli hyperscaler gestire soluzioni personalizzate. I cicli di sviluppo di un'architettura rack richiedono tempi lunghi, poiché, oltre alla progettazione di chip AI specializzati, gli hyperscaler devono occuparsi del dimensionamento verticale e orizzontale, degli interconnessioni, dello storage e della costruzione del rack stesso, inclusi vassoi, raffreddamento, alimentazione e software.

La gestione della supply chain è altrettanto complessa, poiché richiede il coordinamento di decine di fornitori responsabili di decine di migliaia di componenti. Anche un singolo ritardo nella consegna o la sostituzione di un componente possono compromettere l'intero progetto. La piattaforma NVIDIA, se non elimina completamente questi problemi, almeno li attenua, offrendo soluzioni standardizzate pronte all'uso, che possono essere fornite da diversi attori del mercato.

Secondo NVIDIA, a differenza di altri approcci al dimensionamento delle reti, NVLink è una tecnologia collaudata e ampiamente diffusa. In combinazione con il software proprietario NVLink Switch, questa tecnologia aumenta fino a tre volte le prestazioni e i ricavi derivanti dall'inferenza AI, unendo 72 acceleratori in un unico dominio. Gli utenti che implementano NVLink Fusion possono utilizzare qualsiasi parte della piattaforma: ogni componente può aiutarli a scalare rapidamente per soddisfare i requisiti di inferenza intensiva e addestramento di modelli AI agent.

Per quanto riguarda gli acceleratori Trainium4, rispetto ai Trainium3, saranno sei volte più veloci nei calcoli FP4, tre volte più veloci nei calcoli FP8 e avranno una larghezza di banda di memoria quadruplicata. Tuttavia, gli acceleratori proprietari di Amazon non sono sempre in grado di competere con i chip NVIDIA.

Questa partnership tra Amazon e NVIDIA rappresenta un passo significativo verso la creazione di infrastrutture AI più potenti ed efficienti. L'adozione dello standard NVIDIA MGX da parte di AWS indica un cambio di strategia, con un maggiore focus sulla standardizzazione e sull'integrazione di soluzioni consolidate. Resta da vedere come questa collaborazione influenzerà il mercato dei supercomputer AI e quali vantaggi concreti porterà agli utenti finali, ma è chiaro che il futuro dell'intelligenza artificiale sarà plasmato da queste innovazioni.