SambaNova SN50: Acceleratore IA di nuova generazione

SambaNova Systems ha presentato il suo acceleratore IA SN50 di quinta generazione, basato sull'innovativa architettura RDU (Reconfigurable Dataflow Unit). Secondo l'azienda, questo chip offre una combinazione senza precedenti di bassissima latenza, elevata produttività ed efficienza energetica per i carichi di lavoro di inferenza IA, trasformando radicalmente l'economia della generazione di token.

Parallelamente, è stato annunciato un importante investimento e una collaborazione strategica con Intel, che in precedenza aveva considerato l'acquisizione completa di SambaNova. Questa partnership mira a combinare le forze per competere più efficacemente nel mercato in rapida crescita dell'intelligenza artificiale.

Secondo The Register, il nuovo chip SN50 rappresenta un significativo passo avanti rispetto al modello SN40L del 2023. Stando ai dati forniti dall'azienda, l'SN50 offre prestazioni 2,5 volte superiori nei calcoli a 16 bit (1,6 PFlops) e 5 volte superiori in modalità FP8 (3,2 PFlops). Il cuore dell'SN50 è l'architettura di elaborazione del flusso di dati (SambaNova DataFlow).

Come il suo predecessore, l'SN50 utilizza una gerarchia di memoria a tre livelli che combina DDR5, HBM e SRAM, consentendo alle piattaforme basate su questo chip di supportare modelli di IA con 10 trilioni di parametri e una lunghezza di contesto fino a 10 milioni di token. Ogni RDU è dotato di 432 MB di SRAM, 64 GB di HBM2E con una larghezza di banda di 1,8 TB/s e da 256 GB a 2 TB di memoria DDR5. La disponibilità di HBM2E e la quantità configurabile di DDR5 aumentano l'attrattiva e l'accessibilità dell'SN50 in un contesto di scarsità di memoria. Ogni acceleratore è dotato di un interconnessione con una velocità di 2,2 TB/s (in ogni direzione) per la comunicazione con altri chip tramite una fabbrica commutata.

SambaNova afferma che, rispetto all'acceleratore NVIDIA B200, l'SN50 offre una velocità massima di generazione di token per utente 5 volte superiore e una larghezza di banda 3 volte superiore per l'inferenza degli agenti, come dimostrato con modelli come Meta Llama 3.3 70B. L'architettura consente di scaricare efficacemente la KV-cache e di passare da un modello all'altro in HBM e SRAM in modalità "hot-swap" in pochi millisecondi, un aspetto fondamentale per i carichi di lavoro degli agenti che spesso passano da un modello di IA all'altro.

Inoltre, nell'SN50 i token di input possono essere memorizzati nella cache, riducendo i tempi di pre-elaborazione e di attesa per il primo token (TTFT) per le richieste. Questa combinazione di prestazioni, efficienza e scalabilità offre un vantaggio in termini di costo totale di proprietà (TCO) senza precedenti per i fornitori di servizi di inferenza che utilizzano modelli come OpenAI GPT-OSS, con un risparmio otto volte superiore rispetto a NVIDIA B200. L'SN50 è progettato anche per applicazioni come gli assistenti vocali basati sull'IA, che richiedono una latenza estremamente bassa per il funzionamento in tempo reale. Secondo l'azienda, è in grado di supportare migliaia di sessioni simultanee.

È stato inoltre presentato il sistema SambaRack SN50 da 20 kW, che combina 16 chip SN50. I SambaRack possono essere scalati fino a un cluster di 256 acceleratori con una larghezza di banda di interconnessione di diversi TB/s, riducendo i tempi di elaborazione delle richieste e supportando dimensioni dei pacchetti maggiori. Di conseguenza, è possibile implementare modelli con maggiore produttività e velocità. Le consegne dell'SN50 ai clienti inizieranno nella seconda metà del 2026.

SambaNova ha precedentemente annunciato di aver raccolto oltre 350 milioni di dollari in un round di finanziamento di serie E sovrascritto, guidato dalla società di investimento privata Vista Equity Partners in collaborazione con Cambium Capital. Anche la divisione investimenti di Intel, Intel Capital, ha partecipato attivamente, come riportato da SiliconANGLE. SambaNova ha anche annunciato una collaborazione con Intel per lo sviluppo di nuovi sistemi ad alte prestazioni ed economici per l'esecuzione di attività di IA. L'obiettivo è fornire alle aziende un'alternativa alle GPU, che oggi sono utilizzate nella maggior parte dei carichi di lavoro.

Intel sta investendo nella startup per accelerare l'implementazione di una nuova "soluzione cloud per l'IA" basata sulla piattaforma SambaNova Cloud esistente. La piattaforma aggiornata, ottimizzata per gli LLM multimodali, riceverà processori Xeon, nonché GPU, soluzioni di rete e altre soluzioni Intel, comprese quelle per l'archiviazione dei dati. Non è chiaro se si tratti della creazione di modelli Xeon specializzati, come nel caso di NVIDIA. In futuro, Intel e SambaNova prevedono di promuovere e vendere congiuntamente la nuova piattaforma, sfruttando i legami esistenti di Intel con le aziende e i canali partner.

La partnership avvantaggia entrambe le aziende. SambaNova potrà sfruttare la portata globale e la base di produzione di Intel per scalare i propri acceleratori di IA, mentre Intel avrà la possibilità di affermarsi finalmente nel mercato dell'IA. Finora, Intel non è stata in grado di competere con NVIDIA e altri produttori di chip, come AMD, nel settore dell'IA. I chip SN50 di SambaNova, combinati con i processori Intel Xeon, potrebbero potenzialmente cambiare questa situazione.

Vale la pena notare che Intel, che non sta attraversando un momento particolarmente positivo, ha un accordo piuttosto importante con NVIDIA. L'azienda offre anche le proprie GPU per l'inferenza, anche se significativamente più semplici rispetto all'SN50, e persino strani ibridi di acceleratori Habana Gaudi 3 e NVIDIA B200. Infine, esiste un accordo con AWS per il rilascio di Xeon 6 personalizzati e alcuni acceleratori di IA. Per quanto riguarda i vecchi "colleghi" di SambaNova nella lotta contro NVIDIA, Groq è stata infine acquisita da quest'ultima, mentre Cerebras ha finalmente firmato un accordo significativo con un attore davvero importante nel mercato dell'IA: OpenAI.