NVIDIA sta sviluppando SCADA (Scaled Accelerated Data Access), una nuova architettura IO destinata a rivoluzionare il modo in cui le GPU accedono e gestiscono i dati. A differenza dell'attuale protocollo GPUDirect, che velocizza lo scambio dati tra memoria GPU e SSD NVMe tramite RDMA, SCADA affida alla GPU l'intera orchestrazione del processo, liberando la CPU da questo compito.
L'addestramento dei modelli di Intelligenza Artificiale richiede il trasferimento di enormi quantità di dati in tempi brevi. L'inferenza AI, invece, implica la gestione di piccoli blocchi IO (meno di 4 KB) innumerevoli flussi, rendendo il tempo di gestione di ogni trasferimento relativamente lungo. Ricerche di NVIDIA hanno dimostrato che l'inizializzazione di questi trasferimenti direttamente dalla GPU riduce i tempi e accelera l'inferenza, dando vita all'architettura SCADA.
NVIDIA sta collaborando con partner dell'ecosistema storage per implementare SCADA. Marvell sottolinea come la crescente domanda di infrastrutture AI stia spingendo le aziende del settore storage a sviluppare SSD, controller e NAND ottimizzati per supportare le GPU, con particolare attenzione all'incremento degli IOPS per l'inferenza AI. Questo approccio si distingue nettamente dalle tecnologie per storage connessi alla CPU, dove priorità sono la latenza e la capacità.
Secondo Marvell, con SCADA, gli acceleratori utilizzano la semantica della memoria per interagire con lo storage. Tuttavia, gli SSD tradizionali non sono ideali per questo tipo di carico di lavoro, poiché non riescono a fornire gli IOPS necessari quando migliaia di flussi paralleli richiedono dataset inferiori a 4 KB. Ciò porta a un sottoutilizzo del bus PCIe, alla cosiddetta "fame della GPU" e a uno spreco di cicli di elaborazione. In un'architettura incentrata sulla CPU, adatta all'addestramento di modelli, i flussi di dati paralleli sono solo decine, non migliaia, e i blocchi dati sono più grandi. In questo scenario, gli SSD devono offrire elevata capacità, larghezza di banda e bassa latenza, considerando anche la latenza aggiuntiva introdotta da PCIe ed Ethernet.
L'introduzione di PCIe 6.0 e PCIe 7.0 accelererà ulteriormente lo scambio dati, ma anche i controller SSD dovranno evolversi. Dovranno supportare le funzionalità di SCADA, integrare schemi di correzione degli errori ottimizzati per piccoli blocchi dati ed essere multi-protocollo (PCIe, CXL, Ethernet). Anche Micron è coinvolta nello sviluppo di SCADA.
Durante SC25, Micron ha presentato un prototipo di storage SCADA basato sulla piattaforma H3 Platform Falcon 6048 con PCIe 6.0 (44 x E1.S NVMe SSD + 6 x GPU/DPU/NIC), equipaggiata con 44 unità Micron 9650 (7,68 TB, fino a 5,4 milioni di IOPS in lettura casuale di blocchi 4K con profondità di coda 512, PCIe 6.0), tre switch Broadcom PEX90000 (144 linee PCIe 6.0 ciascuno), un processore Intel Xeon (PCIe 5.0) e tre acceleratori NVIDIA H100 (PCIe 5.0). Secondo Micron, il sistema "dimostra un ridimensionamento lineare delle prestazioni da 1 a 44 SSD", raggiungendo fino a 230 milioni di IOPS, un valore molto vicino al massimo teorico di 237,6 milioni di IOPS.
"In combinazione con PCIe 6.0 e SSD ad alte prestazioni, l'architettura SCADA offre accesso ai dati in tempo reale per carichi di lavoro come database vettoriali, reti neurali grafiche e pipeline di inferenza su larga scala", ha concluso Micron. Questa innovazione promette di ottimizzare significativamente le prestazioni dei data center e di accelerare lo sviluppo di applicazioni basate sull'Intelligenza Artificiale.
Prima di procedere


