Qualcomm ha annunciato l'introduzione di due nuovi acceleratori di inferenza AI (esecuzione di modelli linguistici di grandi dimensioni già addestrati): AI200 e AI250, previsti sul mercato rispettivamente nel 2026 e 2027. Questi nuovi prodotti mirano a competere con le soluzioni rack di AMD e Nvidia, offrendo una maggiore efficienza e minori costi operativi nell'esecuzione di attività di intelligenza artificiale generativa su vasta scala.
Entrambi gli acceleratori, Qualcomm AI200 e AI250, si basano sui processori neurali (NPU) Qualcomm Hexagon, appositamente adattati per i compiti di intelligenza artificiale nei centri elaborazione dati. Negli ultimi anni, l'azienda ha costantemente migliorato i suoi neuroprocessori Hexagon, e le versioni più recenti dei chip sono dotate di acceleratori scalari, vettoriali e tensoriali (in una configurazione 12+8+1). Supportano formati di dati come INT2, INT4, INT8, INT16, FP8, FP16, inferenza microtile per ridurre il traffico di memoria, indirizzamento della memoria a 64 bit, virtualizzazione e crittografia dei modelli Gen AI per una maggiore sicurezza.
Gli acceleratori AI200 rappresentano il primo sistema di inferenza per data center di Qualcomm e offrono fino a 768 GB di memoria LPDDR integrata. Il sistema utilizzerà interfacce PCIe per lo scaling verticale ed Ethernet per quello orizzontale. La potenza di progettazione di un rack con acceleratori Qualcomm AI200 è di 160 kW. Il sistema prevede l'uso del raffreddamento diretto a liquido. Per Qualcomm AI200 è previsto anche il supporto per il calcolo confidenziale per le implementazioni aziendali. La soluzione sarà disponibile nel 2026.
Qualcomm AI250, il cui rilascio è previsto un anno dopo, debutterà con una nuova architettura di memoria che fornirà una larghezza di banda più di 10 volte superiore. Inoltre, il sistema supporterà la capacità di inferenza disaggregata, che consentirà di allocare dinamicamente le risorse di memoria tra le schede. Qualcomm lo posiziona come una soluzione più efficiente e ad alta larghezza di banda, ottimizzata per i grandi modelli di trasformatori di intelligenza artificiale. Allo stesso tempo, il sistema manterrà le stesse caratteristiche di trasferimento del calore, raffreddamento, sicurezza e scalabilità dell'AI200.
Oltre allo sviluppo di piattaforme hardware, Qualcomm ha anche annunciato lo sviluppo di una piattaforma software end-to-end iperscalabile, ottimizzata per attività di inferenza su larga scala. La piattaforma supporta i principali set di strumenti di machine learning e AI generativa, tra cui PyTorch, ONNX, vLLM, LangChain e CrewAI, garantendo al contempo l'implementazione senza problemi dei modelli. Lo stack software supporterà il servizio disaggregato, il calcolo confidenziale e la connessione di modelli pre-addestrati "con un clic", afferma l'azienda.
L'ingresso di Qualcomm nel mercato degli acceleratori AI per data center rappresenta una sfida diretta a Nvidia e AMD, attualmente leader del settore. La competizione si concentrerà sull'efficienza energetica, sui costi operativi e sulla capacità di gestire modelli AI sempre più complessi. L'adozione di standard aperti e la flessibilità offerta dalla piattaforma software di Qualcomm potrebbero favorire una rapida integrazione da parte degli sviluppatori e delle aziende che utilizzano l'AI generativa.
Con il continuo sviluppo dell'intelligenza artificiale, la domanda di hardware specializzato per l'inferenza è in forte crescita. Qualcomm punta a capitalizzare su questa tendenza, offrendo soluzioni innovative che promettono di ridurre i costi e migliorare le prestazioni nell'esecuzione di modelli AI su vasta scala. Resta da vedere come si evolverà la competizione nei prossimi anni e quali saranno le prossime mosse dei principali attori del settore.
Prima di procedere


