La DeepSeek, un'azienda cinese all'avanguardia, ha recentemente riportato che il costo per l'addestramento della sua innovativa intelligenza artificiale, il modello R1, è stato di soli 294 mila dollari. Questa cifra si palesa come significativamente inferiore rispetto alle spese dichiarate dai principali concorrenti statunitensi, alimentando un vivace dibattito sul posizionamento della Cina nella competizione globale per l'avanzamento dell’intelligenza artificiale. Dettagli di questa impressionante impresa sono stati pubblicati sulla prestigiosa rivista accademica Nature.
La notizia dell’introduzione nel gennaio scorso dei sistemi IA a basso costo da parte di DeepSeek ha scosso il mercato globale, inducendo molti investitori a vendere le azioni di aziende tecnologiche, temendo un drammatico crollo nel loro valore. Da quel momento, DeepSeek e il suo fondatore, Liang Wenfeng, si sono in gran parte ritirati dai riflettori, tranne che per annunciare aggiornamenti su alcuni dei loro prodotti. Tuttavia, con la recente pubblicazione della ricerca su Nature, Liang ha rivelato ufficialmente i dettagli sui costi di sviluppo della R1, sui modelli e sul numero di acceleratori IA utilizzati.
Nello specifico, l'addestramento delle grandi modelli linguistici, che servono da nucleo per i moderni chatbot intelligenti, comporta elevate spese legate all’uso di potenti sistemi computazionali nel lungo termine. Nel caso del modello R1, DeepSeek ha impiegato 512 acceleratori Nvidia H800, con un investimento totale inferiore ai 300 mila dollari. In confronto, il capo di OpenAI, Sam Altman, nel 2023, aveva stimato che i costi per l’addestramento delle loro principali IA fossero «molto superiori» ai 100 milioni di dollari.
Nonostante ciò, diversi esperti del settore negli Stati Uniti hanno messo in dubbio le affermazioni di DeepSeek, specialmente in merito alle modalità di approvvigionamento delle tecnologie. Gli acceleratori H800 di Nvidia, infatti, sono stati progettati appositamente per il mercato cinese, dopo che nel 2022 il governo statunitense aveva introdotto restrizioni sull'esportazione verso la Cina di soluzioni più avanzate come H100 e A100. Tuttavia, in una dichiarazione congiunta emessa a giugno, rappresentanti degli Stati Uniti avevano dichiarato che DeepSeek aveva ottenuto accesso anche a numerose unità H100, nonostante le restrizioni imposte. Nvidia ha successivamente negato tali affermazioni, affermando che DeepSeek ha utilizzato solo chip H800 legalmente acquistati.
A conferma di ciò, in un documento esplicativo allegato all'articolo su Nature, DeepSeek ha ammesso di aver fatto uso degli acceleratori A100 nelle fasi preliminari di sviluppo. Gli scienziati hanno descritto come questi processori grafici siano stati cruciali nelle prime fasi sperimentali con modelli ridotti. Solo successivamente, l'R1 è stato ulteriormente affinato attraverso un cluster di 512 acceleratori H800, operando per 80 ore complessive.
La capacità di attrarre talenti di alto livello nel campo dell'IA è un altro fattore che ha consentito a DeepSeek di primeggiare. Fonti come Reuters hanno in precedenza riportato che la disponibilità di un cluster di supercomputer A100 ha giocato un ruolo chiave nell'attrarre alcuni dei migliori specialisti in intelligenza artificiale in Cina verso l'azienda.