Alibaba Qwen: IA più piccola, potente e open source

La divisione Qwen di Alibaba, specializzata in tecnologie di intelligenza artificiale, ha annunciato una nuova famiglia di modelli IA che si distinguono per le loro dimensioni ridotte e l'alta efficienza, offrendo una qualità di risposta superiore rispetto alle principali soluzioni americane.

I modelli Alibaba Qwen3.5-0.8B e 2B, i più piccoli della serie, sono stati progettati per essere "miniaturizzati" e "veloci", ideali per lo sviluppo di prototipi e per l'implementazione rapida su dispositivi mobili con risorse limitate, dove l'autonomia della batteria è fondamentale. Il modello multimodale Qwen3.5-4B è pensato per la creazione di agenti leggeri e supporta nativamente una finestra di contesto di 262.144 token. Il modello di ragionamento Qwen3.5-9B supera le capacità del concorrente americano OpenAI gpt-oss-120B, pur essendo 13,5 volte più piccolo. Il modello di Alibaba dimostra una conoscenza linguistica e un ragionamento logico a livello post-laurea.

Una caratteristica importante è che i pesi dei modelli sono disponibili per tutti sotto licenza Apache 2.0, che ne consente l'uso aziendale e commerciale, inclusa la possibilità di ulteriore training in base alle necessità. Questa apertura favorisce l'innovazione e l'adozione di questi modelli in una vasta gamma di applicazioni.

Nello sviluppo dei modelli più piccoli della serie Qwen3.5, l'azienda si è allontanata dalle tradizionali architetture Transformer, optando per un'architettura ibrida che combina reti neurali Gated Delta Networks e una miscela sparsa di esperti (Mixture-of-Experts – MoE). Questo approccio ibrido aiuta a superare il problema della "limitazione della memoria", tipico dei modelli più piccoli. Le Gated Delta Networks, a loro volta, assicurano una maggiore larghezza di banda e una latenza ridotta nella risposta. I modelli sono nativamente multimodali: a differenza delle generazioni precedenti, in cui i generatori di immagini venivano "collegati" ai modelli di testo, i Qwen3.5 sono stati addestrati su token multimodali. Di conseguenza, le versioni 4B e 9B sono in grado di riconoscere elementi dell'interfaccia utente e contare oggetti nei video.

Nei test di valutazione, Qwen3.5-9B ha ottenuto risultati notevoli. Nel test visivo MMMU-Pro, ha raggiunto un punteggio di 70,1, superando Google Gemini 2.5 Flash-Lite (59,7) e persino il modello specializzato Qwen3-VL-30B-A3B (63,0). Nel test di ragionamento logico, ha ottenuto 81,7 punti, superando OpenAI gpt-oss-120b (80,1), che ha oltre dieci volte più parametri. Nel benchmark matematico HMMT Feb 2025, il modello Qwen3.5-9B ha dimostrato un punteggio di 83,2, mentre la variante 4B ha raggiunto 74,0, dimostrando che non sono più necessarie risorse cloud significative per risolvere compiti complessi nel campo delle scienze esatte. Il modello più grande è diventato leader nel test OmniDocBench v1.5 con un risultato di 87,7 punti e nel MMMLU multilingue ha ottenuto 81,2 punti, superando gpt-oss-120b con 78,2 punti.

Il lancio dei modelli Qwen3.5 di piccole dimensioni coincide con una fase di grande espansione degli agenti IA. I semplici chatbot non sono più sufficienti per l'utente moderno: c'è una crescente domanda di funzionalità autonome. Un agente IA autonomo deve "pensare" (ragionare), "vedere" (essere multimodale) e "agire" (essere in grado di utilizzare strumenti). Eseguire queste funzioni con modelli di trilioni di parametri è molto costoso, mentre l'utilizzo di Qwen3.5-9B è significativamente più economico.

Scalando la tecnologia di apprendimento per rinforzo in ambienti con milioni di agenti, Alibaba ha dotato questi modelli di funzioni di "giudizio umano": possono organizzare un desktop o eseguire il reverse engineering di un gioco in codice da una registrazione video. Una versione da 0,8 miliardi di parametri in esecuzione su uno smartphone o un modello da 9 miliardi di parametri su una workstation rendono democratica l'"era degli agenti". Le organizzazioni possono eseguire agenti IA sulle proprie risorse locali, senza spendere soldi per connettersi a risorse cloud e senza utilizzare API.

Utilizzando un meccanismo di "associazione a livello di pixel", questi modelli sono in grado di navigare tra le interfacce utente di PC e dispositivi mobili, compilare moduli e ordinare file, eseguendo istruzioni in un linguaggio semplice. Con una precisione dimostrata del 90% nei test, eseguono il riconoscimento ottico dei caratteri, analizzano i layout ed estraggono dati strutturati da moduli e diagrammi nei documenti. È possibile caricare interi repository di codice (fino a 400.000 righe) in una finestra di contesto di dimensioni fino a 1 milione di token per il refactoring o il debug automatizzato. I modelli Qwen3.5-0.8B e 2B, progettati per i dispositivi mobili, possono riassumere video in locale con una durata fino a 60 secondi e una frequenza fino a 8 fotogrammi al secondo, oltre a dimostrare il ragionamento spaziale.

Vengono anche evidenziati gli aspetti a cui prestare attenzione quando si implementano i piccoli modelli Qwen3.5. In scenari di agenti multi-fase, un singolo errore nella fase iniziale di un'attività può portare a una cascata di guasti, in cui l'agente seguirà un piano errato o privo di significato. I modelli gestiscono bene la scrittura di codice da zero, ma possono avere difficoltà con il debug o il miglioramento di progetti complessi e obsoleti. Per prestazioni ottimali, il modello Qwen3.5-9B richiede una notevole quantità di memoria video. Quando si implementano i modelli nelle aziende, è necessario dare la priorità alle attività "verificabili": scrittura di codice, calcoli matematici o seguire le istruzioni - tutto ciò in cui i risultati possono essere verificati per la conformità a determinati standard, al fine di evitare guasti nascosti.