Alibaba ha rilasciato un rapporto tecnico dettagliato sulla sua nuova modello multimodale open-source, Qwen3-VL, pochi mesi dopo il suo lancio. I dati rivelano che il sistema eccelle in compiti matematici legati alle immagini ed è capace di analizzare video di lunga durata.
La forza di Qwen3-VL risiede nella sua capacità di gestire grandi quantità di dati, elaborando video di due ore o centinaia di pagine di documenti all'interno di una finestra di contesto di 256.000 token. Nei test "ago nel pagliaio", il modello di punta con 235 miliardi di parametri ha individuato singoli fotogrammi in video di 30 minuti con una precisione del 100%. Anche in video di due ore, contenenti circa un milione di token, la precisione è rimasta al 99,5%. Questo test misura l'abilità del modello nel trovare fotogrammi specifici all'interno di video lunghi, inserendo un fotogramma semanticamente rilevante in posizioni casuali.
Nei benchmark pubblicati, Qwen3-VL-235B-A22B spesso supera Gemini 2.5 Pro, OpenAI GPT-5 e Claude Opus 4.1, anche quando i concorrenti utilizzano funzioni di ragionamento logico o richiedono maggiori risorse computazionali. Il modello domina nelle attività di analisi matematica visiva, ottenendo l'85,8% in MathVista rispetto all'81,3% di GPT-5. In MathVision, guida con il 74,6%, superando Gemini 2.5 Pro (73,3%) e GPT-5 (65,8%). Questi risultati evidenziano una specializzazione del modello nell'interpretazione e risoluzione di problemi che combinano immagini e matematica.
Il modello dimostra anche un'ampia gamma di risultati in benchmark specializzati. Ha ottenuto il 96,5% nel test di comprensione dei documenti DocVQA e 875 punti in OCRBench, supportando 39 lingue, quasi quattro volte di più rispetto al suo predecessore. Qwen3-VL raggiunge una precisione superiore al 70% nello svolgimento di compiti OCR in 32 delle 39 lingue supportate, dimostrando la sua versatilità nell'elaborazione di testo in diversi contesti linguistici.
Secondo Alibaba, il modello mostra nuove capacità nelle attività di interfaccia grafica. La precisione di Qwen3-VL-32B in ScreenSpot Pro, che testa la navigazione nelle interfacce utente grafiche, è stata del 61,8%. In AndroidWorld, dove il sistema deve gestire autonomamente le applicazioni Android, Qwen3-VL-32B ha mostrato un risultato del 63,7%, indicando una buona capacità di interazione con ambienti digitali complessi.
Il modello gestisce anche documenti PDF complessi di più pagine. In MMLongBench-Doc, ha mostrato un risultato del 56,2% nell'analisi di documenti lunghi. Nel benchmark CharXiv per diagrammi scientifici, ha raggiunto il 90,5% nello svolgimento di compiti di descrizione e il 66,2% nello svolgimento di compiti logici complessi. Questi risultati sottolineano la capacità del modello di estrarre informazioni significative da documenti strutturati e non strutturati.
Tuttavia, Qwen3-VL non ha superato i concorrenti in tutti i casi. Nel complesso test MMMU-Pro, il modello ha ottenuto il 69,3%, inferiore al 78,4% di GPT-5. I concorrenti commerciali tendono a essere in testa nei test sulla qualità dei video. I dati suggeriscono che Qwen3-VL è specializzato in compiti matematici visivi e documenti, ma è ancora indietro nell'area del ragionamento logico generale.
Il rapporto tecnico descrive tre principali aggiornamenti architetturali implementati in Qwen3-VL. In primo luogo, "interleaved MRoPE" sostituisce il precedente metodo di incorporamento posizionale. Invece di raggruppare le rappresentazioni matematiche per dimensione (tempo, orizzontale, verticale), il nuovo approccio le distribuisce uniformemente in tutti i settori matematici disponibili. Questa modifica ha lo scopo di migliorare le prestazioni quando si lavora con video lunghi. In secondo luogo, la tecnologia DeepStack consente al modello di accedere ai risultati intermedi del video encoder, non solo al risultato finale. Questo fornisce al sistema l'accesso a informazioni visive con diversi gradi di dettaglio. In terzo luogo, il sistema di timestamp basato su testo sostituisce il complesso metodo T-RoPE utilizzato in Qwen2.5-VL. Invece di assegnare una posizione temporale matematica a ogni fotogramma video, il sistema ora inserisce semplici marcatori di testo, ad esempio "<3,8 secondi>", direttamente nei dati di input. Questo semplifica il processo e migliora la comprensione del modello delle attività relative all'analisi video con intervalli di tempo.
Qwen3-VL combina un video encoder e un modello linguistico per elaborare simultaneamente testo, immagini e video. DeepStack utilizza informazioni visive da diversi livelli di elaborazione, consentendo una comprensione più profonda del contenuto multimediale.
Alibaba ha addestrato il modello in quattro fasi utilizzando 10.000 GPU. Dopo aver appreso il collegamento tra immagini e testo, il sistema ha subito un addestramento multimodale completo su circa un trilione di token. Le fonti di dati erano web scraping, 3 milioni di file PDF da Common Crawl e oltre 60 milioni di compiti STEM. Nelle fasi successive, il team ha gradualmente ampliato la finestra di contesto da 8.000 a 32.000 e infine a 262.000 token. Le varianti Thinking hanno subito una formazione speciale Chain-of-thought training, che ha permesso loro di generare passaggi di ragionamento intermedi prima di fornire la risposta finale per ottenere risultati migliori nella risoluzione di compiti complessi.
Tutti i modelli Qwen3-VL rilasciati da settembre sono disponibili con licenza Apache 2.0 con pesi aperti su Hugging Face. La linea comprende varianti dense con parametri da 2B a 32B, così come modelli con una miscela di esperti 30B-A3B e massicci 235B-A22B.
Sebbene funzioni come l'estrazione di fotogrammi da video lunghi non siano nuove (all'inizio del 2024, Google Gemini 1.5 Pro aveva già implementato questa funzione), Qwen3-VL offre prestazioni competitive. Poiché il precedente modello Qwen2.5-VL è già stato ampiamente utilizzato nella ricerca, il nuovo modello probabilmente stimolerà un ulteriore sviluppo di software open source.
Prima di procedere


