Apple rivoluziona l'analisi video con AI 'Furba'

Apple rivoluziona l'analisi video con AI 'Furba'

Il nuovo modello SlowFast-LLaVA-1.5 ottimizza l'analisi video, unendo efficienza e precisione

Apple ha annunciato un notevole avanzamento nel campo dell'Intelligenza Artificiale con la presentazione di una nuova famiglia di modelli open source denominati SlowFast-LLaVA-1.5. Questo sistema promette di rivoluzionare l'analisi dei video lunghi, superando i limiti dei tradizionali approcci analitici. Cupertino ha scelto un metodo meno dispendioso in termini di risorse, capace di ottenere risultati superiori con un approccio 'furbo' ed efficiente.

Generalmente, i modelli di intelligenza artificiale che si occupano dell'analisi video operano separando un filmato in singoli fotogrammi, cercando di comprendere e descrivere la scena. Tuttavia, questa pratica può risultare inefficiente: i fotogrammi di un video in sequenza sono spesso molto simili, un aspetto che porta a un enorme spreco di risorse computazionali. Non solo satura ciò che viene definito 'context window' del modello, ovvero la sua memoria, ma può limitare significativamente la profondità e la qualità dell'analisi.

Il nuovo approccio di Apple si distingue per la sua innovazione: integra due flussi analitici, uno lento e uno veloce. Il flusso lento prende in analisi un minor numero di fotogrammi, ma lo fa in modo approfondito, garantendo una comprensione dettagliata della scena. Al contrario, il flusso veloce analizza un maggior numero di fotogrammi in maniera superficiale, permettendo di seguire rapidamente l'evoluzione della scena nel tempo. Questo binomio intelligente consente al modello di efficacemente bilanciare dettagli e velocità.

SlowFast-LLaVA-1.5 ha già dimostrato il suo valore nei test standard di comprensione video, come LongVideoBench e MLVU. Notevoli sono i risultati ottenuti anche con la versione più compatta da 1 miliardo di parametri, che ha stabilito nuovi record superando modelli molto più grandi. Oltre alla sua competenza sui video, il modello ha dimostrato di poter operare efficacemente anche su immagini statiche, rendendosi utile in scenari complessi con testi e per compiti di OCR e di ragionamento logico.

Tuttavia, non mancano le limitazioni. Attualmente, il modello può elaborare al massimo 128 fotogrammi per video, suddivisi in 32 per l'analisi lenta e 96 per quella veloce, selezionati a intervalli regolari. Considerando che i flussi video attuali vanno solitamente dai 24 ai 120 fotogrammi al secondo, questo significa che SlowFast-LLaVA-1.5 analizza solo pochi secondi alla volta, rischiando di perdere dettagli importanti nei video più lunghi.

Nonostante queste limitazioni, l'impatto dell'esperimento condotto da Apple è innegabile. Hanno raggiunto risultati all'avanguardia utilizzando unicamente dataset pubblici, evitando in modo trasparente le pratiche discutibili adottate da alcune grandi aziende nel campo dell'intelligenza artificiale. Ora il modello è disponibile su GitHub e Hugging Face, invitando sviluppatori e ricercatori a esplorarne le capacità e sfruttarne il potenziale.

Pubblicato Domenica, 24 Agosto 2025 a cura di Marco P. per Infogioco.it

Ultima revisione: Domenica, 24 Agosto 2025

Marco P.

Marco P.

Editore professionista appassionato di sport come calcio, padel, tennis e tanto altro. Sarò il vostro aggiornamento quotidiano sulle nuove release di giochi nel mondo delle slot machine da casino sia fisico che online e inoltre, anche cronista sportivo.


Consulta tutti gli articoli di Marco P.

Footer
Articoli correlati
WorldMatch - Gambling software solutions
Infogioco.it - Sconti