Apple ha pubblicato un rapporto di ricerca che esplora come i modelli linguistici di grandi dimensioni (LLM) possono analizzare i dati audio e di movimento per comprendere meglio le attività degli utenti. Lo studio, intitolato "Utilizzo di LLM per la fusione tardiva di dati di sensori multimodali per il riconoscimento dell'attività", illustra come Apple sta valutando la possibilità di combinare l'analisi dei dati tramite modelli di IA con i tradizionali dati dei sensori, al fine di ottenere una comprensione più accurata delle azioni degli utenti.
Secondo i ricercatori, questo approccio ha un notevole potenziale per migliorare la precisione dell'analisi delle attività, anche in situazioni in cui i soli dati dei sensori non sono sufficienti. "I flussi di dati provenienti dai sensori forniscono preziose informazioni sulle attività e sul contesto per diverse applicazioni, sebbene l'integrazione di ulteriori informazioni possa rappresentare una sfida. Dimostriamo che i modelli linguistici di grandi dimensioni possono essere impiegati per la fusione tardiva dei dati nella classificazione delle attività basata su serie temporali, audio e dati di movimento", afferma il documento di Apple.
I ricercatori hanno selezionato un sottoinsieme di dati dal set di dati Ego4D per il riconoscimento di diverse attività in vari contesti, come le faccende domestiche o l'esercizio fisico. È stato riscontrato che i modelli linguistici di grandi dimensioni sono in grado di svolgere efficacemente compiti legati all'identificazione delle attività degli utenti, analizzando segnali audio e di movimento. Sorprendentemente, riescono a farlo anche senza essere specificamente addestrati a tale scopo. Tuttavia, fornendo loro anche un solo esempio di training, la precisione aumenta notevolmente.
È importante notare che l'LLM nello studio non ha elaborato direttamente la registrazione audio, ma piuttosto una descrizione testuale generata da modelli audio e da un modello di movimento che riceve dati da un accelerometro e un giroscopio. Lo studio ha utilizzato il set di dati Ego4D, che contiene migliaia di ore di registrazioni in prima persona del mondo reale, raffiguranti diverse situazioni, dalle faccende domestiche allo sport e alle attività ricreative. "Abbiamo creato un set di dati di attività quotidiane dal set Ego4D, cercando azioni della vita di tutti i giorni nelle descrizioni testuali fornite. Il set di dati selezionato include campioni di 20 secondi da 12 tipi di attività: passare l'aspirapolvere, cucinare, lavare i vestiti, mangiare, giocare a basket, giocare a calcio, giocare con animali domestici, leggere un libro, lavorare al computer, lavare i piatti, guardare la TV, allenamento di forza. Queste attività sono state scelte in modo da coprire una gamma di compiti domestici e legati allo sport in base alla loro ampia diffusione nel set di dati originale", afferma lo studio.
I ricercatori hanno elaborato i dati audio e di movimento utilizzando piccoli modelli di IA che hanno generato descrizioni testuali e previsioni riguardanti la categoria di attività, dopodiché i dati sono stati trasmessi a diversi LLM (Gemini-2.5-pro e Qwen-32B) per valutare quanto bene fossero in grado di identificare l'attività. Apple ha quindi confrontato le prestazioni di questi due modelli di IA in diverse situazioni: in una, è stato fornito un elenco di 12 possibili attività (set chiuso), mentre nell'altra non c'erano opzioni (set aperto). Per ogni test, sono state fornite diverse combinazioni di trascrizioni audio testuali, etichette audio, previsioni di attività e contesto aggiuntivo.
I modelli linguistici di grandi dimensioni hanno mostrato risultati significativamente più accurati rispetto ai modelli di base che lavorano con un solo tipo di dati, specialmente in scenari complessi. La massima precisione è stata ottenuta lavorando con un set di dati chiuso, quando il modello doveva scegliere una tra 12 attività. Quando si lavora con un set aperto, i modelli di IA hanno anche mostrato buoni risultati, ma a volte le risposte erano troppo generiche o imprecise. Gemini-2.5-pro e Qwen-32B hanno mostrato risultati comparabili con piccoli vantaggi l'uno sull'altro in diverse categorie, il che indica la versatilità di questo approccio.
La ricerca di Apple dimostra che i modelli di IA possono fungere da strumento potente e flessibile per combinare e analizzare dati multimodali con una formazione minima. Ciò potrebbe contribuire alla creazione di sistemi più intelligenti e consapevoli del contesto su dispositivi mobili e indossabili.
Prima di procedere


