Apple sviluppa un agente AI rivoluzionario per interagire con le App

Ferret-UI Lite, un modello AI compatto, promette di comprendere e automatizzare l'uso delle app direttamente sui dispositivi, superando le prestazioni di modelli più grandi

Apple sviluppa un agente AI rivoluzionario per interagire con le App

Apple sta lavorando a un agente di Intelligenza Artificiale (AI) rivoluzionario, progettato per comprendere e interagire con le interfacce delle applicazioni direttamente sui dispositivi degli utenti. Questo progetto ambizioso si concentra sullo sviluppo di un algoritmo chiamato Ferret-UI Lite, un modello con 3 miliardi di parametri che, nei test, ha dimostrato di eguagliare o superare le prestazioni di modelli AI significativamente più grandi, fino a 24 volte la sua dimensione.

Il progetto Ferret ha radici in una ricerca pubblicata nel dicembre 2023 da un team di nove ricercatori, intitolata "FERRET: Refer and Ground Anything Anywhere at Any Granularity". Questo studio ha introdotto un modello linguistico multimodale capace di apprendere da diversi tipi di dati e di comprendere riferimenti in linguaggio naturale a specifici frammenti di immagini. Da allora, Apple ha continuato a sviluppare e ampliare la famiglia di modelli AI Ferret, introducendo algoritmi come Ferretv2, Ferret-UI e Ferret-UI 2.

I modelli Ferret-UI rappresentano un'evoluzione significativa delle capacità originali di FERRET. Sono stati specificamente addestrati per superare una limitazione comune nei modelli linguistici multimodali di grandi dimensioni (MLLM): la difficoltà nel riconoscere e interagire efficacemente con le interfacce utente (UI). Secondo Apple, i recenti progressi negli MLLM sono notevoli, ma questi modelli generici spesso non riescono a riconoscere e interagire in modo efficiente con le UI. Per affrontare questa sfida, Apple ha sviluppato Ferret-UI, un nuovo MLLM progettato per migliorare il riconoscimento delle UI mobili, dotato di capacità avanzate di riferimento, grounding e ragionamento. Considerando che le interfacce mobili tendono ad avere un rapporto d'aspetto più allungato e contengono elementi più piccoli (come icone e testo) rispetto alle immagini naturali, Apple ha aggiunto una funzionalità di "risoluzione arbitraria" a Ferret per aumentare la granularità e sfruttare funzionalità visive migliorate.

Recentemente, Apple ha ampliato ulteriormente la famiglia di modelli Ferret-UI con la pubblicazione dei risultati della ricerca "Ferret-UI Lite: Lessons from Building Small On-Device GUI Agents". Mentre Ferret-UI si basa su un LLM con 13 miliardi di parametri e si concentra sulla comprensione delle interfacce mobili e degli screenshot a risoluzione fissa, e Ferret-UI 2 estende il sistema per supportare più piattaforme e una percezione a risoluzione più alta, Ferret-UI Lite è progettato per operare direttamente sui dispositivi, mantenendo al contempo una competitività paragonabile a quella di agenti GUI molto più grandi.

I ricercatori hanno evidenziato che la maggior parte degli approcci esistenti per la creazione di agenti GUI si concentra su modelli fondamentali di grandi dimensioni. Questo perché le capacità di ragionamento e pianificazione dei modelli server-side permettono a questi sistemi di ottenere risultati notevoli in diverse attività di navigazione GUI. Sono stati fatti progressi significativi sia nei sistemi GUI multi-componente che end-to-end, utilizzando diversi approcci per ottimizzare le numerose attività coinvolte nell'interazione dell'agente con le interfacce grafiche, come il collegamento di basso livello con gli elementi GUI, la comprensione del contesto sullo schermo, la pianificazione multi-step e l'auto-analisi. Tuttavia, questi sistemi sono spesso troppo grandi e richiedono troppe risorse computazionali per funzionare efficacemente su un dispositivo locale.

Per superare queste limitazioni, i ricercatori hanno sviluppato Ferret-UI Lite, una versione più leggera di Ferret-UI con 3 miliardi di parametri, costruita utilizzando componenti chiave e sfruttando le conoscenze acquisite durante l'addestramento di piccoli LLM. Questo approccio permette di bilanciare prestazioni e efficienza, rendendo possibile l'implementazione di agenti AI avanzati direttamente sui dispositivi degli utenti.

Pubblicato Sabato, 21 Febbraio 2026 a cura di Anna S. per Infogioco.it

Ultima revisione: Sabato, 21 Febbraio 2026

Anna S.

Anna S.

Anna è una giornalista dinamica e carismatica, con una passione travolgente per il mondo dell'informatica e le innovazioni tecnologiche. Fin da giovane, ha sempre nutrito una curiosità insaziabile per come la tecnologia possa trasformare le vite delle persone. La sua carriera è caratterizzata da un costante impegno nell'esplorare le ultime novità in campo tecnologico e nel raccontare storie che ispirano e informano il pubblico.


Consulta tutti gli articoli di Anna S.

Footer
Articoli correlati
Contenuto promozionale
Contenuto promozionale
Contenuto promozionale
Contenuto promozionale
Infogioco.it - Sconti