Gemini Robotics: Il futuro della robotica intelligente

Google DeepMind ha introdotto due nuove modelli di intelligenza artificiale per il mondo della robotica: Gemini Robotics 1.5 e Gemini Robotics-ER 1.5. Questi modelli lavorano insieme seguendo un approccio innovativo: i robot ora possono 'riflettere' su un compito prima di eseguire un'azione. Questa tecnologia rivoluzionaria si basa su sistemi di intelligenza artificiale generativa e intende superare le limitazioni dei robot attuali, che richiedono tempi di configurazione prolungati per ogni singola attività.

Le sistemi di intelligenza artificiale generativa si stanno diffondendo rapidamente, poiché sono in grado di creare testo, immagini, audio e persino video. Allo stesso modo, possono davvero generare sequenze di azioni per i robot. Questo è il principio alla base del progetto Gemini Robotics di Google DeepMind, nel quale sono state annunciate due modelli complementari che consentono ai robot di 'pensare' prima di agire. Sebbene i modelli di linguaggio di grandi dimensioni (LLM) tradizionali presentino alcuni limitazioni, l'integrazione di un ragionamento simulato ha notevolmente ampliato le loro capacità, e lo stesso tipo di progresso potrebbe verificarsi nel campo della robotica.

Il team di Google DeepMind è convinto che l'AI generativa possa trasformare radicalmente la robotica, fornendo ai robot una funzionalità universale. Al contrario delle attuali tecnologie, che necessitano di mesi di personalizzazione per un compito specifico e si adattano difficilmente a nuovi contesti, i nuovi approcci AI consentono ai robot di operare in ambienti sconosciuti senza bisogno di riprogrammazione. Come ha osservato Carolina Parada, responsabile della sezione robotica presso DeepMind, i robot di oggi sono 'estremamente specializzati e complessi da implementare'.

Per concretizzare questa idea innovativa, DeepMind ha sviluppato Gemini Robotics-ER 1.5 e Gemini Robotics 1.5. Il primo è un modello visione-linguaggio (VLM) dotato di funzionalità di ragionamento incarnato (embodied reasoning), che analizza dati visivi e testuali, formulando un piano dettagliato di esecuzione del compito e può utilizzare strumenti esterni, come la ricerca Google, per chiarire il contesto. Il secondo è un modello visione-linguaggio-azione (VLA) che traduce le istruzioni ricevute in azioni fisiche del robot, correggendole in corso d'opera basandosi sul feedback visivo e su un proprio processo di 'riflessione' su ciascun passo compiuto. Secondo Kanishka Rao di DeepMind, il progresso chiave è stato dotare il robot della capacità di imitare un ragionamento simile all'intuizione umana, ovvero pensare prima di agire.

Gli sviluppatori hanno dimostrato visivamente il funzionamento di queste nuove tecnologie: un robot umanoide dotato di Gemini Robotics 1.5, Apollo, è stato mostrato mentre imballa oggetti per un viaggio, mentre un altro robot, Aloha 2, o meglio una coppia di braccia robotiche, ordina i rifiuti.

Entrambi i modelli si basano sull'architettura fondamentale di Gemini, ma sono stati addestrati ulteriormente su dati che riflettono l'interazione con il mondo fisico. Questo permette ai robot di svolgere compiti complessi e a più fasi, avvicinandoli al livello di agenti autonomi. Allo stesso tempo, il sistema mostra una compatibilità cross-platform. In particolare, le competenze integrate in un robot, ad esempio nel modello a due braccia Aloha 2, possono essere trasferite su un altro, inclusi gli umanoidi come Apollo, senza necessitare di ulteriori calibrazioni per meccanismi specifici.

Nonostante il possibile avanzamento tecnologico, l'applicazione pratica di questa tecnologia è ancora limitata. Il modello Gemini Robotics 1.5, destinato alla gestione dei robot, è accessibile solo a tester di fiducia. Al contempo, Gemini Robotics-ER 1.5 è già integrato nel Google AI Studio, offrendo agli sviluppatori l'opportunità di generare istruzioni per i propri esperimenti con robot fisicamente incarnati. Tuttavia, come ha sottolineato Ryan Whitwam di Ars Technica, c'è ancora un lungo cammino da percorrere prima che i robot domestici capaci di eseguire attività quotidiane diventino una realtà.