I ricercatori di Apple hanno sviluppato una tecnologia innovativa chiamata RubiCap, un metodo all'avanguardia per addestrare modelli di intelligenza artificiale (IA) a descrivere le immagini in modo più dettagliato ed efficace rispetto ai modelli di dimensioni maggiori. Questa svolta promette di ridefinire i parametri di efficienza e precisione nel campo della visione artificiale.
La sfida principale nell'addestramento di modelli IA capaci di generare descrizioni dettagliate di immagini risiede nella necessità di identificare una miriade di oggetti e regioni all'interno di un singolo fotogramma. Solo attraverso questa identificazione precisa è possibile elaborare descrizioni ricche di dettagli, che catturino la complessità della scena. Questa capacità di analisi approfondita non solo migliora la comprensione della composizione dell'immagine, ma apre anche nuove frontiere nell'addestramento di modelli IA derivati, nella creazione di generatori di immagini basati su descrizioni testuali e nello sviluppo di funzionalità speciali per l'accessibilità.
Tuttavia, la creazione di sistemi di descrizione di immagini di questo livello si rivela estremamente costosa e richiede un'enorme quantità di risorse, sia nella fase di addestramento iniziale che nelle successive fasi di apprendimento per rinforzo. Per superare queste limitazioni, gli ingegneri di Apple hanno adottato un approccio ingegnoso.
Hanno selezionato casualmente 50.000 immagini da set di dati di addestramento consolidati, come PixMoCap e DenseFusion-4V-100K. Per ciascuna di queste immagini, sono state generate descrizioni multiple utilizzando modelli esistenti dotati di funzionalità avanzate di visione artificiale. Tra questi modelli figuravano Google Gemini 2.5 Pro, OpenAI GPT-5, Alibaba Qwen2.5-VL-72B-Instruct, Google Gemma-3-27B-IT e Alibaba Qwen3-VL-30B-A3B-Instruct. Parallelamente, anche i modelli Apple in fase di addestramento hanno generato le proprie descrizioni delle stesse immagini.
Successivamente, Gemini 2.5 Pro ha assunto il ruolo di esperto, analizzando meticolosamente le immagini insieme alle varie descrizioni generate, confrontando i risultati ottenuti dai diversi sistemi e identificando le aree di convergenza, le omissioni e le distorsioni. Sulla base di questa analisi, Gemini 2.5 Pro ha formulato criteri di valutazione chiari e precisi per le descrizioni.
Qwen2.5-7B-Instruct, nel ruolo di giudice, ha valutato le descrizioni in base a ciascuno dei criteri proposti, generando un segnale di ricompensa per il modello in fase di addestramento. Questo feedback accurato e mirato ha permesso al modello di apprendere quali aspetti dovevano essere corretti, portando alla generazione di descrizioni sempre più precise, senza basarsi su un'unica risposta "corretta".
Il risultato di questo processo innovativo è stato l'addestramento di tre modelli IA proprietari di Apple: RubiCap-2B, RubiCap-3B e RubiCap-7B, con 2, 3 e 7 miliardi di parametri rispettivamente. Sorprendentemente, questi modelli hanno dimostrato una capacità di generare descrizioni di immagini di qualità superiore rispetto a modelli concorrenti con 32 miliardi e persino 72 miliardi di parametri. In particolare, RubiCap-3B ha superato RubiCap-7B in alcuni casi, evidenziando come le dimensioni di un modello non siano sempre un indicatore determinante delle sue prestazioni. Questo apre nuove prospettive sull'ottimizzazione dell'IA, suggerendo che l'efficienza e la precisione possono essere raggiunte anche con modelli più compatti e mirati.

