Apple Sviluppa RubiCap: IA che descrive immagini meglio dei modelli più grandi

La nuova tecnologia di Apple permette a modelli di IA più piccoli di generare descrizioni di immagini più dettagliate ed efficaci, superando le performance di sistemi ben più complessi

Apple Sviluppa RubiCap: IA che descrive immagini meglio dei modelli più grandi

I ricercatori di Apple hanno sviluppato una tecnologia innovativa chiamata RubiCap, un metodo all'avanguardia per addestrare modelli di intelligenza artificiale (IA) a descrivere le immagini in modo più dettagliato ed efficace rispetto ai modelli di dimensioni maggiori. Questa svolta promette di ridefinire i parametri di efficienza e precisione nel campo della visione artificiale.

La sfida principale nell'addestramento di modelli IA capaci di generare descrizioni dettagliate di immagini risiede nella necessità di identificare una miriade di oggetti e regioni all'interno di un singolo fotogramma. Solo attraverso questa identificazione precisa è possibile elaborare descrizioni ricche di dettagli, che catturino la complessità della scena. Questa capacità di analisi approfondita non solo migliora la comprensione della composizione dell'immagine, ma apre anche nuove frontiere nell'addestramento di modelli IA derivati, nella creazione di generatori di immagini basati su descrizioni testuali e nello sviluppo di funzionalità speciali per l'accessibilità.

Tuttavia, la creazione di sistemi di descrizione di immagini di questo livello si rivela estremamente costosa e richiede un'enorme quantità di risorse, sia nella fase di addestramento iniziale che nelle successive fasi di apprendimento per rinforzo. Per superare queste limitazioni, gli ingegneri di Apple hanno adottato un approccio ingegnoso.

Hanno selezionato casualmente 50.000 immagini da set di dati di addestramento consolidati, come PixMoCap e DenseFusion-4V-100K. Per ciascuna di queste immagini, sono state generate descrizioni multiple utilizzando modelli esistenti dotati di funzionalità avanzate di visione artificiale. Tra questi modelli figuravano Google Gemini 2.5 Pro, OpenAI GPT-5, Alibaba Qwen2.5-VL-72B-Instruct, Google Gemma-3-27B-IT e Alibaba Qwen3-VL-30B-A3B-Instruct. Parallelamente, anche i modelli Apple in fase di addestramento hanno generato le proprie descrizioni delle stesse immagini.

Successivamente, Gemini 2.5 Pro ha assunto il ruolo di esperto, analizzando meticolosamente le immagini insieme alle varie descrizioni generate, confrontando i risultati ottenuti dai diversi sistemi e identificando le aree di convergenza, le omissioni e le distorsioni. Sulla base di questa analisi, Gemini 2.5 Pro ha formulato criteri di valutazione chiari e precisi per le descrizioni.

Qwen2.5-7B-Instruct, nel ruolo di giudice, ha valutato le descrizioni in base a ciascuno dei criteri proposti, generando un segnale di ricompensa per il modello in fase di addestramento. Questo feedback accurato e mirato ha permesso al modello di apprendere quali aspetti dovevano essere corretti, portando alla generazione di descrizioni sempre più precise, senza basarsi su un'unica risposta "corretta".

Il risultato di questo processo innovativo è stato l'addestramento di tre modelli IA proprietari di Apple: RubiCap-2B, RubiCap-3B e RubiCap-7B, con 2, 3 e 7 miliardi di parametri rispettivamente. Sorprendentemente, questi modelli hanno dimostrato una capacità di generare descrizioni di immagini di qualità superiore rispetto a modelli concorrenti con 32 miliardi e persino 72 miliardi di parametri. In particolare, RubiCap-3B ha superato RubiCap-7B in alcuni casi, evidenziando come le dimensioni di un modello non siano sempre un indicatore determinante delle sue prestazioni. Questo apre nuove prospettive sull'ottimizzazione dell'IA, suggerendo che l'efficienza e la precisione possono essere raggiunte anche con modelli più compatti e mirati.

Pubblicato Giovedì, 26 Marzo 2026 a cura di Anna S. per Infogioco.it

Ultima revisione: Giovedì, 26 Marzo 2026

Anna S.

Anna S.

Anna è una giornalista dinamica e carismatica, con una passione travolgente per il mondo dell'informatica e le innovazioni tecnologiche. Fin da giovane, ha sempre nutrito una curiosità insaziabile per come la tecnologia possa trasformare le vite delle persone. La sua carriera è caratterizzata da un costante impegno nell'esplorare le ultime novità in campo tecnologico e nel raccontare storie che ispirano e informano il pubblico.


Consulta tutti gli articoli di Anna S.

Footer
Articoli correlati
Contenuto promozionale
Contenuto promozionale
Contenuto promozionale
Contenuto promozionale
Infogioco.it - Sconti