Apple IA: Sintesi vocale più veloce grazie a nuova ricerca

Uno studio con l'Università di Tel Aviv svela un metodo per accelerare del 40% la sintesi vocale AI senza perdere qualità

Apple IA: Sintesi vocale più veloce grazie a nuova ricerca

Nel panorama tecnologico in continua evoluzione, Apple continua a investire nella ricerca e sviluppo di soluzioni innovative nel campo dell'intelligenza artificiale. Un recente studio, frutto della collaborazione tra i ricercatori di Apple e dell'Università di Tel Aviv, ha svelato un nuovo approccio per velocizzare significativamente la sintesi vocale generata dall'IA, aprendo nuove prospettive per le applicazioni vocali del futuro.

La ricerca si concentra sui modelli di sintesi vocale autoregressivi, una tecnologia ampiamente utilizzata per convertire il testo in parlato. Questi modelli operano generando l'audio in sequenza, un frammento alla volta, seguendo una logica simile a quella dei modelli linguistici di grandi dimensioni (LLM). Ogni elemento sonoro viene prodotto basandosi sui precedenti, garantendo un'elevata precisione ma anche una certa lentezza nel processo.

Il team di ricerca ha osservato che molti "token" vocali, ovvero le unità di base che compongono l'audio, producono suoni quasi indistinguibili all'orecchio umano. Trattare questi suoni come entità completamente diverse porta il sistema a scartare previsioni valide, rallentando inutilmente la generazione del parlato. Per superare questa limitazione, i ricercatori hanno sviluppato una nuova tecnica chiamata Principled Coarse-Graining (PCG). L'idea alla base di PCG è quella di raggruppare i suoni simili tra loro in categorie più ampie. Invece di verificare se un token corrisponde esattamente a quello previsto, il sistema controlla se appartiene allo stesso gruppo acustico. Se il suono è considerato equivalente, viene accettato senza ulteriori calcoli, accelerando il processo di sintesi.

Il metodo PCG utilizza due modelli distinti: uno più piccolo e veloce che propone i suoni, e uno più grande che funge da "giudice", verificando che i suoni rientrino nel gruppo corretto. Questa architettura consente di aumentare la velocità di generazione del parlato di circa il 40% rispetto ai metodi precedenti, mantenendo al contempo un'elevata qualità del suono e un basso tasso di errori nelle parole. Un aspetto particolarmente interessante di PCG è che non richiede il riaddestramento dei modelli esistenti. La tecnica può essere applicata direttamente in fase di utilizzo, rendendola adatta anche a dispositivi con risorse limitate, come smartphone e tablet.

Sebbene lo studio non specifichi applicazioni concrete, i risultati suggeriscono sviluppi futuri promettenti per una vasta gamma di applicazioni basate sulla voce. Gli assistenti vocali, come Siri, potrebbero beneficiare di una maggiore reattività e fluidità nella conversazione. I lettori automatici potrebbero offrire un'esperienza di ascolto più naturale e coinvolgente. Inoltre, la tecnologia potrebbe essere utilizzata per migliorare l'accessibilità per le persone con disabilità visive o difficoltà di lettura. L'innovazione di Apple e dell'Università di Tel Aviv rappresenta un passo avanti significativo nel campo della sintesi vocale IA. La capacità di accelerare la generazione del parlato senza compromettere la qualità apre nuove opportunità per rendere le interazioni vocali più naturali, efficienti e accessibili a tutti.

Pubblicato Mercoledì, 04 Febbraio 2026 a cura di Marco P. per Infogioco.it

Ultima revisione: Mercoledì, 04 Febbraio 2026

Marco P.

Marco P.

Editore professionista appassionato di sport come calcio, padel, tennis e tanto altro. Sarò il vostro aggiornamento quotidiano sulle nuove release di giochi nel mondo delle slot machine da casino sia fisico che online e inoltre, anche cronista sportivo.


Consulta tutti gli articoli di Marco P.

Footer
Articoli correlati
Contenuto promozionale
Contenuto promozionale
Contenuto promozionale
Contenuto promozionale
Infogioco.it - Sconti