OpenAI
ha presentato al pubblico
Sora 2
, la sua nuova e avanzata IA progettata per la generazione di video e audio. Questa innovativa piattaforma rappresenta un salto di qualità significativo rispetto al suo predecessore, posizionandosi in competizione diretta con le possibilità rivoluzionarie offerte da GPT-3.5 nella generazione di testo. Gli sviluppatori di OpenAI hanno sottolineato come Sora 2 avvicini l'intelligenza artificiale alla capacità di simulare il mondo con una comprensione quasi umana della fisica e delle dinamiche degli oggetti.
Fino ad ora, i modelli precedenti per la generazione di video spesso si concentravano sulla creazione di immagini realistiche, mancando però di una logica convincente per i movimenti. Per esempio, un canestro di basket poteva «teletrasportare» una palla in un canestro anche in caso di un tiro sbagliato. Al contrario, Sora 2 si concentra sull'imitarne il comportamento: se si manca il canestro, la palla rimbalzerà correttamente sul tabellone; se un pattinatore esegue un triplo axel ma commette un errore, potrebbe cadere. Questa capacità di rappresentare sia il successo che il fallimento è cruciale per creare simulazioni realistiche e robot avanzati. Gli sviluppatori assicurano che non ci saranno più deformazioni bizzarre degli oggetti o incongruenze logiche che compromettano la qualità visiva a favore di conformarsi a un prompt.
Un altro aspetto cruciale evidenziato da OpenAI è la
controllabilità
, con Sora 2 capace di gestire scenari complessi a più fasi mantenendo lo stato coerente degli oggetti, delle location e delle luci. Per esempio, può generare video di una pattinatrice che porta a termine una coreografia complessa con un gatto sulla testa, o un eroe di anime coinvolto in una battaglia epica, preservando l'integrità del mondo circostante, la coerenza delle scene e perfino le emozioni sui volti dei personaggi. Sora 2 lavora con diversi stili: realistico, cinematografico e anime.
Come sistema di generazione multimediale universale, Sora 2 può creare complesse paesaggi sonori, dialoghi e effetti audio con un elevato grado di realismo. Basta un breve video per permettere al modello di riprodurre con precisione l'apparenza, le espressioni e perfino la voce, integrandoli organicamente in qualsiasi scena. Questa funzionalità è universalmente applicabile a qualsiasi persona, animale o oggetto.
Contemporaneamente al lancio di Sora 2, OpenAI ha lanciato un'applicazione sociale iOS chiamata
Sora
. Questa piattaforma permette agli utenti di creare e condividere video con amici, effettuare remix sui lavori di altri utenti, esplorare nuovi video attraverso un feed personalizzabile e inserirsi nelle scene con la funzione "cameo". Con
"cameo"
, gli utenti possono entrare in qualsiasi scena di Sora con notevole precisione registrando un breve video e audio di sé stessi attraverso l'app.
La settimana scorsa, l'app è stata lanciata a livello interno in OpenAI. Secondo quanto riferito, alcuni colleghi hanno già utilizzato la funzione "cameo" per fare nuove amicizie aziendali. OpenAI ritiene che questa funzione centrale sia il modo migliore per sperimentare tutta la magia di Sora 2.
OpenAI ha sottolineato l'importanza di un utilizzo etico e responsabile della nuova piattaforma. Gli utenti avranno il controllo su chi può utilizzare il loro cameo; qualsiasi video con la loro partecipazione potrà essere rimosso in qualsiasi momento. I contenuti esplicitamente dannosi o creati senza consenso verranno bloccati mediante algoritmi e moderatori.
L'app Sora è già disponibile per il download per gli utenti iPhone negli
Stati Uniti
e in
Canada
, con registrazione attraverso un sistema di inviti. Nelle prossime settimane,
Sora 2
sarà accessibile in versione web. La versione base è gratuita e offre "limiti generosi", mentre gli abbonati a
ChatGPT Pro
riceveranno presto l'accesso al modello sperimentale Sora 2 Pro con qualità avanzata. Anche se i dettagli sulla monetizzazione restano vaghi, il piano attuale è quello di addebitare costi per generazioni aggiuntive durante periodi di alta domanda. L'espansione del servizio e l'apertura dell'accesso via API sono nei piani per il prossimo futuro.
