Sora di OpenAI: potenziale e limiti
Sora promette di rivoluzionare la creazione video con l'AI ma presenta significativi limiti nella riproduzione fedele di luoghi reali.

OpenAI continua a sorprendere il mondo dell'intelligenza artificiale con innovazioni sempre più avanzate. Tra le più recenti troviamo Sora, il generatore di video basato su AI che sta gradualmente venendo integrato nell'ecosistema di ChatGPT. Questo strumento promette di rivoluzionare la creazione di contenuti video consentendo di generare filmati semplicemente attraverso descrizioni testuali. Nonostante le straordinarie potenzialità, la tecnologia presenta ancora notevoli limiti che meritano di essere esplorati approfonditamente. La mia recente esperienza con questo strumento ha rivelato sia il suo incredibile potenziale sia le sue evidenti lacune, soprattutto quando si tratta di riprodurre fedelmente luoghi ed elementi reali.
Come funziona Sora e la sua integrazione con ChatGPT
Sora è stato lanciato inizialmente come web app indipendente, ma OpenAI ha confermato che sta lavorando per integrarlo direttamente all'interno dell'applicazione ChatGPT, creando così un'esperienza unificata per gli utenti. Questo permetterà di passare senza soluzione di continuità dalla generazione di testo alla creazione di video all'interno della stessa interfaccia. Rohan Sahai, product lead di Sora, ha confermato questa direzione, anche se non ha fornito una tempistica precisa per il completamento dell'integrazione.
Per utilizzare Sora attualmente, è necessario accedere tramite la piattaforma dedicata (sora.com) oppure direttamente da ChatGPT, cliccando sul pulsante Sora nella parte superiore sinistra dell'interfaccia. Il processo di generazione è concettualmente semplice: l'utente descrive ciò che desidera vedere e l'AI trasforma questa descrizione in un video. Dietro questa apparente semplicità si nasconde una complessa architettura di intelligenza artificiale basata sulla tecnologia Generative Pre-training Transformer (GPT), opportunamente adattata per la generazione di contenuti video.
Per creare un video, basta inserire una descrizione testuale nel prompt in fondo allo schermo. Oltre al testo, è possibile personalizzare diverse impostazioni: utilizzare un'immagine o un video come punto di partenza, selezionare uno stile preimpostato, scegliere il rapporto d'aspetto (16:9, 1:1 o 9:16), impostare la risoluzione (480p, 720p o 1080p), definire la durata del video (5, 10, 15 o 20 secondi) e selezionare quante varianti generare (1, 2 o 4).
Piani, prezzi e limitazioni tecniche
Uno degli aspetti più limitanti di Sora riguarda l'accessibilità e i costi. Il servizio è disponibile esclusivamente agli abbonati ai piani a pagamento di ChatGPT, con significative differenze tra le opzioni disponibili. L'abbonamento ChatGPT Plus, al costo di 20 dollari mensili più tasse, consente di generare video di durata limitata: fino a 5 secondi in risoluzione 720p o 10 secondi a 480p, con un limite di 50 video prioritari (1.000 crediti).
Per chi necessita di maggiore flessibilità, esiste l'abbonamento ChatGPT Pro, con un costo ben più elevato di 200 dollari mensili più tasse. Questo piano permette di creare video fino a 20 secondi in risoluzione 1080p, senza filigrana, con un limite di 500 video prioritari (10.000 crediti) e supporto per 5 generazioni simultanee. È evidente come queste limitazioni, soprattutto in termini di durata e risoluzione, rendano difficile un utilizzo professionale di Sora, considerando che non è contemplata la risoluzione 4K e che anche con l'abbonamento più costoso non si possono superare i 20 secondi di durata.
Ogni generazione di video consuma una quantità di crediti mensili che varia in base alla durata e alla risoluzione del filmato. Gli utenti possono verificare il saldo dei crediti rimanenti sul sito di Sora, nella sezione "My Plan".
I limiti delle capacità generative di Sora
Nonostante le premesse entusiasmanti, le prime recensioni evidenziano che Sora presenta ancora significative limitazioni nella sua capacità di generare video realistici e coerenti con le istruzioni fornite dall'utente. Questo aspetto è particolarmente evidente quando si utilizzano prompt complessi o si richiede la rappresentazione accurata di luoghi o oggetti reali.
La mia esperienza personale conferma queste problematiche. Ho testato Sora chiedendo di generare un breve video di un monumento della mia città. Nonostante abbia utilizzato la tecnica del meta prompt (essenzialmente usando ChatGPT per creare un prompt ottimizzato per Sora) e abbia ripetuto il tentativo più volte, il risultato è stato costantemente insoddisfacente. Sora ha sistematicamente introdotto elementi inventati e inesistenti, in alcuni casi persino visibilmente surreali, alterando significativamente l'aspetto reale del monumento.
Questo fenomeno potrebbe essere attribuito a diverse cause. Innanzitutto, i modelli di intelligenza artificiale come Sora tendono a "allucinare", ovvero a generare contenuti che non corrispondono alla realtà basandosi su pattern appresi durante l'addestramento piuttosto che su informazioni accurate sul soggetto richiesto. In secondo luogo, la capacità del modello di comprendere riferimenti a luoghi specifici e poco famosi è ancora limitata, portandolo a improvvisare dettagli mancanti nel suo database di conoscenze.
Strategie per migliorare i risultati con Sora
Pur riconoscendo i limiti attuali, esistono alcune strategie che possono aiutare a ottenere risultati migliori con Sora. La struttura del prompt gioca un ruolo fondamentale: è consigliabile specificare chiaramente il soggetto, l'azione o evento da rappresentare, l'ambientazione o ambiente e le preferenze di stile.
L'uso di aggettivi e linguaggio descrittivo ricco può migliorare significativamente l'output, così come l'incorporazione di indicazioni sul movimento e sull'azione, ad esempio specificando movimenti di camera o prospettive ("ripresa in prima persona", "vista panoramica"). Per scene complesse, una strategia efficace consiste nel separare la scena in azioni più piccole, generando video separati da combinare successivamente con un editor esterno.
Un approccio iterativo è fondamentale: difficilmente si otterrà un risultato perfetto al primo tentativo. È importante analizzare ciò che funziona e ciò che non funziona, per poi affinare il prompt di conseguenza. Gli strumenti post-generazione offerti da Sora come re-cut, remix, blend e loop possono essere utilizzati per perfezionare il risultato, mantenendo le parti buone e scartando il resto.
Considerazioni sul futuro di Sora
OpenAI è consapevole delle potenziali implicazioni negative della tecnologia. Lo stesso Sam Altman, fondatore e primo amministratore delegato di OpenAI, ha dichiarato di "non dormire la notte" pensando alle possibili conseguenze negative dell'IA. Non a caso, inizialmente Sora non è stata rilasciata immediatamente al pubblico, nemmeno in versione di prova, poiché OpenAI stava ancora lavorando su come proteggerla da eventuali problemi legati alla produzione di video falsi che potrebbero essere spacciati per autentici.
Per affrontare queste preoccupazioni, OpenAI sta collaborando con il consorzio C2pa, che include anche organizzazioni come la BBC e il New York Times, per sviluppare etichette che possano identificare i contenuti generati dall'IA, inserendo dati aggiuntivi che ne evidenzino la natura artificiale e bloccandone la diffusione online qualora vengano violate norme condivise.