L'AI video ha smesso di improvvisare: con il nuovo modello Kling 3.0 arriva il multi-shot

Risoluzione e fotorealismo sono ormai uno standard. Il vero salto tecnico dell'AI video è la memoria temporale: come Higgsfield permette di dirigere un set virtuale

di Gabriele Arestivo - 20/02/2026 16:24

Fino a poco tempo fa, produrre un video con l'intelligenza artificiale generativa era un po' come tirare la leva di una slot machine. Inserivi un prompt testuale, lanciavi l'elaborazione e speravi che la statistica restituisse un risultato accettabile e, soprattutto, utilizzabile. Per fortuna (o purtroppo, dipende dai punti di vista), possiamo decretare la fine di questa prima fase sperimentale. L'integrazione del modello Kling 3.0 sull'infrastruttura di Higgsfield, piattaforma avanzata di generazione video basata su intelligenza artificiale (fondata dall'omonima startup che ha da poco raggiunto lo status di unicorno), dimostra come quest'ultima abbia smesso di generare clip casuali per diventare uno strumento di regia quasi prevedibile. Ma, soprattutto, governabile.

Oltre l'illusione della risoluzione

Il dibattito pubblico si è concentrato a lungo su nitidezza e fotorealismo dei contenuti prodotti dall'AI, parametri divenuti ormai una commodity, uno standard raggiunto da quasi tutti i sistemi sul mercato. Adesso il vero scarto tecnico si gioca su un altro piano, quello del passaggio al controllo spaziale e temporale, in quanto il limite storico della Gen AI video è sempre stato l'assenza di memoria.

Chiedere un campo largo e, subito dopo, un primo piano della stessa scena significava fino a poco fa ottenere due filmati slegati e talvolta poco coerenti: la geografia della stanza cambiava, la direzione della luce si ribaltava, i soggetti perdevano i loro connotati originari. Era l'era delle clip isolate, impossibili da cucire in una narrazione fluida.

La fine dell'amnesia algoritmica

Oggi, l'introduzione della logica multi-shot scardina esattamente questo ostacolo, partendo da una singola immagine di riferimento. Il sistema non si limita più a calcolare frame in sequenza per tentativi, ma mappa la geometria di un intero ambiente tridimensionale. Questo permette di elaborare veri e propri stacchi di montaggio all'interno dello stesso blocco di lavoro. La telecamera virtuale può ruotare, cambiare prospettiva o allargare il campo, ma l'algoritmo ricorda l'esatta posizione degli ingombri e memorizza i tratti somatici di chi sta inquadrando.

La fisica al posto del caso

Avere consapevolezza dello spazio significa arginare alla radice le classiche allucinazioni visive dell'AI. Fino a pochi mesi fa, al minimo movimento di macchina complesso, le anatomie si scioglievano e i materiali perdevano coerenza. Oggi il motore logico fissa invece i dettagli e asseconda i movimenti in modo naturale. L'algoritmo diventa così una macchina da presa governabile, capace di eseguire azioni articolate senza deformare la scena. E quando un set virtuale arriva a funzionare da solo, risolvendo i problemi di coerenza e raccordi, l'unica variabile che torna a pesare sul risultato finale è l'intenzione narrativa di chi lo dirige.