Futuro

L’AI di Microsoft è in grado di creare video a partire da fotografie e audio

Grazie all’intelligenza artificiale VASA-1, è stata generata una breve clip in cui la Gioconda canta un brano rap. Tuttavia, per ora la tecnologia non verrà resa disponibile sul mercato: l’azienda teme possa essere utilizzata per diffondere contenuti disinformativi
Tempo di lettura 2 min lettura
24 aprile 2024 Aggiornato alle 18:00

I ricercatori di Microsoft hanno sviluppato un nuovo modello di intelligenza artificiale in grado di unire immagini di volti con clip audio. Il risultato è stupefacente: l’AI crea automaticamente in pochi secondi un video in cui il protagonista è il volto scelto che riproduce la voce (e il discorso) della clip, con una perfetta sincronizzazione del movimento labiale e del suono, nonché un’estrema armonia nei movimenti e nelle espressioni facciali che sembrano davvero naturali. I video possono essere realizzati con volti sia “veri”, di persone reali, che con quelli dei cartoni animati e opere d’arte.

Microsoft ha dato una dimostrazione di questo nuovo prodotto con il rap eseguito dalla Gioconda di Leonardo Da Vinci grazie alla voce dell’attrice statunitense Anne Hathaway.

L’azienda produttrice, tuttavia, non nasconde i suoi timori per l’utilizzo improprio di VASA-1, per esempio con l’obiettivo di simulare la voce di una persona al telefono (deepfake). Ma, in generale, questa paura è molto diffusa nel mondo dell’AI, non solo da parte di Microsoft. Gli esperti del settore temono che l’uso improprio della tecnologia possa generare e alimentare la disinformazione.

Per questo motivo Microsoft ha dichiarato che per ora non rilascerà VASA-1 al pubblico. Una decisione simile è stata presa a febbraio da OpenAI nei confronti dell’AI Sora che, per ora, è disponibile solo per alcuni utenti e per condurre test.

In particolare, l’AI di Microsoft è progettata per riprodurre in maniera del tutto naturale i movimenti della testa, le espressioni del viso, il movimento delle labbra e delle palpebre, ma anche le emozioni provate dal soggetto. Nonostante ciò, VASA-1 può essere ancora migliorata, spiegano i ricercatori dell’azienda produttrice, che sono al lavoro per rendere ancora più precisi il movimento delle sopracciglia.

Inoltre, Microsoft suggerisce l’utilizzo di VASA-1 anche per la creazione di avatar realistici da impiegare in giochi o simulazioni.

Leggi anche
Tecnologia
di Elisa Lignoli 3 min lettura
AI
di Francesco Carrubba 3 min lettura