Un exemplu de imagine de la Microsoft pentru

Mărește / Un exemplu de imagine de la Microsoft pentru „VASA-1: Fețe vorbitoare realiste, conduse de audio, generate în timp real”. (credit: Microsoft)

Marți, Microsoft Research Asia a dezvăluit VASA-1, un model AI care poate crea un videoclip animat sincronizat al unei persoane care vorbește sau cântă dintr-o singură fotografie și o pistă audio existentă. În viitor, ar putea alimenta avatarele virtuale care se redau local și nu necesită fluxuri video sau să permită oricui cu instrumente similare să facă o fotografie a unei persoane găsite online și să pară să spună orice dorește.

„Pregătește calea pentru interacțiuni în timp real cu avataruri realiste care emulează comportamentele conversaționale umane”, se arată în rezumatul lucrare de cercetare însoțitoare intitulat, „VASA-1: Fețe vorbitoare realiste generate de audio generate în timp real Este opera lui Sicheng Xu, Guojun Chen, Yu-Xiao Guo, Jiaolong Yang, Chong Li, Zhenyu Zang, Yizhong Zhang, Xin Tong și”. Baining Guo.

Cadrul VASA (prescurtare de la „Visual Affective Skills Animator”) folosește învățarea automată pentru a analiza o imagine statică împreună cu un clip audio de vorbire. Apoi este capabil să genereze un videoclip realist cu expresii faciale precise, mișcări ale capului și sincronizare a buzelor cu sunetul. Nu clonează sau simulează voci (cum ar fi alte cercetări Microsoft) dar se bazează pe o intrare audio existentă care ar putea fi înregistrată sau rostită special pentru un anumit scop.

Citiți 11 paragrafe rămase | Comentarii

×