Élethű deepfake videókra képes egyetlen képpel és hangsávval a VASA-1
A Microsoft Research Asia nemrégiben bemutatta a VASA-1-et, egy olyan mesterséges intelligenciamodellt, amely lenyűgöző deepfake képességei miatt nagy port kavart a technológiai világban.
A modell egyetlen fénykép és egy meglévő hangsáv felhasználásával képes szinkronizált animált videókat készíteni beszélgető vagy akár éneklő emberekről. Az ehhez hasonló technológiák forradalmasíthatják a virtuális teret, azonban számos veszélyt is rejthetnek.
Élethű deepfake videók egyetlen képpel és hangsávval
A Microsoft bemutatta az új mesterséges intelligenciával működő VASA-1 projektjét, amely egyetlen képből valós időben képes hiperrealisztikus deepfake videókat létrehozni. A technológia képes a virtuális avatárok működtetésére, így nincs szükség élő videóközvetítésre. Emellett lehetőséget teremt a virtuális élmények javítására, a virtuális asszisztensektől és az ügyfélszolgálati avatároktól kezdve a virtuális tantermeken át a szórakoztató platformokig.
A VASA (Visual Affective Skills Animator) gépi tanulást használ egy statikus kép és egy beszédhangklip elemzéséhez. Ezután képes egy valósághű videót generálni, pontos arckifejezésekkel, fejmozgásokkal és a hangra szinkronizált ajkakkal. Nem klónozza vagy szimulálja a hangokat, mint a Microsoft más kutatásai, hanem egy meglévő hangbemenetre támaszkodik.
Microsoft Research released a framework for generating lifelike talking faces of virtual characters. The premiere model, VASA-1, can produce lip movements that are exquisitely synchronized with the audio & capture a large spectrum of facial nuances & natural head motions that… pic.twitter.com/eLcnreLSCL
— Antonio Vieira Santos (@AkwyZ) April 18, 2024
A Microsoft állítása szerint a modell jelentősen felülmúlja a korábbi beszédanimációs módszereket a realizmus, a kifejezőerő és a hatékonyság tekintetében. Mindez valóban előrelépésnek tűnik a korábbi egyképes animációs modellekhez képest.
A modell bemutatására a Microsoft létrehozott egy VASA-1 kutatási oldalt, ahol számos, a módszerrel generált videót is láthatunk. Például előre felvett hangsávokkal szinkronban éneklő és beszélő embereket, animált modelleket. Ahogy azt az alábbi videó mutatja, a példák között szerepel néhány fantáziadúsabb ötlet is. Láthatjuk rappelni Mona Lisa-t az eredetileg Anne Hathaway által énekel hangsávra.
Forrás: Microsoft.com
A Microsoft kutatói az Oxfordi Egyetem három kutatója által 2018-ban létrehozott VoxCeleb2 adatokat használták a program fejlesztésére. Az adatkészlet több mint 1 millió kijelentést tartalmaz 6112 hírességtől. A VASA-1 állítólag 512×512 pixeles felbontású videókat képes létrehozni 40 képkocka/másodperc sebességgel és minimális késleltetéssel.
Rengeteg veszélyt rejthet
A lehetséges előnyök mellett azonban a visszaélésekkel és etikai következményekkel kapcsolatos aggályok is felmerülnek. A képesség, hogy egyetlen fényképből és hangsávból valósághű videókat lehet készíteni, felveti a magánélet védelmével, a megszemélyesítéssel és a félretájékoztatással kapcsolatos kérdéseket.
A kutatók kifejtették, hogy tisztában vannak az aggodalmakkal és elleneznek minden káros használati magatartást, ezért nem hozták nyilvánosságra a programot működtető kódokat. Valamint pontosították, hogy ők az interaktív karakterek vizuális affektív készségeinek létrehozására összpontosítanak, nem pedig a megszemélyesítésre.
A következő generációs deepfake eljövetele szinte elkerülhetetlen. A mesterséges intelligencia technológiája folyamatosan javul, amiből a vállalkozások és az olyan ágazatok, mint az oktatás és az egészségügy sokat profitálnak. Azonban ennek velejárója, hogy egyre nehezebb lesz felismerni a hamis személyeket és a csalásokat. Bár a különbségek még odafigyeléssel észrevehetőek, számos olyan esetet találhatunk, amikor a kiberbűnözők deepfake videókat használtak a megtévesztésre és profitszerzésre.