Hasta la vista, valóság! – Deepfake és AI

MI Stúdió S03 E04

  2021-02-09

Hallgass minket a YouTube-on!

Intro: Ez az MI Stúdió, ahol a legmenőbb szakértők segítségével fejtjük meg a mesterséges intelligencia rezdüléseit és követjük le a legújabb MI trendeket. Hörömpöli-Tóth Levente vagyok – tartsatok velünk!

„– You’ve been over, visited me.

– Yes.

 – I know your kid. Is this being passed on to…

– Yes, yes.

– Your children?

– Our two year old right now, I’ll say, „How old are you?” And she goes, „I’m four and half.” Which is, her older sister’s four and a half. And I go, „No, you’re not.” and then she grabs my face and goes ”FOUR AND A HALF.”

– That was also kind of a Schwarzenegger a little bit.

– „I’m four and a half, father.”

– „We gotta get out of here! Get out of here, there’s a bomb in there! Get out! Dad, come on, get out! We got to go! I need a pull-up on, now! We’re going to watch Peppa Pig, now!”

– I love Schwarzenegger as a baby, so much fun.

– „I wanna watch Doc McStuffins. And then I need my yoghurt. Come on! I threw up, I need Pedialyte!”

– That’s great. I can only think of him that way now.

–He’s little, this baby with his head, just runnung around.

– He’s gotta have the same head that has now but with a little baby’s body and a diaper.

– Yeah.

– But a cigar.

– Yeah, a cigar going...

– „Get in here, come on. Change this. We got to go.”

– „We got to go.”

– „We got to go. State of California.”

H-T. L.: – Hát igen mai epizódunkat rendhagyó módon egy bejátszással indítottuk, amelyik sokak számára lehet ugyebár ismerős a hangok alapján. Bizony, bizony ez az, amikor Bill Hader humorista Arnold Schwarzeneggert utánozza Conan O'Briennél, miközben a humorista – micsoda?! Már én is belekeveredtem – miközben az arca időről-időre átváltozik az osztrák származású színészé és hát mindez történik döbbenetesen élethű módon és ebből már azt gondolom, hogy egyértelmű, hogy az MI Stúdió 3. évadjának 4. epizódjában a Deepfake lesz a témánk és ezúton is köszöntünk minden kedves hallhatót. A vonalban pedig nagy szeretettel üdvözlöm mai vendégünket Gyires-Tóth Bálintot a BME oktató kutatóját, akivel ezt a hallatlanul izgalmas és egy kicsit valahol már-már ijesztőnek ható topikot fogjuk körbejárni. Nagyon köszönjük, hogy itt vagy velünk Bálint!

Gy-T. B.: – Köszönöm a meghívást, üdvözlök mindenkit!

H-T. L.: – Na hát nem tudom, hogy neked is bejött-e ez a Bill Hader-féle Schwarzenegger imitáció. Szakmai szemmel a tízes skálán mennyire volt ez így vállalható?

Gy-T. B.: – Hát ez szerintem egy tízes, de itt nem csak szakmai szempontból ugye itt Bill Hader is kell ehhez, hogy ennyire jó legyen.

H-T. L.: – Világos és hát megvallom, amikor először láttam ezt a videót nem hittem a szememnek mert annyira jól megvolt csinálva és tényleg azt gondolom, hogy most már-már klasszikussá vált ez a videó és hát talán éppen ezért ez egy nagyon jó kiindulási alap lehet számunkra, hogy egy kicsit megnézzük, hogy egyáltalán mi ez a deepfake, mi számít annak és hogy mi ez a mögöttes tech, mit kell erről tudni általában?

Gy-T. B.: – Igen a definíciója a deepfake-nek megmondom őszintén, hogy ha megnézném, vagy ha valaki ráguglizik akkor biztos van valami nagyon szigorú vagy viszonylag kötött definíciója, de én inkább abba mennék bele, hogy én mit gondolok erről, és akkor abból már mindenki gondolhat, tehát így össze tudja rakni, hogy mi az deepfake. Ugye maga egy angol szó fake a kamu a deep pedig mély. Itt a deep, ebbe a szóba, hogy deepfake én, mint deep learninggel foglalkozó oktató kutató én itt ezt mindig úgy gondoltam, hogy ez a deep learninghez kapcsolható a deepfake-nek az első része. Itt, hogy mire vonatkozik: eredetileg a deepfake-et legelőször talán videókra használták, ha jól tudom 2017-ben jelent meg talán a Synthesizing Obama című tudományos publikáció, amihez YouTube-on is találtok felvételeket. Arról szólt, hogy Obamának ugye a beszédei elérhetőek publikusan és sok-sok óra ilyen beszéddel betanítottak egy mesterséges intelligencia algoritmust, mély neuronháló alapú mesterséges intelligencia algoritmust, és utána az Obamának az arcára tetszőlegesen rá lehet húzni tetszőleges audiót, tehát mondjuk, ha egy másik videón valaki beszélt, akkor neki is az ajka úgy mozgott, ahogy. Tehát Obamának úgy mozgott az ajka, mit az eredeti videón. Ezt egyébként a lip syncnek is hívják, ugye ajak szinkronizáció, az audióhoz hozzá szinkronizálják vagy a két videónak az audiójához hozzá szinkronizálták Obamának az arcát. Ezen túl a deepfake-ben ma már én abszolút beleértem az audió fake-eket is, tehát amikor van nekünk egy célbeszélőnk és a célbeszélő hangját próbáljuk minél inkább élethűen visszaadni, illetve hát beszélnünk kell a deepfake esetén a szöveges forrásokról is tehát ez ugye a Fake News kategória. Ugye ismét két angol, szép angol szót kell összeraknunk, ugye a fake megint a kamu a news pedig a hírek, tehát a kamuhírek. Talán van olyan definíció is, hogy Deepfake News, bár ezt azért ritkábban lehet hallani. Itt mindegyik mögött, ami most újdonság a korábbiakhoz képest mert ugye az már régóta foglalkoztatja az embereket, hogy hogyan lehet kamu dolgokat csinálni, hogyan lehet mimikálni egy-egy embernek az arcát, a hangját, a stílusát, itt az újdonság a technológia, amivel ezt létre lehet hozni, és hogy ez a technológia iszonyatosan gyorsan fejlődik, tehát szinte Synthesizing Obamától ugye 2017-től kezdve három év alatt ez olyan szintre jutott el, hogy most már ipari szinten lehet csinálni ezeket a fake videókat. Például ezt a filmgyártásba használják is már.

H-T. L.: – Igen, nagyon sok dolgot érintettél így egyszerre és mindegyikre részletesen ki is fogunk térni, de most, hogy így említed az audiót, akár hallgassunk is meg néhány mintáját ennek egy bizonyos Boys Clone generátornak az előadásában:

„I am the best actor wrestler and a superstar.”

„I am the best businessman in the world.”

„I am the best bodybuilder.”

„Did you subscribe to the channel.”

– Na hát igen szerintem négyből kettőt biztosan mindenki felismert. Ugye az első kettőnél inkább a mondandó segített. Ugye The Rock és Elon Musk hangján szólalt meg ez a bizonyos Voice Clune generátor. Hát ugye Schwarzenegger és Trump pedig azt gondolom, önmagáért beszél. Mit kell ezekről tudunk, ezekről a megoldásokról, amikor a hangot veszik alapul, természetesen ejtsünk szót itt azokról a veszélyekről, amit ez a megoldás hordozhat magában.

Gy-T. B.: – Igen tehát kezdem az elejéről. Tehát a technika oldalról talán, hogyha onnan indítjuk el itt szerintem akkor gondoljuk át, hogyha valakinek a hangját akarjuk utánozni akkor mire van szükségünk. Ugye, igazából talán három dolog az, amit kiemelnék az egyik, hogy maga a szóhasználat tehát valami hasonló szavakat használjunk, ne nagyon elütőt ez ugye még az audiótól független. Tehát ez, hogy ha valaki akar egy ilyen kamu hangot generálni, akkor ugye leül és megírja. Másik kettő az már konkrétan a hanggal kapcsolatos ugye az egyik a hangszín ezt mi a technológiában spektrumnak is hívjuk, tehát a hangnak a spektruma vagy a spektrogramja. A másik pedig a hanglejtés, a szünetek ugye ezt hívjuk prozódiának, tehát maga az intonáció, mikor tartunk szünetet, akár olyanokra is kell gondolnunk, hogy mondjuk lélegzetvétel hogyha valakire nagyon jellemző. Tehát hogyha még a számítástechnikai algoritmusoktól, az MI algoritmusoktól eltekintünk, csak gondoljunk a humoristákra Bagi és Nacsára például akkor ugye ők is nagyon sokszor utánoznak közszereplőket. A hangszínük valószínűleg távolabb áll az adott közszereplőtől, de az intonáció és a mondandó, a szóhasználat alapján egy az egybe szinte száz százalékig fel lehet ismerni, hogy kire gondolnak. Az, hogy ezzel valakit átvernének, hogy az eredeti beszélőről van-e szó vagy nem, hát az már kétséges, de ugye, ha emellé hozzátesszük a hangszínt akkor ott már azért elég jó mimikát kapunk. Na most a mai technológiával, MI technológiákkal arra fele megy a világ, hogy ezt a hangszint meg a prozódiát azt minél inkább át tudjuk ültetni az egyik beszélőről egy célbeszélőre. Itt, amiben sok fejlődés volt az elmúlt években az ennek a minősége, illetve ahol jelenleg is tart a fejlődés az az, hogy mennyi felvételre van szükségünk és mennyire pontosan kell címkéznünk ezeket. A címkézés alatt azt értem, hogy mondjuk másod- vagy századmásodperc pontossággal megadjuk, hogy mi van éppen a hangfelvételen vagy pedig csak úgy bedobjuk a wav fájlt, amibe benne van a hang és akkor valamit kezd vele az algoritmus és utána kijön a célbeszélő hangja. Tehát az elmúlt években itt is nagy fejlődés történt, hogy egyre rövidebb felvételre van szükség ahhoz, hogy a célbeszélő hangján létrehozzunk új audiót.

H-T. L.: – Ez mégis mit jelent? Mit jelent ez az egyre rövidebb? Ugye ez egy nagyon érdekes téma, mert kíváncsi, nagyon kíváncsi az ember arra, hogy mennyi hanganyagnak kell rendelkezésre állnia ahhoz, hogy vagy reprodukáld a saját hangodat, vagy adott esetben ugye a nullából csinálj valami teljesen újat.

Gy-T. B.: – Igen tehát itt, amikor azt mondom, hogy egyre kevesebb hangra van szükség, akkor a célbeszélőre gondolok, hogy tőle egyre kevesebb hangra van szükség. E mögött nagyon nagy adatbázisok vannak jellemzően, tehát sok beszélőtől, hosszú felvételek. Itt, hogy mire kell gondolni: ezzel egyébként egy átlag hangot szoktunk létrehozni ezt így hívjuk, abba mondjuk benne van, több tíz vagy akár több száz beszélő is benne lehet és mondjuk beszélőként pár tíz perctől akár a pár órás felvételekig. Ez nyilván attól függ, hogy milyen nyelven vagyunk magyarból azért nehéz egy ekkora adatbázist összeszedni, angolból már azért nem lehetetlen hogyha mondjuk akár a YouTube-os felvételekre gondolunk. És tehát van egy ilyen nagy adatbázis a háttérben ebből létrehozunk egy ilyen átlag modellt, átlag hangot, amiben ugye magáról a beszédről, a nyelvről van nagyon sok információ kinyerve az MI modell segítségével és utána már veszünk a célbeszélőtől egy sokkal rövidebb felvételt, és akkor már csak erre a célbeszélő jellemzőire tudjuk húzni a hangot. Hogy ennek, milyen hosszúnak kell lenni az két dologtól függ, hogy jó legyen ez a fake. Az egyik az az, hogy hol szeretnénk visszajátszani tehát hol szeretnénk ezt a fake felvételt előadni a másik pedig az, hogy maga ez a hangkarakter ez milyen. Kicsit pár gondolatot mondanék erről. Tehát, hogy hol szeretnénk előadni; teljesen más a kritérium, hogy ha mondjuk egy zörgő telefonba kell visszajátszanunk, ugye egy ilyen hangfelvételt, ahol már alapból, sokkal kevesebb karakterisztika megy át a hangon mintha mondjuk egy nem tudom hi-end audió hifin kéne lejátszani és akkor ott kéne ezt visszaadni.

H-T: L.: – Tehát abban az esetben ez azért érdekes, mert hogyha valaki csak meg akar tréfálni egy másik embert, akkor telefonon, ha úgy tetszik, nem kell akkor annyira jó minőségű deepfake-kel dolgoznia és máris sikerült átverni ezt a bizonyos illetőt.

Gy-T. B.: – Igen pontosan vagy még akár zajt is kever mögé és akkor „jaj-jaj nagyon-nagyon zajos a vonal…”. A másik pedig az, hogy milyen a hangkarakter, tehát vannak úgymond, olyan hangok, amikkel könnyebb ezt elkészíteni vannak olyanok, akikkel nehezebb. A technológia mélyébe rejlenek azok az apróságok miért könnyebb vagy nehezebb egy-egy hanggal deepfake-ket csinálni, vagy miért könnyebb.

H-T. L.: – Említetted itt a jó oldalát is, mert ugye hajlamosak vagyunk mindig mindent csak a negatív oldalról megközelíteni főleg amikor ilyesmiről van szó. A filmipar, hogy tudja ezt használni adott esetben?

Gy-T. B.: –Ha a filmiparra gondolunk sok irány lehet. Ugye ott a filmiparnál ott alapvetően két dolog lehet érdekes. Az egyik az audió, a másik a videó deepfake vagy mindkettő egyszerre. Ugye például, ahol érdekes lehet az audió alapú deepfake vagy hát inkább mondjuk azt, hogy audió alapú kép szintetizáció vagy ajak szinkronizáció az ugye pont az ilyen szinkronnak az elkészítésénél. Nem vagyok mélyen benne a szinkronizálásnak a rejtelmeibe, de legjobb tudomásom szerint az egy eléggé nehéz és összetett folyamat mert ugye olyan hosszúságú szövegeket kell gyártani, körülbelül olyan jellegű szövegeket, amik ugye az eredeti nyelvnek az ajak mozgását visszaadják. Mondjuk, hogyha veszünk egy hollywoodi filmet akkor lehet, hogy tizennégy vagy tizennyolc vagy akár hány nyelven vagy még több nyelven. Na most itt hogyha ugye nincsen kötve a szinkronkészítő ahhoz, hogy mondjuk pontosan minden időzítés, minden szünet, ott legyen a szájmozgás, úgy történjen meg, akkor ez egy óriási könnyebbséget jelent, sokkal gyorsabban tudnak haladni, kevesebb lesz a költség.

H-T. L.: – Tehát akkor ezt úgy kell elképzelni – bocsi, hogy közbe vágok – ezt úgy kell elképzelni lehet, hogy később vagy lehet, hogy nemsokára olyan szinkronizált filmeket fognak adni, ahol effektíve magyar szájmozgással fog mondjuk Robert DeNiro beszélni egy amerikai filmben?

Gy-T. B.: – Abszolút tehát hogyha továbbmegy ez a technológia és – hogy mondjam – mainstreamé válik a szinkronstúdiókba, akkor jelenleg ennek én úgy hiszem, hogy nagyon nagy technikai akadálya nincsen. Hanem inkább az, hogy tényleg legyenek jó eszközök, amiket könnyű használni. Számítási kapacitásra is szükség van és jó szoftver megoldásokra, hogy a szinkronstúdióknak mondjuk ne forráskódokat kelljen fordítani, hanem simán levesznek a polcról egy szoftvert és azt használják egy az egyben. De abszolút én úgy hiszem, hogy a jövőben ez várható. Ugyanígy lehetséges az, hogy az arcokra ráhúznak más arcokat, tehát például hogyha animációkra gondolunk, akkor ott ez egyértelműen adja magát, hogy mondjuk egy emberi mimikát ráhúzunk egy animált arcra. Vagy például hogyha sajnos hallottunk már olyat, hogy forgatás közben elhunyt valamelyik színész és ott vagyunk egy felvétel közepén, hogy mit tehetünk hát olyankor is azért nagy segítség lehet, hogy egy másik színész végig játssza és akkor lehet, hogy nem százszázalékos, de hogyha kilencvenöt százalékos és megjelenik a film és le tud menni a mozikba azért még mindig egy sokkal sikeresebb dolog, minthogy lefújni az egész filmet vagy újrakezdeni.

H-T. L: – És akkor ejtsünk szót esetleg erről a bizonyos shallowfake-ről a múltkor olvastam erről valamit és ez ugye, ha jól tudom, akkor a deepfake egyik alkategóriája és van egy nagyon tipikus példa Nancy Pelosival és amikor úgy elsőre láttam akkor simán elhittem, hogy az az eredeti felvétel. Hallgassuk is meg, hogy miről beszélünk.

„Here’s the real video of press conference of Nancy Pelosi. (NP normálisan beszélve): and then he had a press conference in the rose garden, with all this sort of visuals

And now the doctored video in which she appears to be impaired. (NP dadogva: and then he had a press conference in the rose garden, with all this sort of visuals). that clip received more than two and a half million views on Facebook.

– Hát igen azt gondolom, hogy első hallásra is egyértelmű a különbség, de vajon mit kellene erről tudunk akkor mi is ez a shallowfake, mi van e mögött és mennyire elterjedt?

Gy-T. B.: – Megint hogyha ketté vesszük ezt a szót, ugye van a fake, a kamu shallow az pedig mintegy sekély, itt ennek nincsen olyan MI vonatkozása, mint a deep esetén. Itt a shallow az arra vonatkozik, hogy e mögött technológiailag nincsenek mély dolgok, hanem általában ezeket akár egy ilyen képszerkesztő vagy hang szerkesztő szoftverrel összevágják, kicsit módosítják itt például ugye lelassították, meg kicsit torzították a hangot és ezáltal keltenek egy olyan benyomást minthogyha valami másmilyen lenne, mint az eredetibe. Még az is lehet, hogy semmit nem módosítanak csak egy adott hírt egy más kontextusba mondjuk pár évvel később játszanak le ismét.

H-T. L.: – Szuper még visszakanyarodnék így a deepfake-hez, most akkor hagyjuk itt ezeket a shallow dolgokat. Próbálom elképzelni, hogy akkor gyakorlatilag arról beszélünk, hogy van egy bizonyos mennyiségű videó vagy ugye audió anyag, és akkor ehhez kapcsolódó adatokat táplálják be vagy ezekre eresztik rá gyakorlatilag a neurálishálókat, és akkor ők rakják össze kvázi automatikusan ezt az újonnan létrejövő terméket? Vagy hogy kell ezt elképzelni?

Gy-T. B.: – Igen, tehát, hogy ugye itt is megint válasszuk ketté, vagy most csak hagyatkozzunk a videóra meg az audióra a szöveget azt talán válasszuk egy kicsit külön, az egy másik külön podcast adásnak lehetne a témája, egyébként hasonlóak a megfontolások. Videó és egyébként mindhárom esetben ugye kellenek nekünk nagy adatbázisok ez a nagy adatbázis ezek nagyon-nagy adatbázisok. Ezek az algoritmusok tényleg akkor működnek, tehát megfigyelhető, hogy minél több adattal hajtjuk meg, annál jobbak lesznek. Itt a videó esetén arra kell gondolni, hogy az MI algoritmusok, a mély neurális hálózatok, azok a sok-sok felvétel alapján az arcról egy háromdimenziós modellt képesek építeni, tehát ahogy az ember egy ugye a videón beszél kétdimenziót lát a modell, de összerakja, hogy néz ki az arca. A szem az beljebb van, az orr az kijön, hogyha oldalra fordulok akkor ugye, hogy néz ki az arcom, a füleim, hogy mozognak, haj és így tovább és ugye nem csak egy emberről, hanem nagyon sok emberről van ilyen felvétel, tehát egy nagyon összetett és komplex háromdimenziós modellt épít az arcról, a szájról is, hogy hogyan mozog, és akkor ezt hozzák össze az audióval. Úgy, hogy van nekünk egy audió felvételünk a videókhoz és akkor meg van az, hogy milyen hang hangzik el, akkor hogyan mozog aszály. És ezáltal lesz nekünk egy ilyen összetett, komplex modellünk és utána, amikor megvan a célbeszélő, tehát ugye van egy célbeszélő, akire pedig egy audiót, illetve akár egy videót is rá akarunk húzni, akkor azt illeszti a célbeszélőnek az arcára és itt már a célbeszélőtől nem feltétlen kell sok felvétel van, hogy elég egy kép és akkor azt kezdi el, animálni. Nyilván minél több anyagunk van a célbeszélőtől annál jobb lesz a minősége, hiszen annál jobban tudja ezeket a pontokat megfeleltetni. Ezt manuálisan is meg lehetne csinálni, csak ugye azt, amit mondjuk egy szakember, aki több tíz éve dolgozik a szakmába akár napok alatt csinálná meg itt az algoritmus ezt megcsinálja nekünk percek alatt.

H-T. L.: – És akkor itt és most elvágjuk a beszélgetés fonalát, aki viszont ismét felvenné és még több részletre kíváncsi az hallgassa meg a folytatást, amely bónusz epizódként csak és kizárólag közvetlenül YouTube-csatornánkon, illetve podcastunk hivatalos otthonában az AI-Hungary.com oldalon lesz elérhető. Még több deepfake tehát a technológia előnyeiről a bónusz epizódban, ahonnan az is kiderül, hogy vendégünk szerint mi a deepfake bevetésének a legrosszabb forgatókönyve és azt is megtudhatjuk, hogy mit hoztak ki az angol kollégák II. Erzsébet azaz, Elizabeth angol királynő karácsonyi üzenetéből. Innen és most búcsúzunk tehát találkozunk legközelebb és vagy a bónusz epizódban. Sziasztok!

Outro: Ez volt az MI Stúdió, ahol a legmenőbb szakértők segítségével fejtjük meg a mesterséges intelligencia rezdüléseit az MI Stúdió az MI Koalíció podcastja, amely a hazai mesterséges intelligencia ökoszisztéma szakmai fórumaként működik. Még több tartalomért kövesd az MI Stúdiót a nagyobb podcast platformokon és ne felejtsd el értékelni az adást. Az észrevételeket, megjegyzéseket az [email protected] e-mail címre vagy a Mesterséges Intelligencia Koalíció közösségi médiafelületein várjuk. Találkozunk a következő epizódban.

Podcastunkat a SpeechTex technológiájával leiratozzuk.

Hallgass minket Spotify-on!

Hallgass minket Anchor-on!

Házigazda

Hörömpöli-Tóth Levente

MI Koalíció kommunikációs vezető

Vendége

Gyires-Tóth Bálint

A BME kutatója