AI POSLUŠAL LJUDSKE GLASOVE. POTEM JE USTVARILA NJIHOVA OBRAZA.

Send

Ste si kdaj ustvarili miselno podobo osebe, ki je še nikoli niste videli, temeljila zgolj na njihovem glasu? Umetna inteligenca (AI) lahko zdaj to stori in ustvari digitalno sliko obraza osebe z uporabo le kratkega zvočnega posnetka za referenco.

Poimenovano Speech2Face, nevronsko mrežo - računalnik, ki "razmišlja" na podoben način kot človeški možgani, so znanstveniki usposobili na milijonih izobraževalnih videov z interneta, ki so prikazali več kot 100.000 različnih ljudi.

Iz tega nabora podatkov se je Speech2Face naučil povezave med glasilkami in določenimi fizičnimi lastnostmi v človeškem obrazu, so raziskovalci zapisali v novi raziskavi. AI je nato uporabil zvočni posnetek za modeliranje fotorealističnega obraza, ki se ujema z glasom.

Ugotovitve so bile objavljene na spletu 23. maja v preprint jounral arXiv in niso bile recenzirane.

Na srečo AI še (ne) natančno ve, kako izgleda določen posameznik, ki temelji samo na njihovem glasu. Nevronska mreža je v govoru prepoznala določene označevalce, ki so kazali na spol, starost in narodnost, lastnosti, ki si jih delijo številni ljudje, so sporočili avtorji študije.

"Kot tak model bo ustvaril le povprečne videze," so zapisali znanstveniki. "Ne bo ustvaril podob določenih posameznikov."

AI je že pokazal, da lahko ustvari nenavadno natančne človeške obraze, čeprav so njegove interpretacije mačk odkrito nekoliko strašljive.

Obrazi, ki jih ustvari Speech2Face - vsi obrnjeni spredaj in z nevtralnimi izrazi - se niso natančno ujemali z ljudmi, ki stojijo za glasovi. V raziskavi so ponavadi zajeti ustrezni starostni razponi, narodnosti in spol posameznika.

Vendar interpretacije algoritma še zdaleč niso bile popolne. Speech2Face je pokazal "mešano delovanje", ko se sooča z jezikovnimi različicami. Na primer, ko je AI poslušal avdio posnetek azijskega moškega, ki govori kitajsko, je program ustvaril sliko azijskega obraza. Ko pa je isti moški govoril v angleščini v drugem zvočnem posnetku, je AI ustvaril obraz belca, so poročali znanstveniki.

Algoritem je pokazal tudi spolno pristranskost, pri čemer je povezal nizke glasove z moškimi in visokimi glasovi z ženskimi obrazi. In ker nabor podatkov o usposabljanju predstavlja samo izobraževalne video posnetke z YouTuba, "ne predstavlja enako celotne svetovne populacije", so zapisali raziskovalci.

Druga zaskrbljenost glede tega videoposnetka se je pojavila, ko je oseba, ki se je pojavila v videoposnetku YouTube, presenečena, ko je izvedela, da je bila njegova podobnost vključena v študijo, poroča Slate. Nick Sullivan, vodja kriptografije pri internetnem varnostnem podjetju Cloudflare v San Franciscu, je nepričakovano opazil obraz kot enega izmed primerov za treniranje Speech2Face (in katerega algoritem se je približno približal).

Sullivan ni privolil, da se bo pojavil v študiji, vendar se YouTube videoposnetki v tem naboru na splošno štejejo za dostopne raziskovalcem, ne da bi pridobili dodatna dovoljenja, poroča Slate.

Send