亚洲AV无码国产一区二区三区,久久久国产精品免费a片分环卫,少妇xxxxx性开放,国产精品videossex久久发布

當(dāng)前位置:首頁 > 最新資訊 > 行業(yè)資訊

為什么我們會(huì)覺得AI換臉很“假”?

《星球大戰(zhàn)》的衍生劇《波巴·費(fèi)特之書》中有一集引發(fā)了粉絲們激烈的討論。原因是,年輕版Mark Hamill由工業(yè)光魔公司雇傭deepfakes從業(yè)者Shamook制作而成。

盡管AI換臉方法在2020年CGI技術(shù)的基礎(chǔ)上有很大進(jìn)步,而且總體上符合當(dāng)前AI換臉的上佳視覺標(biāo)準(zhǔn),但部分粉絲認(rèn)為,《星球大戰(zhàn)》中“Young Luke Skywalker”的新造型與前一部相比有一定缺陷。

例如最明顯的問題是,在以Skywalker為主角的長鏡頭中人物缺乏表現(xiàn)力和細(xì)膩真切的情感,這是運(yùn)用AI換臉的典型結(jié)果,比CGI特效更明顯。The Verge網(wǎng)站認(rèn)為,Boba Fett的AI換臉結(jié)果像“1983年Mark Hamill那張神秘且毫無表情的冰塊臉”。

但不管工業(yè)光魔公司背后到底運(yùn)用的是什么技術(shù),AI換臉現(xiàn)階段存在著難以傳達(dá)細(xì)膩情感的根本性問題。

無論是通過改變架構(gòu)還是改進(jìn)原始訓(xùn)練素材,都很難解決這個(gè)問題。

不過viral deepfakers方法在選擇目標(biāo)視頻時(shí)通常會(huì)更加謹(jǐn)慎,從而可以規(guī)避這一問題。

面部對(duì)齊的局限性

比較常用的兩個(gè)AI換臉開源代碼庫是DeepFaceLab(DFL)和FaceSwap,它們都脫胎于2017年。DFL盡管功能有限,但在視覺特效(VFX)行業(yè)擁有巨大的領(lǐng)先優(yōu)勢(shì)。

這些代碼的最初任務(wù)是從原始素材(即視頻幀或靜態(tài)圖像)中提取人臉特征點(diǎn)。

正在運(yùn)行的面部定位網(wǎng)絡(luò)(FAN)

DFL和FaceSwap都運(yùn)用了面部定位網(wǎng)絡(luò)(FAN),F(xiàn)AN可以為提取出來的人臉創(chuàng)建2D和3D特征點(diǎn)(如上圖所示)。3D特征點(diǎn)可以廣泛感知人臉的方向,包括側(cè)面的輪廓和比較尖銳的角度。

下面是一種非常基本的評(píng)估像素準(zhǔn)則:

來自FaceSwap的面部輪廓的粗略標(biāo)準(zhǔn)

該標(biāo)準(zhǔn)需要考慮面部最基本的線條:例如眼睛和下巴可以擴(kuò)大和縮小,嘴巴的基本形狀(如微笑、皺眉等)也可以被追蹤和調(diào)整。從相機(jī)的角度來看,面部可以向任意方向旋轉(zhuǎn)200度左右。

而這些粗糙的像素邊界位置,是整個(gè)AI換臉過程中唯一精確的面部準(zhǔn)則。訓(xùn)練時(shí)也只是與對(duì)應(yīng)像素或周圍像素進(jìn)行比較,然后選擇對(duì)應(yīng)的處理方法。

DeepFaceLab中的訓(xùn)練示例

由于沒有面部子區(qū)域的拓?fù)浣Y(jié)構(gòu)(包括臉頰的凹凸度、年齡細(xì)節(jié)、酒窩信息等),所以想嘗試在匹配原始人物(你想改變的臉)和目標(biāo)人物(你想復(fù)制的臉)中保持“細(xì)膩”的特征是不太可能的。

利用有限的數(shù)據(jù)

訓(xùn)練AI換臉模型需要獲取兩個(gè)人物之間的匹配數(shù)據(jù),但這并不容易。需要匹配的角度越特殊,你就越有可能在人物A和人物B之間的(特殊角度)匹配上做出妥協(xié):保持相同的表情。

人臉數(shù)據(jù)并不完全匹配。

如上圖所示,這兩個(gè)人物的面部結(jié)構(gòu)非常相似,但仍不能達(dá)到完全匹配,而這已經(jīng)是數(shù)據(jù)集中匹配度最高的結(jié)果了。

不過上圖中依然存在明顯的差異:角度、鏡頭和燈光沒有完全匹配;人物A(左圖)沒有像人物B(右圖)一樣完全閉上眼睛;人物A的圖像質(zhì)量和壓縮率更差;人物B看起來比A更快樂。

雖然有以上種種差異,但我們只能依靠這些已有素材對(duì)AI換臉模型進(jìn)行訓(xùn)練。

因?yàn)槌霈F(xiàn)A與B完全匹配的情況很少,同樣訓(xùn)練集中也很少有類似的匹配。因此訓(xùn)練常常會(huì)發(fā)生欠擬合和過擬合現(xiàn)象。

欠擬合:如果某些特殊角度的匹配數(shù)據(jù)較少(即數(shù)據(jù)集中數(shù)據(jù)量比較大,但該角度的匹配圖像對(duì)較少),那它與更“簡單普遍”的匹配數(shù)據(jù)相比將不會(huì)得到有效訓(xùn)練。因此,AI換臉模型就不能對(duì)這個(gè)特殊的角度或表情進(jìn)行很好地表達(dá)。

過擬合:由于缺乏足夠的匹配數(shù)據(jù),AI換臉模型有時(shí)會(huì)復(fù)制多次數(shù)據(jù)集中的匹配數(shù)據(jù),以便在最終模型中獲得更好的結(jié)果。但這可能會(huì)導(dǎo)致過擬合,用這種模型制作的AI換臉視頻很可能會(huì)對(duì)兩張照片的不匹配之處進(jìn)行復(fù)制,例如眼睛的閉合程度。

如下圖所示,是用DeepFaceLab開源方法將弗拉基米爾普京(Vladimir Putin)訓(xùn)練為凱文史派西(Kevin Spacey)的樣子,進(jìn)行了16萬次迭代訓(xùn)練。

大部分人看到上面的圖片后,可能認(rèn)為Putin在這些換臉測(cè)試中的結(jié)果比Spacey更具空間感。下面我們介紹一下在線表情識(shí)別程序是如何處理表情不匹配問題的:

根據(jù)這個(gè)比DFL和Faceswap更詳細(xì)的面部特征分析,我們發(fā)現(xiàn)Spacey的換臉結(jié)果中很少有Putin那樣的憤怒、厭惡和輕蔑的表情。

這些不同的表情分類是entangled包中的一部分,因?yàn)槌S玫腁I換臉應(yīng)用程序沒有匹配表情或情緒的能力。

對(duì)我們來說,這些表情間差異很大。我們很小的時(shí)候就將閱讀面部表情作為一種基本的生存技巧,并在成年后繼續(xù)依賴這種技巧來與社會(huì)融合、實(shí)現(xiàn)進(jìn)步以及交配,并將其作為一種持續(xù)的威脅評(píng)估方法。所以我們對(duì)微表情非常敏感,所以AI換臉技術(shù)終需對(duì)微表情表達(dá)進(jìn)行處理。

事與愿違

雖然AI換臉技術(shù)革命帶來了在現(xiàn)代電影和電視中插入“經(jīng)典”電影明星的可能性,但人工智能無法以更兼容的定義和質(zhì)量來拍攝之前的經(jīng)典作品,而這對(duì)用戶來說也很重要。

假設(shè)重現(xiàn)Boba Fett中的Hamill形象就需要一個(gè)訓(xùn)練好的AI換臉模型,那么就需要利用Hamill在制作《絕地歸來》時(shí),30歲出頭樣子附近的片段作為訓(xùn)練數(shù)據(jù)。

這部影片采用伊士曼彩色負(fù)片250T 5293/7293膠片拍攝,當(dāng)時(shí)被認(rèn)為較好的中等偏細(xì)顆粒度的250ASA乳劑,在80年代末就已經(jīng)從清晰度、顏色范圍和保真度等方面被超過。在當(dāng)時(shí)的經(jīng)典之作《絕地歸來》中,甚至連主角的特寫鏡頭都沒有,這使得圖片顆粒度問題更加重要。

Hamill在《絕地歸來》(1983)中的一些鏡頭。

此外,我們通常會(huì)對(duì)以Hamill為主角的視覺特效鏡頭通過光學(xué)打印機(jī)處理,來增加膠片的顆粒度。盧卡斯影業(yè)也已經(jīng)通過在檔案館中處理保存原始底片和幾個(gè)小時(shí)未運(yùn)用的原始鏡頭,解決了顆粒度問題。

同時(shí)為了豐富和多樣化AI換臉數(shù)據(jù)集,我們通常會(huì)搜尋演員一個(gè)時(shí)間段內(nèi)的所有作品。而Hamill在1977年經(jīng)歷車禍后外貌有所變化,并且在參演完《絕地歸來》后幾乎立即開始了他作為著名配音演員的第二職業(yè),這就導(dǎo)致其數(shù)據(jù)素材過少,無法得到性能較好的AI換臉模型。

表情范圍是否有限制

如果你想要AI換臉模型完成演員的夸張表情,那你需要廣泛收集這些不常見面部表情的原始鏡頭。但很有可能在與年齡相匹配的鏡頭中不包含這種夸張表情。

例如,當(dāng)《絕地歸來》開始主線劇情時(shí),Hamill已經(jīng)可以基本掌握自己的情緒了。如果這時(shí)你想用《絕地歸來》的數(shù)據(jù)訓(xùn)練一個(gè)Hamill的AI換臉模型,你就需要一些限定范圍內(nèi)的情緒數(shù)據(jù)和不常見的面部表情,而不是他出演的那些早期作品。

你可能認(rèn)為在《絕地歸來》中Skywalker遇到巨大壓力時(shí),會(huì)提供比較夸張、有效的表情素材。但實(shí)際上這些場景中的臉部表情素材轉(zhuǎn)瞬即逝,并且還受動(dòng)作場面的運(yùn)動(dòng)模糊和快速剪輯的影響,導(dǎo)致素材無法得到有效運(yùn)用。

概括:表情的融合

如果真的用AI換臉模型完成Boba Fett中Skywalker角色,那么他只能表現(xiàn)有限的表情范圍,這不只是因?yàn)樵妓夭牡娜鄙佟I換臉模型在編碼器-解碼器訓(xùn)練過程中尋求一種通用模型,該模型能夠從成千上萬幅圖像中成功提取重要特征,并嘗試獲得AI換臉數(shù)據(jù)集中沒有或少見的面部角度。

如果AI換臉模型不具備這種靈活性,那它只能在每幀畫面的基礎(chǔ)上進(jìn)行復(fù)制和粘貼,無法考慮時(shí)間上的連續(xù)性或背景信息。

而且該技術(shù)的發(fā)展可能會(huì)犧牲表情的真實(shí)性,任何“細(xì)膩”的表情都有可能不是真實(shí)的。我們的臉像100個(gè)設(shè)備精良的管弦樂隊(duì)一樣配合演奏,而AI換臉軟件至少缺少了里面的弦樂部分。

情緒的表達(dá)差異

并不是所有的面部動(dòng)作及其對(duì)我們的影響都是統(tǒng)一的,例如在羅杰·摩爾身上看起來漫不經(jīng)心的挑眉動(dòng)作,在賽斯·羅根身上就顯得不太老練。如果將瑪麗蓮·夢(mèng)露的迷人魅力,利用AI換臉模型強(qiáng)加到一個(gè)充滿“憤怒”和“不滿”情緒的角色(例如Aubrey Plaza在Parks and Recreation第七季中扮演的角色)上時(shí),就會(huì)傳達(dá)出消極情緒。

因此,在A、B人臉數(shù)據(jù)之間的相同像素并不一定對(duì)模型表達(dá)相同的情緒起作用,但這是訓(xùn)練先進(jìn)的AI換臉開源模型的前提。

我們期望的AI換臉模型,不僅能夠識(shí)別表情并推斷情緒,而且能夠表現(xiàn)諸如憤怒、迷人、無聊、疲憊等高層次概念,并將這些情緒及相關(guān)表情在兩個(gè)身份中進(jìn)行不同表達(dá),而不是單純?cè)谧彀突蜓劬Φ奈恢蒙线M(jìn)行復(fù)制。

猜你喜歡