陽雪 楊博
摘 要:近年來人工智能發(fā)展非常迅速,有不少人工智能領域的科研成果成功“出圈”,走進大眾視野。其中一項人臉生成技術令全世界感到震驚,因為僅靠人的眼睛已經(jīng)無法明顯區(qū)分由該技術生成的照片與真實照片之間的差異。在驚訝之余也有不少人希望了解這項技術具體是如何實現(xiàn)的,對此,本文將作簡要分析。
關鍵詞:人工智能;人工神經(jīng)網(wǎng)絡;StyleGAN
2019年初,網(wǎng)站“這個人不存在”一經(jīng)發(fā)布便火遍全網(wǎng)。每次進入網(wǎng)站,頁面會展示一張面帶微笑的人臉照片。但神奇的是,圖片上看起來如此逼真的人臉,其實并不存在于這個世界。這些人臉是AI,即人工智能生成的。網(wǎng)站的創(chuàng)建者Philip Wang在社交網(wǎng)站上表明,他希望通過這種方式提高大眾對一項最新研究成果StyleGAN的認知。StyleGAN是NVIDIA于2018年發(fā)布的新項目,歸屬于人工智能領域的人工神經(jīng)網(wǎng)絡范疇。對于這項技術具體是怎么實現(xiàn)的,應該從源頭講起。
一、人工神經(jīng)網(wǎng)絡
當前的人工智能分為三個學派。一是符號主義,符號主義認為人工智能起源于數(shù)學領域。二是連接主義,原理是模擬大腦的神經(jīng)網(wǎng)絡結構。三是行為主義,主要原理是控制加感知,通過模擬生物的行為來實現(xiàn)人工智能。
而我們要說的人工神經(jīng)網(wǎng)絡則歸屬于連接主義。它類似大腦,由特定結構的神經(jīng)元及連接方法構成。為了模擬神經(jīng)元之間信息的傳遞,每個基本處理單元都被合適的變換函數(shù)控制其狀態(tài)。網(wǎng)絡包含多個層次,這些層被歸類為三個種類,即輸入層,隱藏層,輸出層。
由于人工智神經(jīng)網(wǎng)絡具有運算速度高,適應性強,容錯力強和自組織的優(yōu)良特性,使得深度學習這個新的研究方向誕生。相比人工神經(jīng)網(wǎng)絡,深度學習算法強調的是網(wǎng)絡結構的深度。目前經(jīng)典的深度學習模型包括自動編碼器神經(jīng)網(wǎng)絡,深度信任神經(jīng)網(wǎng)絡和卷積神經(jīng)網(wǎng)絡等。卷積神經(jīng)網(wǎng)絡可以算是人工智能在圖像識別應用領域最主流的算法之一,在大數(shù)據(jù)的支持下,卷積神經(jīng)網(wǎng)絡可以對大批圖像進行準確分類。
二、StyleGAN
(一)StyleGAN的基本模型
StyleGAN是基于生成對抗網(wǎng)絡研發(fā)的。生成對抗網(wǎng)絡是無指導的卷積神經(jīng)網(wǎng)絡中最具前景的方法之一。它是lanJ.Goodfellow等人在2014年提出的通過對抗過程預計生成模型的新型框架。對抗過程即為GANS的核心,由生成模型和判別模型組成。生成模型,指在給出的樣本上,使用某個模型來生成新的數(shù)據(jù)。判別模型則有一個判斷標準,或者說判斷界限,通過這個界限去區(qū)分樣本。簡單來說,GANs中生成模型用于盡可能地創(chuàng)造一張在人類角度看來是真實的圖片,而判斷模型的任務是區(qū)分真實和偽造的圖片。通過不斷博弈,若生成模型成功“欺騙”了判別模型,那么我們的目的就達到了。
單從原理上講,生成對抗網(wǎng)絡的生成模型和判別模型并沒有什么限制,我們可以使用任何生成模型和判別模型去實現(xiàn),生成對抗網(wǎng)絡主要是提供了一種框架。正因為如此,生成對抗網(wǎng)絡目前已衍生出上百種模型,在這些模型的基礎上,又產(chǎn)生了許多變種,使得其功能更完善,網(wǎng)絡結構更穩(wěn)定。
(二)StyleGAN的前身
作為GANs的衍生種類,ProGAN希望生成的圖像有超高的分辨率。若要達此目的,GANs的網(wǎng)絡結構會非常多,從而造成訓練這樣一個網(wǎng)絡既困難又費時。為了解決這一阻礙,ProGAN的思路是,最初訓練的時候,使網(wǎng)絡的層數(shù)較少,這樣我們非常容易就能生成圖片,但圖片的分辨率自然會很低。在訓練過程中,逐步加深網(wǎng)絡層數(shù),隨著訓練次數(shù)的增加,生成的圖片也會越來越高清,最終甚至能生成1024*1024分辨率的圖片。通過這樣的方法,ProGAN的學習速度比傳統(tǒng)的GANs高出2到6倍。
由于ProGAN每次增加層數(shù)時,開發(fā)者沒有對其增加控制,而是完全由模型直接生成。我們無法得知在此過程中模型具體學習到了什么。訓練時,樣本規(guī)模大,特征量多,且特征之間是互相關聯(lián)的,因此ProGAN控制生成具有特定特征圖像的能力非常有限。
(三)StyleGAN的改進
若我們希望網(wǎng)絡能生成我們具體想要的圖片,就需要對圖片生成過程中網(wǎng)絡學習到的特征加以控制。StyleGAN便是在此基礎上做了進一步的改進。那么,StyleGAN具體做了什么呢?
StyleGAN發(fā)現(xiàn),如果使用較好的方法,是可以實現(xiàn)特征的控制的。由于層數(shù)的不同生成圖片的分辨率也不同,其中的特征也伴隨分別率的從低到高由粗糙到高品質,若以此分類,可以將這些特征分為三個種類。最低等的粗糙特征主要是人物姿勢,發(fā)型輪廓和面部表情等;中等的特征則是五官的形狀,發(fā)型等;而高品質的特征則是五官的細微特征等。
首先,為了減少特征之間的關聯(lián)性,增加映射網(wǎng)絡,將輸入向量重新編碼為中間向量,通過中間向量的屬性來控制特征,輸入變量用常量值代替。然后通過自適應實例標準化模塊將中間向量傳輸?shù)缴傻膱D像中。為了使生成的圖像不失隨機性,StyleGAN還將如雀斑,痣,法令紋等更細微的特征作為隨機噪聲添加到輸入向量中。另外,StyleGAN還使用了樣式混合,截取中間向量和微調網(wǎng)絡的超參數(shù)等技巧使生成的圖像更逼真。
三、總結
目前這類人臉生成網(wǎng)站功能愈加完善,從最初只能生成歐美的成人面部,到現(xiàn)在衍生出“高顏值”生成,“動漫人臉”生成和“亞洲人”生成等類型,甚至可以定制生成的圖片。NVIDIA官方已經(jīng)將StyleGAN的代碼開源,感興趣的朋友可以在官方網(wǎng)站下載,并在Linux及Windows上運行。對于該技術,有少數(shù)人表達了他們的焦慮,如今人工智能生成的圖片足夠以假亂真了,怎么避免有不懷好意的人用此技術做些違法犯罪的事情?好在目前已有學者在研究深度判別偽造圖片的技術,同時我相信政府也會出臺相應政策規(guī)范此類技術的發(fā)展。
參考文獻
[1]蔡自興等著.人工智能及其應用[M].北京:清華大學出版社.2016.
[2]陳先昌.基于卷積神經(jīng)網(wǎng)絡的深度學習算法與應用研究[D].浙江工商大學,2014.
[3]王坤峰,茍超,段艷杰,林懿倫,鄭心湖,王飛躍.生成式對抗網(wǎng)絡GAN的研究進展與展望[J].自動化學報,2017,43(03):321-332.
作者簡介
陽雪(1998—),女,漢族,四川廣安,本科,研究方向:計算機。
楊博(1999—),男,漢族,四川廣元,本科,研究方向:計算機。