2022年4月的時候,OpenAI曾展示了它新的圖像生成神經(jīng)網(wǎng)絡DALL-E2,它可以幾乎按照任何要求來生成高分辨率的圖像,并在大多數(shù)方面都超過了最初版本的 DALL-E。
可僅僅過了1個月,Google Brain就在近日也發(fā)布了自己的圖像生成人工智能——Imagen,而它的表現(xiàn)甚至比DALL-E 2要更好。
Imagen是一種文本到圖像的擴散模型,具有深層次的語言理解能力,可以通過輸入文本創(chuàng)建逼真的圖像。Imagen使用大型frozen T5-XXL編碼器將輸入的文本編碼為 嵌入,然后條件擴散模型將文本嵌入映射到64×64像素的圖像中,之后再進一步利用超分辨率擴散模型生成256×256像素和1024×1024像素的圖像。
輸入“一只穿戴著藍色格子貝雷帽和紅色波點高領毛衣的金毛犬”后Imagen的動作
DrawBench對Imagen、DALL-E2、VQ-GAN和LDM的測試結果
據(jù)了解,谷歌通過引入測試基準DrawBench,對Imagen、DALLE2、VQ-GAN+CLIP和LDM幾類模型進行了深入地評估與對比。結果得出,無論是在樣本質量還是圖文對齊方面,Imagen的評分都位居第一。
例如,DALL-E2在面對一些同時出現(xiàn)兩個顏色的文本時表現(xiàn)不佳,而Imagen可以很好地應對這些情況。此外,當文本中出現(xiàn)有位置和效果指向的具體字樣時,Imagen也比DALL-E2的表現(xiàn)更好。
面對同時出現(xiàn)兩個顏色的文本,Imagen和DALL-E2生成的圖像對比
Imagen和DALL-E2對“馬騎著宇航員”文本分別生成的圖像
不過,在反常識文本的情況下,目前Imagen和DALLE2都未能準確地理解并輸出對應的圖像。
另外,相比以往出現(xiàn)的圖像生成器,谷歌在Imagen中做了一項重要的改變,使其工作效率和質量得到了進一步提升。此前,圖像生成器多是通過CLIP來把文本映射圖像中,再指導一個生成對抗網(wǎng)絡或者擴散模型來輸出最終的圖像;而在Imagen中,文本編碼的訓練任務僅由純語言模型來完成,文本映射圖像的生成任務則全部交給了圖像生成模型。
Imagen的可視化工作流程
文本理解方面,CLIP的圖文對訓練集是有限的,而T5-XXL編碼器含有800 GB 的純文本語料訓練庫,比CLIP要全面得多。在保真度和語義對齊上,T5-XXL編碼器的能力也更強。
研究中,谷歌還發(fā)現(xiàn),“在Imagen中,語言理解模型的規(guī)模大小對圖像效果的積極影響勝于圖像生成模型,增加語言模型的大小可以大大地提高樣本保真度和圖文對齊度?!?/p>
Imagen生成的一個圖像
除此之外,谷歌對Imagen的擴散模型進行了優(yōu)化,其通過在閾值擴散采樣器增加無分類器引導的權重提升輸出圖像的圖文對齊度,又增多了低分辨率圖像的噪聲以解決擴散模型的多樣性不足,還引入新的Eff icient U-Net架構帶來了更優(yōu)的內存效率、收斂速度及計算效率。
完成以上改進的Imagen模型在未用流行目標檢測數(shù)據(jù)集COCO訓練過的情況下,在其測試中拿到7.27的FID高分。并且,其樣本質量在圖文對齊上與COCO訓練集的參考數(shù)據(jù)不相上下。與此同時,Imagen也在COCO測試中暴露出在人物類圖像表現(xiàn)不佳的缺陷。
實際上Imagen的許多圖片都令人驚嘆不已,不僅僅是因為圖片內容有趣又奇幻,而且很多圖片場景帶來的真實感十分強烈。
就像OpenAI發(fā)布DALL-E時所做的一樣,Google也用各種“擬人化動物”的可愛圖片來宣傳他們的工具,比如一只戴著宇航員頭盔的浣熊,一只趴在壽司房子里的柯基,一只戴著皇冠坐在國王寶座上的博美等等。
但是,這些公開的大多數(shù)圖片之所以都如此可愛,或許是經(jīng)過精心挑選的結果。其實像DALL-E2和Imagen這樣的模型,往往依賴于大量網(wǎng)絡抓取的圖像數(shù)據(jù),而這些數(shù)據(jù)通常是未經(jīng)處理的,其中既有好的數(shù)據(jù),同時也會有不健康的數(shù)據(jù)。
Imagen團隊表示 :“雖然我們對一部分訓練數(shù)據(jù)進行了過濾,以去除噪音和不良內容,如色情圖像和有毒語言,但我們也使用了LAION-400M數(shù)據(jù)集,眾所周知,該數(shù)據(jù)集包含大量不當內容,包括色情圖像、種族歧視和有害的社會刻板印象。Imagen依賴于在未記錄的網(wǎng)絡規(guī)模數(shù)據(jù)上訓練的文本編碼器,從而繼承了大型語言模型的社會偏見和局限性。因此,Imagen存在對有害的刻板印象和表述進行編碼的風險,這促使我們決定在沒有進一步保障措施的情況下,不發(fā)布Imagen供公眾使用?!?/p>
盡管DALL-E2和Imagen存在風險,但它們本質上大大地推動了人工智能領域的發(fā)展,使人工智能再次達到了新的高度。并且,這種人工智能圖像生成的技術將有可能成為改變世界的一項技術。
回顧過往,你會發(fā)現(xiàn)人工智能在發(fā)展到一定程度之后都受到了一個瓶頸的困擾:主要的機器學習手段還是來自于蠻力計算,而且其依賴大量的數(shù)據(jù)來訓練系統(tǒng)。這和人類的思考方式還是有很大區(qū)別的。人類在思考時可以進行泛化,例如,嬰兒知道什么是貓之后,再見到其他的貓就能馬上知道這是貓。
機器無法進行泛化,這從另外一個方面也反映了機器學習一直只能通過大量數(shù)據(jù)分析模仿人類的邏輯分析能力,故而一直難以實現(xiàn)人類大腦的另一強大功能——想象力。
一個大腦騎著火箭飛船向月球飛去
戴著大理石耳機的大理石考拉DJ
在雪地里戴著空手道腰帶的火龍果
一只外星章魚漂浮在傳送門上閱讀報紙
一只戴著太陽鏡和沙灘帽的柯基在時代廣場騎自行車
泰迪熊在奧運會400米蝶泳比賽中游泳
直到2014年,當時還是蒙特利爾大學博士生的古菲爾突然想到了這個問題的答案——對抗性神經(jīng)網(wǎng)絡。對抗性神經(jīng)網(wǎng)絡的原理是兩個人工智能系統(tǒng)可以通過相互對抗來創(chuàng)造超級真實的原創(chuàng)圖像或聲音。對抗性神經(jīng)網(wǎng)絡賦予了機器創(chuàng)造和想象的能力,也讓機器學習減少了對數(shù)據(jù)的依賴性,對于人工智能是一大突破。
對抗性神經(jīng)網(wǎng)絡被稱作是近年來最有潛力的,解決了一直困擾人工智能領域數(shù)據(jù)來源問題的重要機器學習模型,可以說是真正實現(xiàn)了不依賴人類的無監(jiān)督學習。對抗性神經(jīng)網(wǎng)絡更是在2018年入選了《麻省理工科技評論》“十大突破性技術”。
自2018年以來,由對抗性神經(jīng)網(wǎng)絡帶來的無監(jiān)督學習方法吸引了越來越多的關注,并使得人工智能在多個領域取得了巨大的進展。除了前面提到的圖像生成領域,人工智能在文本創(chuàng)作領域同樣表現(xiàn)不俗。入選2021年《麻省理工科技評論》“十大突破性技術”之一的GPT-3就是一種使用對抗性神經(jīng)網(wǎng)絡無監(jiān)督學習算法的“大型語言模型”。
GPT-3由舊金山的研究實驗室OpenAI創(chuàng)建?;贕PT-3,人工智能能夠模仿人類書寫文本,且逼真程度令人稱贊,人們甚至認為GPT-3可以寫出任何東西:同人小說、哲學辯論、甚至代碼。GPT-3的出現(xiàn)也讓我們可以期待人工智能將在未來走得更遠。
最后,讓我們盡情欣賞Imagen創(chuàng)造的各種“怪異而美妙”的“畫作”吧!