□ 文 翟 尤 李 娟
2022年8月,在美國科羅拉多州舉辦的新興數(shù)字藝術(shù)家競賽中,參賽者提交AIGC(AIGenerated Content,以下簡稱“AIGC“)繪畫作品《太空歌劇院》,參賽者沒有繪畫基礎(chǔ)但是卻獲得了此次比賽“數(shù)字藝術(shù)/數(shù)字修飾照片”類別一等獎,引發(fā)多方爭議。一方面,批判者認為AI在“學習”了大量前人的作品之后,其創(chuàng)作沒有任何情緒和靈魂,難以和人類的藝術(shù)創(chuàng)作相提并論。另一方面,支持者認為創(chuàng)作者在一遍遍修改文本內(nèi)容后,才讓AI創(chuàng)作出滿意的作畫,而且作品有很強的觀賞性,AI的創(chuàng)作有其獨特價值。AIGC的快速迭代演變,讓大模型應用落地有了新領(lǐng)域,也帶來對版權(quán)和通用人工智能到來的爭論,因此有必要從產(chǎn)業(yè)發(fā)展的角度分析AIGC可能的發(fā)展路徑,探尋問題解決方案,助力AIGC健康有序發(fā)展。
AIGC是利用人工智能技術(shù)來生成內(nèi)容。2021年之前,AIGC生成的內(nèi)容主要以文字為主,而新一代模型可以處理的格式包括:文字、語音、代碼、圖像、視頻、機器人動作等。AIGC被認為是繼專業(yè)生產(chǎn)內(nèi)容(PGC,professionalgenerated content)、用戶生產(chǎn)內(nèi)容(UGC,Usergenerated content)之后的新型內(nèi)容創(chuàng)作方式,可以在創(chuàng)意、表現(xiàn)力、迭代、傳播、個性化等方面,充分發(fā)揮技術(shù)優(yōu)勢。尤其是視覺信息,一直在網(wǎng)絡(luò)中有較強的傳播力且容易被大眾感知,具有跨平臺、跨領(lǐng)域、跨人群的優(yōu)勢,天然容易被人記憶和理解。同時視覺信息應用場景廣泛,因此生成高質(zhì)量的圖像成為當前AI領(lǐng)域的一個現(xiàn)象級功能。
2021年,OpenAI將跨模態(tài)深度學習模型CLIP(Contrastive Language-Image Pre-Training,以下簡稱“CLIP”)進行開源。CLIP模型能夠?qū)⑽淖趾蛨D像進行關(guān)聯(lián)。例如,將文字“狗”和狗的圖像進行關(guān)聯(lián),并且關(guān)聯(lián)的特征較為豐富,從而推動CLIP模型成為AIGC的重要組成部分。目前,CLIP模型具備兩個優(yōu)勢,一方面能夠同時進行自然語言理解和計算機視覺分析,實現(xiàn)圖像和文本匹配。另一方面為了有足夠多標記好的“文本-圖像”進行訓練,CLIP模型廣泛利用互聯(lián)網(wǎng)上的圖片,這些圖片一般帶有相關(guān)文本描述,成為CLIP天然的訓練樣本。據(jù)不完全統(tǒng)計,CLIP模型搜集網(wǎng)絡(luò)上超過40億個“文本-圖像”訓練數(shù)據(jù),為后續(xù)AIGC尤其是輸入文本生成圖像/視頻應用的落地奠定了基礎(chǔ)。
某AIGC繪圖網(wǎng)站上輸入Cyberpunk后,搜索到的AIGC生成繪畫
在此之前,“對抗生成網(wǎng)絡(luò)”GAN(Generative Adverserial Network, 以下簡稱“GAN”)雖然也是很多AIGC采用的主流框架之一,但GAN具有三個不足:一是對輸出結(jié)果的控制力較弱,容易產(chǎn)生隨機圖像;二是生成的圖像分別率較低;三是由于GAN需要用判別器來判斷生產(chǎn)的圖像是否與其他圖像屬于同一類別,導致生成的圖像是對現(xiàn)有作品的模仿,創(chuàng)新性不足。因此依托GAN模型難以創(chuàng)作出新圖像,也不能通過文字提示生成新圖像。
Diffusion擴散化模型出現(xiàn)較晚,但真正實現(xiàn)讓文本生成圖像的AIGC應用為大眾所熟知,也是2022年下半年Stable Diffusion應用的重要推手。Diffusion模型有兩個特點,一方面,給圖像增加高斯噪聲,通過破壞訓練數(shù)據(jù)來學習,然后找出如何逆轉(zhuǎn)這種噪聲過程以恢復原始圖像,經(jīng)過訓練,該模型可以從隨機輸入中合成新的數(shù)據(jù)。另一方面,Stable Diffusion把模型的計算空間從像素空間經(jīng)過數(shù)學變換,降維到可能性空間(Latent Space)的低維空間里,這一轉(zhuǎn)化大幅降低了計算量和計算時間,使得模型訓練效率快速提高。Diffusion算法模型的創(chuàng)新與應用推動了AIGC技術(shù)的突破性進展。
AIGC相關(guān)深度學習模型匯總表
AIGC繪畫應用系統(tǒng)匯總表
總的來看,AIGC在2022年實現(xiàn)快速迭代,主要是在深度學習模型方面有了長足進步。首先CLIP模型基于海量互聯(lián)網(wǎng)圖片進行訓練,推動AI繪畫模型進行組合創(chuàng)新。其次Diffusion擴散化模型實現(xiàn)算法創(chuàng)新。最后使用潛空間降維的方法來降低Diffusion模型在內(nèi)存和時間消耗較大的問題。因此,AIGC繪畫之所以能夠幫助用戶進行輔助創(chuàng)作,背后離不開大量深度學習模型的不斷完善推動和基礎(chǔ)作用。
在算法模型方面,AIGC的發(fā)展離不開開源模式的推動。以深度學習模型CLIP為例,開源模式加速CLIP模型的廣泛應用,使之成為當前最為先進的圖像分類人工智能,并讓更多機器學習從業(yè)人員將CLIP模型嫁接到其他AI應用。同時,當前AIGC繪畫最熱門的應用Stable Diffusion已經(jīng)正式開源(包括模型權(quán)重和代碼),通過視覺、語言等多源知識指引擴散模型學習,強化擴散模型對于語義的精確理解,以提升生成圖像的可控性和語義的一致性。Stable Diffusion的開源直接引發(fā)2022年下半年AIGC引發(fā)廣泛關(guān)注,短短幾個月時間內(nèi)出現(xiàn)大量二次開發(fā),從模型優(yōu)化到應用拓展,大幅降低用戶使用AIGC進行創(chuàng)作的門檻,提升創(chuàng)作效率,并長期位居GitHub熱榜第一名。
在訓練數(shù)據(jù)集方面,機器學習離不開大量數(shù)據(jù)學習。LAION作為全球非盈利機器學習研究機構(gòu),在2022年3月開放了當前規(guī)模最大的開源跨模態(tài)數(shù)據(jù)庫LAION-5B,使得近60億個“文本-圖像”可以用來訓練,從而進一步加快AI圖像生成模型的成熟,幫助研究人員加快推動從文字到圖像的生成模型?;贑LIP和LAION的開源模式構(gòu)建起當前AI圖像生成應用的核心。未來,隨著模型穩(wěn)定,開源將成為AIGC成熟的催化劑,源模式有望讓相關(guān)模型成為海量應用、網(wǎng)絡(luò)和服務(wù)的基礎(chǔ),應用層面的創(chuàng)造力有望迎來拐點。
創(chuàng)造力曾被認為是少數(shù)幸運兒擁有的天賦,但隨著深度學習的爆發(fā),協(xié)助創(chuàng)作者提升創(chuàng)作效率成為可能。目前來看,AIGC在工業(yè)設(shè)計、動漫設(shè)計、攝影藝術(shù)、游戲制作等場景,能夠激發(fā)設(shè)計者創(chuàng)作靈感,提升內(nèi)容生產(chǎn)效率。
在捕捉靈感方面,AIGC協(xié)助有經(jīng)驗的創(chuàng)作者捕捉靈感,構(gòu)建新的創(chuàng)新互動形式。例如在游戲行業(yè),制作人靈感往往難以用文字準確表達,與美術(shù)工作人員經(jīng)常由于溝通產(chǎn)生理解誤差。通過AIGC系統(tǒng)可以在設(shè)計初期,生成大量草圖,在此基礎(chǔ)上制作人與美術(shù)人員可以更好的理解并確認彼此的需求。同時,創(chuàng)作靈感難以琢磨,可以提前通過AIGC來尋找“感覺”,進一步降低美術(shù)創(chuàng)作者大量前期工作和項目成本。例如,制作人可先構(gòu)建完整的背景故事,之后由AIGC生成系列畫作,再由專業(yè)的美術(shù)人員進行篩選、處理、整合,并將整個故事和畫面進一步完善提升。
在提升效率方面,AIGC的出現(xiàn)將會讓創(chuàng)作者擁有一個更加高效的智能創(chuàng)作工具,在內(nèi)容創(chuàng)作環(huán)節(jié)進行優(yōu)化,而非成為競爭對手。例如在極短的項目籌備時間內(nèi),AIGC可以大幅提升效率,驗證了AI投入到工業(yè)化使用的可行性。尤其是對于藝術(shù)、影視、廣告、游戲、編程等創(chuàng)意行業(yè)的從業(yè)者來說,可以輔助從業(yè)者進行日常工作,并有望創(chuàng)造出更多驚艷的作品。同時,還可以進一步降低成本和效率,為規(guī)模化生產(chǎn)構(gòu)建市場增量。
在創(chuàng)意構(gòu)思階段,AIGC構(gòu)建了新的創(chuàng)意完善通路,傳統(tǒng)的創(chuàng)作過程中消化、理解以及重復性工作將有望交由AIGC來完成,最終創(chuàng)意過程將變?yōu)椤皠?chuàng)意-AI-創(chuàng)意”的模式。
圖片來源:《AI時代的巫師與咒語》
在創(chuàng)意實現(xiàn)階段,創(chuàng)作者和AIGC的關(guān)系類似于攝影師和照相機。攝影師構(gòu)建拍攝思路并進行規(guī)劃,對相機進行參數(shù)配置,但不用了解相機的工作原理與機制,一鍵生成高質(zhì)量的內(nèi)容。同樣,創(chuàng)作者構(gòu)思并進行規(guī)劃,對AI模型進行參數(shù)配置,不需要了解模型的原理,直接點擊輸出內(nèi)容即可。創(chuàng)意和實現(xiàn)呈現(xiàn)出分離狀態(tài),實現(xiàn)過程變?yōu)橐环N可重復勞動,可以由AIGC來完成,并逐步將成本推向趨近于零。
Gartner預計,到2025年,生成式人工智能將占所有生成數(shù)據(jù)的10%。根據(jù)《Generative AI :A Creative New World》的分析,AIGC有潛力產(chǎn)生數(shù)萬億美元的經(jīng)濟價值。AIGC在引發(fā)全球關(guān)注的同時,知識產(chǎn)權(quán)、技術(shù)倫理將面臨諸多挑戰(zhàn)和風險,同時AIGC距離通用人工智能還有較大的差距。
基于深度學習算法數(shù)據(jù)越多,模型魯棒性越強的特點,當前的大模型規(guī)模只增不減,比拼規(guī)模已經(jīng)成為標配。例如,Open AI推出的GPT-3參數(shù)已經(jīng)超過1750億個。但“數(shù)據(jù)投喂”并非一種技術(shù)路徑上的創(chuàng)新,更多的是在工程領(lǐng)域的微調(diào)。需要指出的是,模型規(guī)模越大,其實越難以在現(xiàn)實場景中落地部署。同時“海量數(shù)據(jù)”并不等同于“海量高質(zhì)量數(shù)據(jù)”,有可能會導致反向效果產(chǎn)生。
AIGC的發(fā)展離不開預訓練大模型的不斷精進。大模型雖然在很多領(lǐng)域都表現(xiàn)出良好的使用效果,但是這些效果作為展示甚至噱頭之后,很難形成良性的商業(yè)價值,與大模型的訓練成本、基礎(chǔ)設(shè)施投入更是相差甚遠。如何推動“大模型”向“大應用”來轉(zhuǎn)變,正在成為關(guān)鍵的考驗。AIGC的破圈以及引發(fā)的關(guān)注,可以看到大模型商業(yè)化的潛力正在清晰化,一方面大模型企業(yè)可以根據(jù)C端用戶實際“按需提供服務(wù)”和商業(yè)轉(zhuǎn)化。另一方面帶動對云計算、云存儲的使用量上升。將AIGC從“嘗鮮試試看”變成大眾頻繁使用的需求,再到與具體行業(yè)和領(lǐng)域深度結(jié)合,依托我國豐富的產(chǎn)業(yè)需求和應用場景,有望為大模型商業(yè)化和長期價值探索一條新路徑。
AIGC的飛速發(fā)展和商業(yè)化應用,對大量依靠版權(quán)為主要營收的企業(yè)帶來沖擊。具體來看:一方面,AIGC難以被稱為“作者”。根據(jù)我國《著作權(quán)法》的規(guī)定,作者只能是自然人、法人或非法人組織,很顯然AIGC不是被法律所認可的權(quán)利主體,因此不能成為著作權(quán)的主體。另一方面,AIGC產(chǎn)生的“作品”尚存爭議。根據(jù)我國《著作權(quán)法》和《著作權(quán)法實施條例》的規(guī)定,作品是指文學、藝術(shù)和科學領(lǐng)域內(nèi)具有獨創(chuàng)性并能以某種有形形式復制的智力成果。AIGC的作品具有較強的隨機性和算法主導性,能夠準確證明AIGC作品侵權(quán)的可能性較低。同時,AIGC是否具有獨創(chuàng)性目前難以一概而論,個案差異較大。
目前已經(jīng)有業(yè)內(nèi)人士嘗試探索將創(chuàng)作者的“創(chuàng)意”進行量化,甚至定價,有助于打造AIGC的商業(yè)模式。這其中“注意力機制”將成為AIGC潛在的量化載體。例如國內(nèi)有機構(gòu)專家提出,可以通過計算輸入文本中關(guān)鍵詞影響的繪畫面積和強度,我們就可以量化各個關(guān)鍵詞的貢獻度。之后根據(jù)一次生成費用與藝術(shù)家貢獻比例,就可以得到創(chuàng)作者生成的價值。最后在與平臺按比例分成,就是創(chuàng)作者理論上因貢獻創(chuàng)意產(chǎn)生的收益。
例如某AIGC平臺一周內(nèi)生成數(shù)十萬張作品,涉及這位創(chuàng)作者關(guān)鍵詞的作品有30000張,平均每張貢獻度為0.3,每張AIGC繪畫成本為0.5元,平臺分成30%,那么這位創(chuàng)作者本周在該平臺的收益為:30000*0.3*0.5*(1-30%)=3150元的收益,未來參與建立AI數(shù)據(jù)集將有望成為藝術(shù)家的新增收益渠道。
當前熱門的AIGC系統(tǒng)雖然能夠快速生成圖像,但是這些系統(tǒng)是否能夠真正理解繪畫的含義,從而能夠根據(jù)這些含義進行推理并決策,仍是未知數(shù)。一方面,AIGC系統(tǒng)對輸入的文本和產(chǎn)生的圖像不能完全關(guān)聯(lián)起來。例如,用戶對AIGC系統(tǒng)進行測試,輸入“騎著馬的宇航員”和“騎著宇航員的馬”內(nèi)容時,相關(guān)AIGC系統(tǒng)難以準確生成對應的圖像。因此,當前的AIGC系統(tǒng)還并沒有深刻理解輸入文本和輸出圖像之間的關(guān)系。另一方面,AIGC系統(tǒng)難以了解生成圖像背后的世界。了解圖像背后的世界,是判斷AIGC是否具備通用人工智能的關(guān)鍵。目前來看,AIGC系統(tǒng)還難以達到相關(guān)的要求。比如,在Stable Diffusion 輸入“畫一個人,并把拿東西的部分變成紫色”,在接下來的九次測試過程中,只有一次成功完成,但準確性還不高。顯然,Stable Diffusion并不理解人的雙手是什么。
知名AI專家發(fā)出的調(diào)查也印證了同樣的觀點,有86.1%的人認為當前的AIGC系統(tǒng)對世界理解的并不多,持相同觀點的人還包括Stable Diffusion的首席執(zhí)行官。
部分開源的AIGC項目,對生成的圖像監(jiān)管程度較低。一方面,部分數(shù)據(jù)集系統(tǒng)利用私人用戶照片進行AI訓練,侵權(quán)人像圖片進行訓練的現(xiàn)象屢禁不止,這些數(shù)據(jù)集正是AIGC等圖片生成模型的訓練集之一。例如,部分數(shù)據(jù)集在網(wǎng)絡(luò)上抓取了大量病人就醫(yī)照片進行訓練,且沒有做任何打碼模糊處理,對用戶隱私保護堪憂。另一方面,一些用戶利用AIGC生成虛假名人照片等違禁圖片,甚至會制作出暴力和性有關(guān)的畫作,LAION-5B數(shù)據(jù)庫包含色情、種族、惡意等內(nèi)容,目前海外已經(jīng)出現(xiàn)基于Stable Diffusion模型的色情圖片生成網(wǎng)站。
由于AI本身還不具備價值判斷能力,為此一些平臺已經(jīng)開始進行倫理方面的限制和干預。例如DALL·E2已經(jīng)開始加強干預,減少性別偏見的產(chǎn)生、防止訓練模型生成逼真的個人面孔等,但相關(guān)法律法規(guī)的空白和AIGC應用研發(fā)者本身的不重視將引發(fā)對AI創(chuàng)作倫理的擔憂。
2022年AIGC發(fā)展速度驚人,年初還處于技藝生疏階段,幾個月之后就達到專業(yè)級別,足以以假亂真。這讓花費畢生所學進行創(chuàng)作的從業(yè)人員倍感焦慮和緊張。同時,AIGC的迭代速度呈現(xiàn)指數(shù)級爆發(fā),這其中深度學習模型不斷完善、開源模式的推動、大模型探索商業(yè)化的可能,成為AIGC發(fā)展的“加速度”。新技術(shù)會淘汰適應性差的人,但是那些擁抱變革、適應力強的人,最終往往能駕馭新技術(shù)、發(fā)現(xiàn)新機遇,從此獲得新收益。新的生產(chǎn)方式會被替代,新的工作崗位、新產(chǎn)業(yè)甚至新的藝術(shù)表現(xiàn)形式,會從變革中誕生。