摘要:人工智能已成為各行各業(yè)發(fā)展的重要驅(qū)動力。特別是ChatGPT為代表的大模型應(yīng)用,讓我們感受到了數(shù)字新時(shí)代序幕已經(jīng)拉開。本文主要從人工智能生成內(nèi)容(AIGC)的發(fā)展歷程、底層技術(shù)、風(fēng)險(xiǎn)挑戰(zhàn)三方面分析,幫助我們思考“享受人工智能技術(shù)時(shí),還要考慮哪些風(fēng)險(xiǎn)?應(yīng)如何應(yīng)對新機(jī)遇與挑戰(zhàn)” 。
關(guān)鍵詞:AIGC;ChatGPT;大模型;擴(kuò)散模型
引言
2022年12月,OpenAI公司發(fā)布了對話式AI大模型產(chǎn)品ChatGPT,ChatGPT是OpenAI公司基于Transformer神經(jīng)網(wǎng)絡(luò)架構(gòu)研發(fā)的自然聊天工具。ChatGPT不僅能夠聊天,還能寫代碼、報(bào)告、腳本、翻譯等,能夠做到與人沒有區(qū)別的聊天交流,一經(jīng)發(fā)布風(fēng)靡全球,僅推出兩個(gè)月,ChatGPT月活躍用戶就突破1億人 [1],成為互聯(lián)網(wǎng)歷史上增長速度最快的產(chǎn)品。人工智能生成內(nèi)容(AIGC)在商業(yè)領(lǐng)域的成功落地,讓投資圈看到其巨大價(jià)值。大大小小的公司紛紛涌入這一領(lǐng)域,從資金、人才等方面推動整個(gè)產(chǎn)業(yè)飛速發(fā)展[2]。越來越多人相信不遠(yuǎn)的未來,機(jī)器一定會擁有思考能力,并為我們帶來更加便利的生活。
1. AIGC發(fā)展歷程
1.1 人工智能概念
1950年艾倫·圖靈發(fā)表論文題目為《機(jī)器能思考嗎?》。他在文章中提出,如果一臺機(jī)器能夠和人類進(jìn)行對話,并不被辨別出其機(jī)器身份,那么這臺機(jī)器就具有智能。1956年的達(dá)特茅斯會議上,科學(xué)家詳細(xì)討論機(jī)器模擬人類智慧問題,并首次提出了人工智能(AI)概念。
1.2 人工智能生成內(nèi)容概念
近兩年大模型在人工智能生成內(nèi)容上取得重大突破。文本、語音、視頻、代碼等多種展示形式都可實(shí)現(xiàn)人工智能生成。AIGC的廣泛應(yīng)用,提升了內(nèi)容生產(chǎn)的效率、降低了生產(chǎn)成本,一種嶄新的內(nèi)容生產(chǎn)模式正在興起?;仡檭?nèi)容生成的發(fā)展歷程可以總結(jié)為三個(gè)階段。
第一階段PGC(professional generated content,專業(yè)內(nèi)容生成)。這個(gè)階段內(nèi)容生產(chǎn)被作為一種尖端技術(shù)和資源,牢牢掌握在少數(shù)人手中。中西方歷史都很相似,只有少數(shù)受過高等教育的階級團(tuán)體能夠創(chuàng)造內(nèi)容,書籍紙張是昂貴的載體。工業(yè)革命后廣播、電視、報(bào)紙出現(xiàn),但因制作成本高昂,大多數(shù)人仍是接受者。
第二階段UGC(user generated content,用戶內(nèi)容生成)。伴隨互聯(lián)網(wǎng)技術(shù)發(fā)展,內(nèi)容生產(chǎn)的條件大幅降低,每個(gè)人都可以生產(chǎn)內(nèi)容并與他人分享交流,信息傳送從傳統(tǒng)的單向變?yōu)殡p向。每個(gè)人都是內(nèi)容瀏覽者,更是生產(chǎn)者。從最早期的網(wǎng)站、論壇、微博以文字圖片展現(xiàn)形式為代表的互聯(lián)網(wǎng)產(chǎn)品,到后期的YouTube、抖音、快手、B站的高流量視頻,都是這個(gè)階段的代表。
第三階段AIGC(artificial intelligence generated content,人工智能生成內(nèi)容)。用戶對于內(nèi)容生產(chǎn)的效率、展現(xiàn)方式要求越來越高,對于信息交流的層次也要求越來越深;以往需要幾天甚至幾周,由美工設(shè)計(jì)、開發(fā)、編輯等多個(gè)崗位聯(lián)合完成的內(nèi)容,智能機(jī)器可以在幾十秒內(nèi)完成。通過虛擬現(xiàn)實(shí)技術(shù)中的人物、場景展現(xiàn)出來,用戶提出的大部分問題都能得到解答,且大多符合我們的邏輯和認(rèn)知。人們之間能交互,人還可以與機(jī)器交互,甚至能夠獲得的信息和體驗(yàn)更優(yōu)。
1.3 人工智能生成內(nèi)容發(fā)展過程
AIGC的發(fā)展可以按時(shí)間分為初期研究階段、中期探索階段、應(yīng)用發(fā)展階段。初期研究階段,實(shí)驗(yàn)人員研究在機(jī)器學(xué)習(xí)的基礎(chǔ)上進(jìn)行發(fā)展,深度學(xué)習(xí)(deep learning,DL)一種基于神經(jīng)網(wǎng)絡(luò)算法,通過對大量數(shù)據(jù)進(jìn)行特征提取最終實(shí)現(xiàn)對人物的識別、分類和預(yù)測完成。深度學(xué)習(xí)模型參數(shù)量巨大,需要大量數(shù)據(jù)和算力支持,為AIGC的發(fā)展積累大量技術(shù)經(jīng)驗(yàn)和訓(xùn)練數(shù)據(jù)。中期探索階段,2014年深度學(xué)習(xí)GAN(generative adversarial nets,生成對抗網(wǎng)絡(luò))模型被提出,生成模型熱度被點(diǎn)燃。2018年谷歌團(tuán)隊(duì)基于生成對抗網(wǎng)絡(luò)提出Transformer模型,具有良好的并行性。這種模型數(shù)據(jù)開始被廣泛應(yīng)用于文本生成領(lǐng)域,新聞、報(bào)告、小說、對話等。2021年基于Transformer框架OpenAI公司正式發(fā)布GPT模型。強(qiáng)大的算力與數(shù)據(jù)積累,推動AIGC進(jìn)入“快車道”。AI生成內(nèi)容精準(zhǔn)度都已達(dá)到普通用戶訴求,AIGC進(jìn)入商業(yè)化運(yùn)營,并與教育、文化、金融等領(lǐng)域進(jìn)行深度融合。
2. AIGC底層核心技術(shù)
盡管AIGC模型很多,但底層原理基本一致。主要是基于深度神經(jīng)網(wǎng)絡(luò)算法,通過輸入大量的數(shù)據(jù)和模型訓(xùn)練,讓模型學(xué)習(xí)數(shù)據(jù)的規(guī)律和表達(dá)模式。目前市場應(yīng)用最廣泛的為擴(kuò)散模型和生成對抗網(wǎng)絡(luò)。
2.1 擴(kuò)散模型
擴(kuò)散模型是近幾年機(jī)器學(xué)習(xí)領(lǐng)域的重大成果。擴(kuò)散模型屬于生成模型,它的提出實(shí)際是受到非平衡熱力學(xué)的啟發(fā)。其工作原理是通過連續(xù)添加高斯噪聲破壞訓(xùn)練數(shù)據(jù),在添加到T步高斯噪聲后,數(shù)據(jù)已經(jīng)從最原始的分布變成純高斯噪聲,這一過程也被稱為正向擴(kuò)散。至此再反向進(jìn)行擴(kuò)散,逐步移除前向擴(kuò)散中添加的高斯噪聲,最終獲得最原始的數(shù)據(jù)分布,這一過程被稱為反向擴(kuò)散。
擴(kuò)散模型的整體框架是完整的,數(shù)據(jù)推導(dǎo)過程也完整,但在實(shí)驗(yàn)過程中生成圖片并未盡如人意,帶有很多的噪聲并沒有達(dá)到預(yù)期攝像。實(shí)驗(yàn)人員在原有理論上進(jìn)行優(yōu)化,提出了去聲擴(kuò)展概率模型(denoising diffusion probabilistic model,DDPM)[3],并應(yīng)用在圖片生成方面,較擴(kuò)散模型有很大提升,這讓人們看到了擴(kuò)散模型在圖像影音方面的巨大發(fā)展?jié)摿?,可支持生成較大分辨率尺寸的圖片。
雖然DDPM效果提升,但在兩個(gè)方面仍有很大提升空間:一是生成時(shí)間方面。因?yàn)镈DPM每次添加的噪聲范圍很小,所以添加的步數(shù)較多,這就導(dǎo)致采樣時(shí)間過長,生成圖片的時(shí)間比較長。二是圖片質(zhì)量方面。DDPM生成圖片的數(shù)據(jù)集與訓(xùn)練用數(shù)據(jù)集并不相同,導(dǎo)致圖片效果并沒有GAN(生成對抗模型)中的SOTA有顯著優(yōu)勢。為此,實(shí)驗(yàn)人員定義了DDIM(denoising diffusion implicit model)模型,用于減少反向擴(kuò)散步伐提升生成時(shí)間;提出IDDPM(improved denoising diffusion implicit model)模型用于優(yōu)化聲添加過程,通過增加模型的深度且減少模型寬度保持模型大小不變。實(shí)驗(yàn)過程中人們發(fā)現(xiàn)不管是DDPM、DDIM還是IDDPM都是無條件擴(kuò)充模型,最終圖片不可知。如果可以使用一個(gè)條件特征,引導(dǎo)擴(kuò)充模型形成一類指定的圖片,那么圖片的精準(zhǔn)度會大幅提升。分類器引導(dǎo)被發(fā)明并應(yīng)用在模型中。
2.2 生成對抗網(wǎng)絡(luò)
生成對抗網(wǎng)絡(luò)(generative adversarial networks, GAN)是一種深度學(xué)習(xí)的生成模型。與前面提到的擴(kuò)散模型不同,GAN由生成器和判別器兩個(gè)神經(jīng)網(wǎng)絡(luò)組件組成。我們可以打個(gè)比方,生成器就像是一個(gè)造假大師,判別器就像是一個(gè)鑒定大師。生成器不斷造假并將真假文物送給鑒定師鑒定。通過兩者間的相互對抗,相互促進(jìn)學(xué)習(xí),最終造成以假亂真的文物目的。因此,我們可以得出結(jié)論,生成器的目的是生成虛假數(shù)據(jù),無限接近于真實(shí);判別器是一個(gè)好老師區(qū)分真假,幫助生成器不斷改進(jìn)優(yōu)化。整體過程如圖1所示。
生成對抗網(wǎng)絡(luò)一經(jīng)推出就獲得業(yè)界廣泛關(guān)注,主要原因是其特殊的訓(xùn)練模式是通過兩個(gè)對抗的網(wǎng)絡(luò)相互學(xué)習(xí)。一方面不斷造假,另一方面不斷辨別。GAN模型最大優(yōu)勢在于具有很強(qiáng)的適應(yīng)性和廣泛性,生成的新樣本可以無限接近真實(shí),這使得GAN除了在圖片生成還在語音合成、文本生成等方面較擴(kuò)散模型更有優(yōu)勢,可應(yīng)用的空間更大。2018年StyleGAN推出,這是一種基于GAN的圖像合成模型,并引入了AdaIN將顯示特征風(fēng)格作為變量輸入生成器,確保圖像均值和風(fēng)格一致性。2019年一種基于GAN的聲音生成模型——WaveGAN被提出,可用于生產(chǎn)高質(zhì)量的音頻信號。此外,WaveGAN還加入批歸一化層和Leaky ReLU激活函數(shù),可以生成人聲和音樂樣本,并對已完成音頻信號監(jiān)測分類。
3. AIGC的風(fēng)險(xiǎn)與不足
3.1 AIGC的風(fēng)險(xiǎn)
3.1.1 法律風(fēng)險(xiǎn)
傳統(tǒng)繪畫、攝影、文字等作品需要付費(fèi)才能使用。作品的創(chuàng)作者享有著作權(quán)。AIGC技術(shù)通過學(xué)習(xí)模仿,可以快速模擬作者生成圖片、音視頻、文字,但AI生成的著作權(quán)、肖像權(quán)等物權(quán)歸屬還沒確定,國內(nèi)外沒有相關(guān)法律。2022年有網(wǎng)友通過AIGC技術(shù)將喜歡的歌手孫燕姿的聲音進(jìn)行合成,替換部分歌曲演唱者。一夜間“孫燕姿”錄制歌曲近千首,歌手本人也表示一輩子都無法唱完這么多歌曲。但此行為也損害了其他歌手的版權(quán),原歌手通過平臺下載量和收入減少。
國內(nèi)外已發(fā)生多起著作人對AI公司進(jìn)行起訴,控告AI抄襲原作者作品或創(chuàng)意,生成內(nèi)容未付費(fèi)對創(chuàng)作者造成侵權(quán)傷害。一些不法分子也將注意力轉(zhuǎn)到這方面,通過AIGC換臉、電信詐騙或者生物識別等方式盜取用戶資金。
3.1.2 個(gè)人隱私安全
AIGC在圖片與視頻生成過程中需要投入大量數(shù)據(jù)進(jìn)行訓(xùn)練。AI公司獲取數(shù)據(jù)具有絕對的技術(shù)優(yōu)勢,可以通過APP瀏覽數(shù)據(jù)、媒體數(shù)據(jù)、社交網(wǎng)絡(luò)多個(gè)渠道獲取客戶信息,這些數(shù)據(jù)有客戶隱私數(shù)據(jù)也有客戶交易和瀏覽軌跡[4]。公司還會要求用戶輸入敏感數(shù)據(jù)或商業(yè)信息作為訓(xùn)練數(shù)據(jù),信息是否得到有效保護(hù)、用戶隱私安全是否得到有效保障還沒有明確法律要求。上文提到Lensa和妙鴨相機(jī),都需要客戶上傳大量個(gè)人照片。關(guān)于客戶這些照片在訓(xùn)練后的處理,是否會被公司作為一種資產(chǎn)進(jìn)行出售都有待觀察。
3.1.3 道德風(fēng)險(xiǎn)
AI在處理具象工作方面具有強(qiáng)大的數(shù)據(jù)處理能力、極度專注度、多線程并發(fā)處理能力。未來很多知識類基礎(chǔ)工作將由AI承擔(dān),如寫作、圖片、視頻拍攝、代碼編寫等。人類將更多負(fù)責(zé)創(chuàng)造性工作。但在AI替代部分傳統(tǒng)工作中,人類可能在很多方面與AI會因文化認(rèn)同、社會道德等意識形態(tài)方面的差異而產(chǎn)生矛盾。在教育領(lǐng)域很多大學(xué)明確禁止學(xué)生使用ChatGPT。一方面由于其功能強(qiáng)大,可以短時(shí)間內(nèi)生成論文,且難以被發(fā)現(xiàn);另一方面,也說明學(xué)校擔(dān)心學(xué)生濫用技術(shù)會導(dǎo)致過度依賴ChatGPT,導(dǎo)致學(xué)生喪失獨(dú)立思考和研究能力,考試有失公平。如果AI是基于非真實(shí)數(shù)據(jù)進(jìn)行的訓(xùn)練,很可能生成內(nèi)容帶有一定偏見和非真實(shí)性。
3.2 ?AIGC的不足
3.2.1 技術(shù)成熟度不足
AIGC的大模型在進(jìn)行測試和調(diào)試過程中,仍然會出現(xiàn)很多答非所問、答案重復(fù)、通識錯(cuò)誤等現(xiàn)象。一方面,內(nèi)容生成嚴(yán)重依賴訓(xùn)練數(shù)據(jù),如果數(shù)據(jù)陳舊、偏差,機(jī)器無法判斷,很難達(dá)到我們所期望的效果;另一方面,AIGC生成內(nèi)容缺乏深度思考與個(gè)人觀點(diǎn),更多的是將一些知識點(diǎn)關(guān)聯(lián)起來,對于部分內(nèi)容用戶會感覺機(jī)器在“一本正經(jīng)地胡說八道”。根本原因是深度學(xué)習(xí)仍是一種“被動”狀態(tài),目的是尋找規(guī)律建立規(guī)律,但缺乏“欲望”和目標(biāo)。同時(shí),機(jī)器缺乏情感無法理解和體現(xiàn)人的心理活動,生成內(nèi)容閱讀起來會感覺很平淡,缺乏情緒,這與真人生產(chǎn)內(nèi)容有很大差距。
3.2.2 缺乏監(jiān)管與控制
2022年國家互聯(lián)網(wǎng)信息辦公室會同相關(guān)部門制定了《互聯(lián)網(wǎng)信息服務(wù)深度合成管理規(guī)定》。這是我國唯一與人工智能生成內(nèi)容有關(guān)的規(guī)定,僅是以行政手段下發(fā)缺乏立法過程。AIGC具有強(qiáng)大的內(nèi)容生產(chǎn)能力,但是監(jiān)管和執(zhí)法部門缺乏技術(shù)手段有效識別AIGC生成圖片、合成聲音和文字,執(zhí)法過程缺乏工具。根據(jù)人工智能內(nèi)容生產(chǎn)發(fā)展,建立“科學(xué)立法、嚴(yán)格執(zhí)法、全面守法”的監(jiān)督管理體系還有大量工作,各方面經(jīng)驗(yàn)需要不斷積累。
結(jié)語
AIGC本身并沒有好與壞、善與惡的區(qū)別。同蒸汽機(jī)和電氣化一樣,作為一種創(chuàng)新技術(shù)它既可以帶來巨大價(jià)值,減少重復(fù)和具象性工作,但也可能帶來動蕩和不穩(wěn)定。未來,AIGC需要一個(gè)有序良性的發(fā)展環(huán)境:一是完善法律法規(guī),確保新技術(shù)應(yīng)用在人類可控范圍內(nèi),避免由此所帶來的各類風(fēng)險(xiǎn)或者災(zāi)難。二是強(qiáng)化頂尖人才培養(yǎng)。“人才的厚度決定事業(yè)的高度”。AIGC領(lǐng)域?qū)τ趯I(yè)人才的需求巨大,特別是“基礎(chǔ)數(shù)學(xué)”人才[5]。GPT-3.5已具有1750億參數(shù),傳統(tǒng)數(shù)學(xué)理論已很難解釋其機(jī)理,只有在應(yīng)用數(shù)學(xué)方面取得重大突破,人類才有可能超越現(xiàn)有大模型,建立真正的AI理論模型[6]。三是豐富AIGC應(yīng)用廣度。AIGC已應(yīng)用在多行業(yè),但應(yīng)用范圍和功能相對簡單,生成內(nèi)容還未實(shí)現(xiàn)和視頻、VR、AR的結(jié)合。只有應(yīng)用更加廣泛,才能促進(jìn)更多廠商公司加入其中,進(jìn)一步降低AIGC軟硬件成本,推動業(yè)務(wù)發(fā)展。
參考文獻(xiàn):
[1]司馬華鵬,湯毅平,唐翠翠,等.大模型時(shí)代——ChatGPT拉開硅基文明序幕[M].北京:電子工業(yè)出版社,2023.
[2]蔡然.人工智能內(nèi)容生成技術(shù)對銀行業(yè)的影響研究[J].中國金融電腦,2023,(7):47-49.
[3]汲雪嬌.專訪杜雨:AIGC時(shí)代的人工智能[J].現(xiàn)代商業(yè)銀行,2023,(6):20-22.
[4]張漫游.聚焦“大模型+網(wǎng)絡(luò)安全”銀行跨界設(shè)立創(chuàng)新實(shí)驗(yàn)室[N].中國經(jīng)營報(bào),2023-7-17(B5).
[5]許琦敏.理解并超越大模型需要數(shù)學(xué)“應(yīng)戰(zhàn)”[N].文匯報(bào),2023-7-26(4).
[6]于夢珂.生成式對抗網(wǎng)絡(luò)GAN的研究現(xiàn)狀與應(yīng)用[J].無線互聯(lián)科技,2019,16(9):25-26,29.
作者簡介:路加,碩士研究生,經(jīng)濟(jì)師,研究方向:新媒體運(yùn)營、遠(yuǎn)程銀行、金融科技、銀行零售業(yè)務(wù)。