劉明亮
(廣東警官學(xué)院 廣東 廣州 510000)
以海量大數(shù)據(jù)為基礎(chǔ)的深度學(xué)習(xí)和算法模型為支撐,人工智能生成內(nèi)容(artificial intelligence generated content,AIGC)將數(shù)字化信息和智能生成進(jìn)行深度融合,并應(yīng)用到圖像、文字、視頻等多模態(tài)信息內(nèi)容的生成、編輯和創(chuàng)作中,使得生成內(nèi)容模式由專業(yè)生成內(nèi)容(professionally generated content,PGC)、用戶生成內(nèi)容(user generated content,UGC)向AIGC 轉(zhuǎn)變[1]。
AIGC 以其優(yōu)越的信息生成和“擬人化”的交互能力得到了廣泛的關(guān)注,但是如何推進(jìn)AIGC 在現(xiàn)實(shí)場(chǎng)景的應(yīng)用仍然是一個(gè)亟待解決的問(wèn)題。 本文的研究工作分為兩個(gè)階段:首先,歸納梳理AIGC 的技術(shù)特征,總結(jié)技術(shù)迭代的要點(diǎn)。 其次,將AIGC 應(yīng)用場(chǎng)景歸納為輔助設(shè)計(jì)、自主生成、智能交互三個(gè)階段,并對(duì)各個(gè)階段的具體應(yīng)用方向進(jìn)行分析。
Web 1.0 時(shí)代,互聯(lián)網(wǎng)信息以內(nèi)容發(fā)布為主,將各渠道獲取的信息進(jìn)行集中整合,方便用戶搜索獲取所需的信息。 雖然其中也存在論壇、博客等用戶交流渠道,但僅限于提供針對(duì)信息的討論和交流,用戶很少參與到內(nèi)容的建設(shè)當(dāng)中。 信息發(fā)布的主導(dǎo)權(quán)集中在門(mén)戶網(wǎng)站手中,形成了門(mén)戶網(wǎng)站搭建信息傳輸架構(gòu),提供專業(yè)化的信息,用戶被動(dòng)接收信息的PGC 模式。
Web 2.0 時(shí)代,隨著智能終端和移動(dòng)互聯(lián)的普及,線上線下融為一體,隨時(shí)隨地上網(wǎng)、隨時(shí)隨地溝通成為時(shí)代的特性。 互聯(lián)網(wǎng)信息更多地注重即時(shí)性、交互性。 信息發(fā)布的主導(dǎo)也轉(zhuǎn)移向用戶,應(yīng)用軟件不僅簡(jiǎn)化了內(nèi)容編輯發(fā)布模式,而且提供了簡(jiǎn)單易操作的編輯、排版工具及豐富的特效、轉(zhuǎn)場(chǎng)功能,信息發(fā)布進(jìn)入自媒體時(shí)代。
Web 3.0 時(shí)代,智能交互成為主流。 信息發(fā)布者多元化,內(nèi)容也不僅僅局限于已經(jīng)創(chuàng)設(shè)好的知識(shí)結(jié)構(gòu),而是通過(guò)AI 進(jìn)行大數(shù)據(jù)整理、挖掘,輸出為用戶所需的信息,實(shí)現(xiàn)了生產(chǎn)內(nèi)容多樣化、生產(chǎn)過(guò)程去中心化[2]、生產(chǎn)質(zhì)量專業(yè)化。
AIGC 的內(nèi)容生成是以大數(shù)據(jù)訓(xùn)練資料作為支撐的,多模態(tài)數(shù)據(jù)集LAION-400 M[3]訓(xùn)練的圖文對(duì)數(shù)據(jù)量達(dá)到4 個(gè)億;GPT-1 訓(xùn)練資料為5 GB,訓(xùn)練參數(shù)為1.17 億;GPT-2 訓(xùn)練資料達(dá)到40 GB,訓(xùn)練參數(shù)為15 億;GPT-3 訓(xùn)練資料已經(jīng)高達(dá)45 TB,訓(xùn)練參數(shù)為1750 億;谷歌公司發(fā)布的PaLM-E 語(yǔ)言模型訓(xùn)練參數(shù)達(dá)到5620 億,AIGC 訓(xùn)練樣本呈幾何倍率增長(zhǎng)。
相比編程語(yǔ)言,自然語(yǔ)言雖然更貼近日常生活中,但是存在表達(dá)形式的多樣性、表達(dá)語(yǔ)義的不確定性、表達(dá)內(nèi)容的簡(jiǎn)略性等特點(diǎn),不容易直接被計(jì)算機(jī)正確理解,所以要經(jīng)過(guò)自然語(yǔ)言處理(natural language processing,NLP)過(guò)程。
自然語(yǔ)言處理,也被稱為計(jì)算語(yǔ)言學(xué),主要的目的是用以理解、識(shí)別和產(chǎn)生自然語(yǔ)言內(nèi)容。 處理語(yǔ)言的過(guò)程分為兩個(gè)階段:自然語(yǔ)言理解階段、自然語(yǔ)言生成階段[4]。主要處理的內(nèi)容包括圖像、文本、語(yǔ)音等類型的信息。
NLP 主要分為以下五個(gè)步驟:第一步,按照文本編碼倡議(text encoding initiative,TEI)對(duì)文本進(jìn)行編碼、歸納形成語(yǔ)料庫(kù)。 第二步,對(duì)語(yǔ)料庫(kù)進(jìn)行預(yù)處理,完成語(yǔ)料整理、數(shù)據(jù)統(tǒng)計(jì)。 第三步,進(jìn)行分詞處理,拆分文本形成詞元,制作標(biāo)注、索引。 第四步,特征向量化。 根據(jù)文本的類別、情感等特征將拆分的詞語(yǔ)向量化,解釋為計(jì)算機(jī)語(yǔ)言。 第五步,進(jìn)行模型訓(xùn)練。 利用算法模型,根據(jù)自監(jiān)督或者無(wú)監(jiān)督的模式來(lái)進(jìn)行訓(xùn)練,并根據(jù)反饋來(lái)進(jìn)行調(diào)整。
在Transformer 模型的基礎(chǔ)上,以大規(guī)模預(yù)訓(xùn)練、無(wú)監(jiān)督自學(xué)習(xí)為特性的BERT、GPT、文心、智源“問(wèn)道”等語(yǔ)言大模型相繼出現(xiàn),解決了圖像、文字、視頻等多模態(tài)信息的識(shí)別、交互、生成問(wèn)題,夯實(shí)了AIGC 技術(shù)迭代發(fā)展的基礎(chǔ)。
有了海量的訓(xùn)練樣本,下一步就是對(duì)數(shù)據(jù)信息進(jìn)行學(xué)習(xí)-糅合-加工,形成AI 自身的認(rèn)知體系。 而算法模型的更新則是實(shí)現(xiàn)AIGC 技術(shù)發(fā)展的重要支撐,如變分自動(dòng)編碼器(variational auto encoder,VAE)、生成對(duì)抗網(wǎng)絡(luò)(generative adversarial networks, GAN)、擴(kuò)散模型等。
2.3.1 變分自動(dòng)編碼器
自動(dòng)編碼器是一種無(wú)監(jiān)督的生成模式,主要構(gòu)造為編碼器和解碼器,其原理是通過(guò)編碼器將樣本數(shù)據(jù)降維映射到低維變量,解碼器根據(jù)映射特征將低維變量重構(gòu)為新的樣本數(shù)據(jù)。
變分自動(dòng)編碼器在自動(dòng)編碼器的基礎(chǔ)上形成,但是將編碼器分為方差模塊和均值模塊,另外增加了服從正態(tài)分布的隱變量[5],從而使得解碼器不僅僅能還原數(shù)據(jù),而且具有了生成數(shù)據(jù)的能力。
主要原理如圖1 所示:首先,樣本X經(jīng)過(guò)編碼器均值模塊和方差模塊編碼,形成符合正態(tài)分布的變量;其次,通過(guò)隨機(jī)采樣獲得隱變量Z,并通過(guò)高斯噪聲對(duì)變量進(jìn)行干擾,使得重構(gòu)生成的樣本和原始樣本不完全一樣;最后,通過(guò)解碼器生成盡可能接近原始樣本的新樣本Y。
圖1 變分自動(dòng)編碼器原理
2.3.2 生成對(duì)抗網(wǎng)絡(luò)
GAN 利用生成器和判別器互相對(duì)抗、博弈、制衡,最終達(dá)到納什平衡狀態(tài)[6]。 生成器的作用就是生成最可能接近真實(shí)樣本的數(shù)據(jù),以求能夠欺騙過(guò)判別器,而判別器的目的就是判斷生成器生成的數(shù)據(jù)是否和真實(shí)樣本一致,并且通過(guò)不斷學(xué)習(xí)樣本數(shù)據(jù)以提升自己的鑒別能力。
原理如圖2 所示:首先生成器通過(guò)隱空間采樣一組隨機(jī)噪聲生成數(shù)據(jù),然后由生成器進(jìn)行判別,判斷為假則返回讓生成器重新生成,直到判別器無(wú)法判斷出生成數(shù)據(jù)和樣本數(shù)據(jù)的差別時(shí),則流程結(jié)束。
圖2 生成對(duì)抗網(wǎng)絡(luò)原理
但是,GAN 網(wǎng)絡(luò)在生成數(shù)據(jù)時(shí)也存在一些問(wèn)題。 (1)生成圖像的多樣性欠缺。 生成器如果生成一種圖形能夠“欺騙”過(guò)判別器,則在以后的生成過(guò)程中會(huì)反復(fù)生成同一類型的數(shù)據(jù)。 (2)判別器訓(xùn)練效率較低,不容易收斂。 導(dǎo)致圖像生成的過(guò)程較為繁瑣,而且不容易進(jìn)行優(yōu)化。
2.3.3 擴(kuò)散模型
擴(kuò)散模型同樣是一種無(wú)監(jiān)督的深度生成模型,主要原理如圖3 所示:在學(xué)習(xí)階段,基于馬爾可夫鏈(Markov chain)模型將樣本庫(kù)的訓(xùn)練樣本通過(guò)添加噪聲實(shí)現(xiàn)分解。假設(shè)原始樣本為t0,通過(guò)不斷添加噪聲形成t1,t2,直到全部添加噪聲,并在這個(gè)過(guò)程中構(gòu)建標(biāo)簽,形成樣本庫(kù),此過(guò)程可以看作是正向擴(kuò)散過(guò)程。 在生成階段則正好相反,生成器擬合樣本數(shù)據(jù),并逐步去除噪聲,根據(jù)要求生成圖像,可以看作是逆向的高斯轉(zhuǎn)換過(guò)程[7]。
圖3 擴(kuò)散模型原理
隨著大數(shù)據(jù)訓(xùn)練的維度及深度學(xué)習(xí)算法的發(fā)展,AIGC 由復(fù)制、模仿向創(chuàng)造、創(chuàng)新演進(jìn),應(yīng)用場(chǎng)景也由最初的AI 輔助設(shè)計(jì)向自主生成及智能交互場(chǎng)景發(fā)展[8-9]。2022 年,AI 繪畫(huà)工具midjourney 開(kāi)放測(cè)試,用戶通過(guò)自定義的文字描述,就可以智能生成形態(tài)各異、風(fēng)格多元的圖像,而且提供了人臉風(fēng)格變化、AI 換臉等功能。Open AI 發(fā)布了ChatGPT 語(yǔ)言大模型,智能學(xué)習(xí)并糅合數(shù)據(jù)資料,可以與人工智能交互并創(chuàng)作文章、圖片等數(shù)據(jù)資料。
在早期應(yīng)用階段,AIGC 主要用于輔助設(shè)計(jì)方面,為圖文設(shè)計(jì)提供素材、模板、特效編輯等方面的功能。 而這些功能是軟件或平臺(tái)里已經(jīng)設(shè)定好的,用戶直接拿來(lái)使用即可,并不能自主生成富含邏輯的創(chuàng)意。 比如在圖像處理和設(shè)計(jì)方面,軟件或平臺(tái)里面會(huì)預(yù)先設(shè)置好圖層渲染、濾鏡等模版,方便用戶使用;在文字編輯方面,可以根據(jù)用戶需求進(jìn)行檢索,并將檢索內(nèi)容進(jìn)行簡(jiǎn)單的排列組合。 在語(yǔ)音交互方面,可以實(shí)現(xiàn)對(duì)聲音的識(shí)別、傳譯,如同聲傳譯系統(tǒng)、語(yǔ)音識(shí)別軟件, 但是還不能達(dá)到完善的交互水平[10-11]。
語(yǔ)言大模型的不斷推出,如ChatGPT 4.0、PalM-E、文心一言、盤(pán)古等,給人智交互帶來(lái)了可能。 AI 不僅僅能夠識(shí)別文字、語(yǔ)音、圖像等信息,根據(jù)用戶需求生成多模態(tài)數(shù)據(jù),而且生成的內(nèi)容也已經(jīng)不僅僅局限于預(yù)設(shè)的場(chǎng)景,而是具有了自主生成的能力。
在學(xué)習(xí)學(xué)科知識(shí)、語(yǔ)義、邏輯規(guī)律等相關(guān)內(nèi)容的基礎(chǔ)上,通過(guò)無(wú)監(jiān)督的學(xué)習(xí)方式及模型訓(xùn)練,AIGC 以智能化、擬人化的體驗(yàn)將促進(jìn)其在藝術(shù)、教育、媒體等方面的應(yīng)用。
在藝術(shù)領(lǐng)域,用戶可以很方便地使用相關(guān)軟件創(chuàng)作出富有創(chuàng)意的音樂(lè)、繪畫(huà)等作品。 在繪畫(huà)生成方面,用戶可以通過(guò)文本描述或者提供參考圖片的方式讓AI 生成相應(yīng)的圖片。 比如,以關(guān)鍵詞“巍峨的群山之巔,中國(guó)古代建筑,一群飛鳥(niǎo)掠過(guò),廣角鏡頭,色彩鮮明”作畫(huà),如圖4 所示。
圖4 AI 作圖示例
在教育方面,據(jù)Open AI 公司公布,GPT-4 模擬律師考試的成績(jī)?cè)诳忌信琶?0%左右,在GRE 考試的數(shù)學(xué)和語(yǔ)言部分幾乎得了滿分。 有大數(shù)據(jù)資源庫(kù)、算法模型、虛擬仿真等方面的支持,AI 不僅可以給學(xué)生提供學(xué)習(xí)資料,在生成文章、個(gè)性化學(xué)習(xí)支持、輔導(dǎo)答疑等方面提供幫助,還能營(yíng)造沉浸式的學(xué)習(xí)環(huán)境,并根據(jù)學(xué)生的反饋及時(shí)進(jìn)行評(píng)測(cè)互動(dòng)。
有神經(jīng)網(wǎng)絡(luò)技術(shù)、移動(dòng)互聯(lián)傳感網(wǎng)絡(luò)、物聯(lián)網(wǎng)等技術(shù)的支撐,AI 將逐漸進(jìn)入更高層次的智能交互階段,通過(guò)感觸現(xiàn)實(shí)場(chǎng)景和人們的需求進(jìn)行交互。
通過(guò)AIGC 與輔助腦機(jī)接口的融合,可以實(shí)現(xiàn)大腦不經(jīng)過(guò)外圍神經(jīng)系統(tǒng)而直接與外部設(shè)備之間進(jìn)行智能交互,這項(xiàng)技術(shù)可以應(yīng)用在醫(yī)療、教育、游戲等方面。
目前機(jī)器人已經(jīng)在工業(yè)制造、家居生活、醫(yī)療等方面有了相關(guān)的應(yīng)用。 但是如果將AIGC 和機(jī)器人進(jìn)行深度融合,那機(jī)器人除了簡(jiǎn)單執(zhí)行已經(jīng)設(shè)置好的命令之外,還可以根據(jù)人們提供的文本、圖像、視頻或者語(yǔ)音等多模態(tài)的指令實(shí)時(shí)地進(jìn)行交互,就能夠完成更多具有創(chuàng)造性的工作。 依托于Jetson Xavier 計(jì)算系統(tǒng),根據(jù)傳感器網(wǎng)絡(luò)感應(yīng)環(huán)境,機(jī)器人可以根據(jù)判斷自主進(jìn)行合理的反饋和動(dòng)作。
綜上所述,AIGC 給信息數(shù)據(jù)的整合、傳播、應(yīng)用都帶來(lái)了新的機(jī)遇,并且隨著大數(shù)據(jù)訓(xùn)練樣本的增加,自然語(yǔ)言處理技術(shù)與算法模型的迭代更新,其在數(shù)字化內(nèi)容生成、人智交互領(lǐng)域也將得到更多的應(yīng)用。