朱奕帆,許 鑫,張昫頻
虛擬數(shù)字人深度產(chǎn)業(yè)報告顯示,到2030年我國虛擬數(shù)字人市場規(guī)模預計將達到2700億元,其中數(shù)字人被認為是元宇宙的入口和目前最確定的賽道之一。數(shù)字人不同于醫(yī)學意義上的碳基人,一般指存在于元宇宙的硅基人,它由0和1構(gòu)成,沒有生老病死的困擾;與機器人相比,它暫不具有實體;它與自然人不同,在法律上尚未明確定義。
數(shù)字人的興起伴隨著諸多質(zhì)疑:數(shù)字人的真實表現(xiàn)如何?用戶能否接受數(shù)字人?用戶能否感知數(shù)字人的作用?針對目前市場缺乏數(shù)字人評價體系的困境,本研究嘗試基于用戶感知理論,構(gòu)建一種能夠多維度對比數(shù)字人的測評模型,并從用戶視角解讀數(shù)字人的發(fā)展現(xiàn)狀,發(fā)現(xiàn)其優(yōu)勢與不足,以期對數(shù)字人發(fā)展提供參考。
“元宇宙”(Metaverse)一詞本身源于尼爾·斯蒂芬森小說《雪崩》(Snow Crash)。元宇宙概念的發(fā)展歷史悠久,最早可追溯至遠古壁畫。在中國古代,莊周夢蝶、世外桃源,古人從夢境和想象空間中汲取智慧和力量,表達人們對“平行世界”的美好想象。近年來,阿凡達、漫威等通過CG和動作捕捉技術(shù)構(gòu)建電影世界,《黑客帝國》講述了人類文明與機器文明共存、現(xiàn)實與虛擬交織的世界。堡壘之夜、我的世界、Roblox在游戲領(lǐng)域展現(xiàn)了對元宇宙概念的理解。
從狹義上看,元宇宙概念與現(xiàn)實世界相對應,過去我們通過“數(shù)字孿生”將現(xiàn)實世界投射到網(wǎng)絡(luò)空間中,數(shù)字孿生(digital twin)是以數(shù)字化方式創(chuàng)建物理實體的虛擬模型,借助數(shù)據(jù)模擬物理實體在現(xiàn)實環(huán)境中的行為,并擴展新的能力[1]。在此階段更多關(guān)注的是物體的孿生,比如在疫情期間舉辦的線上博覽會、景區(qū)的全景導覽、博物館的網(wǎng)上展廳等。隨著算力爆發(fā)式增長,以及人工智能、云計算、動作捕捉、面部捕捉、AR/VR等技術(shù)發(fā)展,使得在虛擬世界中創(chuàng)設(shè)虛擬數(shù)字人成為可能。構(gòu)建一個龐大的、《雪崩》中的元宇宙已未來可期。
新冠疫情讓本該在未來到來的很多事情加速發(fā)現(xiàn),人類虛擬世界在線時間大幅增長,這為元宇宙大爆炸奠定了時代背景[2]。從專業(yè)內(nèi)容生產(chǎn)的互聯(lián)網(wǎng)1.0,到用戶生產(chǎn)內(nèi)容的互聯(lián)網(wǎng)2.0,生產(chǎn)力發(fā)生了巨大變化,用戶與內(nèi)容的生產(chǎn)關(guān)系從單一獲取轉(zhuǎn)變成雙向互動。電影中的英雄角色、動畫中的人物形象已無法滿足用戶日漸增長的精神需求。
虛擬分身(Avatar)是《雪崩》中創(chuàng)造的另一個概念,發(fā)展至今擁有了更為廣泛的稱呼——虛擬數(shù)字人(Metahuman),通過動作捕捉、面部捕捉、三維建模、語音合成等技術(shù),借助AR/VR/MR等終端,呈現(xiàn)出虛擬立體的人。它有三大特征:具有“人”的形象、“人”的性格和行為特征、類“人”的互動能力,被視為未來人們進入元宇宙的入口。數(shù)字人與“前世”的電影動畫人物相比,跳出了“劇本”限制,被賦予智能化、情感性、思想性特征,更加接近真實人的表現(xiàn)。
對于數(shù)字人而言,經(jīng)歷了以“二次元”為代表的1.0階段,通過專業(yè)工具建模或人工繪畫構(gòu)建人物形象,配合人工配音,成本高、生產(chǎn)力低下;以虛擬主播為代表的2.0時代,由真人動作和表情捕捉并實時渲染;目前正向3.0階段進化,具備模型高精、人工智能驅(qū)動等特點,并具備一定的交互能力。隨著數(shù)字人多維度接近真實人,數(shù)字人載體應用不斷豐富,縱橫雙向發(fā)展深入,對數(shù)字人的倫理、權(quán)利、有用性爭議頻發(fā)。據(jù)此,本文基于用戶感知理論,提出一種測評數(shù)字人的模型,從用戶視角感受數(shù)字人發(fā)展現(xiàn)狀,厘清和發(fā)現(xiàn)潛在問題。
2021年10月,國家廣播電視總局發(fā)布《廣播電視和網(wǎng)絡(luò)視聽“十四五”科技發(fā)展規(guī)劃》,首次明確鼓勵和支持虛擬數(shù)字人技術(shù)發(fā)展,推動虛擬主播、動畫手語廣泛應用于新聞播報、天氣預報、綜藝科教等節(jié)目生產(chǎn),創(chuàng)新節(jié)目形態(tài),提高制播效率和智能化水平。時至今日,數(shù)字人作為數(shù)字經(jīng)濟之一已進行多輪發(fā)展迭代,從角色來分,有基于情感的虛擬寵物、虛擬伴侶;基于功能的虛擬導游、虛擬客服;基于娛樂的虛擬偶像、虛擬主播等。從誕生視角來看,數(shù)字人包含虛擬原生和虛實共生雙重定義,虛擬原生是利用人工智能內(nèi)容生成(AI Generated Content)等技術(shù)手段生成具有獨立性的數(shù)字人,而虛擬共生可認為是真實人在元宇宙中“孿生”投影。
數(shù)字人相關(guān)應用最早始于動漫、游戲,集中在影視娛樂產(chǎn)業(yè),隨著產(chǎn)業(yè)升級,數(shù)字人憑借高效、高質(zhì)的特征,應用場景有了巨大突破,逐漸向傳媒、政務、醫(yī)療、教育、金融、養(yǎng)老等多個領(lǐng)域滲透。
在娛樂領(lǐng)域,虛擬偶像通過情感的三個層次來建立強化與受眾的養(yǎng)成關(guān)系,繼而實現(xiàn)更高層次的陪伴與信任[3]。通過以關(guān)系為邏輯的新型算法,幫助傳播者更快速地找到目標受眾,同時目標受眾也因為關(guān)系加成而更愿意接受與喜愛的虛擬偶像相關(guān)的內(nèi)容[4]。有學者認為虛擬偶像顛覆了粉絲與偶像之間單項崇拜關(guān)系,進入了融合發(fā)展階段[5]。
在教育領(lǐng)域,受到線上線下混合式教學模式和疫情反復的背景因素影響,線上教學已成為新常態(tài),數(shù)字人正成為未來教育技術(shù)研究的新熱點。也有學者認為基于虛擬與現(xiàn)實、線上與線下等二元對立關(guān)系的混合式教學模式暴露出局限性和改革的必要性,并提出混沌型教學模式,旨在打破虛實邊界[6],元宇宙和數(shù)字人的發(fā)展給教育帶來了更大的想象空間。
在金融領(lǐng)域,元宇宙新金融場景會成為下一步商業(yè)銀行競爭的新戰(zhàn)場、新賽道[7]。百信銀行、浦發(fā)銀行、江南農(nóng)商銀行等紛紛推出虛擬員工,探索高效高質(zhì)服務新方法。
在概念爆發(fā)元年,熱點下的多重聲音不乏刻意炒作的叢生亂象,存在不自知的空泛噱頭、不健康的競爭格局、不辯證的科技排斥、不均衡的供需結(jié)構(gòu)、不持續(xù)的激進擴張、不節(jié)制的盲目崇拜、不理性的享樂主義等“七宗罪”風險[8]。數(shù)字人的存在與傳播實踐消除了真實與虛擬的邊界。在媒介技術(shù)發(fā)展條件下,真實與虛擬之間的界限趨于模糊,這一趨勢深度影響著人們的日常生活與觀念意識,也改變了人們的審美范式,有學者擔心一旦抽離其中的經(jīng)濟邏輯,將只剩下技術(shù)的皮囊[9]。當這些數(shù)字人足夠成熟時,有可能實現(xiàn)在無人類干預的情況下,像人一樣進行主觀思考的程度。那么,該如何對虛擬人自發(fā)進行的內(nèi)容生產(chǎn)進行規(guī)范監(jiān)管?又該如何制定相關(guān)的內(nèi)容安全標準并找到適配的操作方法?這些問題如何在法律和道德倫理的范疇內(nèi)去規(guī)范,也需要相關(guān)監(jiān)管部門和行業(yè)主導者共同去探索[10]。
可以看出,現(xiàn)有研究從領(lǐng)域?qū)<液蛯W者視角探索數(shù)字人供需關(guān)系和應用場景,少數(shù)學者也對輿論亂象、數(shù)字人的倫理和法律風險提出擔憂。近期,中國信息通信研究院(以下簡稱“中信院”)云計算與大數(shù)據(jù)研究所已牽頭在國際電信聯(lián)盟和中國通信標準化協(xié)會完成多項全球范圍內(nèi)首創(chuàng)的數(shù)字人國際標準及行業(yè)標準,從基礎(chǔ)技術(shù)能力、基礎(chǔ)工程化能力、基礎(chǔ)安全保障能力三個方面共計48個測試項對數(shù)字人系統(tǒng)基礎(chǔ)能力評測。中信院從技術(shù)和理論視角定義和測評數(shù)字人對規(guī)范數(shù)字人發(fā)展、廠商良性競爭意義重大,但仍欠缺一線實際用戶對數(shù)字人的感知反饋。
隨著企業(yè)在激烈的商業(yè)競爭中繼續(xù)尋求營銷優(yōu)勢,“顧客導向”的理念逐漸建立起來。企業(yè)必須學會探測顧客的價值需求,保證自身產(chǎn)品和服務超越競爭對手,促進企業(yè)軟實力以在競爭中占據(jù)上風。顧客感知價值理論是營銷學者“以顧客為導向”的呼喚下逐步形成的。
1988年,Zaithanml通過對顧客的調(diào)查,認為顧客感知價值是“顧客基于感知所得和所失后進行的產(chǎn)品效用的整體性評估”[11]。Choi等人研究發(fā)現(xiàn)顧客感知價值對其滿意度和行為意向有顯著的影響作用[12]。國內(nèi)學者廣泛運用三分法將顧客感知價值以3個維度為標準進行劃分,如范秀成團隊認為可以將顧客感知價值分為功能價值、情感價值和社會價值[13]。孟慶良團隊提出了顧客感知價值的主要構(gòu)成維度還包括了知識價值,豐富了顧客感知價值理論[14]。李武進一步將感知價值劃分為社會價值、價格價值、內(nèi)容價值、互動價值和界面設(shè)計價值,研究分析了感知價值對用戶滿意度的影響[15]。
數(shù)字人作為新興技術(shù)和概念,其價值頗有爭議,在發(fā)展和應用中關(guān)注用戶端的反饋顯得尤為重要。用戶對數(shù)字人有用性和易用性[16]進行感知時具有主觀性,然而當感知樣本足夠多時,就會形成口碑和輿論,能夠較為真實地反應用戶對對數(shù)字人的態(tài)度。市場上數(shù)字人眾多,其技術(shù)路線和參數(shù)為廠商內(nèi)部資料,獲取較為困難,無法進行類似白盒測試的技術(shù)指標定量測評。在用戶感知理論下,用戶從感知價值視角評價事務,類似計算機軟件領(lǐng)域中的黑盒測試。李萍等通過對攜程旅游網(wǎng)上關(guān)于北京景點進行用戶評論文本挖掘,研究游客對景點的形象感知[17]。邵小彧等基于新冠肺炎疫情階段微博數(shù)據(jù),發(fā)現(xiàn)公眾情緒與農(nóng)產(chǎn)品價格之間具有強關(guān)聯(lián)性[18]。董慶興等利用用戶調(diào)查問卷測評在線健康社區(qū),研究用戶持續(xù)使用意愿[19]。在對數(shù)字人測評時,用戶并不了解特定數(shù)字人的詳細參數(shù),但能從其行為中感知其態(tài)度來體現(xiàn)數(shù)字人的優(yōu)劣。結(jié)合前述相關(guān)研究,本文借鑒用戶感知理論三分法中的功能價值、情感價值、社會價值,另擴增新事物發(fā)展受到關(guān)注的技術(shù)價值和互動價值作為測評數(shù)字人的基礎(chǔ)維度。用戶的行為感知方法有傳統(tǒng)的問卷調(diào)查法、訪談法等,在互聯(lián)網(wǎng)進入UGC(User Generated Content)時代以來,越來越多的學者利用海量用戶生成內(nèi)容進行文本挖掘獲取用戶真實想法。
綜合上述理論基礎(chǔ)和研究現(xiàn)狀,本文嘗試從感知技術(shù)性、感知功能性、感知交互性、感知情感性、感知社會性五維視角建立數(shù)字人測評模型(如圖1),利用大量用戶評論數(shù)據(jù)感知用戶對數(shù)字人在各維度上的態(tài)度,反饋其發(fā)展現(xiàn)狀。
圖1 用戶感知視角下數(shù)字人測評模型
(1)感知技術(shù)性。當數(shù)字人作為一個新型事物進入大眾視野時,技術(shù)上如何實現(xiàn)必然會成為用戶關(guān)心的話題,當用戶談論此維度時,可能會產(chǎn)生正面或負面的情緒。比如“建模精度很高”等,可以讓我們感知到用戶對特定數(shù)字人技術(shù)賦能的認知程度。
(2)感知功能性。新技術(shù)的發(fā)展必然解決了某一需求。感知功能價值就是考察數(shù)字人能不能用,能不能解決某一需求。著眼于數(shù)字人領(lǐng)域,其功能可以是它的職業(yè)、它的角色,即該數(shù)字人擁有什么樣的技能,在社會上承擔了什么樣的角色,提供了什么服務,得到了怎么樣的應用。
(3)感知交互性。數(shù)字人與傳統(tǒng)CG動畫、影視作品人物最大的區(qū)別就在于具備人“人”的交互性,交互性可以從用戶互動、虛實融合、人機設(shè)備支持等進行感知。
(4)感知情感性。情感價值指用戶對數(shù)字人的體驗感知,追求的是產(chǎn)品體驗更好更有溫度。在數(shù)字人領(lǐng)域可以解讀為該數(shù)字人外貌好不好看,性格討不討喜。若數(shù)字人的外貌、性格等更討用戶喜歡,意味著該數(shù)字人的易用性更好,即認為情感價值較高。
(5)感知社會性。社會價值體現(xiàn)著數(shù)字人在社會中帶來的影響,包括商業(yè)潛力和治理難度等。若用戶認為數(shù)字人商業(yè)前景更佳,更有發(fā)展空間,則認為社會價值更高。
根據(jù)上述用戶感知視角下數(shù)字人測評模型,本文首先采集大量用戶評論數(shù)據(jù)代替?zhèn)鹘y(tǒng)調(diào)查問卷作為模型輸入,然后對用戶評論進行維度分類,進而發(fā)現(xiàn)用戶在各維度上的態(tài)度并對典型數(shù)字人的指標打分,實踐驗證數(shù)字人測評模型可行性,并嘗試發(fā)現(xiàn)各個數(shù)字人之間的差別以及數(shù)字人在用戶視角下的不足和局限,最后為數(shù)字人積極發(fā)展提供建議。
國內(nèi)把數(shù)字人分為虛擬偶像、虛擬主播和虛擬員工3類[3],本研究選取受眾群體為年輕人居多、評論氛圍良好的嗶哩嗶哩(bilibili)視頻網(wǎng)站作為數(shù)據(jù)來源。根據(jù)覆蓋多個分類和具有足夠評論樣本的原則,排除樣本過少的虛擬員工類數(shù)字人,最終選取美妝主播柳夜熙、二次元歌手洛天依、湖南衛(wèi)視主播小漾、清華超現(xiàn)實虛擬學生華智冰和AI手語主播作為研究對象。
運用八爪魚采集工具抓取研究對象視頻的用戶評論。經(jīng)去重后采集到99個視頻的113,545條評論,時間范圍為2016年12月13日至2022年4月15日,有效字段包括評論內(nèi)容、點贊數(shù)、發(fā)布時間、評論人等,數(shù)據(jù)分布如表1所示。
表1 各數(shù)字人采集數(shù)據(jù)量
采用jieba工具包對文本進行分詞,使用百度停用詞表、哈工大停用詞表等作為詞典剔除常見停用詞,使用搜狗詞庫中的人工智能、虛擬主播、虛擬現(xiàn)實技術(shù)詞庫作為新詞改善分詞準確率。數(shù)據(jù)字段中點贊數(shù)作為重要的評論質(zhì)量指標,本文把一次點贊也記為一次評論,以得到更準確的文本特征。通過python腳本統(tǒng)計詞頻,進一步基于TextRank[20]算法抽取關(guān)鍵詞,利用詞云可視化等輔助手段,經(jīng)過人工判斷得到關(guān)鍵特征詞,如表2所示。
表2 測評視角特征詞及舉例
在打分階段,本文根據(jù)上表5個維度對每個數(shù)字人評分,具體步驟為根據(jù)關(guān)鍵詞抽取用戶評論,使用snow NLP:Simplified Chinese Text Processing工具包對評論進行情感分析,得到各維度上評論的情感傾向,最終得到模型維度的打分。
對5位數(shù)字人從3個維度進行打分,得到評分如表3所示,并進一步通過雷達圖進行可視化呈現(xiàn),如圖2所示。評分區(qū)間為0到1,0為最差,1為最好,一般認為中值0.5表示用戶對此無情感傾向。據(jù)觀測,在單個數(shù)字人的3個維度抽取評論樣本時,重復率遠低于5%,因此4個維度得分由不同樣本得出,可認為無相關(guān)性,信度符合要求。
圖2 數(shù)字人評分雷達圖
表3 數(shù)字人評分表
4.3.1 感知技術(shù)性得分結(jié)果
從雷達圖的技術(shù)維度觀察,柳夜熙與洛天依用戶感知技術(shù)性最佳。柳夜熙出道最晚,在擬人化方便做得較好,與真人十分相似,用戶認為其技術(shù)性最好的結(jié)果符合預期。洛天依作為二次元數(shù)字人,技術(shù)得分較高出人意料,經(jīng)分析原因可能是技術(shù)逐年持續(xù)提升,用戶信心很強,比如評論“這次模型好看!寶貝們加油!”“總之建模很不錯,比預期好很多,實在是好好康”。在此維度得分最低的是小漾,由于其屬于功能型數(shù)字人,用戶對其模型等方面要求不高,可能是造成得分較低的原因。
4.3.2 感知功能性得分結(jié)果
從雷達圖的功能維度觀察,5位數(shù)字人在此項評分上均有差異,這與數(shù)字人角色定位的不同有關(guān)。從官方定義來看,評分較高的華智冰、柳夜熙與洛天依為偶像型數(shù)字人,技能為讀書學習、美妝、劇情演繹,而評分較低的小漾和AI手語主播為功能型數(shù)字人,技能為主持、手語等。其中小漾評分為0.64,AI手語主播評分為0.69,即使高于0.5的限值,屬于樂觀傾向,但整體評分偏低反映出用戶對功能型數(shù)字人的功能期待更高。進一步抽取數(shù)字人相應評論后,猜測一方面是用戶認為功能型數(shù)字人理應功能價值更高,因此期待相應變高,期望與實際表現(xiàn)的落差造成了該項評分較低;另一方面,有用戶評論AI手語主播“太快了跟不上”,也體現(xiàn)出相關(guān)數(shù)字人還處于發(fā)展階段,在專業(yè)技能上還有提升空間。
4.3.3 感知交互性得分結(jié)果
在交互性維度,5位數(shù)字人分成3個團體,小漾一枝獨秀(0.99),AI手語主播居于其后,剩下3位抱團取暖。值得注意的是在此維度表現(xiàn)好的均為功能型主播,更關(guān)注與用戶的交互能力,發(fā)揮自身功能價值。而偶像型主播在交互性上處于弱勢地位。
4.3.4 感知情感性得分結(jié)果
在情感價值維度,5位數(shù)字人略有差異。以卡通形象展現(xiàn)的洛天依評分最高,說明在用戶視角下,形象真實并不是用戶情感傾向的唯一標準,二次元元素的性格因素以及z時代(1990年代末至2010年代前期出生的人)用戶群體居多使得二次元仍是一個值得發(fā)展的數(shù)字人細分領(lǐng)域。超寫實選手華智冰的情感評分排在倒數(shù)第二,與日常經(jīng)驗有所區(qū)別。從早期數(shù)字人1.0時代的二次元洛天依,到數(shù)字人3.0時代的超寫實華智冰,體現(xiàn)出了云計算、人工智能、動作捕捉等軟硬件技術(shù)的飛速發(fā)展,但經(jīng)過實踐發(fā)現(xiàn),二次元外貌數(shù)字人給用戶帶來的情感價值不一定弱于超寫實外貌。
4.3.5 感知社會性得分結(jié)果
在社會價值維度,湖南衛(wèi)視主播小漾一馬當先,而二次元歌手洛天依得到了全場最低評分(0.57),接近負面評價。社會價值亦稱“市場價值”,在測評模型設(shè)立階段特征詞大多也與商業(yè)有關(guān),因此此項得分反映出現(xiàn)階段用戶更看好超寫實數(shù)字人的商業(yè)發(fā)展。資本逐利,新技術(shù)的發(fā)展必然需要盈利才能良性循環(huán),二次元歌手洛天依雖仍受到用戶喜愛,但經(jīng)過多年發(fā)展在社會價值上評分位列倒數(shù)已呈現(xiàn)疲態(tài)。虛擬偶像數(shù)字人顏值接近真人,憑借人設(shè)穩(wěn)定、時間無限、黑科技話題等特點在商業(yè)價值上優(yōu)勢明顯。同時值得高興的是,用戶非??春眯⊙?、AI手語主播等功能型數(shù)字人的社會價值,表明該領(lǐng)域正協(xié)同健康發(fā)展,為未來生活方式帶來了更多可能。
4.3.6 整體評價
從整體來看,柳夜熙憑借發(fā)展均衡沒有短板成為得分最高的數(shù)字人,與《2021年度中國虛擬數(shù)字人影響力指數(shù)報告》中柳夜熙被評為最具影響力的數(shù)字人結(jié)論相符。偏科嚴重的小漾可以看出用戶更看好其發(fā)展?jié)摿Γ珜δ壳暗募夹g(shù)表現(xiàn)不滿意,希望之后小漾這樣的功能型數(shù)字人能夠為社會做出更大貢獻。值得關(guān)注的是,本研究的初心是構(gòu)建數(shù)字人的橫向測評模型,使對比數(shù)字人的優(yōu)劣勢成為可能,以促進數(shù)字人全面發(fā)展,因此并沒有最終排名。
用戶對數(shù)字人態(tài)度有質(zhì)疑有肯定,在對數(shù)字人打分測評過程中,發(fā)現(xiàn)了一些值得思考的現(xiàn)象,筆者選取其中具有代表性的數(shù)據(jù),從交互能力、進化趨勢、智能知識服務和權(quán)利風險四個方面展開。
根據(jù)數(shù)字人相關(guān)定義,具備“人”的交互能力是其重要特征,上述實證研究也發(fā)現(xiàn)近年隨著信息技術(shù)迭代升級,數(shù)字人著重發(fā)展交互能力,用戶對此項能力持期待態(tài)度。研究中發(fā)現(xiàn)許多數(shù)字人聲稱可以寫詩、唱歌、手語翻譯、自我學習等,但廠商并沒有開放交互通道,數(shù)字人服務用戶形式大多為定制,在用戶視角下沒有一個“元宇宙空間”或其他形式與用戶產(chǎn)生互動,仍處于生產(chǎn)力發(fā)展早期階段,這與早期智能音箱的語音交互形式相比反而是一種退步。筆者以“互動、交互、性格”作為特征詞抽取用戶評論,發(fā)現(xiàn)樣本稀少且用戶對此均持中性態(tài)度,因此在實際測評中適當擴展了定義,把人機交互、觀眾感受也納入感知交互性中。這也表明數(shù)字人暫不能走出熒幕與用戶產(chǎn)生虛實結(jié)合的互動,進而無法建立起更加立體的人物性格印象,距離具備獨立“人格”的數(shù)字人尚有差距。未來,當無限趨近于真人的“有血有肉”的虛擬朋友,與你私密地交談,分擔憂愁共享快樂,做你想做卻不敢做的事,那么元宇宙虛實共生的樣態(tài),可能才能慢慢到來。
進一步選擇出道時間最長的數(shù)字人洛天依,對其用戶評論數(shù)據(jù)做以年為單位的時間窗口劃分,利用上述模型建立評分表,試圖探索該數(shù)字人在各維度上的進化表現(xiàn)。
從圖3可以觀察到,2018-2022年洛天依的各年度評分折線形態(tài)較為相似,證明上述測評模型較為穩(wěn)定。同時,在各維度評分總體呈上升趨勢,表明用戶對該數(shù)字人的整體評價越來越好,其中感知技術(shù)性、感知功能性和感知情感性3個維度評分年度差距較小。感知技術(shù)性評分提升較小,猜測由于洛天依作為二次元數(shù)字人,在目前以“擬人”為主流的技術(shù)發(fā)展中并未取得紅利。感知交互性評分年度之間差異巨大且年份之間評分交錯,從2018年評分低位到2022年5個維度中評分第一,總體呈向上趨勢,表明近幾年用戶認為該數(shù)字人的交互性提升較大。在2020年呈現(xiàn)明顯下降趨勢,并非表明該數(shù)字人在交互能力的絕對值上有所下降,而是數(shù)字人提升與用戶期望的相對值下降,側(cè)面體現(xiàn)出近年來數(shù)字人領(lǐng)域著力發(fā)展交互能力,數(shù)字人之間競爭加劇。
圖3 洛天依各年度評分折線圖
伴隨數(shù)字人多類型,多維度發(fā)展,帶來了更多的應用場景和可能。洛天依的出現(xiàn),成為國內(nèi)首屈一指的二次元虛擬偶像IP(知識產(chǎn)權(quán),Intellectual Property);柳夜熙借短視頻風口,一舉成為超寫實數(shù)字人代表人物,并成功開拓美妝、劇情領(lǐng)域;華智冰褒貶不一,但憑借清華大學背書,最有希望成為擁有自主學習能力的“元宇宙原住民”;小漾、AI手語主播的出現(xiàn),打破了數(shù)字人在知識服務領(lǐng)域的應用空白,從最為博人眼球和賺錢的娛樂領(lǐng)域往功能領(lǐng)域沉淀。今后,可能會出現(xiàn)醫(yī)療數(shù)字人、家居數(shù)字人、教育數(shù)字人等等,圖書館作為知識服務重要機構(gòu),探索從傳統(tǒng)紙質(zhì)閱覽、數(shù)字圖書館轉(zhuǎn)向元宇宙圖書館的發(fā)展路徑,必然離不開知識服務型數(shù)字人。在未來可以想象,任何時間任何地方帶上VR眼睛,在圖書館的數(shù)字人引導員帶領(lǐng)下暢游圖書館、紅色景點,不受地域和疫情阻攔與朋友暢談所知所悟。
虛擬學生華智冰不同于傳統(tǒng)的偶像型和功能型,并聲稱其具備“人”的學習能力,因此筆者對其進一步探究,使用ROSTCM6工具對華智冰的用戶評論分詞、提取高頻詞、過濾無意義詞、提取行特征,使用NetDraw軟件繪制網(wǎng)絡(luò),如圖4所示。
圖4 華智冰用戶評論特征詞共現(xiàn)網(wǎng)絡(luò)圖
詞語共現(xiàn)網(wǎng)絡(luò)圖中節(jié)點為特征詞,連接表示兩個詞在同一評論中具有共現(xiàn)關(guān)系,共現(xiàn)網(wǎng)絡(luò)圖可以展現(xiàn)高頻詞之間的關(guān)系,比單一分析更能發(fā)現(xiàn)真實語意。從圖中可以看到(真人-合成)以及(宣傳-誤導)詞語組的共現(xiàn)頻率較高,查看分析原始評價,發(fā)現(xiàn)有用戶提出華智冰是由真人建模所得,因此外貌十分像真實存在的人,與宣傳的人工智能不符,進而有用戶提出了肖像權(quán)的問題。
數(shù)字人產(chǎn)生權(quán)利風險的原因主要來源于兩點。一是由于現(xiàn)有技術(shù)不夠成熟,數(shù)字人建設(shè)過程不能完全通過人工智能生成(AIGC,AI Generated Content),因此必然有真人建模、動作捕捉、聲音合成步驟,導致產(chǎn)生肖像權(quán)問題。二是當數(shù)字人發(fā)展到一定階段,必然會自主生成內(nèi)容,包括文章、圖畫、人臉甚至是性格,那么在這過程中的圖畫、文章的所有權(quán)歸屬于數(shù)字人還是數(shù)字人的建設(shè)者?若該數(shù)字人的行為觸犯了法律,那應由數(shù)字人承擔還是數(shù)字人的建設(shè)者承擔?進一步講,目前的知名數(shù)字人大多為女性,這是否會帶來一些女性權(quán)利風險?
目前在業(yè)界有人嘗試通過區(qū)塊鏈技術(shù)解決所有權(quán)問題,比如非同質(zhì)化代幣(Non-Fungible Token,NTF)等,但對數(shù)字人本身的權(quán)利和法律風險還沒有深入研究和明確定義。
在筆者看來,數(shù)字人測評猶如一場虛擬選秀節(jié)目,用戶作為評委對各個參賽數(shù)字人提出了評價和建議。出發(fā)點是探究數(shù)字人的發(fā)展現(xiàn)狀和不足,最終目的是為數(shù)字人發(fā)展和進步提供參考。針對市場缺失測評手段和方法,本研究創(chuàng)新性基于用戶感知理論構(gòu)建了數(shù)字人用戶視角測評模型,使評估和對比數(shù)字人成為可能。進一步使用更加客觀的海量用戶評論數(shù)據(jù)代替調(diào)查問卷作為模型輸入,驗證了數(shù)字人測評模型的可行性。通過實踐發(fā)現(xiàn):數(shù)字人的表現(xiàn)與官方定位基本一致,但各數(shù)字人之間差異顯著。用戶對功能型數(shù)字人的期待更高,超寫實技術(shù)和卡通技術(shù)都受到用戶喜愛,用戶更看好功能型數(shù)字人的社會價值。在未來發(fā)展上,應著重增強數(shù)字人交互能力,關(guān)注超寫實數(shù)字人的權(quán)利和法律風險。
本研究也存在一些局限和不足。一是在模型構(gòu)建方面受制于信息獲取單向的特征,對數(shù)字人的交互能力考察不夠周到;二是模型實踐方面嗶哩嗶哩網(wǎng)站雖然評論質(zhì)量較高,但用戶群體大多為剛工作的青年,評論樣本可能偏向某一群體,并且各個數(shù)字人的用戶評論量不均衡。在進一步的研究中,將嘗試擴展優(yōu)化測評模型的維度,使模型更加全面科學。同時將改善采樣方法,從多個平臺采集數(shù)據(jù),減少數(shù)據(jù)傾斜和人工誤差,加強結(jié)論的“魯棒性”。