• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      從“數(shù)字皮囊”到“有趣靈魂”:生成式AI引領(lǐng)數(shù)字人交互模式變革

      2023-12-02 16:26:44王照涵呂欣
      傳媒 2023年20期
      關(guān)鍵詞:語義人類數(shù)字

      文/王照涵 呂欣

      以虛擬數(shù)字人為載體的“具身在場”將改變傳統(tǒng)媒介的信息表達(dá)方式,用戶可以借助數(shù)字化身以“在場”的方式在虛擬空間中進(jìn)行互動。然而,既有的數(shù)字人由于缺少智能化技術(shù)支持,無法與人類進(jìn)行真正的智能交互,只能作為人類內(nèi)容生產(chǎn)者的“數(shù)字傀儡”,這一點在模型、驅(qū)動、內(nèi)容、情感等層面均有所體現(xiàn),而在語義理解、情感識別與表達(dá)方面尤為突出。如今,作為數(shù)字人重要底層技術(shù)支撐部分的人工智能技術(shù)已實現(xiàn)了躍遷式發(fā)展,為數(shù)字人的智能化發(fā)展提供了全新可能。通過融合生成式人工智能模型與情感計算技術(shù),數(shù)字人將能更為有效地理解用戶情感,從過去僅具備單向輸出的“數(shù)字皮囊”轉(zhuǎn)向為具有語義識別、情感識別及多模態(tài)表達(dá)能力的“數(shù)智人”,其媒介表達(dá)方式以及落地應(yīng)用場景也將更為豐富。

      一、數(shù)字皮囊——數(shù)字虛擬人的常用驅(qū)動方式與交互體驗局限

      傳統(tǒng)文娛行業(yè)中的主流數(shù)字人驅(qū)動方式主要有兩種:真人映射驅(qū)動型(通過捕捉真人的動作并映射到數(shù)字人骨骼上進(jìn)行驅(qū)動),以及自動算法驅(qū)動型(通過文字進(jìn)行語音合成并生成相應(yīng)表情動畫)。

      1.與真人映射驅(qū)動型數(shù)字人交互本質(zhì)上是與其背后的“中之人”進(jìn)行互動。從生產(chǎn)效能上看,此類數(shù)字人需要借助成本高昂的動作捕捉設(shè)備以實現(xiàn)對動捕演員動作的再現(xiàn),無法大規(guī)模部署。無論基于慣性動捕還是光學(xué)動捕,數(shù)字人均無法獨立自主地進(jìn)行互動表演。巨大的經(jīng)濟開銷使得此類數(shù)字人只能應(yīng)用在虛擬偶像等依托粉絲經(jīng)濟收回成本的行業(yè)中;從交互體驗上看,這類數(shù)字人針對觀眾做出的反應(yīng)也同樣是由“中之人”對評論進(jìn)行接收和反饋實現(xiàn)的,用戶體驗的好壞完全取決于“中之人”的表演能力和臨場經(jīng)驗,數(shù)字人本身沒有自主性可言。

      2.自動算法驅(qū)動型數(shù)字人的智能同樣是基于人類內(nèi)容創(chuàng)作者的表達(dá)。此類數(shù)字人利用TTS (Text to Speech)技術(shù)將文本轉(zhuǎn)化為語音,并結(jié)合相應(yīng)的口型動畫算法和動畫庫生成動作,其內(nèi)容生產(chǎn)成本較低,個體便能夠支付。然而,不加修飾合成的視音頻往往動作單調(diào)、語調(diào)平坦,這限制了它們的應(yīng)用場景。換句話說,TTS技術(shù)需要依賴專業(yè)設(shè)備和藝術(shù)家對輸出結(jié)果的調(diào)校,以消除明顯的電子音。此外,此類數(shù)字人只能夠根據(jù)用戶預(yù)設(shè)的時間點執(zhí)行動作庫中的動作,依賴于制作者的選擇,且相對單一。它們無法實時生成內(nèi)容,也無法與觀眾互動,缺乏交互性。

      二、有趣靈魂——AI技術(shù)賦能下的數(shù)字智能人交互模式變革

      數(shù)字人自然交互模式的兩個最主要影響因素是語義和情感。在語義層面,數(shù)字人首先將語音轉(zhuǎn)為文字符號,然后通過這些符號來理解其中包含的概念與具象化實體。而在情感層,數(shù)字人負(fù)責(zé)準(zhǔn)確捕捉用戶的情感,支持對用戶情感的分析,最后將語義和情感結(jié)果綜合起來,并以一種人類用戶可以感知的方式進(jìn)行表達(dá)。

      1.語義層。數(shù)字人僅通過自然語言處理算法能夠?qū)崿F(xiàn)的功能較為有限,難以滿足對用戶短文本輸入的實時理解和實時輸出的需求。而OpenAI的ChatGPT、百度文心一言等大語言模型能夠生成超越預(yù)定文本范圍的回復(fù)內(nèi)容,為數(shù)字人帶來更多更具創(chuàng)造性的可能。

      生成式語言模型的創(chuàng)造性需要一定的框架限制才能有效應(yīng)用在數(shù)字人的語義理解上,本文提出的語義層框架包含對話策略生成與對話歷史管理兩個關(guān)鍵模塊。通過對話歷史管理模塊數(shù)字人能夠?qū)υ拑?nèi)容進(jìn)行記憶并能夠據(jù)此作出回應(yīng)。僅針對單句輸入進(jìn)行的回復(fù)難以給用戶代入感,因此針對不同的應(yīng)用場景,數(shù)字人需要有短期記憶與長期記憶的能力與之搭配。

      通過歷史管理,數(shù)字人應(yīng)該建立一個針對用戶與數(shù)字人之間對話歷史的記錄系統(tǒng),從中提取用戶的特點、需求等信息,并基于這些信息創(chuàng)建一個對話歷史數(shù)據(jù)庫。在后續(xù)的內(nèi)容生成過程中,數(shù)字人可以通過參考對話歷史信息,生成更符合用戶需求的回復(fù)。對話策略管理是數(shù)字人進(jìn)行對話內(nèi)容生成的提綱。其核心在于運用決策狀態(tài)機明確交互邏輯、跟蹤對話狀態(tài),并根據(jù)用戶反饋和上下文信息進(jìn)行實時調(diào)整與更新。通過狀態(tài)機,數(shù)字人能夠察覺應(yīng)用場景的變化,并依據(jù)當(dāng)前對話狀態(tài)生成相應(yīng)的回復(fù),以完成對話。通過對話策略管理,數(shù)字人可以清晰地定義對話所需采取的路徑、要達(dá)成的目標(biāo),并通過判斷用戶的意圖和對話語境來選擇最優(yōu)的回復(fù)。

      2.情感層。為了讓數(shù)字人更好地理解人類情感,本文提出了一套稱為“情感智能”的體系,它包括感知輸入、分析和表達(dá)輸出三個關(guān)鍵組成部分,用于協(xié)助數(shù)字人理解人類用戶的情感,進(jìn)而具備更準(zhǔn)確地捕捉及模擬人類情感表達(dá)的能力。

      情感感知系統(tǒng)作為情感智能的輸入,為系統(tǒng)提供多模態(tài)的用戶數(shù)據(jù)。在假定生理檢測模式有效性的前提下,情感感知系統(tǒng)分析獲取用戶語音信息中的語氣、節(jié)奏等信息,通過傳感器采集用戶的心率、血壓、皮膚電導(dǎo)等指標(biāo),以推斷其情緒狀態(tài)。同時,還可以引入眼動、表情與手勢等生物信息作為輸入源,這些信息將作為表征用戶情感的重要參考,供后續(xù)的情感分析模塊使用。

      情感分析模塊負(fù)責(zé)將感知來的情感信號轉(zhuǎn)化為計算機可理解的情感狀態(tài)。數(shù)字人可以進(jìn)一步通過情感理解進(jìn)行有效的情感推理,包括通過語音的速度、音調(diào)、強度、間隙等理解對話者的說話方式,反推其情感狀態(tài),實現(xiàn)對人類用戶情緒的理解。同時,其他模態(tài)的信息也可以作為對情緒理解的補充,相關(guān)的情感分析技術(shù)能夠幫助數(shù)字人更好的理解人類用戶持有的情感狀態(tài),并制定后續(xù)的交互策略。

      情感表達(dá)模塊使數(shù)字人能進(jìn)行人類可感知的情感輸出。該模塊是“情感智能”系統(tǒng)中與傳統(tǒng)的情感計算系統(tǒng)區(qū)別最大的部分,同時也是實現(xiàn)更自然、更有說服力的交互體驗不可或缺的部分。該模塊需要將通過計算與分析得到的多模態(tài)輸出反映在數(shù)字人的行為上,從而使數(shù)字人以類似人類的方式回應(yīng)用戶的情感狀態(tài)和需求,并將結(jié)果投射到數(shù)字人的語音語調(diào)、面部表情、身體語言中。

      通過這三個模塊的協(xié)同工作,數(shù)字人能夠更準(zhǔn)確地捕捉和模擬人類的情感表達(dá),這不僅提高了數(shù)字人情感系統(tǒng)的精度,還增強了數(shù)字人對復(fù)雜情感交互場景的理解和處理能力。

      三、從數(shù)字虛擬人到數(shù)字智能人——交互方式革新與應(yīng)用場景重繪

      通過結(jié)合生成式人工智能進(jìn)行語義理解與情感計算,數(shù)字人能夠在一套完整的“情感智能”系統(tǒng)下與人類用戶進(jìn)行自然交互,從而實現(xiàn)更高級別的智能化,將其從數(shù)字虛擬人躍升為數(shù)字智能人。這種智能化不僅能夠顯著提升用戶體驗,還能夠有效地擴展其應(yīng)用場景。

      1.?dāng)?shù)字智能人可以通過與人類用戶共情以緩解人類的孤獨感。搭載情感人工智能的數(shù)字人能夠更好地理解用戶情感,實現(xiàn)更人性化的反饋,實現(xiàn)對用戶的陪伴與支持。

      2.?dāng)?shù)字智能人可以承擔(dān)起部分人工客服的工作。通過對話策略管理與情感計算,數(shù)智虛擬人能夠提供24小時不間斷的引導(dǎo)服務(wù),勝任大多數(shù)人工客服的任務(wù),及時解決用戶的困難,并提供更合理的服務(wù)流程。

      3.?dāng)?shù)字智能人可以承擔(dān)起教師的職責(zé)。搭載大語言模型與情感計算功能的數(shù)智虛擬人為在線教育提供了全新的可能性和選擇,能夠通過學(xué)生的反饋與情感信息實時調(diào)整難易程度與教學(xué)策略,從而更好地完成教學(xué)目標(biāo)。

      4.?dāng)?shù)字智能人在電子游戲領(lǐng)域中的重要性不容忽視。通過情感計算,數(shù)字人能夠根據(jù)玩家的行為與偏好調(diào)整自身的行為方式和反應(yīng)速度,從而增進(jìn)游戲的趣味性和挑戰(zhàn)性。帶有獨特人格與情感的數(shù)字人能夠增強游戲的定制性,也將為玩家提供更廣闊的創(chuàng)新空間。

      猜你喜歡
      語義人類數(shù)字
      人類能否一覺到未來?
      人類第一殺手
      好孩子畫報(2020年5期)2020-06-27 14:08:05
      語言與語義
      1100億個人類的清明
      答數(shù)字
      數(shù)字看G20
      “上”與“下”語義的不對稱性及其認(rèn)知闡釋
      人類正在消滅自然
      奧秘(2015年2期)2015-09-10 07:22:44
      認(rèn)知范疇模糊與語義模糊
      成雙成對
      鹤壁市| 塘沽区| 中方县| 六盘水市| 吴江市| 宁都县| 曲靖市| 兖州市| 报价| 扶风县| 呼和浩特市| 双江| 台东县| 潢川县| 色达县| 涿鹿县| 奇台县| 北辰区| 额尔古纳市| 呼伦贝尔市| 嘉定区| 五峰| 简阳市| 多伦县| 浮梁县| 彭泽县| 桃源县| 乌鲁木齐市| 灵宝市| 罗甸县| 靖州| 开远市| 海丰县| 南雄市| 天门市| 揭东县| 长寿区| 古交市| 大荔县| 北宁市| 桂林市|