AI 虛擬數(shù)字人與用戶的關(guān)系建構(gòu)
——發(fā)音人的視角

2023-02-06 20:19:22彭冬雪

中國傳媒科技 2023年12期

彭冬雪

（云南藝術(shù)學院，云南昆明 650500）

人工智能的應用自落地以來，相關(guān)技術(shù)逐漸從理論研究和應用研究走向落地實踐，互聯(lián)網(wǎng)和大數(shù)據(jù)的技術(shù)發(fā)展使得人工智能的數(shù)據(jù)和算法應用也逐漸普及，隨著人工智能技術(shù)的不斷發(fā)展和應用，AI 虛擬數(shù)字人也逐漸與其他技術(shù)和領域進行融合，形成了更加復雜和綜合的應用場景。而形成的大多數(shù)產(chǎn)品和應用都與用戶使用脫不開關(guān)系，以往的文獻重在人機交互的層面，方向多是以“由下向上”為主，也就是在產(chǎn)品的服務環(huán)節(jié)上，多以用戶的需求為重點，尤其在特定的場景下，如何迎合與適配用戶體驗成為AIGC 產(chǎn)品尤其是AI 虛擬數(shù)字人的改進目標和方向。探討AI 虛擬數(shù)字人與用戶關(guān)系建構(gòu)的原理、方法和實際應用是本文關(guān)注的重點，尤其“發(fā)音人”的作用不容小覷。

1. AI 虛擬數(shù)字人的成長路徑

AI 虛擬數(shù)字人是一種具有多重人類特征（外貌特征、人類表演能力、人類交互能力等）的綜合產(chǎn)物，由計算機圖形學、圖形渲染、動作捕捉、深度學習、語音合成等計算機手段創(chuàng)造及使用，具有語言交流、表情傳遞、行為決策等多種功能。AI 虛擬數(shù)字人從20世紀80 年代開始發(fā)展，起初受限于技術(shù)，虛擬人制作以手繪和化妝為主，制作形式主要是2D、3D 動畫，代表性虛擬偶像有：日本虛擬歌姬林明美和英國虛擬演員Max Headroom。到21 世紀初期，隨著CG 技術(shù)、動作面部捕捉技術(shù)的發(fā)展，逐漸取代了傳統(tǒng)手繪，虛擬人開始加速運用到影視行業(yè)。2007 年～2016 年，這個階段主要是音樂軟件的二次元虛擬形象，直到2016年被稱為人工智能元年，人工智能開始帶動虛擬偶像的發(fā)展。2020 年至今是AI 虛擬數(shù)字人的成長階段。

AI 虛擬數(shù)字人可以應用于虛擬助手、虛擬客服、虛擬偶像/主播等多個領域，但更強調(diào)其多重人類特征的模擬和呈現(xiàn)。目前比較成功的AI 虛擬數(shù)字人形象有以下：

清華數(shù)字學生“華智冰”是人工智能全新聊天機器人，能夠與人對話互動，作詩、作畫、作曲、翻譯，都游刃有余。柳夜熙是虛擬美妝博主，不僅擁有完美的身材和顏值，還會定期更新視頻，教網(wǎng)友如何化妝、如何搭配等。度曉曉、希加加是百度推出的AI 數(shù)字人，擁有二次元的形象，可以幫助人們搜索信息、回答問題等。

AI 虛擬數(shù)字人、人工智能主播和虛擬偶像都是基于人工智能技術(shù)創(chuàng)建的角色，但它們的應用場景、功能和形態(tài)存在一些區(qū)別：人工智能主播是基于人工智能技術(shù)開發(fā)的，具有語音識別、語音合成、自然語言處理等功能，能夠與用戶進行交互的虛擬主播。它通常被應用于直播帶貨、新聞播報等領域，能夠自動化地進行播報和回答用戶的問題。我們在一些媒體平臺看到的人工智能主播有的是以真人主播為原型，比較有代表性的人工智能主播有：新華社首位AI 合成主播“新小浩”，搜狗聯(lián)合新華社推出的全球首個3D AI合成主播“新小微”，科大訊飛推出的AI 主播“康曉輝”和“時間小妮”，央視的AI 主播“小白”，女主播“新小萌”。

虛擬偶像是基于人工智能技術(shù)開發(fā)的，具有音樂表演、舞蹈表演、形象設計等功能的虛擬人物。它們通常被應用于娛樂、音樂等領域，能夠進行多樣化的表演和互動。代表性的虛擬偶像有——翎：由魔琺科技與次世文化共同打造的虛擬偶像，以京劇梅派第三代傳人的聲音，現(xiàn)場演繹梅蘭芳代表作《天女散花》，成為首個登上央視舞臺的虛擬偶像。其發(fā)布于社交平臺的內(nèi)容涉及琴棋書畫、梅蘭竹菊，均營造出一種“科技國風感”。洛天依：上海禾念信息科技有限公司運營的虛擬歌手，也是中國第一個擁有自己的專業(yè)聲庫和形象設定的虛擬歌手。ASoul：字節(jié)跳動旗下品牌朝夕光年的虛擬偶像組合，包括嘉然、向晚、乃琳、貝拉和珈樂。A-SOUL 第二任看板娘：米哈游發(fā)布的一個二次元虛擬偶像。K/DA：韓國女子團體，由阿貍、卡莎、莎彌拉和迦娜四位英雄組成。初音未來：CRYPTON FUTURE MEDIA 開發(fā)的音源庫，也是日本第一個使用全息投影技術(shù)舉辦演唱會的虛擬偶像。絆愛：日本女子團體，也是世界上第一個虛擬主播。未來明：日本的一位虛擬主播，因其游戲和直播內(nèi)容而受到關(guān)注。七海Nana7mi：中國的一位虛擬主播，因其游戲和直播內(nèi)容而受到關(guān)注。時乃空：中國的一位虛擬主播，因其音樂和直播內(nèi)容而受到關(guān)注。

AI 虛擬數(shù)字人、人工智能主播和虛擬偶像雖然應用于不同場景，但是他們之間還有一點不同：“中之人”—發(fā)音人的作用不同。

2. AI 數(shù)字人如何喚起用戶的感知真實

AI 虛擬數(shù)字人是一種基于人工智能技術(shù)的虛擬形象，可以與用戶進行交互和交往，日常中的互動是社會上個人與個人之間，群體與群體之間等通過語言或其他手段傳播信息而發(fā)生的相互依賴性行為的過程，因此AI 虛擬數(shù)字人在與用戶互動的過程中也應該有一定的社會行為，以更好地實現(xiàn)人機互動。人工智能、圖形學和機器人方面的進展正在加速實現(xiàn)工具人身代理，如社交機器人、虛擬化身和數(shù)字人類。體現(xiàn)的虛擬人工代理的非語言行為是與現(xiàn)有媒介的關(guān)鍵區(qū)別。當我們與具有人類外形的代理人互動時，我們自然希望他們能像人類一樣做一些社會行為，這通常被稱為“社會負擔”，這種非語言行為在許多人與人的互動和人與代理的互動研究中被證明是有效的。代理人適當?shù)氖謩莺捅砬橛兄诮沂敬砣说囊鈭D，使聽眾集中注意力，并與人類建立融洽的關(guān)系。[1]個人與具有類似人類存在的物體互動的方式與無生命的物體不同。他們傾向于將類似的社會規(guī)則賦予具有人類外觀的計算機技術(shù)，盡管他們完全意識到他們在與機器互動。擬人化的存在引起了個人的基本社會腳本，如禮貌和互惠，這導致了與機器的情感、認知和社會反應。過去的研究表明，非人類伙伴的可感知的人類相似性是寄生社會互動發(fā)生的重要前提，這使得它是真實的而不是虛構(gòu)的。寄生社會關(guān)系的發(fā)展取決于對應方的真實性、現(xiàn)實性或可信度水平。[2]如何建立與用戶的真實的交往關(guān)系？在關(guān)系的這一層面里具有很多維度：情感關(guān)系、建立信任、互動的有效性等。接下來筆者將以百度的AI 虛擬數(shù)字人度曉曉為例，在多方面進行分析。

2.1 AI 虛擬數(shù)字人需要與用戶建立信任

信任被定義為某人愿意在某個問題、背景或信息方面變得易受影響。[3]這就是為什么當涉及人機交互時，信任具有特殊的重要性，用戶需要信任和依賴數(shù)字代理或虛擬助手，因為他們必須代表他們行事。[4]度曉曉是百度公司推出的手機虛擬AI 助手，是國內(nèi)首個可交互虛擬數(shù)字人。度曉曉具備較為完整的語音交互體驗，與以往的智能音箱一樣，用戶通過語音喚醒App，就可以進行1to1 的對話體驗。除了能回答用戶的問題外，還可以主動感知用戶需求，分析用戶的行為、興趣和環(huán)境等信息進行智能分析，主動為用戶提供服務。目前度曉曉的應用場景也比較豐富，包括語音交互、內(nèi)容創(chuàng)作、知識回答、情感陪伴等。而用戶對互動的內(nèi)容也會有一個基本的判斷和要求，互動是自然的，并且這些服務以及提供的信息必須是真實的有效的。在今年5 月底舉行的2023 萬象·百度移動生態(tài)大會上，肖陽就演示了“AI 伙伴”的能力?；舆^程中，這位“Al 伙伴”，能夠聽懂用戶的任何問題，并用語音進行互動，同時為用戶標記出答案中的重點，提供權(quán)威的來源，以及根據(jù)用戶意圖制作圖片或進行文案創(chuàng)作，重要的是所回答的問題都符合了用戶所問問題的主題。[5]不難看出，在用戶提問后，AI 虛擬數(shù)字人需要理解用戶的問題，并給出準確的回答，如果AI 虛擬數(shù)字人的回答與用戶問題不相關(guān)，用戶可能會感到困惑和不滿。

由于以人為本的設計理念，人們期望在AI 虛擬數(shù)字人那里獲得具有效益的信息并且期望符合內(nèi)心的預測，Luke Balcombe 和 Diego De Leo 在《關(guān)于數(shù)字心理健康中的人機互動》指出機器學習的可用性挑戰(zhàn)，包括開發(fā)和運行模型需要足夠的技能和時間，用戶對模型缺乏信任，以及扎根于人機學習分歧的斗爭，重要的是建立信任，減少分歧，提高責任感，解釋模型的邏輯，量化對預測的具體貢獻，評估性能指標，并說明以前研究的歷史預測。[6]AI 虛擬數(shù)字人需要建立起與用戶之間的信任，才能達成長期的關(guān)系，這里的信任很大程度上指的是互動中給出信息的真實度和準確度。而在這個環(huán)節(jié)之前，發(fā)音人作為“存放聲音的倉庫”，也就是語音庫，是按照詞語或者句組的方式錄制的聲音，然后集中存儲到一個數(shù)據(jù)庫中，通常語音庫的文件體積越大，處理文本的能力就越強，發(fā)音效果就越好，也就越接近于真人發(fā)音，從而增強AI 虛擬數(shù)字人的“真實感”。另外信息的準確度來源之一是對互動中自然語言的理解，這同樣需要在發(fā)音人工作階段有大量的文本積累，從而通過計算機算法進行深度學習，更好地理解語義回答問題。在其他方面回答用戶問題的權(quán)威性和準確性也來源于知識庫和企業(yè)信息庫，綜合來說這些都可以進一步增強用戶與AI 虛擬數(shù)字人之間的信任感。

另一個必須考慮的方面是性別，這個領域的一些主要參與者，如蘋果、谷歌或亞馬遜，已經(jīng)確保設備不僅有類似人類的語調(diào)，而且是女性的語調(diào)，因為她們被認為是更溫暖的、更值得信任的、更容易理解的，總之，更容易被人喜歡。[7]彭蘭在《AIGC 與智能時代的新生存特征》中提到，虛擬形象對人的另一種反射，是它所內(nèi)隱的設計者的價值觀與文化，今天的智能機器在外觀上的設計更是如此，不管是外貌還是聲音，總是以女性為主，人類社會現(xiàn)有的性別偏見，通過設計者也延續(xù)到了機器身上。[8]這也是我們經(jīng)?？吹降囊恍┨摂M形象多是以女性角色出現(xiàn)的原因。

2.2 AI 虛擬數(shù)字人需要創(chuàng)造與用戶有效的情感互動

AI 虛擬數(shù)字人需要與用戶進行互動，以了解用戶的需求和偏好，增強自身深度學習的效果。這可以通過語音交互、文本聊天、手勢識別等方式實現(xiàn)。而這些動態(tài)交互不能只是有，還要準確。機器像一面鏡子，反射著與之交流的人，影響其自我認知。有研究者認為，在人機交往中，虛擬的自我認同與現(xiàn)實的自我認同互相影響，共同建立起完整的“自我”。作為人的“化身”的虛擬交往對象，既讓“我”看到了另一個自己，也幫助“我”建立了“理想的他者”。[9]這也意味著這些互動有時不單單是為了獲取信息，還可能是一種情感陪伴和自我療愈的過程，數(shù)字平臺和人工智能（AI）在改善心理健康護理和自殺預防服務的預測、識別、協(xié)調(diào)和治療方面具有良好的潛力?；邮饺斯ぶ悄芸赡苡兄谠谶^時的、緊張的精神保健系統(tǒng)中進行實時篩查和治療。[10]譬如：如果有人在數(shù)字平臺的輸入欄輸入“該如何自殺”，這時AI 虛擬數(shù)字人是否可以探測到異常，能自然并擬人化的與用戶溝通，聊天甚至開導。這都是值得討論的問題。發(fā)音人在此環(huán)節(jié)創(chuàng)造的價值是，通過自然、流暢的語音交互，使用戶與AI 虛擬數(shù)字人之間建立自然有效的情感互動。例如，情感互動需要一定情境和背景，也就是我們常說的虛擬互動中的應用場景，發(fā)音人在采集數(shù)據(jù)時，被要求需要在不同場景表達出譬如喜悅、難過、平靜、驚恐等一系列情緒的話語和表情動作，并且體量很大，因此呈現(xiàn)在AI 虛擬數(shù)字人互動中的各種情緒性表達一定意義上來說都是由發(fā)音人賦予，以此讓用戶感受到AI 虛擬數(shù)字人的親切感，增強情感互動從而增強用戶的信任感。

2.3 AI 虛擬數(shù)字人需要給用戶提供個性化的建議和信息

基于大數(shù)據(jù)模型和計算機應用的深度學習以及算法應用，深度學習是AI 虛擬數(shù)字人在了解用戶習慣時經(jīng)常提到的詞，這需要AI 虛擬數(shù)字人在面對不同群體不同問題時表現(xiàn)出專業(yè)性以及內(nèi)容的垂直性，還是以百度AI 虛擬數(shù)字人度曉曉為例。2022 年度曉曉作答了全國新高考Ⅰ卷題為《本手、妙手、俗手》的議論文，拿下了48 分的高分，戰(zhàn)勝了超75%的考生，文章更是在全網(wǎng)刷屏，2023 年，在一場關(guān)于高考直播的中，百度“AI 伙伴”現(xiàn)場挑戰(zhàn)高考語文考試，包括作文、微寫作、古詩詞賞析、文言文翻譯等。一篇文言文作文甚至迷惑了資深語文老師莊臨旭，誤以為是真人所寫，給了很高的評價，認為水平超過95%的同學。這樣的互動實例就給了更多人愿意去嘗試AI 助手的信心。發(fā)音人在進行前期基礎工作時，可以根據(jù)用戶需求和偏好，提供個性化的語音，比如根據(jù)用戶的興趣再合成相關(guān)的語音推薦。還可以通過其知識儲備和信息來源，提供各種豐富的信息和建議，發(fā)音人和技術(shù)的結(jié)合讓AI 虛擬數(shù)字人幫助用戶更好地理解和應對各種情況，更好地解決問題獲得成長。

2.4 AI 虛擬數(shù)字人要具有一定程度的擬人化

擬人化被表示為 “一個形象看起來像人的程度”。[11]從AI 虛擬數(shù)字人的發(fā)展來看，幾乎所有的虛擬形象都有一個角色設定，這樣方便用戶能夠更好地理解他們的身份，角色設定應該與應用程序或網(wǎng)站的目標相一致，并能夠為用戶提供有價值的服務。而且虛擬數(shù)字人的發(fā)展方向在于交互能力的提升和形象呈現(xiàn)的進步，擬人化是發(fā)展的核心，表現(xiàn)為對真人的替代能力。彭蘭提出虛擬偶像部分采用的是“皮套”+“中之人”模式，對于虛擬數(shù)字人來說，發(fā)音人也類似于其中“中之人”，但與虛擬偶像的“中之人”不同的是，或許虛擬偶像的互動與在數(shù)字平臺的表現(xiàn)可能就來自真實的人，而虛擬數(shù)字人的互動表現(xiàn)是發(fā)音人語音和表情動作的深度學習與算法合成，并且“中之人”不會表現(xiàn)出特定某個人的具體特征。在現(xiàn)存的文獻中，幾乎70%的文章指出，擬人化的表現(xiàn)對虛擬人物的發(fā)展至關(guān)重要，因為它提供了其社會存在的線索，研究表明，虛擬人物越是擬人化，其可信度和熟練度就越高。[12]在Lisa Alazraki 和Ali Ghachem 等人在用于心理治療的人工智能聊天軟件的非臨床試驗結(jié)果中得出，聊天軟件中類人角色得到了更多的最高范圍的回應。[13]發(fā)音人如何在讓AI 虛擬數(shù)字人在深度學習后的互動時擬人化程度高，最主要的是在表達時語流的流暢度高、不同場景下情緒的飽滿程度好、動作表達更合時宜以及唇動幅度明顯和自然。但是是否交互過程擬人化程度越高用戶的接受度就越高呢？這是下一步需要大量調(diào)研去驗證的事情。

3. 發(fā)音人在人工智能領域的定義及作用

發(fā)音人是指掌握并運用某種方言的人，在人工智能領域中，發(fā)音人是指為語音合成、語音識別、口語評測等人工智能技術(shù)提供聲音數(shù)據(jù)的人。發(fā)音人的聲音質(zhì)量、發(fā)音標準程度和口音特點等因素都會影響人工智能技術(shù)的性能和應用效果。筆者從2015 年開始接觸并參與人工智能語音合成項目，工作是為智能語音項目做前期的發(fā)音和播報，落地的產(chǎn)品就是智能音箱，通過TTS 語音合成技術(shù)將輸入的文本合成為語音。然而在技術(shù)合成之前需要有一個足量的語音數(shù)據(jù)庫，以便在后期合成時，在計算機算法的支持下形成具體的語音內(nèi)容。2019 年開始參與AI 虛擬數(shù)字人的聲音及面部表情的采集工作，與智能語音項目不同的一點是，除了對發(fā)音人的聲音有要求外，對發(fā)音人的上鏡形象也有一定的要求，落地的產(chǎn)品就是具有動畫形象的虛擬助手。因此，如何給數(shù)據(jù)賦能，重要之一就是發(fā)音人的語音和行為及面部動作數(shù)據(jù)的采集。

3.1 人工智能語音及AI 虛擬數(shù)字人項目對發(fā)音人的要求

在發(fā)音人的選擇方面，也有一些固定的標準，尤其在智能語音項目中，發(fā)音人的語音質(zhì)量要足夠高，聲音要清晰、自然、流暢，沒有雜音和干擾。隨后就是對發(fā)音人音色的要求，這里說的音色并不是單純指其定義（指聲音的特色，也可以說是聲音的本質(zhì)，又叫音質(zhì)。是不同的聲音能夠相互區(qū)別的最基本的特征。它決定于物體振動所形成的音波波紋的曲折形式不同。）而是發(fā)音人在不同場景下模擬出的聲音，在這一方面有點相似于配音演員。如發(fā)音人按要求模仿15歲左右的女生聲音，并且以俏皮可愛、生氣憤怒、撒嬌等情緒表達出來，在每個場景下需要的數(shù)據(jù)發(fā)音人大概要錄制三千句左右，但錄制的過程有嚴格的要求，需要每一句不論長短都保持同樣的音量、音高和音質(zhì)，也就是錄制過程中錄音師經(jīng)常對發(fā)音人提出的一項要求就是狀態(tài)要始終保持一致。錄制內(nèi)容上面則是隨機的，并不會根據(jù)情緒表達的不同而在文本上會有所設計，這樣是為了確保基礎數(shù)據(jù)的準確性和概括性。而對于年齡和性別在人工智能項目里的傾向，在之后會詳細闡明。

AI 虛擬數(shù)字人對發(fā)音人的要求在聲音方面跟智能語音項目大致相同，語速要適中，不要太快或太慢，同時要有適當?shù)耐ｎD，以便后期AI 虛擬數(shù)字人能夠把語句意思與唇形變化匹配起來。發(fā)音人的聲音類型要與AI 虛擬數(shù)字人的形象和角色要求相符合，例如，如果是創(chuàng)建年輕女性的數(shù)字人，則需要年輕女性的聲音。除此之外，AI 虛擬數(shù)字人項目對發(fā)音人另一個重要的要求就是較好的上鏡形象，錄制時需要頭發(fā)扎好，顯露臉部，發(fā)音人臉部清晰明亮；口部正對攝像頭，面部與錄制手機保持平行；頭部動作幅度不要太大，盡量保持一致；口型豐富、生動、咬字清晰；錄制語速平穩(wěn)，句子與句子之間需要自然閉嘴。隨著技術(shù)的更新，采集數(shù)據(jù)的要求也變高了，在動態(tài)捕捉方面更多開始往唇形的幅度靠攏，這里注重的是唇形變化的幅度而不是準確度，因為在視覺效果方面AI 虛擬數(shù)字人說出來的話要像真人一樣有唇動的變化，加之面部眉眼的動態(tài)，力求讓AI 虛擬數(shù)字人在與用戶交互的過程中能更生動與自然，也就是更擬人化。

3.2 發(fā)音人數(shù)據(jù)采集的準確度會影響AI 虛擬數(shù)字人的交互效果

發(fā)音人的工作對AI 虛擬數(shù)字人的影響很大，因為發(fā)音人是AI 虛擬數(shù)字人的聲音基礎和動態(tài)表達的形象基礎，其聲音質(zhì)量、表達方式、語速、表情、唇形、動作幅度等都會直接影響AI 虛擬數(shù)字人的交互效果。如果發(fā)音人的聲音質(zhì)量不好、表達方式不準確、語速過快或過慢，都會導致AI 虛擬數(shù)字人的語音交互效果變差，甚至讓用戶無法理解或產(chǎn)生誤解。如果發(fā)音人的面部動作捕捉幅度過小，顯示在AI 虛擬數(shù)字人上的動態(tài)會非常不明顯，從而降低交互的效果。因此，選擇合適的發(fā)音人是非常重要的，需要考慮到發(fā)音人的語音質(zhì)量、表達方式、語速、動作幅度等因素，以確保AI 虛擬數(shù)字人的交互效果良好。綜上所述，AI 虛擬數(shù)字人對發(fā)音人的要求比較高，需要發(fā)音人具備專業(yè)的語音知識和技能，同時要根據(jù)數(shù)字人的要求進行針對性的語音錄制和表情動作的調(diào)整。

3.3 發(fā)音人助力人工智能技術(shù)的性能多樣化發(fā)展

發(fā)音人可以為人工智能技術(shù)提供多語種、多地域的聲音數(shù)據(jù)，使人工智能技術(shù)的性能更加豐富和多樣化。筆者參與的AI 虛擬數(shù)字人項目主要以普通話為主，其間有少部分英文。發(fā)音人在語音和面部動態(tài)捕捉方面的工作可以不斷優(yōu)化計算機深度學習算法，提高語音識別的準確性和自然度，使虛擬數(shù)字人的發(fā)音更加準確，面部表情和唇動變化更加真實和自然。除了語音數(shù)據(jù)，還可以引入圖像、視頻、文本等多模態(tài)數(shù)據(jù)，通過多模態(tài)融合技術(shù)，提高虛擬數(shù)字人的智能和自然度，而在加強語言的理解方面則通過發(fā)音人提供的準確標準的語音數(shù)據(jù)，通過強化學習等技術(shù)，提高虛擬數(shù)字人對不同語言的理解和表達能力，使其更好地適應不同場景和用戶需求?；ヂ?lián)網(wǎng)產(chǎn)業(yè)時評人張書樂表示，虛擬數(shù)字人某種意義上是各大互聯(lián)網(wǎng)科技廠商展示“肌肉”的一個集中呈現(xiàn)物，即內(nèi)容創(chuàng)造、人工智能、動作捕捉和各種與之相關(guān)技術(shù)的融合，本質(zhì)上虛擬數(shù)字人不誕生新技術(shù)，而是用受眾最容易理解的方式展示黑科技成果。[14]

3.4 發(fā)音人為AI 虛擬數(shù)字人的交互效果提供準則

發(fā)音人可以為人工智能技術(shù)提供不同年齡、性別、文化背景、表情動作等特征的聲音和形象數(shù)據(jù)，使得人工智能技術(shù)能夠更好地適應不同的應用場景和用戶需求。與智能語音的交互不同，AI 數(shù)字人的交互需要通過畫面的動態(tài)形象來實現(xiàn)，而大量的基礎數(shù)據(jù)支持仍然來源于發(fā)音人，我作為發(fā)音人截至目前一共錄制了42.2 個成品小時的內(nèi)容，內(nèi)容的要求隨著產(chǎn)品的更新迭代也有不同，最初的19 個小時內(nèi)容的要求主要是面部表情的動態(tài)識別，需要在不同的情緒下，如平靜、開心、憤怒、驚恐等展現(xiàn)不同的面部動態(tài)，每個表情的錄制內(nèi)容在三千句左右。其中錄制最多的表情是平靜，以獲取更精準的面部識別數(shù)據(jù)。之后的內(nèi)容則更加注重唇動數(shù)據(jù)的采集，在表達內(nèi)容時要求唇形的變化要明顯，幅度要大要準確，更像“真人”在表達。

3.5 發(fā)音人協(xié)助人工智能技術(shù)升級

發(fā)音人可以為人工智能技術(shù)提供聲音數(shù)據(jù)，并協(xié)助開發(fā)者進行技術(shù)調(diào)試和優(yōu)化，提高人工智能技術(shù)的準確性和可靠性。前文區(qū)分了AI 虛擬數(shù)字人、人工智能主播和虛擬偶像的區(qū)別，這三種人工智能角色在一定程度雖然都可以稱為AI 虛擬數(shù)字人，但值得注意的是，人工智能主播在真人數(shù)據(jù)采集，并以真人為原型作為基礎的情況下合成為智能主播時，在語音的采集和動作捕捉上面相對容易一些，呈現(xiàn)出的2D 或者3D形象也更像真人，尤其在唇動數(shù)據(jù)和動作自然程度上更加貼切，這都是因為一切都“有跡可循”。而不以現(xiàn)實中真人形象作為基礎的AI 虛擬數(shù)字人則在語音的采集和動作捕捉上面難度更大，還原到虛擬人物上時，唇動數(shù)據(jù)和動作自然程度的逼真度要低，這就要求發(fā)音人在進行內(nèi)容表達的時候要做到絕對的準確。

在采集的數(shù)據(jù)應用到模型上之前，計算機需要對語音和面部動態(tài)數(shù)據(jù)進行深度學習，因為這進一步影響到交互中語義理解的問題，在語音交互中，語義理解要處理的問題是用戶在口語化表達，也就是自然語言表達下的意圖，而現(xiàn)實生活中的自然語言表達通常存在上下文關(guān)聯(lián)、場景特定用語、口語化、常識背景、省略說法等語言現(xiàn)象，同時一些垂直領域?qū)嶓w取名復雜，存在大量實體歧義的現(xiàn)象（比如“三只羊”是一個通常詞匯，也是一個公司的名字）。場景、語境、交互對象的不斷切換讓語音交互中的語義理解更加困難。對于缺乏較大量訓練數(shù)據(jù)的特定對話任務，為了提升模型的語義理解能力，通常還需要結(jié)合相應實體或句式等其他資源，抑或者通過底層句子語義建模能力的提高來獲得泛化性能的增強。[15]在一些文章中會把AI 虛擬數(shù)字人稱為虛擬代理，其中的研究表明，虛擬代理在交互中的積極影響隨著代理的質(zhì)量而增加：虛擬代理越看起來越擬人化就越好。因此，代理功能的質(zhì)量，如作為類似人類的聲音、手勢、面部表情、眼睛注視和身體運動等發(fā)揮著重要作用。[16]而這些工作都需要處在基礎環(huán)節(jié)的發(fā)音人去完成。由此，我們提出AI 虛擬數(shù)字人的發(fā)展依靠技術(shù)升級的同時，還要結(jié)合更多方面，例如發(fā)音人在基礎工作中的表現(xiàn)。

4. AI 虛擬數(shù)字人和實驗語音學之間存在密切的關(guān)系

AI 虛擬數(shù)字人喚起用戶的感知真實需要落到具體的交互過程中，體現(xiàn)在AI 虛擬數(shù)字人上就是在語言表達和面部動作呈現(xiàn)尤其是唇動數(shù)據(jù)的采集上，而落實在實操上面的語音和唇動就與發(fā)音人在表達過程中與實驗語音學之間的關(guān)系有關(guān)聯(lián)了。實驗語音學是研究語音的生理、物理和心理因素的學科，而AI 虛擬數(shù)字人則是利用計算機技術(shù)和人工智能技術(shù)來創(chuàng)建和模擬人類語音的數(shù)字人物，兩者之間互相影響。在前文筆者也提到一直參與人工智能語音項目和AI 虛擬數(shù)字人數(shù)據(jù)采集工作，接下來筆者將以部分工作經(jīng)歷和發(fā)音人的采訪作為內(nèi)容分析的出發(fā)點和落腳點。

4.1 實驗語音學的研究成果為AI 虛擬數(shù)字人提供重要的支持和參考

實驗語音學可以通過對語音生成的生理和聲學機制的研究，開發(fā)出更準確的語音識別算法和語音合成算法，使得虛擬數(shù)字人和智能語音工具的聲音更加自然和真實。實驗語音學的研究成果可以為AI 虛擬數(shù)字人的語音合成、語音識別、語音評估等方面提供重要的支持和參考。例如，實驗語音學的研究成果可以用于優(yōu)化AI 虛擬數(shù)字人的語音質(zhì)量、語音表達方式和語速等，從而提高其語音交互效果，喚起用戶在互動中的交流真實感，激發(fā)交流欲望。筆者從事智能語音工作時，有一階段發(fā)音人需要在脖子上佩戴儀器監(jiān)測聲音發(fā)出時的振幅，但在進行過程中很有難度，為了保證一致性，在統(tǒng)一情緒的表達下（如開心、難過、憤怒等）振幅差別太大需要重錄，并且儀器的佩戴需要緊貼脖子，發(fā)音人的表達舒適度降低，進程也會放緩。而在這一過程中發(fā)音人要始終保持一個狀態(tài)，這是為了在固定場景下保證交流效果的統(tǒng)一性和準確性，確保在真實交流環(huán)境下，用戶不會因為不穩(wěn)定情緒而表達“出戲”。在前文提到的，進行AI 虛擬數(shù)字人的發(fā)音人數(shù)據(jù)采集工作時，尤其注意唇動數(shù)據(jù)的采集。但是從實驗語音學的角度來講，正常人在日常表達中是有語流音變的，再加上發(fā)音規(guī)律中涉及唇形和舌位的變化，最后加上語境，很多句子和詞匯的在表達過程中唇形的變化就沒有那么的明顯，例如裊裊炊煙一詞，裊的發(fā)音在唇形的變化體現(xiàn)在從展唇到圓唇，但對于疊詞裊裊，如果想表現(xiàn)出語流的自然，唇形在建模系統(tǒng)中的采集就不會很明顯，呈現(xiàn)出來的就只是上下唇的輕微張合；再比如知識一詞，如果都按照展唇發(fā)音，就會出現(xiàn)聲音發(fā)出的時候唇部沒有變化。而在視頻互動中缺少明顯的動態(tài)表達，似乎是AI 虛擬數(shù)字人與用戶交互的大忌，那該如何改變呢？在整個錄制的過程中也達成了一種“規(guī)范”，在遇到唇動不明顯的疊詞時，語速可以稍微放緩，唇動的變化稍許夸張，動程做到位，盡量體現(xiàn)出唇形的變化。對于zh、ch、sh 的組合發(fā)音，則可以輕微撮唇。在效果的呈現(xiàn)上，唇形的豐富度使得虛擬數(shù)字人在與用戶交互時更加自然流暢，機械感降低，擬人化程度也提高。但是與此同時實驗語音學也需要大量的數(shù)據(jù)和實驗來支持，來驗證在多場景下部分唇動的不規(guī)則變化是否會影響語音的語義理解，而這些數(shù)據(jù)和實驗往往需要較高的成本和時間。

4.2 AI 虛擬數(shù)字人的發(fā)展為實驗語音學的研究提供了新的方法和工具

例如，AI 虛擬數(shù)字人可以用于模擬不同條件下的語音信號和唇形數(shù)據(jù)，為實驗語音學的研究提供可靠的實驗數(shù)據(jù)和實驗環(huán)境。大部分的數(shù)字虛擬助手都采用自然語言理解技術(shù)，可以解析用戶的語言，理解其含義，并作出相應的回應，除了普通話和外國語的區(qū)別之外，國內(nèi)的少數(shù)民族語言和方言的使用情況復雜，口音問題也在普通話的表現(xiàn)明顯，中國的方言有一百多種，而這一百多種方言可以細分到一個具體的地點，比如某市、某縣、某鎮(zhèn)、某村的方言，正所謂“十里不同音，百里不同俗”。中國有五十六個民族，在五十五個少數(shù)民族中，一個民族說一種語言的比較多，有的民族說兩種或兩種以上的語言，據(jù)統(tǒng)計，我國少數(shù)民族語言的數(shù)目在七十種以上。面對如此龐大的數(shù)量，AI 虛擬數(shù)字人的廣泛應用可以為實驗語音學的多方面研究帶來助力。還是以度曉曉為例，度曉曉基于多模態(tài)交互技術(shù)，可以實現(xiàn)語音識別、文本輸入、語音合成等多種交互方式，交互的頻次越多，數(shù)據(jù)就越豐富。度曉曉還具備機器翻譯能力，可以自動翻譯語音或文本，為用戶提供多語言的服務，這樣可以吸引更多使用不同語言的群體。此外，度曉曉采用自然語言理解技術(shù)，可以解析用戶的語言，理解其含義，并作出相應的回應?；谏疃葘W習技術(shù)，可以進行語音識別、文本分類、情感分析等任務，為用戶提供更加智能、個性化的服務，互動方式和服務越完善，擬人化程度越高，就能吸引更多的用戶使用。AI 虛擬數(shù)字人和實驗語音學共同推動語音技術(shù)和人工智能技術(shù)的發(fā)展和應用。

結(jié)語

人工智能技術(shù)的飛速發(fā)展，使AI 虛擬數(shù)字人在各個領域的應用都越來越廣泛，人機交互技術(shù)的不斷提升，讓AI 虛擬數(shù)字人與用戶的關(guān)系建構(gòu)方面變得越來越重要。通過分析現(xiàn)有研究，筆者發(fā)現(xiàn)AI 虛擬數(shù)字人在用戶關(guān)系建構(gòu)中的應用主要集中在以下幾個方面：用戶體驗、情感傳遞、行為影響等。其中從發(fā)音人的視角來看，發(fā)音人在數(shù)據(jù)采集的工作中發(fā)揮重要作用，提供的聲音數(shù)據(jù)是人工智能技術(shù)的基礎，為語音合成、語音識別、口語評測等技術(shù)提供訓練和測試的數(shù)據(jù)。其聲音質(zhì)量、發(fā)音標準程度和口音特點等因素都會影響人工智能技術(shù)的性能和應用效果。發(fā)音人可以為人工智能技術(shù)提供多語種、多地域的聲音數(shù)據(jù)，使得人工智能技術(shù)的性能更加豐富和多樣化。也能為人工智能技術(shù)提供不同年齡、性別、文化背景等特征的聲音數(shù)據(jù)，使得人工智能技術(shù)能夠更好地適應不同的應用場景和用戶需求，協(xié)助開發(fā)者進行技術(shù)調(diào)試和優(yōu)化，提高人工智能技術(shù)的準確性和可靠性，因此在AI 虛擬數(shù)字人的生產(chǎn)和設計過程中也參與解決了一個最核心的問題——與用戶的關(guān)系建構(gòu)。而在與實驗語音學的相互影響中，也探討了更多理論在具體實踐中的差別與應用，即唇動的變化在擬人化表現(xiàn)和語義理解中的作用。最后，期望AI 虛擬數(shù)字人能夠應用到更多的領域和場景中去。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

AI 虛擬數(shù)字人與用戶的關(guān)系建構(gòu)——發(fā)音人的視角