趙 馨
(華東師范大學(xué)傳播學(xué)院,上海 200241)
新華社聯(lián)合搜狗在2018年發(fā)布了以真人主播邱浩為原型的全球首個(gè)AI合成新聞主播。他依靠“搜狗分身”建模技術(shù),將數(shù)字化信息深度整合,對(duì)合成主播進(jìn)行人臉特征提取重構(gòu)、唇語識(shí)別、情感遷移等多方位組合訓(xùn)練最終達(dá)到與真人主播無異的AI分身。這一所謂的技術(shù)“分身術(shù)”引起學(xué)者們多角度地觀察與思考,一時(shí)之間,AI合成新聞主播的“離身性”與真人新聞主播的“具身性”成為研究熱潮,同時(shí)“傳情達(dá)意”的感情交流等問題再次喚醒學(xué)界對(duì)于技術(shù)與真人的身體對(duì)比討論,尤其是在身體互動(dòng)的非語言符號(hào)方面。本文將探究AI合成新聞主播的身體互動(dòng)傳播發(fā)展歷程與存在的不足,進(jìn)而為真人主播提供可持續(xù)發(fā)展的方向。
數(shù)字媒體技術(shù)更新迭代速度不斷加快,人工智能,大數(shù)據(jù)算法與媒介相互融合使得AI合成新聞主播應(yīng)運(yùn)而生。從2018年以邱浩為原型的AI合成主播到2019年以新華社女主播屈萌為原型打造的國內(nèi)第一位AI合成女主播新小萌,在全國兩會(huì)期間“上崗”并實(shí)現(xiàn)了站立式新聞播報(bào)。再到2020年5月新華社聯(lián)合搜狗公司推出的以新華社記者趙琬微為原型可以高度還原真人皮膚和肌肉驅(qū)動(dòng)的全球首位3D版AI合成主播新小微。AI合成新聞主播在技術(shù)上呈現(xiàn)出技術(shù)迭代快、技術(shù)細(xì)致升級(jí)化的特點(diǎn)。 三代的AI合成新聞主播皆以真人播音員,記者的外在特征、語音面貌為原型,進(jìn)行信息采集捕捉和搭建。在新聞播報(bào)中可以做到基本的文字到聲音的轉(zhuǎn)換,達(dá)到與真人播音員相似的音色和規(guī)范的吐字,展現(xiàn)與真人主播無異的信息傳達(dá)效果。
20世紀(jì)60年代,兩位美國科學(xué)家曼弗雷德.克林斯和內(nèi)森.克蘭在《賽博與空間》中首次提出了“賽博格”這一概念。后來這一概念延伸至定義人的身體性能經(jīng)由機(jī)器拓展進(jìn)而超越人體限制的新身體,簡(jiǎn)稱“電子人”。國內(nèi)學(xué)者彭蘭在《智能時(shí)代人的數(shù)字化生存》一文中將賽博格的概念引入分析AI合成新聞主播:“他們都是從真人原型身上獲取了面貌、聲音等元件,中性地說,這些智能技術(shù)帶來的是人的數(shù)字化的重組……這樣一種將個(gè)體元件數(shù)字化并將各種元件重組方式,也許也成為另一種賽博格?!盵1]這樣一種賽博格是一種將真人語言風(fēng)格、外貌中的表情、長相甚至身材等元素符號(hào)進(jìn)行數(shù)字化描寫加以復(fù)制并移植到新的智能身體上。
人工智能技術(shù)當(dāng)中的人臉合成技術(shù)和語音合成技術(shù)日益完善,作為賽博格化的AI合成新聞主播,它們?cè)谡w視覺上和聽覺上都已經(jīng)達(dá)到了幾乎與真人主播相同的效果。尤其是在文本轉(zhuǎn)化為的有聲語言與動(dòng)態(tài)人臉捕捉到的圖像視頻化配合下,顯然達(dá)到了驚艷受眾的逼真形象要求。在身體經(jīng)驗(yàn)中,精神性的“自我”和物理性的“身體”都是反思后經(jīng)由理性概念構(gòu)造的產(chǎn)物,在這兩者生成之前的身體經(jīng)驗(yàn)場(chǎng)更為本源。在熒屏中出現(xiàn)的AI合成新聞主播顯然與真人主播之間因同樣的“身體經(jīng)驗(yàn)場(chǎng)”產(chǎn)生了一種形象主體二重性的特點(diǎn)。
從2012年左右,搜狗就開始針對(duì)其語音技術(shù)領(lǐng)域的研發(fā)和摸索,現(xiàn)在已逐步成為中國最大的語音識(shí)別引擎。音高、音強(qiáng)、音色、音長是構(gòu)成語音的物理基礎(chǔ)四要素。AI合成新聞主播融合語音識(shí)別技術(shù)和大量的語音數(shù)據(jù)計(jì)算采集,具備各大語種、各聲線、音色等語音合成的能力。在聽覺效果上大約與真人主播音色一致,甚至有很強(qiáng)的音色辨識(shí)度效應(yīng)。然而,語音的生成來源是人的發(fā)音器官,并且它也是社會(huì)交際的工具之一。這強(qiáng)調(diào)了語音的來源具有具身性,即人的發(fā)音器官。強(qiáng)調(diào)了語音的本質(zhì)屬性,也是區(qū)別于其他意義上的屬性,即社會(huì)性。因此,嚴(yán)格意義上講,AI合成主播所發(fā)出的聲音屬于一種語音識(shí)別模仿,不能稱之為具有社會(huì)意義的語音。受眾的聽覺接收感官接收到這樣的聲音符號(hào)時(shí),其技術(shù)逐漸成熟可以達(dá)到“以假亂真”的效果時(shí),其兩者語音樣態(tài)就出現(xiàn)了一定的模糊性。
當(dāng)下的AI合成新聞主播在表達(dá)中的語言符號(hào)和非語言符號(hào)中都不斷進(jìn)行了優(yōu)化升級(jí),甚至在單獨(dú)的非語言符號(hào)領(lǐng)域也探索新路徑——2021年搜狗公司發(fā)布了全球首個(gè)手語AI合成主播小聰,它的手勢(shì)的動(dòng)程基于《國家通用手語詞典》,播報(bào)內(nèi)容以服務(wù)于聽障人士的新聞接收作為基本目標(biāo),在外部形象和手勢(shì)動(dòng)作方面達(dá)到逼真自然的效果。AI合成新聞主播的打造仍然基于數(shù)字化的技術(shù)處理,這與播音學(xué)當(dāng)中播音的創(chuàng)作方法大相徑庭:所謂播音的創(chuàng)作方法是一種創(chuàng)作主體對(duì)客體進(jìn)行認(rèn)識(shí)、感受、理解、歸納、組織、結(jié)構(gòu)的過程。在這個(gè)緯度上,情感的生發(fā)并非一種程式化的機(jī)械處理,而是涌動(dòng)著的不斷變化著的感情起伏。[2]AI合成新聞主播在現(xiàn)階段依然處于剛剛起步到功能優(yōu)化的階段,它的誕生和所依照的大數(shù)據(jù)恰恰反映了其情感表達(dá)上的不足,因而在這一方面考慮,人機(jī)耦合也成為目前人工合成主播應(yīng)用的主流。
新聞播報(bào)具有立體性、全方位的特點(diǎn),它被看作是新聞宣傳中的一個(gè)重要組成部分。新聞播音的性質(zhì)分為兩大類:創(chuàng)造性和多質(zhì)性。其中,多質(zhì)性里又包含有言語傳播性、新聞性和藝術(shù)性。這些性質(zhì)對(duì)研究當(dāng)下AI合成新聞主播的身體互動(dòng)具有引領(lǐng)作用。
創(chuàng)造性在新聞播報(bào)方面體現(xiàn)在創(chuàng)作主體發(fā)揮其主觀能動(dòng)性,生發(fā)出一定情感,借助情感的力量,將原先文字排列的符號(hào)系統(tǒng)進(jìn)行改造加工,搭建起一套新的符號(hào)系統(tǒng)。關(guān)于創(chuàng)作主體,AI合成主播和真人主播在這一方面有很大的不同。身體,是活的身體,其內(nèi)在的控制、引導(dǎo)過程驅(qū)動(dòng)著對(duì)外界的認(rèn)知和互動(dòng)。[3]身體是人們了解世界的媒介,人們通過身體在世界上獲得各種感覺、感知,并用身體去詮釋和反映獨(dú)特的生命體驗(yàn)。動(dòng)作是身體的語言,我們通過動(dòng)作了解和構(gòu)建世界。每天,人們會(huì)進(jìn)行大量的身體動(dòng)作的變化,包括肢體姿勢(shì)的改變、目光的移動(dòng)、肌肉的調(diào)整等,這些是人們身體動(dòng)作的變化,也是日常的動(dòng)作習(xí)性。AI合成新聞主播在這里算不上是真正的具備主觀能動(dòng)性的創(chuàng)作主體。央視財(cái)經(jīng)新聞主播姚雪松在向觀眾介紹以它為原型的AI合成主播姚小松時(shí)會(huì)不自覺地有著“介紹性”的身體反應(yīng),如伸手介紹、微笑等。相比之下,連線到的姚小松卻略顯呆板,更無任何體態(tài)語可言。
2.2.1 語傳播性質(zhì)
當(dāng)AI合成主播以與真人無異出現(xiàn)在熒幕上時(shí),它們最重要也是最能表現(xiàn)技術(shù)的一點(diǎn)就在于它們的言語傳播。言語傳播前的傳播內(nèi)容的來源以及它們?nèi)绾尉幋a成聲音符號(hào)的過程對(duì)研究AI合成新聞主播的身體互動(dòng)有著內(nèi)在的關(guān)聯(lián)。威廉·詹姆斯在《心理學(xué)原理》中比較過兩個(gè)概念“相識(shí)的知識(shí)”(Knowledge of acquaintance)和“相知的知識(shí)”(Knowledge-about)。前者依靠接觸過程中的感知,直覺反應(yīng);后者則依靠概念,理性判斷。這一點(diǎn)也就解釋了為什么真人新聞主播在播報(bào)過程中為什么會(huì)自然性地伴隨相應(yīng)的眼神、表情和動(dòng)作。AI合成主播沒有自身主體與外界的身體感知和直覺反應(yīng),它們的言語傳播與真人主播的“心理—生理—心理”不同,而是“通過提取真人原型在新聞播報(bào)中的語音、唇形、表情、動(dòng)作和形象等,運(yùn)用智能合成技術(shù)和深度學(xué)習(xí)等聯(lián)合建模數(shù)據(jù)庫,將所輸入的中英文文本非線性自動(dòng)生成相應(yīng)內(nèi)容的智能音視頻?!盵4]目前AI合成新聞主播所對(duì)應(yīng)的身體動(dòng)作諸如眨眼、伸手、臉部肌肉張弛等都是利用多模態(tài)合成模型基于語音驅(qū)動(dòng)表情序列生成對(duì)應(yīng)序列的視覺效果而已。
2.2.2 新聞性
國內(nèi)對(duì)“新聞”這一概念的界定普遍沿用的是學(xué)者陸定一的定義:“新聞是新近發(fā)生事實(shí)的報(bào)道?!盵5]在新聞播報(bào)領(lǐng)域,“新”要求體現(xiàn)出時(shí)代感、新鮮感;“事實(shí)”要求體現(xiàn)出新聞的真實(shí)性和分寸感;“報(bào)道”則要求主播具有一定的表態(tài)性。新聞性的表達(dá)特征也是引發(fā)身體變化的基礎(chǔ),比如表達(dá)激動(dòng)時(shí)語速加快的同時(shí)不自覺地嘴角上揚(yáng),放大明眸;表痛心悲傷時(shí),不自覺地皺眉等。具體再到播報(bào)不同的內(nèi)容有不同的身體變化。因而,AI合成主播在深度學(xué)習(xí)的過程中是否可以達(dá)到與真人一樣精細(xì)的情感轉(zhuǎn)換也有待觀察。
2.2.3 藝術(shù)屬性
新聞播報(bào)因其具有情緒渲染下的二度創(chuàng)作且在聽感上、視覺上兼具美的享受,因而稱這一活動(dòng)具有藝術(shù)屬性。保羅·萊文森曾提出過媒介演進(jìn)三階段理論,前兩個(gè)階段分別為“技術(shù)作為玩具”和“技術(shù)作為現(xiàn)實(shí)的鏡子”。他將最終的階段比喻為“藝術(shù)”。AI合成主播已經(jīng)在技術(shù)層面上達(dá)到玩具階段甚至鏡子階段的水平,其仿真度越來越高。然而根據(jù)突發(fā)狀況做出有聲語言與自然的身體動(dòng)程相匹配直擊心靈的傳播卻難以做到。通向“傳情達(dá)意”的藝術(shù)性依然道阻且長。
媒體置于社交景觀下,帶來的是更強(qiáng)的人機(jī)互動(dòng)和群際文化的交流。在強(qiáng)連接下,順應(yīng)媒介樣態(tài)發(fā)展,注重人的生命價(jià)值,打造詩意棲息化的生活可能是未來主持傳播發(fā)展的一大方向。在現(xiàn)實(shí)和虛擬的轉(zhuǎn)換中,具身離身的智能互構(gòu)體現(xiàn)出在互聯(lián)網(wǎng)飛速發(fā)展時(shí)代下人類對(duì)于現(xiàn)實(shí)問題的反思和追求自我的渴望和嘗試,構(gòu)建了一個(gè)后現(xiàn)代的“解構(gòu)重塑”的新聞傳播邏輯。人機(jī)耦合凝練著對(duì)技術(shù)的創(chuàng)新性期待和對(duì)真實(shí)情感傳達(dá)的保留。但是關(guān)于主持傳播的現(xiàn)實(shí)和虛擬的轉(zhuǎn)換搭配中,如何才是真人主持最佳的狀態(tài),如何才能達(dá)到主持傳播最大化的效果,這些問題還有待進(jìn)一步的探索和研究。
在日趨精準(zhǔn)導(dǎo)向下的媒體發(fā)展態(tài)勢(shì)中,新聞主播在類別上還可以做出細(xì)化如財(cái)經(jīng)新聞、國際新聞、體育新聞等,AI合成新聞主播在受眾導(dǎo)向方面發(fā)力不失為一條精準(zhǔn)簡(jiǎn)明的優(yōu)化路徑。精準(zhǔn)定位對(duì)不同的受眾群體進(jìn)行分析以及AI合成主播類型化打造對(duì)未來新聞傳播的發(fā)展有一定積極意義。在新聞傳播方面,AI人工智能主播以龐大的信息數(shù)據(jù)作為自身的優(yōu)勢(shì)支撐力,在這個(gè)基礎(chǔ)上不斷將其優(yōu)勢(shì)放大,將信息整合、傳播的單一任務(wù)逐漸朝著與真人新聞主播進(jìn)行搭檔、模仿等深度學(xué)習(xí)方向發(fā)展,進(jìn)而發(fā)展為一種多維度服務(wù)為導(dǎo)向的傳播方式。
“傳情達(dá)意”濃縮了對(duì)新聞主播的工作內(nèi)容和工作性質(zhì)的要求。在人機(jī)耦合的思潮下,理性看待未來AI合成新聞主播的發(fā)展、洞見人機(jī)耦合的新聞傳播實(shí)質(zhì)對(duì)于未來人工智能走向及其應(yīng)用有著重要作用。當(dāng)前,人工智能在內(nèi)容創(chuàng)作方面缺乏原創(chuàng)性的本質(zhì)是因?yàn)槿斯ぶ悄苁抢硇院汀皢渭儭钡?,而人的?nèi)心世界是感性和“復(fù)雜”的。[6]在智能時(shí)代,AI合成主播在升級(jí)實(shí)踐中集成的龐大語料可以為新聞工作者提供充足的信息保障。未來,真人新聞主播不僅是播報(bào)者的角色,而且是分析者、應(yīng)用者的角色。人機(jī)協(xié)同不僅僅表現(xiàn)在信息處理流程層面,更多表現(xiàn)的又是在身心一體的深度情感溝通層面上。
就像朱廣權(quán)介紹人工智能時(shí)所說:“江湖行走三尺劍六鈞弓,不會(huì)武術(shù)路難行;人工智能百種智千種能,幫不到人也不成?!眰鞑サ哪康氖且獫M足人的信息需要和情感需求。本文一開始從AI合成新聞主播“傳情達(dá)意”的硬性功能入手,順著中國播音學(xué)的主要線索重申AI合成新聞主播身體動(dòng)程的必要性,以及其所產(chǎn)生的新聞性、社會(huì)性影響。同時(shí),立足于中國播音學(xué)中的播音性質(zhì)解釋了傳統(tǒng)新聞主播的優(yōu)勢(shì)所在,為傳統(tǒng)新聞主播自身提供另一條可持續(xù)發(fā)展思路。從另一角度看,結(jié)合當(dāng)下的具身理論,扎根于本體實(shí)踐下的中國播音學(xué)也有助于繼續(xù)探索AI合成新聞主播的深度發(fā)展。