王夢(mèng)穎,李懷蒼
(昆明理工大學(xué) 藝術(shù)與傳媒學(xué)院,云南 昆明 650504)
人工智能的縮寫是AI,它指的是模擬、延伸和拓展人的理論、方法和技術(shù)。它包括模擬識(shí)別、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘等多個(gè)分支。人工智能的發(fā)展主要經(jīng)歷了五個(gè)階段,以申農(nóng)為首的科學(xué)家共同研究了機(jī)器模擬的相關(guān)問題,人工智能就此正式誕生。早期的人工智能主要以語(yǔ)言翻譯、證明等研究為主,發(fā)現(xiàn)機(jī)器具有模仿人類思維的功能,隨著互聯(lián)網(wǎng)技術(shù)的逐漸普及,人工智能已經(jīng)逐步為更多的領(lǐng)域提供了新的方向。在步入互聯(lián)網(wǎng)時(shí)代之后,“人工智能”加快了替代手工勞動(dòng)的步伐,并從基礎(chǔ)的體力勞動(dòng)層面漸漸轉(zhuǎn)向創(chuàng)意、創(chuàng)作的層面。2001年,傳媒業(yè)終于迎來了開天辟地的創(chuàng)舉——世界上第一個(gè)虛擬主持人阿娜諾娃(Ananova)的誕生。這是一個(gè)可播報(bào)新聞、體育、天氣等的虛擬播音員,堪比一個(gè)真實(shí)的有血有肉的主播。此后,日本推出了寺井有紀(jì)(Yuki),中國(guó)推出了歌手虛擬主持人阿拉娜(Alana),美國(guó)推出了薇薇安(Vivian),韓國(guó)推出了露西雅(Lusia)。從2D到3D,從只有頭部到擁有全部身體,從只有虛擬人物播報(bào)到擁有演播室進(jìn)行播報(bào),虛擬主持人日漸成熟,被越來越多媒體關(guān)注和使用,并引發(fā)了全社會(huì)對(duì)“主持人要下崗”的擔(dān)憂。在2004年,央視CCTV-6頻道推出了國(guó)內(nèi)首位虛擬電視節(jié)目主持人——小龍。它采用三維形象技術(shù),擁有高挑的身材,集合了劉德華、梁朝偉和金城武的“臉部精華”,并單獨(dú)主持了《光影周刊》欄目。小龍的上崗,點(diǎn)燃了國(guó)內(nèi)CG技術(shù)從電影級(jí)走向消費(fèi)級(jí)的星星之火。到2016年,當(dāng)一位自稱“超級(jí)AI”的虛擬主播絆愛在YouTube上首次亮相時(shí),也許誰(shuí)都沒想到,她會(huì)成為照亮“黑暗時(shí)代”的第一縷曙光。與早期虛擬主持人不同,絆愛是由真人扮演而成。但從播報(bào)狀態(tài)上來看,無論是3D形象,還是語(yǔ)音、動(dòng)作,絆愛相比早期主持人都明顯更勝一籌。2016年,阿爾法狗(AlphaGo)以1:4打敗圍棋世界冠軍李世石的事實(shí),讓人們意識(shí)到,已經(jīng)誕生了幾十年的人工智能,處在了可全面商業(yè)化的臨界點(diǎn),AI時(shí)代正加速到來。同年,科大訊飛、搜狗、百度先后召開發(fā)布會(huì),對(duì)外公布語(yǔ)音識(shí)別準(zhǔn)確率均達(dá)到97%??萍甲悦襟w人闌夕曾說,一旦語(yǔ)音識(shí)別的準(zhǔn)確率達(dá)到99%,那將直接進(jìn)入產(chǎn)業(yè)爆發(fā)的黎明。巧合的是,這一輪AI虛擬主播熱潮的興起,與AI,特別是語(yǔ)音識(shí)別技術(shù)的飛躍,幾乎是同步的。到2018年5月,科大訊飛攜手相芯科技打造了虛擬主持人“康曉輝”。這位虛擬主持人有著與真人相似的外形,不僅與央視記者江凱一同主持了《直播長(zhǎng)江》安徽篇,還在現(xiàn)場(chǎng)進(jìn)行了實(shí)時(shí)互動(dòng)。同年11月,全球首個(gè)“AI合成主播”誕生;在2019年3月全球首個(gè)“AI合成女主播”誕生;同年春晚AI虛擬主持人團(tuán)隊(duì)誕生。在這套AI虛擬主播的方案中,只需輸入一段既有的新聞文本,主播就可實(shí)時(shí)進(jìn)行播報(bào),且發(fā)音與唇形、面部表情等也完全吻合,無論是看上去還是聽上去,似乎都與真人一模一樣。進(jìn)入全面AI化,虛擬主播走入千家萬戶。在電影《西蒙妮》中,人們?cè)枥L過AI虛擬主播的理想形態(tài):她是一個(gè)由計(jì)算機(jī)虛擬合成的、高度逼真的三維動(dòng)畫人物。她美得令人無法拒絕,一言一行都與真人一樣,并可以完成一切表演、播報(bào),且不會(huì)有任何緋聞,妥妥的一枚“完美代言人”,可以取代人類,且不會(huì)出現(xiàn)任何差錯(cuò),也不會(huì)有負(fù)面新聞,這是很多人眼中的完美AI虛擬主播。但之后的十多年,不論是影視業(yè)還是AI虛擬主播行業(yè),都不得不面對(duì)一個(gè)現(xiàn)實(shí):虛擬形象“像真人”并不簡(jiǎn)單。人工智能能夠靈活運(yùn)用復(fù)雜的大數(shù)據(jù)網(wǎng)絡(luò),對(duì)不同的語(yǔ)言和副語(yǔ)言進(jìn)行解讀,最終創(chuàng)造并穩(wěn)定的輸出所需要的播讀內(nèi)容。如今的AI主播能夠完成坐著、直立、行走等動(dòng)作的模擬,完全做到與真人主播的融合。
人工智能主播需要進(jìn)行真人主播人臉識(shí)別,并進(jìn)行個(gè)人面部檔案的建立。為了讓人工智能主播高度逼真,新華社與搜狗公司進(jìn)行了強(qiáng)強(qiáng)聯(lián)合,并以新華社主播邱浩、屈萌為原型,錄制了大量的高質(zhì)量視頻,通過對(duì)邱浩和屈萌的面部文件、照片文件進(jìn)行掃描分析,形成人臉面像文件面紋編碼(Faceprint),對(duì)人臉面紋進(jìn)行采集和檢測(cè),將人臉的皮膚色調(diào)、面部毛發(fā)、表情姿態(tài)等進(jìn)行特征提取,并有效識(shí)別,系統(tǒng)將人臉有用的信息采集出來。真人主播在高清鏡頭的放大下,不難發(fā)現(xiàn)會(huì)有“大小臉”“大小眼”“高低眉”的問題,三庭五眼的分布也更加貼近國(guó)人所欣賞的“東方美”,無論是靜態(tài)還是動(dòng)態(tài),都不會(huì)出現(xiàn)表情崩壞或是五官不對(duì)稱的情況。主播吸收了人工智能的這些特點(diǎn),不管是播報(bào)什么新聞,總是能以完美端莊的狀態(tài)出現(xiàn)在大眾面前,給人以美的享受。
在現(xiàn)實(shí)生活中,一個(gè)主播只能每天工作8小時(shí),人工智能主播卻能實(shí)現(xiàn)無間斷直播,只要輸入文本就能自動(dòng)生成相應(yīng)視頻,能保持唇形、聲音、神態(tài)的一致,不會(huì)有情緒變化,也不會(huì)生病,能夠極大地減輕真人主播工作任務(wù),還能節(jié)約生產(chǎn)成本。比如在新華社的客戶端中,可以看到2019年3月2日的最后一條新聞《北京啟動(dòng)149場(chǎng)線上專場(chǎng)招聘》發(fā)布于23:41:29,而2019年3月3日的第一條新聞《北京:日均出動(dòng)8.3萬余人保障城市干凈整潔》發(fā)布于00:45:59,無論何時(shí)都能在崗位上嚴(yán)陣以待。不僅如此,更是在十三屆全國(guó)人民代表大會(huì)和全國(guó)政協(xié)十三屆會(huì)議中不間斷地播報(bào)最新情況,播報(bào)稿件達(dá)到了86條,極大地保證了新聞的時(shí)效性。讓許多網(wǎng)友紛紛感嘆科技的力量實(shí)在是太強(qiáng)大了!甚至有媒體報(bào)道除了嘴唇動(dòng)作稍顯僵硬外,她幾乎可以以假亂真。
人工智能主播是通過對(duì)真人主播的聲音、唇形等特征學(xué)習(xí)建模設(shè)計(jì)而成,換言之,人工智能主播是“克隆”真人主播,并且學(xué)習(xí)真人主播的動(dòng)作神態(tài)和播報(bào)語(yǔ)調(diào)。他們沒有學(xué)習(xí)過任何播音主持的知識(shí),就能夠達(dá)到與真人主播無異的信息傳達(dá)效果,甚至在語(yǔ)言方面有著超越真人主播的趨勢(shì)。
英文播報(bào)素材取自于新華社的英語(yǔ)主播張朝,通過對(duì)張朝的音頻進(jìn)行學(xué)習(xí),人工智能主播能夠流利的使用英語(yǔ)播報(bào)新聞,極大地?cái)U(kuò)大了對(duì)海外的影響力。不僅在播讀新聞方面能夠很快地掌握有聲語(yǔ)音的表達(dá)的技巧,在副語(yǔ)言上也有著不斷地革新,從最開始只能坐在播音臺(tái)前播報(bào)新聞,通過技術(shù)的升級(jí),從臺(tái)后走到臺(tái)前,能夠站立著播報(bào)新聞,還能“手舞足蹈”,運(yùn)用起肢體語(yǔ)言進(jìn)行表達(dá),這一切都讓新華社的員工們驚嘆著人工智能主播的強(qiáng)大學(xué)習(xí)能力,直呼是不是再過不久自己就會(huì)失業(yè)了。
以2019年1月10日的《叮咚!請(qǐng)開門,你的年度外賣大單到了》這條新聞為例,“各位宅男、宅女,過去的一年,窩在工位或者床上點(diǎn)外賣是否已經(jīng)成了你的日常?各位吃貨們?cè)谕赓u單上到底備注了什么?點(diǎn)了這么多外賣,你爸媽知道嗎?”從新聞內(nèi)容中可以看出,新聞的基調(diào)是輕松有趣的,但人工智能主播的播報(bào)狀態(tài)還不夠積極,重音方面也存在問題,如“數(shù)據(jù)江湖”應(yīng)該確定為重音,但“新小浩”的播讀太過于一馬平川,甚至在有些字詞的處理上還略有些僵硬,沒有播出這條新聞的趣味性,不能夠引起受眾的注意,但隨著技術(shù)的革新,人工智能主播也在不斷地學(xué)習(xí)中,現(xiàn)在的人工智能主播不論是有聲表達(dá)、肢體動(dòng)作還是表情等方面都越來越自然,強(qiáng)大的學(xué)習(xí)能力使其與真人主播的差距越來越小。
1.社會(huì)大眾的需要
隨著技術(shù)的不斷發(fā)展,人工智能在生活中應(yīng)用的越來越廣泛,比如近幾年大眾能接觸到的如“天貓精靈”和“小愛同學(xué)”這類的智能音響,以及手機(jī)上的語(yǔ)音助手,讓人們感受到了人工智能技術(shù)為生活帶來的便利,也對(duì)人工智能技術(shù)越來越好奇,而人工智能主播無疑是一項(xiàng)新興的產(chǎn)物,當(dāng)人工智能被“人物化”的時(shí)候,人們往往會(huì)想人工智能主播長(zhǎng)什么樣呢?是否和真人主播一樣?那么大眾到底對(duì)“AI主播”持什么樣的態(tài)度,筆者在對(duì)近30人的調(diào)查后得知,大部分人都對(duì)人工智能抱有極大的興趣。以往電視機(jī)里的主播往往很難激起人們的興趣,人們也很少會(huì)為了主持人而去關(guān)注一檔節(jié)目,但人工智能主播的出現(xiàn)卻打破了這一點(diǎn),激發(fā)了人們對(duì)新聞的好奇心,從而進(jìn)一步擴(kuò)充了人們對(duì)信息傳播的選擇,滿足了人們的心理需求,更是專門開辟了人工智能主播的專題報(bào)道。
2.精準(zhǔn)的播讀技術(shù)
在新聞的播報(bào)中,從眼睛看到嘴巴說需要經(jīng)過大腦的有機(jī)整合,稍有注意力不集中,或是看錯(cuò)看漏,便會(huì)出現(xiàn)播讀錯(cuò)誤,這在真人主播中幾乎是無法避免的問題,就連央視的主持人也會(huì)出現(xiàn)讀錯(cuò)字音的現(xiàn)象,在網(wǎng)上瘋傳的《主持人失誤錦集》中就有許多的字音出錯(cuò)片段,看得眾多網(wǎng)友捧腹不已,觀眾也能理解,畢竟一臺(tái)節(jié)目的口播有時(shí)多達(dá)好幾千字,拗口的地名、人名識(shí)讀起來也實(shí)屬不易。而在直播節(jié)目中主持人不僅要讀好手里的稿件還要顧及眾多方面,如提詞器的顯示、耳麥中導(dǎo)播的指示、副語(yǔ)言的運(yùn)用、顯示器的監(jiān)視等,可謂是眼觀六面耳聽八方。一旦哪一方面出現(xiàn)錯(cuò)誤都可能會(huì)使主播的播讀出現(xiàn)卡頓。但人工智能主播只要輸入文本,便能按照既定的文本進(jìn)行播報(bào),相較真人主播,不會(huì)出現(xiàn)字音和語(yǔ)調(diào)上的錯(cuò)誤,并且能對(duì)語(yǔ)流音辨識(shí)、多音字的識(shí)別正確,不會(huì)出現(xiàn)讀錯(cuò)字、卡頓的問題。播報(bào)精準(zhǔn),成為人工智能主播的顯著優(yōu)勢(shì)。
3.減少節(jié)目制作成本
一檔節(jié)目的誕生不僅需要主播,還需要龐大的制作團(tuán)隊(duì),如燈光師、攝影師、化妝師等,真人主播在上節(jié)目前需要化妝、備稿,從準(zhǔn)備到錄制需要一定的時(shí)間,而人工智能主播卻只需要一名工作人員簡(jiǎn)單配合即可,提前輸入需要的文本便能自動(dòng)生成視頻,極大地解放了勞動(dòng)力,減少了節(jié)目的制作成本。[1]兩會(huì)期間當(dāng)真人主播還需要等前方記者傳回稿件才能出新聞時(shí),人工智能主播使新華社第一時(shí)間就能發(fā)出關(guān)于兩會(huì)新聞最新的解讀。
不僅如此人工智能主播還能一人多用,可以同時(shí)“分身”到不同的節(jié)目中,極大的提高了新聞的傳播效率。不計(jì)較工資,不間斷的播報(bào),以一敵百的勞動(dòng)力,這些都是真人主播無法做到的。
1.無法引起情感共鳴
播音員常被稱為連接黨和人民群眾的橋梁,作為橋梁光有播音的技巧不夠,還要使自己的聲音有情感,有溫度。在節(jié)目中播音員常常要做到“以聲傳情”,比如在播報(bào)歡天喜地迎新春這樣的新聞,播音員要播報(bào)出給人以輕松、愉快的感覺,而在播報(bào)一些特殊的新聞,如汶川地震、新冠肺炎時(shí),要播報(bào)出給人以莊重、嚴(yán)肅的感覺,這一點(diǎn)是需要播音員具備扎實(shí)的基本功底,并且經(jīng)過長(zhǎng)年累月的訓(xùn)練才能夠達(dá)到。而人工智能主播卻只能機(jī)械地播讀新聞內(nèi)容,雖然沒有出過錯(cuò)誤,但無論是什么主題的新聞,總會(huì)讓人感到千篇一律,無法產(chǎn)生情感共鳴。
播音工作的二度創(chuàng)作,要求主播對(duì)稿件進(jìn)行自我理解,真人主播可以挖掘字里行間的深層語(yǔ)義,對(duì)播報(bào)內(nèi)容進(jìn)行深層次的認(rèn)知和情感的表達(dá)。但是人工智能主播只能通過人工指令對(duì)稿件進(jìn)行語(yǔ)言輸出和口型、表情的匹配。目前的人工智能主播還停留在學(xué)習(xí)階段,并不具備情感,也不能做到對(duì)新聞的感性認(rèn)知。舉例來說,央視主持人朱廣權(quán)常常以他幽默風(fēng)趣的播報(bào)讓觀眾捧腹不已,以2019年的一篇播報(bào)為例:“最近的天氣‘凍力’十足,你是不是很懷念溫暖的日子?你想勸天氣重抖擻,天氣卻對(duì)你大聲吼,這樣的要求休出口,風(fēng)雪來了我也抖?!边@一段新聞消息倘若由人工智能主播來播報(bào)會(huì)大大地降低語(yǔ)言的趣味性,不能使觀眾共情。針對(duì)傳統(tǒng)主播來講,人是具有情感的,那么由他抒發(fā)的事物也是具有情感的,不會(huì)生搬硬套,能夠與觀眾產(chǎn)生共鳴。
2.不具備應(yīng)變能力
在錄制節(jié)目時(shí),播音員主持人常常要和現(xiàn)場(chǎng)的觀眾進(jìn)行互動(dòng),從而調(diào)動(dòng)節(jié)目氛圍,激發(fā)自己的播講愿望,這就要求播音員不僅要具備調(diào)動(dòng)氣氛的能力,還要有掌控全場(chǎng)的大局意識(shí),真正的播音員主持人在這里可以發(fā)揮出自己的最大潛能,游走在觀眾與嘉賓之間,適時(shí)拋出問題,增加觀眾與嘉賓的互動(dòng),即便是出現(xiàn)突發(fā)狀況,基本也能依靠隨機(jī)應(yīng)變的能力帶過。但是人工智能主播只能通過預(yù)設(shè)好的文本生成播讀內(nèi)容,很難與觀眾進(jìn)行互動(dòng),即便與觀眾進(jìn)行互動(dòng),如果出現(xiàn)突發(fā)狀況,也難以解決,所以就導(dǎo)致人工智能主播的應(yīng)用局限性。相對(duì)來說,傳統(tǒng)主播更加具有臨場(chǎng)應(yīng)變能力,能夠處理突發(fā)的狀況,針對(duì)事件進(jìn)行相應(yīng)的調(diào)整,保證新聞事件順利進(jìn)行。
人工智能主播所使用的人臉三維重建技術(shù)和語(yǔ)音識(shí)別技術(shù)都是未來AI業(yè)界的發(fā)展方向,在媒體市場(chǎng)競(jìng)爭(zhēng)逐漸加大的背景下,有資本和技術(shù)的傳媒集團(tuán)更青睞于使用技術(shù)提升自身在業(yè)界中的影響力。[2]該技術(shù)可以應(yīng)用于以下播報(bào)和主持工作。
第一類,重復(fù)性高的主持工作,此類工作程序化很強(qiáng),并且具有一定的話語(yǔ)模板,例如天氣預(yù)報(bào)的播報(bào)。
第二類,人才海選面試,根據(jù)各類比賽的流程分析,參賽人員在比賽初選的時(shí)候,流程都基本相似:工作人員將參賽人員的報(bào)名回執(zhí)單信息(選手編號(hào)、姓名)錄入計(jì)算機(jī),人工智能主持人報(bào)編號(hào)和選手姓名,并且引導(dǎo)選手進(jìn)行自我介紹、才藝展示。在時(shí)間結(jié)束后,虛擬主持人提醒時(shí)間結(jié)束,并暗示評(píng)委進(jìn)行點(diǎn)評(píng),最后提示選手退場(chǎng)。
第三類,簡(jiǎn)單的兒童主持播報(bào),此類主持不需要很高的技巧性,并強(qiáng)調(diào)趣味性,在兒童主持中具有較高的應(yīng)用價(jià)值。同時(shí)虛擬化的主持人對(duì)兒童來說較為新穎,且有較大的吸引力。
第四類,風(fēng)險(xiǎn)高的特殊主持,例如一些災(zāi)難現(xiàn)場(chǎng)的播報(bào)或者人類難以到達(dá)的地帶,可以利用人工智能技術(shù)快速生成播報(bào)新聞,代替真人播報(bào)。
人工智能要想在虛擬化主持中廣泛應(yīng)用,需要解決以下問題。
第一是隨機(jī)應(yīng)變能力。人工智能主播采取文字錄入、信息處理、音視頻融合、視頻輸出的方式工作,因此僅局限在生硬的念稿層面上,不具有播報(bào)的生動(dòng)性,尤其是其不適合用于突發(fā)情況較多或者現(xiàn)場(chǎng)類的主持播報(bào)活動(dòng),要想將其應(yīng)用于虛擬化主持,還要賦予人工智能主播更智能的“大腦”。[3]
第二是恰當(dāng)?shù)慕涣鲃?dòng)作,要將主持播報(bào)展現(xiàn)得更加生動(dòng)靈活,就要有更為靈活的動(dòng)作支撐,例如微微蹙眉的動(dòng)作、微笑等可以給觀眾更具親和力的播報(bào)體驗(yàn)。
第三是與人的情感交流,這一點(diǎn)是擺脫人工智能主播的機(jī)器人特點(diǎn)的關(guān)鍵,因此需要技術(shù)支持,給予系統(tǒng)更加高效的大腦,提升信息處理水平,并且提升機(jī)器和真人的自然一致性。
新事物的發(fā)展總是要經(jīng)歷由不完善到完善的過程,隨著人工智能等數(shù)字化技術(shù)的不斷成熟和廣泛應(yīng)用,在一些有規(guī)律可循的范圍內(nèi),機(jī)器可以比人類做得更好,但是在一個(gè)沒有先驗(yàn)知識(shí)的,沒有規(guī)律可循的階段,機(jī)器還是達(dá)不到人類該有的推斷能力。人工智能不會(huì)取代人,只會(huì)讓我們的生活更便利,AI在教育、醫(yī)療、政法、智慧城市、智能客服等方面,都給我們帶來了一些新的面貌,人工智能給媒體行業(yè)帶來的機(jī)遇或者挑戰(zhàn),使得作為媒體人的我們必須與時(shí)俱進(jìn)。進(jìn)入新媒體時(shí)代,既要拼速度更要拼服務(wù),通過大數(shù)據(jù)的積累,將海量信息利用人工智能,就能很好地應(yīng)對(duì)人類的問題。[4]新媒體的發(fā)展需要一個(gè)強(qiáng)大的保護(hù)盾,與此同時(shí),隨著智能媒體的更新?lián)Q代,應(yīng)該正確看待新媒體時(shí)代下的人工智能主播發(fā)展。