人工智能在播音主持中的應用與發(fā)展

2019-03-22 23:08:39方杰聰內蒙古師范大學新聞傳播學院

傳播力研究 2019年15期

方杰聰內蒙古師范大學新聞傳播學院

一、人工智能在播音主持中的應用

(一)智能語音技術

在這個萬物互聯(lián)的時代，智能語音是人工智能的重要入口。在電視新聞業(yè)，通過語音識別技術，電視節(jié)目將語音信息轉換為節(jié)目字幕。該技術對二級乙等水平以上的普通話轉寫準確率高達95%以上，對主持人的語音轉寫準確率則更高。在語音合成方面，2017年，美國華盛頓郵報推出“讀新聞”實驗產品——亞馬遜Polly，用戶可收聽商業(yè)、娛樂、科技和生活4個版塊的新聞。

智能語音技術還能模擬特定人物的語音。2018年，央視推出《創(chuàng)新中國》，全程根據(jù)已故配音員李易錄音資料制作合成解說聲音。語音合成技術可以在所收集的特定人大量聲音樣本的基礎上進行學習，提取聲音特征，從而實現(xiàn)模仿聲音的合成。央視《經典詠流傳》第二季中，觀眾通過掃描屏幕上的二維碼，打開“讀詩成曲”小工具，朗讀一段詩詞，錄音上傳后即可聽到自己聲音演唱的歌曲。系統(tǒng)收集聲音數(shù)據(jù)，通過個性化學習，讓生成歌曲的音色類似本人。再通過韻律模型控制音長、聲調，最后和頻譜參數(shù)結合，即可生成一段用戶本身音色演繹的、旋律似原唱的歌聲。

把智能語音技術與智能語音設備，平臺的聚合能力、語音內容創(chuàng)新能力、用戶需求有效結合，也成為智能語音技術的發(fā)展方向。

(二)虛擬主持人

虛擬主持人是通過數(shù)字技術模擬合成的能進行主持行為的仿真人形象。2001年，英國就誕生世界第一位虛擬主持人Ananova。2004年，三維虛擬主持人“小龍”亮相央視電影頻道。2015年央視春晚，虛擬主持人“陽陽”貫穿于直播過程中，增加節(jié)目可看性。2017年，全息虛擬主持人微軟小冰登上湖南衛(wèi)視《我是未來》，和張紹剛共同主持節(jié)目，微軟小冰不僅能流暢講解相關知識，還能和張紹剛“互懟”，強烈的反差為觀眾帶來全新體驗。

虛擬主持人是人工智能技術在播音主持領域的又一成果。它脫胎于人們與生俱來追求完美的心理，再一次印證了人類在審美意識上的理想主義情結。①虛擬主持人克服了人類自身許多局限，給現(xiàn)有主持方式帶來新變化。

(三)互動機器人

互動機器人在虛擬主持人基礎上，擁有傳感器、效應器、控制器等實體，并擁有活動能力。2017年，新華社智能機器人佳佳作為記者與美國科技思想家凱文?凱利進行越洋采訪，實現(xiàn)全球首次智能機器人與真人對話。2015年日本綜藝節(jié)目《松子X松子》，制作出跟主持人松子外表接近的機器人，與主持人本人共同主持節(jié)目。機器人語音內容由工作人員配音，通過語音合成技術生成與主持人音色接近的聲音。動作和表情由工作人員遠程控制。由于技術制約，該機器人與真人表現(xiàn)還有很大差距。綜藝節(jié)目《蒙面唱將猜猜猜》啟用機器人小V作為嘉賓，根據(jù)蒙面歌手歌聲進行數(shù)據(jù)識別，分析與歌手的匹配度，進行歌手身份判斷，并能與嘉賓進行互動交流。

互動機器人作為節(jié)目中的輔助角色，為節(jié)目增添趣味性和可看性。但由于技術限制，讓互動機器人獨當一面，還需要技術提升和時間累積。

(四)AI合成主播

2018年11月7日，新華社聯(lián)合搜狗推出全球首個“AI合成主播”，開創(chuàng)新聞領域實時音頻與AI真人形象合成的先河。中文版和英文版分別以新華社中文主播邱浩和英文主播張朝為原型，利用搜狗推出的“分身技術”，可基于少量真實音視頻數(shù)據(jù)，快速遷移生成虛擬的分身模型。只要輸入文字，系統(tǒng)即會生成AI合成主播實時視頻播報的影像。

AI合成主播相比普通虛擬主持人最大的特點是其面部表情、嘴唇運動和播報聲音的自然一致。為實現(xiàn)這一效果，采用人臉關鍵點檢測、人臉特征提取、人臉重構、唇語識別、情感遷移、深度學習等技術，再完成語音和圖像的聯(lián)合建模，生成逼真自然的AI分身模型。②

真人主播播報新聞，需要化妝、備稿、播報節(jié)目，還需要燈光、攝像、審片人員等一個團隊的配合。而AI合成主播只需一名工作人員簡單配合，并可24小時不間斷播報新聞，播報過程中也極少出現(xiàn)失誤，可提升電視新聞的制作效率，降低制作成本。如遇突發(fā)事件，主播來不及上場，AI合成主播可迅速替補，快速生成新聞視頻，提高報道時效。

而后，在使用場景方面，科大訊飛AI主播小晴能夠用標準中文、日語、英語、韓語等多種語言進行播報；逼真度方面，3月3日，新華社發(fā)布AI合成女主播“新小萌”，從過“坐著播新聞”升級成“站立式播報”，并能結合手勢、姿態(tài)等肢體動作，更接近于真人。

二、人工智能在播音主持中的未來

(一)涉及的法律和倫理問題

人工智能迅速發(fā)展的背后，也暗藏隱憂。聲音、容貌往往關系到個人身份識別，也是廣告中重要組成部分。若聲音和肖像未經允許被處理合成運用在商業(yè)場景，將涉及聲音版權和肖像權問題。2月底，網(wǎng)友利用AI制作楊冪和朱茵“換臉”視頻，成為熱點話題。錄音和視頻常被視為強有力的司法證據(jù)，語音合成技術和AI換臉技術讓網(wǎng)友一邊驚嘆人工智能之強大，一邊也擔憂可能成為造謠誹謗、網(wǎng)絡詐騙等違法行為的幫兇，并破壞錄音和視頻作為證據(jù)錄像的可信度。過去人們只需擔心肖像權被侵犯，而今后人們可能會更擔心自己的肖像被用來替換別人的肖像，聲音被合成說出自己不曾說過的話，對自己的名譽、隱私等權益甚至人身和財產安全造成傷害。

(二)“真人+AI”協(xié)同播報模式

過去虛擬主播、機器人主播應用落地場景主要為大型會議、新聞欄目的現(xiàn)場播報，多數(shù)是作為主持人幫手的角色。AI合成主播直接從配角變?yōu)橹鹘?，獨自進行新聞播報。這也引發(fā)“AI合成主播”是否會取代真人主播的擔憂。

AI合成主播通過輸入的文字稿，能完成念新聞稿的工作，提高新聞節(jié)目的制作效率。但是新聞評論、現(xiàn)場即時互動這些更需要情感、創(chuàng)造性、藝術性、親切感和人文關懷的部分，人工智能目前還難以超越真人主播。

AI合成主播的理解能力、思考能力、認知能力與人類相比有著巨大的差異，趕超真人是一項技術難題。真人主播至少在很長一段時間內不會被AI主播替代，相反他們對新聞內容的生產仍起著重要作用。

以人工智能為代表的新科技時代的到來，對主持人的能力提出了新的要求。人工智能技術發(fā)展雖然降低了播音主持的門檻，但是對于專業(yè)性的要求反而會越來越高。只會正襟危坐念稿子、專業(yè)素質較低的主播將面臨被AI合成主播替代的可能，AI合成主播的出現(xiàn)將倒逼傳統(tǒng)播音員主持人提升專業(yè)能力，塑造個人風格，增加自身的不可取代性。語音可以重現(xiàn)，表情可以合成，但溫度無法復制。真人主播擁有虛擬主播無法取代的優(yōu)勢。

人工智能的普及可以讓真人主播擺脫大量簡單重復性勞動，節(jié)約更多時間，集中精力于更有深度、有價值的現(xiàn)場報道。“真人+AI”協(xié)同播報或將成為AI主播未來的最佳使用方式。兩者相互配合，例如在一些突發(fā)事件報道上，AI主播充分發(fā)揮其速度優(yōu)勢進行事件播報和介紹，真人主播則負責后續(xù)報道跟進及深入分析，挖掘新聞中的背后的故事。AI合成主播和真人主播，在未來更多的是協(xié)同共生的關系，各自優(yōu)勢的相互融合，提升新聞生產水平。

(三)機器人個性化和情感化趨勢

目前傳統(tǒng)的基音同步疊加(PSOLA)技術，讓機器聲音的自然度和音質都得到了明顯的改善。但讓機器語音能夠體現(xiàn)個性情感特征，仍然是智能語音技術面臨的一大難題。技術的發(fā)展讓機器語音有情感有個性成為可能。《基于 PSOLA 與DCT 的情感語音合成方法》介紹到，使用時域基音同步疊加(PSOLA)和離散余弦變換(DCT)相結合的方法進行情感語音合成，比單用PSOLA算法生成的語音更有情感色彩。③而基于腦科學、心理學、語言學、計算機科學等學科發(fā)展的人工情感建模和人工情感交互技術將促進機器人的個性化發(fā)展?？梢灶A見，今后人工智能技術將注重機器人的個性化，賦予其感情色彩，讓機器可以逐漸演化并形成自己獨特的魅力與風格，為廣播電視事業(yè)和播音主持行業(yè)的發(fā)展注入新的活力。

注釋：

① 陳月華：《技術的人文觀照——虛擬主持人》，《哈爾濱工業(yè)大學學報(社會科學版)》2002年12月版.

② 《頂尖科技亮相世界互聯(lián)網(wǎng)大會》，新華網(wǎng)，http：//www.xinhuanet.com/info/2018-11/08/c_137590885.htm，2018年11月8日.

③ 李勇，魏珰，王柳渝：《基于PSOLA與DCT的情感語音合成方法》，《計算機工程》2017年12期.

傳播力研究2019年15期