許舟
2018年11月7日,新華社聯(lián)合搜狗公司在第五屆世界互聯(lián)網(wǎng)大會上發(fā)布了全球首個合成新聞主播——“AI合成主播”,這是通過提取真人主播新聞播報中的聲音、唇形及表情動作(如挑眉、聳鼻)等特征,建立語音數(shù)據(jù)庫和面部信息數(shù)據(jù)庫,讓計算機深度學習并聯(lián)合建模訓練而成。該項技術能夠將所輸入的中英文文本自動生成相應內容的視頻,并確保視頻中音頻和表情、唇動保持自然一致,展現(xiàn)與真人主播無異的信息傳達效果[1]。
期間在會上演示的主持畫面視頻,行云流水,惟妙惟肖,著實賺足了眼球,引發(fā)了世界范圍內的密切關注,CNN、路透社、華盛頓郵報等多家媒體同步進行了報道。
而僅僅過了4個月,在之前的AI合成主播基礎上,新華社聯(lián)合搜狗公司再次推出了“站立式”AI合成女主播,并參與全國兩會的新聞報道,在兩會期間,共計播報稿件236條,累計瀏覽量超1.3億。冬奧會也將有AI合成主播亮相。而廣大民眾在驚奇之余,更多地則想知道這名“一夜爆紅”的新主播到底是如何誕生的。
從配角到主播
眾所周知,一般人想要當上新聞主播都得歷經層層考驗,AI合成主播當然也不例外,在此之前,它也度過了一段漫長的“上崗之旅”。一開始,它只是作為其他主播的得力助手,通常只會有聲音出現(xiàn),或者為之匹配一個量身定做的虛擬形象輔助播報,實際上,這就是大眾熟知的語音助手,比如曾在東方衛(wèi)視擔任天氣預報員的微軟小冰,就屬于此類。
那么這類“語音助手”如何才能晉升成為正式主播呢?簡單來說,與真人主播類似,“工作經驗”和“能力”是不可少的,前者對于“語音助手”來說并不困難,畢竟目前市面上語音助手百花齊放,隨便叫上一個都能和你嘮上老半天,因此它們需要提升的是文本識別準確度及語音合成的精度,而輔助主播播報稿件正是為了獲取更多的數(shù)據(jù)樣本,不斷改進。
除此之外,還需要一點“運氣”,俗話說“三分天注定,七分靠打拼”。隨著人工智能技術(AI)逐漸成熟,同時也為了及時響應中央提高輿論引導能力的要求,主流媒體將該技術引入新聞生產,以AI為基礎、以人機協(xié)作為特征、以大幅提高生產傳播效率為重點[2],讓“語音助手”搖身一變,從配角正式成為了在崗主播。
自此,AI合成主播與其他主播一起,為公眾帶來及時、準確的新聞報道,并且相較于真人主播,AI合成主播可24小時不間斷播報,從而提升電視新聞制作效率,降低成本,還能在突發(fā)報道中快速生成新聞視頻,提高報道時效和質量[2],而這背后自然離不開技術的進步。
真人主播的“分身”
如果仔細觀察AI合成主播不難發(fā)現(xiàn),在它們身上隱隱能感受到幾分熟悉,沒錯,因為這些AI合成主播的原型大多來源于真人主播,比如首發(fā)的“新小浩”是以新華社主持人邱浩為原型,后續(xù)發(fā)布的AI合成主播“新小微”則是以新華社記者趙琬微為原型。雖然是虛擬的,但AI合成主播仿若他們的克隆分身,不管是看上去還是聽上去都非常逼真,而要達到這樣的效果,離不開兩大關鍵技術:語音合成技術和圖像生成技術。
其一是語音合成技術,通過人工智能技術識別文本,并基于用戶的音頻數(shù)據(jù),合成一條語音。但我們不想要機械化的電子音,而希望得到的是有溫度、有情緒的人聲,那么如何得到人的語音呢?
語音主要有三個要素:音色、韻律和信息。音色是指這段話出自誰之口,韻律就是我們的說話節(jié)奏、音高和音強,信息當然就是指說了什么內容。如果想要模仿某段語音,可以將這三要素拆解、組合,從而得到一段與原語音非常接近的合成聲。
當然,其中的過程也并非說起來這么簡單,實現(xiàn)起來還需要AI算法的支持,例如谷歌的SV2TTS算法,它的工作流程分為三步,Encoder(獲取語音)、Synthesizer(合成語音)、Vocoder(生成語音)。首先通過Encoder模塊提取音色向量,然后由Synthesizer模塊將語音中的文本再合成一段新的語音,同時加上提取的音色向量,最后由Vocoder模塊轉換成我們最終聽到的聲音。至此,建立起語音文本(輸入文本)與輸出音頻信息之間的關聯(lián)。
其二是圖像生成技術,通過動態(tài)捕捉、人臉關鍵點檢測、特征提取、重構等技術,對人臉表情、情緒進行學習和建模,并完善輸入文本、音頻、視頻等信息的映射關系,生成分身視頻。
在兩項技術的配合下,最終實現(xiàn)AI合成主播。雖然未來可期,但從目前的應用來說,AI合成主播缺少真人主播的創(chuàng)造性和思考,只能按照系統(tǒng)指令機械地輸出對應文字和語義,無法結合上下文進行自主判別[3];同時,由于圖像傳輸技術的不穩(wěn)定性,有時會出現(xiàn)口型對不上或是肢體穿模,對受眾產生“恐怖谷效應”。所以,無論從技術還是用戶觀感上,AI合成主播都還有很大的進步空間。
參考文獻
[1]新華網(wǎng).全球首個“AI合成主播”在新華社上崗[EB/OL]. (2018-11-07)[2021-12-19].http://media.people.com.cn/n1/2018/1107/c40606-30387542.html.
[2]周信達.從人工智能的應用嘗試看新聞業(yè)的未來趨勢:以AI合成主播為例[J].青年記者,2019(9):2.
[3]何強.人工智能在新聞領域應用的新突破:從全球首個“AI合成主播”談起[J].新聞與寫作,2019(5):3.