姜澤瑋
【摘? ? 要】隨著人工智能語(yǔ)音技術(shù)與播音行業(yè)的接軌,AI播音逐漸開始在新聞媒體中嶄露頭角。本文以新華社APP的AI新聞播音為對(duì)象,從中國(guó)播音學(xué)、漢語(yǔ)語(yǔ)音學(xué)的角度,通過定量定性結(jié)合的實(shí)證研究,從速度、語(yǔ)音、停頓、重音四個(gè)角度入手,對(duì)AI播音與人工播音的差異性作出分析。今后人工智能語(yǔ)音合成技術(shù)的研究應(yīng)首先重點(diǎn)把握AI播音中的具象層面問題,從“詞團(tuán)內(nèi)部語(yǔ)流速度”、“音節(jié)的聲調(diào)調(diào)值”、“句中停頓”以及“重音的表現(xiàn)形式”四個(gè)角度入手,在現(xiàn)有的理論基礎(chǔ)與技術(shù)條件下有針對(duì)性地進(jìn)一步完善AI播音的質(zhì)量。
【關(guān)鍵詞】AI播音;語(yǔ)速;調(diào)值;停頓;重音
一、前言
近年來(lái)人工智能語(yǔ)音技術(shù)正不斷與播音行業(yè)接軌,機(jī)器人主播這一新形態(tài)的播音主體應(yīng)運(yùn)而生。所謂AI(人工智能)播音,是基于智能語(yǔ)音技術(shù)中的語(yǔ)音合成技術(shù)(Text to Speech,TTS),首先由計(jì)算機(jī)對(duì)播音文本進(jìn)行分析處理,再將已有語(yǔ)音庫(kù)的聲音樣本通過各項(xiàng)合成規(guī)則與算法模型形成韻律、音節(jié)與波形,最終將合成的語(yǔ)音進(jìn)行輸出的過程。語(yǔ)音合成的發(fā)展經(jīng)歷了機(jī)械式語(yǔ)音合成、電子式語(yǔ)音合成和基于計(jì)算機(jī)的語(yǔ)音合成發(fā)展階段,[1]近年來(lái)DNN深度學(xué)習(xí)網(wǎng)絡(luò)以及“自適應(yīng)說(shuō)話人技術(shù)”的產(chǎn)生使語(yǔ)音合成技術(shù)進(jìn)入了一個(gè)新的階段。[2][3]但目前的人工智能語(yǔ)音技術(shù)仍然處于初級(jí)階段,在播音領(lǐng)域內(nèi)尚不能具備普適性的應(yīng)用空間,但隨著人工智能語(yǔ)音技術(shù)的科學(xué)研發(fā)不斷進(jìn)步,未來(lái)將能夠擁有越來(lái)越廣泛的應(yīng)用空間。[4]對(duì)于AI播音的研究,不僅需要計(jì)算機(jī)科學(xué)的技術(shù)研究,也需要傳媒、播音業(yè)界、學(xué)界從應(yīng)用角度進(jìn)行分析,進(jìn)而對(duì)現(xiàn)有AI技術(shù)的研發(fā)成果提出問題,對(duì)今后技術(shù)的繼續(xù)完善與開發(fā)提供借鑒。隨著AI播音的應(yīng)用與發(fā)展,國(guó)內(nèi)近年來(lái)的相關(guān)研究基本圍繞著AI播音未來(lái)的發(fā)展前景、應(yīng)用方向以及傳統(tǒng)播音主持業(yè)務(wù)、教育面對(duì)新技術(shù)應(yīng)作出的調(diào)整等議題上進(jìn)行了宏觀層面的探討。[5][6]在先前關(guān)于AI播音的討論中,情感問題被普遍認(rèn)為是AI播音工作的短板,[7]機(jī)器無(wú)法擁有人類的真實(shí)情感,只能通過“模擬”來(lái)仿造情感,[8]而語(yǔ)言的傳播過程終究是一種建立在個(gè)人思想與情感之上的思維活動(dòng)。[9]人工智能的情感在當(dāng)前技術(shù)發(fā)展水平仍處于弱人工智能的前提下,難以做到大幅度提升與本質(zhì)上的改變。除情感問題之外,AI播音的語(yǔ)言本身也存在問題,即播讀速度、字音、聲調(diào)、停頓、重音等問題。本文將通過微觀層面的實(shí)證研究,以新華社APP中消息類新聞的AI語(yǔ)音播報(bào)為對(duì)象,從速度、語(yǔ)音、停頓、重音四個(gè)方面入手,基于中國(guó)播音學(xué)、漢語(yǔ)語(yǔ)音學(xué)的角度,定性定量結(jié)合地對(duì)AI播音與人工播音的具體差異作出實(shí)證分析。一方面為人工智能語(yǔ)音技術(shù)今后的開發(fā)研究提供借鑒,另一方面對(duì)先前學(xué)界關(guān)于AI播音的相關(guān)研究進(jìn)行驗(yàn)證與補(bǔ)充。
二、新華社APP中AI新聞播音研究
(一)AI播音的速度考察
1.播音平均速度
播音平均速度指單個(gè)稿件中播音的平均速度,基于單個(gè)稿件的總字?jǐn)?shù)與播音凈時(shí)間計(jì)算,以字符/秒的單位呈現(xiàn)。播音平均速度可以反映出相同時(shí)間內(nèi)信息傳播量的多少,但由于播音工作中存在對(duì)稿件“重音停連”的處理,因而平均速度與受眾聽覺中的“快慢”、“舒緩”或“緊湊”有時(shí)不一定準(zhǔn)確對(duì)應(yīng)。本研究于2019年7月10日至8月10日的30天內(nèi)在新華社APP時(shí)政類新聞的AI語(yǔ)音播報(bào)中每日隨機(jī)抽取一篇新聞作為樣本分析,統(tǒng)計(jì)稿件字?jǐn)?shù)(標(biāo)點(diǎn)符號(hào)記為1字符,空格不計(jì)字符)與播讀凈時(shí)間,并測(cè)算播讀的平均速度,以“字符/秒”的形式進(jìn)行統(tǒng)計(jì)。并同樣于此30天內(nèi)在CCTV《新聞聯(lián)播》節(jié)目中的“聯(lián)播快訊”板塊內(nèi)每日隨機(jī)抽取一條新聞作為樣本,以同樣的方式對(duì)其播讀時(shí)間、稿件字?jǐn)?shù)進(jìn)行統(tǒng)計(jì),并計(jì)算出每條新聞的平均播讀速度,以“字符/秒”的形式進(jìn)行統(tǒng)計(jì)。之后將兩組平均播讀速度的樣本數(shù)據(jù)錄入IBMSPSS軟件進(jìn)行描述統(tǒng)計(jì)分析,生成兩組數(shù)據(jù)的直方圖,見組圖1。
通過對(duì)上述兩組平均播讀速度樣本的直方圖對(duì)比,可以發(fā)現(xiàn)AI播音的平均語(yǔ)速慢于人工播音的語(yǔ)速,每秒相差0.82個(gè)字符;且AI播音樣本的標(biāo)準(zhǔn)差為0.09,離散度較低,而人工播音樣本的標(biāo)準(zhǔn)差為0.491,離散度較高。由此可以看出AI播音的風(fēng)格存在同質(zhì)化的問題,當(dāng)受眾聽到每日的新聞播報(bào)都是同一個(gè)語(yǔ)速時(shí),將可能產(chǎn)生聽覺疲勞。而不同的人工播音員之間播讀速度差異較大,即便是同一位播音員在不同時(shí)期、播讀不同稿件時(shí)的播音速度也有較大差異。[10][11]
2.語(yǔ)句詞團(tuán)內(nèi)部語(yǔ)流速度
漢語(yǔ)語(yǔ)句在聲音傳播的形式下會(huì)呈現(xiàn)出由多個(gè)“詞團(tuán)”構(gòu)成的態(tài)勢(shì),所謂詞團(tuán)即漢語(yǔ)語(yǔ)句內(nèi)部詞與詞之間的聚合情況。[12]語(yǔ)句詞團(tuán)內(nèi)部語(yǔ)流速度則指這種聚合的快慢,也就是播音學(xué)中常常談到的“語(yǔ)句停連”中“連”的部分的速度快慢。因?yàn)樵~團(tuán)的構(gòu)成不具有固定化的特性,[13]因而難以對(duì)詞團(tuán)內(nèi)部語(yǔ)流速度作出量化分析。本研究對(duì)新華社APP中時(shí)政類新聞的AI語(yǔ)音播報(bào)與CCTV《新聞聯(lián)播》中時(shí)政類新聞播音進(jìn)行了對(duì)比考察,發(fā)現(xiàn)對(duì)于人工播音而言,其中不同詞團(tuán)內(nèi)部的語(yǔ)流速度差異比較明顯,簡(jiǎn)而言之便是有的詞團(tuán)內(nèi)部播讀速度相對(duì)較快,而有的詞團(tuán)播讀速度則較慢,這種快慢之間的差異性遠(yuǎn)高于AI播音的語(yǔ)流。AI播音對(duì)于不同詞團(tuán)內(nèi)部的播讀速度并無(wú)太大區(qū)別,例如以下一段新聞文稿,摘自CCTV《新聞聯(lián)播》節(jié)目2019年8月4日國(guó)內(nèi)快訊:
“2019全球電競(jìng)大會(huì)今天(3日)在上海舉行,同時(shí)啟動(dòng)上海電競(jìng)周活動(dòng)。本次大會(huì)就產(chǎn)業(yè)發(fā)展、體系建設(shè)、商業(yè)思考、業(yè)態(tài)新增長(zhǎng)等角度展開討論。會(huì)上還發(fā)布了首個(gè)《電競(jìng)場(chǎng)館建設(shè)規(guī)范》和《電競(jìng)場(chǎng)館運(yùn)營(yíng)服務(wù)規(guī)范》。”
其中,“2019全球電競(jìng)大會(huì)”作為一個(gè)詞語(yǔ)聚合的詞團(tuán),播讀速度相對(duì)較快;“產(chǎn)業(yè)發(fā)展、體系建設(shè)、商業(yè)思考、業(yè)態(tài)新增長(zhǎng)”這一組并列關(guān)系的詞語(yǔ)的播讀速度較慢;“電競(jìng)場(chǎng)館建設(shè)規(guī)范”、“電競(jìng)場(chǎng)館運(yùn)營(yíng)服務(wù)規(guī)范”這兩個(gè)詞團(tuán)的播讀速度則明顯緩慢。而對(duì)于AI播音而言,不同詞團(tuán)內(nèi)部的播讀速度則大體一致,并沒有人工播音時(shí)那樣顯著的快慢區(qū)別。
2.句中停頓
“句中停頓”指播音語(yǔ)流在沒有標(biāo)點(diǎn)符號(hào)的位置處進(jìn)行停頓的現(xiàn)象,屬于播音員對(duì)稿件的“創(chuàng)作”過程,人工播音與AI播音在停頓方面最主要的差異在“句中停頓”?!熬渲型nD”主要基于上文談到的播音工作中對(duì)“詞團(tuán)”的劃分,通?!霸~團(tuán)”之間會(huì)產(chǎn)生停頓,“詞團(tuán)”內(nèi)部會(huì)產(chǎn)生“聚合”。為更好地呈現(xiàn)AI播音與人工播音時(shí)“句中停頓”的差異,將新華社APP中時(shí)政新聞的AI語(yǔ)音播報(bào)與CCTV《新聞聯(lián)播》節(jié)目的時(shí)政新聞播音做對(duì)比,分別抽取三篇(部分)內(nèi)容完全相同的新聞稿:1)“李克強(qiáng)簽署國(guó)務(wù)院令 公布《國(guó)務(wù)院關(guān)于修改〈烈士褒揚(yáng)條例〉的決定》,2019-08-09”、2)“新華社評(píng)論員:美方踐踏國(guó)際規(guī)則終將失敗,2019-08-09”、3)“王岐山會(huì)見法國(guó)總統(tǒng)外事顧問,2019-07-19”的播音音頻作為樣本,對(duì)各自的“句中停頓”進(jìn)行研究,見表3。
據(jù)表3中 AI播音與人工播音在“句中停頓”次數(shù)上的對(duì)比可以發(fā)現(xiàn),AI播音的“句中停頓”次數(shù)遠(yuǎn)低于人工播音,且消息類新聞的“句中停頓”次數(shù)比例差高于評(píng)論類文章。除數(shù)量之外,《新聞聯(lián)播》播音員對(duì)于“句中停頓”的時(shí)間處理更為靈活,而AI播音對(duì)于“句中停頓”的時(shí)間均呈現(xiàn)一致。人工播音員不僅在明顯的“句中停頓”數(shù)量上遠(yuǎn)高于AI播音,在不作停頓處理的句子中因不同“詞團(tuán)”內(nèi)部語(yǔ)流速度存在變化,最終在聽覺上呈現(xiàn)的“節(jié)奏感”則遠(yuǎn)高于AI播音。
(四)AI播音的重音考察
播音工作中的“重音”是稿件中相對(duì)重要且需要被強(qiáng)調(diào)的字、詞或短語(yǔ)。重音的強(qiáng)調(diào)、突出是在與非重音的對(duì)比中實(shí)現(xiàn)的,主要表現(xiàn)為輕重、虛實(shí)、長(zhǎng)短 、抑揚(yáng)等的對(duì)立統(tǒng)一。[15]在實(shí)際播讀中通常會(huì)以降低播讀速度、加大字音飽滿度、提高音量、改變音色等表現(xiàn)手法來(lái)體現(xiàn)重音。筆者通過對(duì)新華社AI新聞?wù)Z音播報(bào)的觀察研究發(fā)現(xiàn),現(xiàn)階段的AI播音并非不存在重音的處理,只是對(duì)于重音的處理方式過于簡(jiǎn)單,基本上以單純?cè)龃笾匾粼~語(yǔ)的音量為手段,導(dǎo)致聽覺感受上的“突?!薄6斯げヒ魡T對(duì)于重音的處理更加多樣化。決定停連和重音的原因是多方面、復(fù)雜的,[16]重音處理又與播音員情感的聯(lián)系較為緊密,人類自然情感下的重音表現(xiàn)更加細(xì)膩。因而單純從物理角度很難對(duì)重音的表現(xiàn)形式進(jìn)行量化,重音問題也將是今后長(zhǎng)期內(nèi)AI播音難以突破的壁壘。但對(duì)于現(xiàn)階段的人工智能語(yǔ)音合成技術(shù)而言,雖然不能做到完全模仿人類的自然情感,但仍然可以在字音飽和度、播讀速度等方面對(duì)重音進(jìn)行進(jìn)一步的細(xì)化處理,使重音的表現(xiàn)形式更加立體、飽滿。
結(jié)語(yǔ)
本文通過速度、字音、停頓、重音四個(gè)部分對(duì)AI播音與人工播音的差異性進(jìn)行了定量定性結(jié)合的研究。綜上所述,當(dāng)前AI播音在一定程度上已經(jīng)可以擔(dān)起新聞播報(bào)的功能,但與國(guó)家級(jí)媒體的專業(yè)播音員相比仍然存在較大差距,在速度、重音、停頓以及字音四個(gè)方面均存在不同程度的差異性。除本文談及的幾個(gè)具象方面外,作為抽象存在的情感問題也是AI播音與人工播音員之間極其重要的差別,今后人工智能語(yǔ)音合成技術(shù)的開發(fā)研究應(yīng)重點(diǎn)把握AI播音中的具象層面問題,從“詞團(tuán)內(nèi)部語(yǔ)流速度”、“音節(jié)的聲調(diào)調(diào)值”、“句中停頓”以及“重音的表現(xiàn)形式”四個(gè)角度入手,在現(xiàn)有的理論基礎(chǔ)與技術(shù)條件下有針對(duì)性地進(jìn)一步完善AI播音的質(zhì)量。對(duì)于人工智能播音與播音員隊(duì)伍之間的關(guān)系,在相當(dāng)長(zhǎng)的時(shí)間內(nèi)并不會(huì)產(chǎn)生明顯的替代性,隨著技術(shù)的發(fā)展,未來(lái)會(huì)向著“人機(jī)協(xié)作、互補(bǔ)發(fā)展”的方向演進(jìn)。人工智能播音作為一項(xiàng)傳媒界的新鮮事物,今后的研發(fā)與應(yīng)用將是一條漫長(zhǎng)的道路,未來(lái)會(huì)面臨更多的困難與挑戰(zhàn),需要多學(xué)科、多領(lǐng)域的長(zhǎng)期不斷研究、實(shí)踐與探索。
注釋:
[1]張斌,全昌勤,任福繼.語(yǔ)音合成方法和發(fā)展綜述[J].小型微型計(jì)算機(jī)系統(tǒng),2016(01).
[2]FahimehBahmaninezhad,HosseinSameti,HMM-
based persian speech synthesis using limited adaptation[C].2012 IEEE 11th In- ternational Conference on Data Signal Processing(ICSP),2012:21-25.
[3]Junichi Yamagishi,TakashiNose,HeigaZen,et al. Robust speaker- adaptive HMM-based text-to-speech synthesis[J]. IEEE Transac- tions on Audio,Speech,and Language Processing,2009,17(6).
[4][5]翁佳.智能語(yǔ)音技術(shù)對(duì)播音主持專業(yè)與行業(yè)影響探究[J].電視研究,2017(12).
[6]李穎.人工智能技術(shù)在播音主持領(lǐng)域的應(yīng)用[J].中國(guó)廣播電視學(xué)刊,2018(11).
[7]謝曉旻,林小玨.人工智能為播音與主持藝術(shù)專業(yè)帶來(lái)的新思考[J].當(dāng)代電視,2018(11).
[8]劉悅笛.人工智能、情感機(jī)器與“情智悖論”[J].探索與爭(zhēng)鳴,2019(06).
[9]樊強(qiáng).語(yǔ)言學(xué)視域下言語(yǔ)行為的影像建構(gòu)研究[J].西安外國(guó)語(yǔ)大學(xué)學(xué)報(bào),2018(12).
[10]劉迎新.新聞播音語(yǔ)言停連模式的時(shí)代特點(diǎn)分析[J].現(xiàn)代傳播,2015(03).
[11]劉琦.淺論廣播新聞播音的時(shí)代語(yǔ)言與語(yǔ)速[J].中國(guó)廣播,2009(07).
[12][13]樊強(qiáng).人工智能(AI)播音語(yǔ)鏈內(nèi)生成結(jié)構(gòu)研究[J].電視研究,2019(02).
[14]宋欣橋.“普通話水平測(cè)試”評(píng)分中的幾個(gè)問題[J].語(yǔ)言文字應(yīng)用,1997(08).
[15]李水仙.新聞播音中的重音處理[J].河南大學(xué)學(xué)報(bào)(社會(huì)科學(xué)版),2002(01).
[16]姚喜雙.文章做在耳朵上——聽覺是確定播音停連和重音位置的重要依據(jù)[J].語(yǔ)言文字應(yīng)用,1992(09).
(作者:西北大學(xué)新聞傳播學(xué)院碩士研究生)
責(zé)編:姚少寶