劉新紅 吳樹興
【關(guān)鍵詞】韻律;語義;語音合成自然度;技術(shù)因素
目前,語音合成技術(shù)發(fā)展迅速,合成的語音產(chǎn)品在各個(gè)領(lǐng)域被廣泛應(yīng)用,這種應(yīng)用依托于信號(hào)與信息處理技術(shù)的不斷發(fā)展和語言本體研究的不斷深入,其目標(biāo)就是要不斷滿足人們對(duì)人機(jī)交互的各種需求。盡管目前所合成語音不再是生硬地機(jī)器聲,但模式仍然固定,缺乏自然聲音的流暢感,語氣語調(diào)同質(zhì)化。當(dāng)前,語音合成的效果與模擬具有真人個(gè)性特征和情感的語音的最終目標(biāo)還有一定距離。在語音合成技術(shù)方面,除了進(jìn)一步提高聲音的清晰度、可懂度之外,仍然要進(jìn)一步提高語音合成的自然度。
一個(gè)典型的漢語語音合成系統(tǒng)通常由文本處理、韻律分析和語音合成三個(gè)模塊構(gòu)成,如圖1所示。
第一步進(jìn)行文本處理,需要根據(jù)語義和語法等語言學(xué)知識(shí)將文本語句進(jìn)行分詞和標(biāo)注,同時(shí)還需要將詞轉(zhuǎn)換為對(duì)應(yīng)音節(jié);第二步是基于語境、韻律規(guī)則和韻律模型為每個(gè)音節(jié)或短語調(diào)整韻律參數(shù),將音節(jié)序列轉(zhuǎn)換為語音序列;第三步使用高級(jí)語音合成技術(shù)根據(jù)需要實(shí)時(shí)合成高質(zhì)量語音流。其中,文本分析和韻律處理這兩個(gè)模塊的處理結(jié)果直接影響語流的自然度。練達(dá)的自然語言,依賴于人們對(duì)語言中的語音、詞匯、語法和語義規(guī)則的綜合應(yīng)用,也依賴于人們對(duì)語境的準(zhǔn)確把握。語音合成的過程中首先要完成由表層結(jié)構(gòu)到深層結(jié)構(gòu)的逆過程結(jié)構(gòu),完成文本和韻律的分析。下面就來梳理影響漢語語音合成自然度的這些主要因素。
文本處理是實(shí)現(xiàn)漢語語音合成系統(tǒng)的第一個(gè)模塊,起著非常重要的作用,該模塊是用計(jì)算機(jī)來模擬人對(duì)自然語言的理解過程,產(chǎn)生各種標(biāo)注序列輸出給后一模塊,具體地說,該模塊要對(duì)文本進(jìn)行分詞和字音轉(zhuǎn)換,輸出所對(duì)應(yīng)的語音標(biāo)注序列。一個(gè)較好的文本分析處理模塊能夠?qū)φZ言理解得更加充分,產(chǎn)生的標(biāo)識(shí)應(yīng)更加完備。
一般來說,漢語語音合成系統(tǒng)的文本分析處理部分由正則化子模塊、詞語分析子模塊、字音轉(zhuǎn)換子模塊等構(gòu)成。我們通常所遇到的文本會(huì)含有大量非標(biāo)準(zhǔn)詞,如阿拉伯?dāng)?shù)字、英文字符、各種符號(hào)等非漢字字符,這些字符在詞典中查不到,在中文里的讀音也不能通過正常的拼音規(guī)則獲得,語音合成中必須將這些字符處理成中文字音,這個(gè)轉(zhuǎn)換過程稱為文本正則化。由于非中文字符往往攜帶著非常重要的信息,如日期、價(jià)格、電話號(hào)碼、機(jī)構(gòu)名等,因此文本正則化直接影響語音輸出的質(zhì)量。
漢字是漢語基本的寫作單位。詞和詞之間沒有明顯的界線。因此漢語分析是中文信息處理的基礎(chǔ)和關(guān)鍵。在基于單詞的自然語言詞匯分析中,最重要的是劃分詞和詞性符號(hào)。通常有兩種處理方法,一種是分離分詞和詞性標(biāo)注,另一種是整合分詞和詞性標(biāo)注。
包森成認(rèn)為,單獨(dú)的詞性標(biāo)注算法主要有兩類:基于規(guī)則的詞性標(biāo)注方法和基于統(tǒng)計(jì)模型的詞性標(biāo)注方法?;谝?guī)則的詞性標(biāo)注方法難以書寫維護(hù),不值得提倡。如今HMM和CRFs等統(tǒng)計(jì)模型在詞性標(biāo)注中獲得了廣泛應(yīng)用。如果將分詞和詞性標(biāo)注一體化處理,則需要在算法中同時(shí)考慮詞串和詞性雙重信息。分詞和詞性標(biāo)注的綜合處理算法的主要思想是選擇具有相同詞性的相同詞串作為候選詞,最后使用統(tǒng)計(jì)模型選擇最佳候選詞。
在漢語語音合成系統(tǒng)中,字音轉(zhuǎn)換的任務(wù)就是在詞典中檢索當(dāng)前詞,配以對(duì)應(yīng)的拼音。然而漢語中存在多音字問題,所以為所合成的多音字選擇正確的讀音是必需的,即多音字消歧。語言學(xué)家對(duì)多音詞消歧的規(guī)律進(jìn)行了總結(jié)。根據(jù)這些規(guī)則,當(dāng)計(jì)算機(jī)找到多音詞時(shí),可執(zhí)行條件匹配和多音詞消歧。語音合成研究領(lǐng)域隨著大語料庫的發(fā)展,許多研究人員開始使用統(tǒng)計(jì)方法來進(jìn)行多音詞消歧。
在文本分析階段,影響自然度的因素還有語義和情感,而且影響自然度的大多數(shù)因素都與語義相關(guān),然而語義分析難度較大,系統(tǒng)地從語義角度來進(jìn)行語音合成的研究目前還比較少。如果進(jìn)一步提高合成語音自然度和個(gè)性化,那么語義和情感分析將是必不可少的,合成的語音才能不再冷冰冰。
在漢語語音合成系統(tǒng)中,韻律分析模塊是漢語語音合成技術(shù)中比較核心的部分,又是較難控制和把握的,它涉及語言學(xué)、聲學(xué)、信息學(xué)等學(xué)科。韻律分析模塊的主要功能是為合成語音劃分出音段特征,主要是對(duì)語段的時(shí)長、基頻、停頓和強(qiáng)度等進(jìn)行預(yù)測和控制,合成出能正確表達(dá)意義的聲音,能幫助聽者更好地理解話音所攜帶的信息。因此韻律是語音合成效果好壞的關(guān)鍵。韻律處理模塊將根據(jù)語調(diào)、重音和節(jié)奏,對(duì)每個(gè)發(fā)音單元進(jìn)行韻律調(diào)整,調(diào)整后輸出地是包含韻律信息的音韻序列。
目前,在語音合成中,仍然不能有效模擬自然語流中的韻律結(jié)構(gòu)。自然語流中所有韻律變化的語調(diào)、節(jié)奏和重音等特征參數(shù)信息不可能全部存儲(chǔ)至基元庫中。語音合成系統(tǒng)要想取得高質(zhì)量的語音,就必須具備韻律處理和模擬的功能。
語調(diào)主要反映整個(gè)語句音高變化趨勢,語調(diào)模型的精確程度嚴(yán)重影響合成語音的自然度,在語音合成技術(shù)發(fā)展過程中,研究者也提出了比較有效的Tilt模型、Fuiisaki模型、PENTA模型,更加精確的語調(diào)模型,在提高合成語音自然度方面發(fā)揮著重要作用。
停頓是漢語韻律特征的重要方面,由標(biāo)點(diǎn)符號(hào)分隔的句子是最明顯的停頓,在每句漢語中,依據(jù)韻律層級(jí)結(jié)構(gòu)還存在隱含的停頓,這些停頓長短不同,整句話中各個(gè)停頓協(xié)調(diào)配合,才能發(fā)出自然和諧的聲音。停頓也是影響自然度的重要因素。
實(shí)驗(yàn)表明,在語音合成系統(tǒng)中引入韻律層級(jí)結(jié)構(gòu)可以提高合成語音的質(zhì)量。關(guān)于重音和語調(diào)的研究也取得了一些成果,但由于重音和語調(diào)的復(fù)雜聲學(xué)性能,仍沒有一致的結(jié)論,特別是在語音合成系統(tǒng)中,重音和語調(diào)還有待進(jìn)一步研究。
韻律規(guī)則主要研究的是人在發(fā)音過程中各種聲學(xué)參數(shù)的變化規(guī)律,利用這些規(guī)律可以改進(jìn)語音合成系統(tǒng)的整體性能,尤其是在語音合成階段提供調(diào)整韻律變化的聲學(xué)參數(shù)。漢語的韻律預(yù)測與文本分析之間存在著緊密聯(lián)系。
語音合成系統(tǒng)的最后一步是聲學(xué)處理,我們也稱為語音合成。聲學(xué)處理的目標(biāo)是根據(jù)語言學(xué)處理和韻律設(shè)計(jì)的結(jié)果,將帶有韻律符號(hào)的漢語拼音進(jìn)一步轉(zhuǎn)換為聲音信號(hào)。這方面的研究主要經(jīng)歷了機(jī)械式、電子模擬和數(shù)字等三個(gè)階段。隨著計(jì)算機(jī)技術(shù)和數(shù)字信號(hào)處理技術(shù)的快速發(fā)展,真正實(shí)用的語音合成技術(shù)逐漸發(fā)展,很多學(xué)者在不斷探索新模型和新算法。
現(xiàn)代語音合成方法主要有三種:源一濾波器語音合成,基于波形拼接技術(shù)的語音合成,可訓(xùn)練的參數(shù)語音合成。源一濾波器結(jié)構(gòu)的語音合成方法是由激勵(lì)經(jīng)過相應(yīng)的濾波器而產(chǎn)生,最常用的兩種方法是共振峰合成和線性預(yù)測分析合成,實(shí)現(xiàn)復(fù)雜度不高,但合成質(zhì)量較差。
基于波形拼接技術(shù)的語音合成是采用原始語音波形代替參數(shù)構(gòu)建語音庫,通過單元挑選算法選出合適的語音單元序列進(jìn)行拼接,實(shí)現(xiàn)最終的語音合成。由于語音單元取自原始語音波形,可以獲得接近人聲的自然度?;谄唇拥恼Z音合成技術(shù)也存在諸多問題,如語音合成系統(tǒng)建設(shè)時(shí)間長,合成與語音庫中情境不同的語句時(shí)自然度差、不穩(wěn)定,系統(tǒng)難于擴(kuò)展等等。
可訓(xùn)練的參數(shù)語音合成(Trainable TTS)方法由于在語音合成方面的優(yōu)勢被越來越多的學(xué)者所關(guān)注。20世紀(jì)90年代末,基于隱馬爾可夫模型(HMM)的語音合成技術(shù)出現(xiàn)了。近年來又不斷進(jìn)行改進(jìn),人們意識(shí)到這種合成方法有更多優(yōu)勢,例如合成方法更靈活,所占存儲(chǔ)資源少,適合嵌入式開發(fā),可擴(kuò)展性好等等。同時(shí)基于HMM的語音合成技術(shù)的訓(xùn)練過程可以自動(dòng)完成,需要調(diào)試參數(shù)少,而且可以改變輸出聲音的音色,同一個(gè)合成系統(tǒng)可以輸出不同個(gè)性化的聲音。這種模型也有它的不足之處,音色調(diào)節(jié)受限,其合成效果與原始語音相比還存在一定的差距,從聽覺感知上自然度還達(dá)不到真正的人聲。
在可訓(xùn)練參數(shù)合成中,基于深度神經(jīng)網(wǎng)絡(luò)的語音合成是近些年發(fā)展起來的語音合成技術(shù),利用深層神經(jīng)網(wǎng)絡(luò)強(qiáng)大的非線性建模能力,有效地提升了建模精度,使得語音合成的自然度得到很大提升,在某些應(yīng)用場合已經(jīng)達(dá)到接近人聲的程度。當(dāng)然,基于深度神經(jīng)網(wǎng)絡(luò)的語音合成目前也存在一些問題,如需要很長的學(xué)習(xí)時(shí)間,合成語音存在無法預(yù)測的噪聲問題等等,隨著這些問題地解決和完善,基于深度神經(jīng)網(wǎng)絡(luò)的語音合成將逐漸成為主流方法。
語音合成技術(shù)的發(fā)展過程是一個(gè)漸進(jìn)的過程,從參數(shù)合成到波形拼接,再到可訓(xùn)練參數(shù)的語音合成,發(fā)展到當(dāng)前的基于深度神經(jīng)網(wǎng)絡(luò)的語音合成。每個(gè)階段的方法都各有優(yōu)缺點(diǎn),人們在應(yīng)用中往往將多種技術(shù)有機(jī)融合,或用一種技術(shù)的優(yōu)點(diǎn)來克服另一種技術(shù)的不足。
合成具有更高自然度的語音,歷來都是語音合成研究者所追求的目標(biāo)。進(jìn)一步提高語音表現(xiàn)力,使合成的語音更加生動(dòng),可以給語音合成技術(shù)開辟更廣闊的應(yīng)用空間。