鄭 瑩,陳 明
(宜春學(xué)院,江西 宜春 336000)
自然語(yǔ)言處理是一種技術(shù),通過自然語(yǔ)言在計(jì)算機(jī)領(lǐng)域?qū)崿F(xiàn)通訊,研究利用計(jì)算機(jī)通過計(jì)算理解和生成自然語(yǔ)言,亦稱為計(jì)算語(yǔ)言學(xué)。姚天順等(1995)認(rèn)為自然語(yǔ)言處理通常包含三個(gè)主要過程:首先,將自然語(yǔ)言處理的對(duì)象在語(yǔ)言學(xué)上形式化,通過某種規(guī)整而嚴(yán)密的數(shù)學(xué)形式表現(xiàn);其次,將嚴(yán)密且規(guī)整的數(shù)學(xué)形式稱為算法,并在計(jì)算上形式化算法;最后,依照算法編寫計(jì)算機(jī)程序,并將程序在計(jì)算機(jī)上加以實(shí)現(xiàn)。
計(jì)算機(jī)上的自然語(yǔ)言理解包括自然語(yǔ)言的口語(yǔ)理解(如語(yǔ)音識(shí)別)和自然語(yǔ)言的書面語(yǔ)理解(如機(jī)器翻譯)。本文的研究對(duì)象主要指向自然語(yǔ)言中的口語(yǔ)理解部分。
首先,語(yǔ)音以語(yǔ)言的物質(zhì)外殼形式存在,語(yǔ)音也是承載人類思維和信息的物質(zhì)載體。因此,語(yǔ)音作為一種聲音形式具有物理屬性。經(jīng)過形式化的語(yǔ)音,可以存儲(chǔ)、壓縮、傳輸和再生人類的思維和信息,進(jìn)而最大限度地拓展人類思維和信息傳播的時(shí)間范圍與空間范圍。其次,語(yǔ)音也具有生理屬性,是人腦控制發(fā)音器官共同作用的產(chǎn)物,也是人類感知外界信息的主要來源。再者,語(yǔ)言具有社會(huì)性,而作為語(yǔ)言要素之一的語(yǔ)音,其社會(huì)性主要體現(xiàn)為社會(huì)對(duì)語(yǔ)音各種功能的既定性。
實(shí)際上,語(yǔ)音的物理、生理和社會(huì)屬性彼此相互聯(lián)系。因此,從多角度對(duì)語(yǔ)音現(xiàn)象展開分析對(duì)語(yǔ)音的形式化研究具有指導(dǎo)意義。
自然語(yǔ)言處理中的語(yǔ)音形式化需要經(jīng)歷模擬和數(shù)字兩個(gè)階段(胡航,2005)。模擬語(yǔ)音信號(hào)會(huì)連續(xù)對(duì)聲音變化態(tài)勢(shì)實(shí)施取值;數(shù)字化語(yǔ)音信號(hào)所實(shí)施的取值具有離散性。數(shù)字化語(yǔ)音信號(hào)的離散特性較模擬語(yǔ)音信號(hào)更加便于分析和演算、可靠性高和保密性強(qiáng)。
依據(jù)語(yǔ)音學(xué)理論,語(yǔ)音被分解為若干單位,其中最大單位是音句,而自小單位為音素。在自然語(yǔ)言理解過程中,為了便于語(yǔ)音形式化,音素又被進(jìn)一步分解成具有區(qū)別性特征的更小單位。因?yàn)槿祟惖淖匀徽Z(yǔ)音具有連續(xù)性,因此,自然語(yǔ)言理解中的語(yǔ)音分解被歸屬為離散化分析,要求將連續(xù)語(yǔ)音分解為各種離散的具有區(qū)別性特征的序列,用“0”和“1”組成的二進(jìn)制序列表示語(yǔ)音信號(hào)。對(duì)連續(xù)語(yǔ)音的進(jìn)一步分解,為語(yǔ)音數(shù)字化的不斷發(fā)展奠定良好基礎(chǔ)。
分析處理語(yǔ)音信息之前,應(yīng)對(duì)語(yǔ)音信號(hào)實(shí)施編碼。1937年提出的脈沖編碼調(diào)制 (PCM) 經(jīng)過一系列的傳承與發(fā)展,依據(jù)對(duì)語(yǔ)音進(jìn)行采樣、量化、編碼的基本原理和過程,在語(yǔ)音編碼方案中PCM一直占據(jù)主要位置(胡航,2005)。
1.采樣階段
自然語(yǔ)音信號(hào)首先由話筒接收,然后被轉(zhuǎn)為模擬的電信號(hào),以連續(xù)變化的電壓波動(dòng)形式呈現(xiàn)。隨后,這些電壓波動(dòng)被切割成時(shí)間片段,在時(shí)間軸上被離散化。至此,電壓波動(dòng)轉(zhuǎn)變?yōu)閿?shù)字信號(hào)。采樣是針對(duì)離散化后時(shí)間片段內(nèi)的電壓值。
如圖1,選取時(shí)間軸上等時(shí)長(zhǎng)的八個(gè)采樣點(diǎn),這些采樣點(diǎn)均以不同的電壓值呈現(xiàn)自然語(yǔ)音信號(hào),他們構(gòu)成了一個(gè)脈沖序列為0,0.11,0.21,0.20,0.09,-0.05,-0.19,-0.25。這些采樣電壓值呈現(xiàn)出電波振幅的變化軌跡。
圖1 語(yǔ)音信號(hào)采樣示意圖
值得一提的是采樣頻率并非隨意選擇,Nyquist采樣定理認(rèn)為當(dāng)采樣頻率是信號(hào)頻率的兩倍或兩倍以上時(shí),原語(yǔ)音信息才不被失真(韓紀(jì)慶等, 2007)。
2.量化階段
經(jīng)采樣離散化后的語(yǔ)音信息的電壓值(振幅)仍具有連續(xù)性。量化的目的就是分級(jí)處理采樣數(shù)據(jù),將采樣數(shù)據(jù)逐一歸入有限的數(shù)字柵格,從而離散化波形幅度值。本文采用寬度為0.06的七個(gè)柵格分級(jí)處理上文選取的八個(gè)采樣值。
如圖2所示,采樣值被置于不同的區(qū)間,區(qū)間從-3到+3被逐一標(biāo)號(hào),八個(gè)采樣值分別對(duì)應(yīng)區(qū)間上的數(shù)值0,2,3,3,1,0,-2,-3 。任意采樣值在(-0.22,0.22)區(qū)間內(nèi)均能被離散化為七個(gè)量化值之一,進(jìn)而有效的實(shí)現(xiàn)了有限量化值。
圖2 采樣值量化示意圖
但是,量化值與采樣值之間存在誤差,被稱為量化誤差。密度均勻和平穩(wěn)是量化誤差的主要特征。該特征對(duì)語(yǔ)音信號(hào)的影響主要表現(xiàn)為響亮的“嘶嘶”聲。實(shí)際上,量化誤差與量化分級(jí)之間有著緊密的關(guān)系,量化分級(jí)越細(xì)化,量化的數(shù)值就越精確,語(yǔ)音信號(hào)的噪聲就越小。
3.編碼階段
基于前兩個(gè)階段的語(yǔ)音信息處理,語(yǔ)音信號(hào)在時(shí)間和振幅上均被離散為數(shù)字信號(hào),真正實(shí)現(xiàn)語(yǔ)音的傳輸、存儲(chǔ)和分析,仍需完成編碼階段的任務(wù)。
由電路的物理特性決定,制造與運(yùn)轉(zhuǎn)現(xiàn)代電子設(shè)備主要依據(jù)二進(jìn)制。因此,電子設(shè)備的工作模式通常是二進(jìn)制的。編碼過程的實(shí)質(zhì)就是多進(jìn)制數(shù)據(jù)向二進(jìn)制數(shù)據(jù)的轉(zhuǎn)化。
用三位二進(jìn)制數(shù)對(duì)在時(shí)間和振幅上均被離散的數(shù)字信號(hào)進(jìn)行編碼,得出二進(jìn)制序列和碼表(電壓數(shù)值與二進(jìn)制數(shù)值的對(duì)應(yīng)表)。依據(jù)查表步驟,脈沖信號(hào)與二進(jìn)制數(shù)據(jù)之間可以互相轉(zhuǎn)換。該表的制定也要遵循就近原則,即要求二進(jìn)制碼在相鄰的量化區(qū)間內(nèi)只允許1位不相同;目的在于,一旦傳輸過程發(fā)生故障,不會(huì)影響信號(hào)整體。
在該階段,一系列的二進(jìn)制序列被得到,語(yǔ)音數(shù)字化基本得以實(shí)現(xiàn)。二進(jìn)制序列作為單純的語(yǔ)音轉(zhuǎn)換數(shù)據(jù),不包括量化位數(shù)、采樣頻率和其他數(shù)據(jù)結(jié)構(gòu)的信息,但能夠輔助存儲(chǔ)語(yǔ)音產(chǎn)出者語(yǔ)音樣本片段的主要信息。
語(yǔ)音識(shí)別的最終目的是讓機(jī)器能夠像人一樣能夠接受、理解和分析收到的語(yǔ)音信息,它是實(shí)現(xiàn)人機(jī)對(duì)話不可或缺的環(huán)節(jié)。語(yǔ)音識(shí)別的基本過程包括預(yù)處理階段、聲學(xué)特征提取階段、距離測(cè)度計(jì)算階段和判斷階段。
預(yù)處理主要處理原始連續(xù)語(yǔ)音,移除原始連續(xù)語(yǔ)音中的多余片段,并實(shí)現(xiàn)部分去噪和檢測(cè)個(gè)體發(fā)音差異。經(jīng)過預(yù)處理階段,自然語(yǔ)音信號(hào)更能反映語(yǔ)音信號(hào)的本質(zhì)特征。特征提取階段主要針對(duì)頻譜特性、共振峰、LPC線性預(yù)測(cè)系數(shù)以及某些超音段特征等常見聲學(xué)特征。特征提取階段可以是單個(gè)特征提取,也可以涉及兩個(gè)或兩個(gè)以上的特征提取。經(jīng)過特征提取階段,最具區(qū)別性的語(yǔ)音信號(hào)特征將被保留。距離測(cè)度計(jì)算階段,包括板倉(cāng)一齋藤測(cè)度、歐式距離測(cè)度、主觀感知測(cè)度等,主要對(duì)比輸入語(yǔ)音信號(hào)中的特征值與參考模式庫(kù)中樣本值之間的相似度,為下一步處理提供充足的參考數(shù)據(jù)。判斷階段,即依據(jù)前一階段的數(shù)據(jù)結(jié)果實(shí)施判斷,對(duì)應(yīng)參考模式庫(kù)中與輸入聲學(xué)特性對(duì)應(yīng)匹配的語(yǔ)音單位。
在整個(gè)語(yǔ)音識(shí)別的過程中,每一個(gè)語(yǔ)音產(chǎn)出者都擁有自己獨(dú)有的個(gè)體語(yǔ)音特征。為使語(yǔ)音識(shí)別系統(tǒng)中的參考模式庫(kù)與語(yǔ)音產(chǎn)出者的輸入聲學(xué)特性能夠最終匹配,通常在實(shí)驗(yàn)實(shí)施前,需要適當(dāng)?shù)奶崆坝?xùn)練語(yǔ)音產(chǎn)出者,要求其誦讀一段文本。此后,語(yǔ)音產(chǎn)出者的個(gè)體語(yǔ)音特征就是語(yǔ)音識(shí)別系統(tǒng)比對(duì)出的個(gè)體語(yǔ)音樣本和標(biāo)準(zhǔn)語(yǔ)音樣本之間的差異結(jié)果。語(yǔ)音識(shí)別系統(tǒng)能夠依照個(gè)體語(yǔ)音特征針對(duì)性地建立個(gè)性化參考模式庫(kù),也能夠建立個(gè)性化語(yǔ)音矯正參數(shù)(吳義堅(jiān)等,2006)。通過參考模式庫(kù)的訓(xùn)練,能夠有效提升語(yǔ)音識(shí)別的準(zhǔn)確率,因此該庫(kù)一般被用作高級(jí)語(yǔ)音識(shí)別系統(tǒng)的標(biāo)準(zhǔn)組成部分。
語(yǔ)音模式識(shí)別常用的計(jì)算方法是模版匹配法和概率統(tǒng)計(jì)法。模板匹配法的參考模式庫(kù)主要記錄離散化語(yǔ)音單位的特征參數(shù),比對(duì)個(gè)體語(yǔ)音樣本和標(biāo)準(zhǔn)語(yǔ)音樣本,判斷個(gè)體語(yǔ)音樣本的歸屬,提取參數(shù)與選擇距離測(cè)度是該方法的應(yīng)用關(guān)鍵;該方法的優(yōu)點(diǎn)是訓(xùn)練時(shí)間少,缺點(diǎn)是對(duì)系統(tǒng)運(yùn)算速度要求 高且計(jì)算量大。后者的參考模式庫(kù)主要記錄數(shù)學(xué)模型,通過統(tǒng)計(jì)語(yǔ)音樣本符合數(shù)學(xué)模型的概率實(shí)施語(yǔ)音識(shí)別和判斷;該方法的優(yōu)點(diǎn)是靈活、計(jì)算量小,反應(yīng)速度快,充分利用語(yǔ)音頻譜的相關(guān)性與動(dòng)態(tài)變化。但是,實(shí)際語(yǔ)音識(shí)別系統(tǒng)的操作過程中,較多使用模板匹配法,因?yàn)榇罅康挠?xùn)練才能保證較高的識(shí)別準(zhǔn)確率。
隨著科技的不斷發(fā)展和進(jìn)步,各種不同的現(xiàn)代化信息處理方式不斷涌現(xiàn),其中,語(yǔ)音作為人類最重要的信息物質(zhì)載體之一,必須順應(yīng)時(shí)代的發(fā)展和需要。因此,自然語(yǔ)言理解下對(duì)語(yǔ)音進(jìn)行形式化的研究,能夠充分利用各種有限的物質(zhì)形式分析并重塑自然語(yǔ)音信號(hào),拓展自然語(yǔ)音信號(hào)的適應(yīng)性,使其滿足各種現(xiàn)代應(yīng)用領(lǐng)域的需要。
參考文獻(xiàn):
[1]胡航.語(yǔ)音信號(hào)處理[M].哈爾濱:哈爾濱工業(yè)大學(xué)出版社,2005.
[2]吳義堅(jiān),王仁華.基于HMM的可訓(xùn)練中文語(yǔ)音合成[J].中文信息學(xué)報(bào),2006,(4).
[3]姚天順等.自然語(yǔ)言理解:一種讓機(jī)器懂得人類語(yǔ)言的研究[M].北京:清華大學(xué)出版社,1995.