潘 迪,梁士利,魏 瑩,李廣巖,許廷發(fā),王雙維
(1.東北師范大學(xué)物理學(xué)院,吉林 長(zhǎng)春 130024;2.北京理工大學(xué)光電成像與信息工程研究所,北京 100081)
語(yǔ)譜圖二次傅里葉變換特定人二字漢語(yǔ)詞匯識(shí)別
潘 迪1,梁士利1,魏 瑩1,李廣巖1,許廷發(fā)2,王雙維1
(1.東北師范大學(xué)物理學(xué)院,吉林 長(zhǎng)春 130024;2.北京理工大學(xué)光電成像與信息工程研究所,北京 100081)
以語(yǔ)音信號(hào)的語(yǔ)譜圖作為處理對(duì)象,提出了基于語(yǔ)譜圖二次傅里葉變換對(duì)特定人二字詞匯識(shí)別的方法.首先對(duì)語(yǔ)譜圖二次傅里葉變換頻域圖的圖像意義以及相應(yīng)的語(yǔ)音特性表征進(jìn)行了詳細(xì)剖析;然后對(duì)語(yǔ)譜圖頻域圖像進(jìn)行二進(jìn)寬度行投影,將投影值作為語(yǔ)音識(shí)別特征值,以支持向量機(jī)為分類器,進(jìn)行特定人二字詞匯語(yǔ)音整體識(shí)別.采用1 000個(gè)語(yǔ)音樣本進(jìn)行了仿真實(shí)驗(yàn).結(jié)果表明,該方法正確識(shí)別率可達(dá)到92.4%,為漢語(yǔ)詞匯整體識(shí)別提供了新的思路.
語(yǔ)譜圖;二次傅里葉變換;支持向量機(jī);二進(jìn)寬度行投影
無(wú)論語(yǔ)音識(shí)別還是語(yǔ)音增強(qiáng),常規(guī)語(yǔ)音處理技術(shù)通常基于語(yǔ)音信號(hào)屬于非平穩(wěn)隨機(jī)過(guò)程這一特性,以10~30 ms的短時(shí)語(yǔ)音幀為基本單位進(jìn)行處理.但這種分割方法破壞了音節(jié)承載信息的整體性,在一定程度上影響了語(yǔ)音處理的效果.
相比英語(yǔ)等其他語(yǔ)言,漢語(yǔ)音節(jié)信息最強(qiáng)的部分在前面和中間,結(jié)尾部分往往只是信息很弱且時(shí)間較長(zhǎng)的拖尾音.漢語(yǔ)的信息為聲母、韻母及聲調(diào)的整體表現(xiàn),對(duì)漢語(yǔ)進(jìn)行處理時(shí)極易使語(yǔ)音信息丟失.因此,對(duì)于漢語(yǔ)語(yǔ)音處理而言,尋找能夠體現(xiàn)漢語(yǔ)語(yǔ)音整體化特征的處理方法顯得尤為重要.
語(yǔ)譜圖作為語(yǔ)音分析和語(yǔ)音學(xué)的有利工具,它將密切相關(guān)的時(shí)域與頻域特征及其相互關(guān)系同時(shí)展現(xiàn)出來(lái).所以,語(yǔ)譜圖更加有利于表征語(yǔ)音信號(hào)的整體性.隨著圖像處理技術(shù)的發(fā)展,人們已將語(yǔ)譜圖本身作為研究對(duì)象,利用圖像處理技術(shù)提取語(yǔ)音識(shí)別的參數(shù)實(shí)現(xiàn)語(yǔ)音識(shí)別,并取得了一定效果.
20世紀(jì)70年代,文獻(xiàn)[1]做了若干關(guān)于語(yǔ)譜圖閱讀的實(shí)驗(yàn)來(lái)嘗試用語(yǔ)譜圖進(jìn)行語(yǔ)音識(shí)別;文獻(xiàn)[2]嘗試通過(guò)可視語(yǔ)譜圖檢驗(yàn)和機(jī)器幫助下的詞匯搜索對(duì)一組未知句子進(jìn)行識(shí)別,都取得了一定的成果;80年代末和90年代初,人們開(kāi)始不直接使用語(yǔ)譜圖,而是從語(yǔ)譜圖中提取特征或使用處理過(guò)的語(yǔ)譜圖;[3-7]新世紀(jì)以來(lái),文獻(xiàn)[8]提出一種新穎的基于譜模型適應(yīng)算法的語(yǔ)譜圖,并用于說(shuō)話人識(shí)別.
1995年,潘凌云等人[9]將語(yǔ)譜圖應(yīng)用到語(yǔ)音識(shí)別中的語(yǔ)音音素分割中;2005年,馬義德等人[10]把PCNN引入到說(shuō)話人識(shí)別中;2006年,陳向民等人[11]將語(yǔ)譜圖應(yīng)用到語(yǔ)音端點(diǎn)檢測(cè)算法中;2011年,姜洪臣等人[12]提出了一種基于音頻語(yǔ)譜圖像識(shí)別的廣告檢索方法;2014年,吳迪等人[13]對(duì)增強(qiáng)后語(yǔ)音的時(shí)頻語(yǔ)譜進(jìn)行二維增強(qiáng),提出PSSB參數(shù),并用于端點(diǎn)檢測(cè);我們依據(jù)語(yǔ)譜圖紋理方位的數(shù)學(xué)形態(tài)學(xué)特征進(jìn)行了漢語(yǔ)韻母聲調(diào)識(shí)別研究[14].
以往基于語(yǔ)譜圖的語(yǔ)音識(shí)別僅在語(yǔ)譜圖本身的空域結(jié)構(gòu)中直接尋找特征,并沒(méi)有充分利用語(yǔ)譜圖作為可視化圖像的性質(zhì).考慮到語(yǔ)譜圖表征語(yǔ)音特性體現(xiàn)在紋絡(luò)結(jié)構(gòu)上,而圖像紋絡(luò)結(jié)構(gòu)更容易由圖像的頻域描述.因此,本文對(duì)語(yǔ)譜圖進(jìn)行二次傅里葉變換,將其圖像空域轉(zhuǎn)換至圖像頻域,并對(duì)語(yǔ)譜圖圖像頻域進(jìn)行二進(jìn)寬度分帶投影,借助于支持向量機(jī)實(shí)現(xiàn)特定人二字詞匯的識(shí)別.仿真實(shí)驗(yàn)表明,選取對(duì)語(yǔ)譜圖進(jìn)行圖像二次傅里葉變換之后的二進(jìn)寬度分帶投影值作為語(yǔ)音識(shí)別特征量,對(duì)特定人二字詞匯語(yǔ)音的識(shí)別率可達(dá)到92.4%,為解決漢語(yǔ)詞匯整體語(yǔ)音識(shí)別提供了一種新的思路.
語(yǔ)譜圖(Spectrogram)[15]是表示語(yǔ)音頻譜隨時(shí)間變化的圖形,它采用二維平面來(lái)表達(dá)三維信息,任一給定頻率成分在給定時(shí)刻的強(qiáng)弱用相應(yīng)點(diǎn)的灰度或色調(diào)的濃淡來(lái)表示.語(yǔ)譜圖中顯示了大量的與語(yǔ)音的特性有關(guān)的信息,它綜合了頻譜圖和時(shí)域波形的特性,顯示出語(yǔ)音頻譜隨時(shí)間的變化情況.所以,語(yǔ)譜圖所承載的信息量遠(yuǎn)遠(yuǎn)大于單純時(shí)域和單純頻域承載信息量的總和.
眾所周知,窄帶語(yǔ)譜圖有較高的頻率分辨率,在譜圖上能顯示出2個(gè)純音,但其時(shí)間分辨率較差,看不出2個(gè)純音所產(chǎn)生的拍音.[16]因此,作為詞匯的窄帶語(yǔ)譜圖,可以反映詞匯整體的基頻及各次諧波的時(shí)間變化.窄帶語(yǔ)譜圖中基頻及各次諧波體現(xiàn)為等間隔的橫杠,從圖像角度看,這些等間隔的橫杠反映了圖像豎直方向上的周期特征.如果將語(yǔ)譜圖進(jìn)行傅里葉變換,即由語(yǔ)譜圖的空域轉(zhuǎn)換到語(yǔ)譜圖的頻域,則上述橫杠的周期性表現(xiàn)為語(yǔ)譜圖頻域豎直方向上的基頻.
為了彰顯上述特性,我們給出漢語(yǔ)單韻母“a”的語(yǔ)譜圖(帶寬43 Hz)見(jiàn)圖1.為了突出重點(diǎn),圖1只顯示4 kHz以下部分.由圖1可以看出,當(dāng)持續(xù)發(fā)“a”時(shí),基頻與各次諧波對(duì)應(yīng)的橫杠基本保持不變,而波動(dòng)性反映發(fā)音時(shí)的聲音脈動(dòng).圖1的傅里葉變換圖(全頻域變換)見(jiàn)圖2,亦即語(yǔ)譜圖的頻域圖,圖2中心代表0頻率,向左右和上下指向高頻.語(yǔ)譜圖是非負(fù)的實(shí)數(shù)矩陣,所以,其傅里葉變換滿足共軛對(duì)稱性,我們只針對(duì)上半幅頻域圖進(jìn)行解讀.由于是單韻母“a”的持續(xù)發(fā)音,其基頻與各次諧波的相對(duì)關(guān)系保持不變,體現(xiàn)在頻域圖上,即是圖像的各頻率成分集中在坐標(biāo)軸上.
圖1 漢語(yǔ)單韻母“a”的窄帶語(yǔ)譜
語(yǔ)譜圖頻域圖像中心亮斑(可稱為0號(hào)亮斑)是語(yǔ)譜圖水平和豎直方向的0頻率分量,這是圖像傅里葉變換的特有標(biāo)志,因?yàn)閳D像矩陣為非負(fù)實(shí)陣,數(shù)據(jù)沒(méi)有過(guò)零點(diǎn),因此任何圖像都包含“直流”成分,也正因?yàn)槿绱?,圖像頻域的“直流”成分即中心亮斑不包含有用信息.
語(yǔ)譜圖頻域圖豎直方向1號(hào)亮斑的位置,反映了語(yǔ)音基頻及各次諧波間隔的大小,位置越高,說(shuō)明基頻及各次諧波頻率間隔越小.2號(hào)及其以后的高頻亮斑反映語(yǔ)譜圖橫杠斷面邊緣特征,即邊緣梯度特征,高頻亮斑越少,邊緣下降越緩慢,反之亦然.從語(yǔ)音角度,高頻亮斑對(duì)應(yīng)著語(yǔ)音頻譜的精細(xì)結(jié)構(gòu),這一精細(xì)結(jié)構(gòu)除含有語(yǔ)音信息外,是否含有說(shuō)話人的聲紋信息,值得進(jìn)一步研究.
圖3 詞匯“中國(guó)”的時(shí)域波形
與豎直方向類似,水平方向1號(hào)亮斑反映語(yǔ)音脈動(dòng)的基本周期,高頻亮斑反映語(yǔ)音脈動(dòng)過(guò)程的速率.由于圖1是窄帶語(yǔ)譜圖,時(shí)間分辨率不高,因此不能顯示語(yǔ)音“a”發(fā)音脈動(dòng)的細(xì)節(jié)過(guò)程.
某發(fā)音人詞匯內(nèi)容為“中國(guó)”的時(shí)域波形圖見(jiàn)圖3.相應(yīng)的窄帶語(yǔ)譜圖(帶寬43 Hz)見(jiàn)圖4,為了突出重點(diǎn),圖4只顯示4 kHz以下部分.語(yǔ)譜圖傅里葉變換的頻域圖像(全頻域變換)見(jiàn)圖5.
圖4 詞匯“中國(guó)”的窄帶語(yǔ)譜
圖5 詞匯“中國(guó)”語(yǔ)譜圖二次傅里葉變換后的頻域
由圖5看出,“中國(guó)”語(yǔ)譜圖二次傅里葉變換所形成的頻域圖像,其成分不再局限于坐標(biāo)軸上,這是因?yàn)樵~匯發(fā)音屬于非平穩(wěn)過(guò)程,語(yǔ)音基頻及其諧波的時(shí)域變化導(dǎo)致語(yǔ)譜圖紋理周期性在任意方向都有體現(xiàn).同時(shí)也說(shuō)明,語(yǔ)譜圖有信息價(jià)值的部分是較粗的紋理成分.
2.1 語(yǔ)譜圖樣本構(gòu)成
用Cool Edit Pro 2.0軟件進(jìn)行語(yǔ)音錄制,采樣頻率為44.1 kHz,使得語(yǔ)譜圖頻域表達(dá)范圍為0~22 kHz,單聲道,16 B進(jìn)行量化.采集10人(男、女各5人)的10個(gè)詞匯的讀音樣本,10個(gè)詞匯均為二字詞匯,重復(fù)10遍,即每個(gè)詞匯有10個(gè)樣本.一個(gè)詞匯的語(yǔ)音時(shí)長(zhǎng)約為1.2 s,10人的10個(gè)詞匯共1 000個(gè)語(yǔ)音樣本文件.所有語(yǔ)音樣本文件轉(zhuǎn)化為Matlab數(shù)據(jù)文件,即語(yǔ)音樣本序列.
對(duì)每個(gè)樣本序列進(jìn)行分幀,幀長(zhǎng)為1 024點(diǎn),為保持其連續(xù)性,采用重疊率為25%的幀移量,窗函數(shù)采用漢明窗(Hamming),漢明窗公式為[17]
每個(gè)樣本分為54幀,構(gòu)造出1 024行54列時(shí)域分幀矩陣.對(duì)時(shí)域分幀矩陣做FFT,生成1 024行54列時(shí)頻分析矩陣,頻域分辨率為43Hz.時(shí)頻分析矩陣的模矩陣即為樣本所對(duì)應(yīng)的語(yǔ)譜圖矩陣.由于傅里葉變換具有對(duì)稱性,取該矩陣的上半部或下半部作為語(yǔ)譜圖即可,因此,每一幅語(yǔ)譜圖的矩陣為512行54列,共1 000幅灰度圖像.以上過(guò)程本文形成了參數(shù)可調(diào)的Matlab語(yǔ)譜圖生成程序,以備隨時(shí)調(diào)用.
為了消除由于音量不同造成的各個(gè)樣本幅度差異,對(duì)每個(gè)圖像矩陣均進(jìn)行歸一化處理.
2.2 語(yǔ)譜圖特征提取
2.2.1 語(yǔ)譜圖二進(jìn)寬度分帶行投影
語(yǔ)譜圖矩陣的每一行代表著某一頻率通道幅度特性隨時(shí)間的變化,行投影則反映了某頻率通道在整個(gè)語(yǔ)音時(shí)長(zhǎng)過(guò)程中的總體特征.如果簡(jiǎn)單的對(duì)語(yǔ)譜圖矩陣進(jìn)行行投影,這種頻域上過(guò)于細(xì)化的投影方式,不僅對(duì)語(yǔ)音識(shí)別沒(méi)有益處,反而會(huì)降低識(shí)別系統(tǒng)的容錯(cuò)能力.而且從語(yǔ)譜圖灰度圖像中也發(fā)現(xiàn)大量信息集中分布在圖像的中下部分,這一點(diǎn)符合人類語(yǔ)言信息主要分布在低頻段的特征.為了便于特定人的二字詞匯的語(yǔ)音識(shí)別更加準(zhǔn)確,同時(shí)又能將灰度圖像的中下部分的信息更清楚地顯示出來(lái),我們采取了二進(jìn)寬度分帶方法,從第1行開(kāi)始二進(jìn)分,即將每個(gè)語(yǔ)譜圖矩陣的1~256行(帶寬256行)、257~384行(帶寬128行)、385~448行(帶寬64行)、449~480行(帶寬32行)、481~496行(帶寬16行)、497~504行(帶寬8行)、505~512行(帶寬8行)分為7個(gè)帶,最后8行不再分帶,因?yàn)樽詈笠粋€(gè)帶的頻率范圍在0~200Hz之間,而人類所能聽(tīng)到的頻率在100Hz以上,所以最后8行相當(dāng)于只有4行是有效的,因此不用將8行再分.將這7個(gè)帶進(jìn)行行投影,構(gòu)造每個(gè)詞匯的7行10列二進(jìn)寬度分帶投影矩陣.通過(guò)對(duì)10個(gè)詞匯之間對(duì)應(yīng)帶投影矩陣值的各個(gè)行求平均值和方差,并對(duì)不同詞匯語(yǔ)譜圖矩陣對(duì)應(yīng)帶投影值進(jìn)行U檢驗(yàn),發(fā)現(xiàn)第3行到第7行5個(gè)帶投影值有顯著性差異,可以作為特征數(shù)據(jù)集合.
2.2.2 語(yǔ)譜圖二次傅里葉變換后的二進(jìn)寬度分帶行投影
語(yǔ)譜圖圖像中像素的灰度值代表了信號(hào)在相應(yīng)頻率、相應(yīng)時(shí)刻的幅度比重.基于圖像處理思路,對(duì)其進(jìn)行頻譜分析,將語(yǔ)譜圖圖像進(jìn)行再次傅里葉變換,形成512行54列語(yǔ)譜圖圖像頻域特性矩陣,并將頻譜低頻部分移到中心處.我們采用了二進(jìn)寬度分帶投影方法,考慮到語(yǔ)譜圖中顯示語(yǔ)音特性的條紋主體,從圖像角度看屬于低頻成分,而較低的頻率被移到中心位置處,所以采用從中心向上由細(xì)到寬進(jìn)行二進(jìn)倍增寬度分帶投影的方法.又因?yàn)閳D像矩陣為實(shí)的非負(fù)矩陣,所以二次傅里葉變換的頻域矩陣滿足共軛對(duì)稱性,分析其幅頻特性,發(fā)現(xiàn)圖像的頻域矩陣既不滿足左右對(duì)稱,也不滿足上下對(duì)稱.因此,應(yīng)用圖像二次傅里葉變換所對(duì)應(yīng)的頻域矩陣進(jìn)行數(shù)據(jù)處理或分析時(shí),不能只使用1個(gè)象限,要同時(shí)使用相鄰的2個(gè)象限.但也發(fā)現(xiàn)圖像的頻域矩陣是轉(zhuǎn)置對(duì)稱矩陣,可完全描述圖像幅頻特征的獨(dú)立子陣是上半子陣,或下半子陣,或左半子陣,或右半子陣.選擇上半子陣進(jìn)行二進(jìn)寬度分帶行投影,這種投影反映了詞匯發(fā)音全過(guò)程中語(yǔ)音基頻及其諧波關(guān)系的總體特性,同時(shí)還反映了語(yǔ)譜圖條紋邊緣梯度的整體特性.實(shí)驗(yàn)表明,不同詞匯其相應(yīng)的上述總體特性具有顯著性差異.
因?yàn)樯习胱雨嚨淖蟀氩糠趾陀野氩糠植⒉粚?duì)稱,所以分別對(duì)上半子陣的左半部分和右半部分進(jìn)行分帶投影.首先將圖像的中心設(shè)置為坐標(biāo)(0,0),然后對(duì)上半子陣的左半部分和右半部分分別二進(jìn)倍增分帶投影,行數(shù)分別設(shè)置為128~255行(帶寬128行)、64~127行(帶寬64行)、32~63行(帶寬32行)、16~31行(帶寬16行)、8~15行(帶寬8行)、4~7行(帶寬4行)、0~3行(帶寬4行),分為7對(duì)計(jì)14個(gè)帶的投影值,形成14行列向量,作為語(yǔ)音識(shí)別的特征向量.又由于每個(gè)詞匯重復(fù)10遍,因此可以構(gòu)造每個(gè)詞匯14行10列二進(jìn)寬度分帶投影矩陣.最后,通過(guò)對(duì)10個(gè)詞匯之間對(duì)應(yīng)帶投影值U檢驗(yàn),發(fā)現(xiàn)采用上半子陣的左右部分二進(jìn)寬度分帶投影作為特征量對(duì)特定人二字詞匯的識(shí)別有顯著性差異,可以作為特征數(shù)據(jù)集合.由于每個(gè)人詞匯重復(fù)10遍,每遍有14個(gè)特征值構(gòu)成的向量,共得到140個(gè)U檢驗(yàn)結(jié)果,給出樣本右側(cè)第一帶投影值間的U檢驗(yàn)結(jié)果,如表1所示.
表1 樣本右側(cè)第一帶投影值間的U值檢驗(yàn)結(jié)果
為了清楚地觀察到數(shù)據(jù)之間的識(shí)別差異,故在此規(guī)定當(dāng)U≥1.96時(shí),設(shè)定值為1,說(shuō)明可以作為識(shí)別詞匯的特征量,當(dāng)U<1.96時(shí),設(shè)定值為0,說(shuō)明不能作為識(shí)別詞匯的特征量,如表2所示.
表2 可作為識(shí)別詞匯特征量的結(jié)果
表2中數(shù)據(jù)表明,樣本右側(cè)第一帶投影值能夠作為識(shí)別詞匯特征量的比例為93.33%.由于篇幅所限,其他結(jié)果不再詳述.
3.1 系統(tǒng)設(shè)置
本次語(yǔ)音樣本采用10人對(duì)10個(gè)二字詞匯進(jìn)行錄制而成,采樣頻率為44.1 kHz,單聲道,16 B進(jìn)行量化,其中每個(gè)詞匯10段重復(fù)錄音,一共是1 000個(gè)語(yǔ)音數(shù)據(jù)樣本,為了采樣數(shù)據(jù)更加準(zhǔn)確,將每人的10個(gè)二字詞匯的每前5遍作為訓(xùn)練集,后5遍作為測(cè)試集,即前500個(gè)語(yǔ)音數(shù)據(jù)作為訓(xùn)練集,后500個(gè)語(yǔ)音數(shù)據(jù)作為測(cè)試集.在訓(xùn)練階段,為了后面的數(shù)據(jù)處理的方便和保證程序運(yùn)行時(shí)收斂加快,防止出現(xiàn)奇異樣本數(shù)據(jù)(指的是相對(duì)于其他輸入樣本特別大或特別小的樣本矢量)而進(jìn)行了歸一化處理.首先對(duì)特定人的各個(gè)特征量的語(yǔ)音樣本進(jìn)行歸一化的預(yù)處理,使所有數(shù)據(jù)得到相應(yīng)統(tǒng)一,然后將前500個(gè)語(yǔ)音訓(xùn)練樣本特征數(shù)據(jù)存入數(shù)據(jù)庫(kù),作為支持向量機(jī)的訓(xùn)練模板,對(duì)其進(jìn)行訓(xùn)練.在檢測(cè)階段,將后500個(gè)語(yǔ)音樣本中提取出的特征數(shù)據(jù)放入到訓(xùn)練好的網(wǎng)絡(luò)中,對(duì)相應(yīng)的特定人的二字詞匯進(jìn)行語(yǔ)音檢測(cè).
3.2 仿真結(jié)果
對(duì)語(yǔ)譜圖矩陣進(jìn)行二進(jìn)寬度行投影之后,構(gòu)造每個(gè)詞匯5行10列矩陣.同時(shí)對(duì)語(yǔ)譜圖矩陣進(jìn)行二次傅里葉變換之后,分別構(gòu)造每個(gè)詞匯的上半子陣的左半部分和右半部分各7行10列二進(jìn)寬度分帶投影矩陣.將上半子陣的左半部分小矩陣和上半子陣的右半部分小矩陣合在一起形成一個(gè)14行10列的大矩陣.1人的10個(gè)詞匯10遍得到10組數(shù)據(jù),10人即可得到100組數(shù)據(jù),分別相應(yīng)地將每人的10個(gè)詞匯前5遍作為訓(xùn)練樣本數(shù)據(jù),后5遍作為檢測(cè)樣本數(shù)據(jù).
支持向量機(jī)的參數(shù):采用LIBSVM支持向量機(jī)的一個(gè)軟件包實(shí)現(xiàn)10人的10個(gè)詞匯的語(yǔ)音識(shí)別,由于基于語(yǔ)譜圖特定人二字詞匯漢語(yǔ)識(shí)別特征向量的維數(shù)是5維,因此輸入維度是5維,中間層內(nèi)積核函數(shù)維度是5維,同時(shí)由于基于語(yǔ)譜圖二次傅里葉變換特定人二字詞匯漢語(yǔ)識(shí)別特征向量的維數(shù)是14維,因此輸入維度是14維,中間層內(nèi)積核函數(shù)維度是14維.本文是對(duì)10人的10個(gè)詞匯的語(yǔ)音進(jìn)行識(shí)別,采用基數(shù)詞第1到第10的編碼方式,即1維10進(jìn)制輸出.
將基于語(yǔ)譜圖與基于語(yǔ)譜圖二次傅里葉變換得到的特征量用于特定人二字漢語(yǔ)識(shí)別的結(jié)果進(jìn)行對(duì)比,如表3所示.通過(guò)前50組數(shù)據(jù)對(duì)支持向量機(jī)進(jìn)行反復(fù)訓(xùn)練,得到最佳適用模板,將后50組數(shù)據(jù)放入訓(xùn)練好的模板中,使用基于語(yǔ)譜圖對(duì)特定人的二字漢語(yǔ)詞匯的語(yǔ)音識(shí)別正確率達(dá)到85.2%.,而基于語(yǔ)譜圖二次傅里葉變換對(duì)特定人的二字漢語(yǔ)的語(yǔ)音識(shí)別正確率達(dá)到92.4%.
表3 用于特定人二字漢語(yǔ)詞匯識(shí)別的特征量仿真結(jié)果對(duì)比 %
本文提出了基于語(yǔ)譜圖二次傅里葉變換對(duì)特定人二字詞匯識(shí)別的方法.對(duì)語(yǔ)譜圖頻域圖像進(jìn)行行二進(jìn)寬度分帶投影,將投影值作為語(yǔ)音識(shí)別特征值,以支持向量機(jī)為分類器,進(jìn)行特定人二字詞匯語(yǔ)音識(shí)別.實(shí)驗(yàn)結(jié)果表明,該方法正確識(shí)別率可達(dá)92.4%.這是因?yàn)檎Z(yǔ)譜圖頻域圖像的各行反映的恰是語(yǔ)音整體基頻與各次諧波的關(guān)系,同時(shí)高頻成分還反映了語(yǔ)譜圖橫向條紋邊緣梯度性質(zhì),這一性質(zhì)是語(yǔ)音頻率特征的精細(xì)結(jié)構(gòu),也許正是這些精細(xì)結(jié)構(gòu),可以更加精確識(shí)別特定人不同的語(yǔ)音.當(dāng)然,這一結(jié)論有待于進(jìn)一步研究確認(rèn).總之,本文方法為漢語(yǔ)詞匯整體識(shí)別提供了新的思路.
由于本文僅以窄帶語(yǔ)譜圖作為研究對(duì)象,語(yǔ)音的時(shí)間特征沒(méi)有得到深入體現(xiàn),所以,后續(xù)工作將考慮引入寬帶語(yǔ)譜圖,并細(xì)化研究語(yǔ)譜圖構(gòu)造時(shí)參數(shù)選擇以及語(yǔ)譜圖頻域圖像特征量提取方式等因素對(duì)語(yǔ)音識(shí)別的影響,以便尋求最優(yōu)方案,進(jìn)一步提高語(yǔ)音識(shí)別效果.
[1] ZUE VICTOR W,LAMEL LORI F.Expert spectrogram a knowledge-based approach to speech recognition[C]//IEEE-IECEJ-ASJ International Conference on Acoustics,Speech,and Signal Processing,Jpn:IEEE,1986:1197-1200.
[2] KLATT D H,STEVENS K N.On the automatic recognition of continuous speech implications from a spectrogram-reading experiment[J].IEEE Transactions on Audio and Electroacoustics,1973,21(3):210-217.
[3] PALAKAL,MATHEW J,ZORAN,et al.Feature extraction from speech spectrograms using multi-layered network models[C]//IEEE International Workshop on Tools for Artificial Intelligence:Architectures,Languages and Algorithms,USA:IEEE Piscataway NJ,1989:1197-1200.
[4] BEN PINKOWSKI.Principal component analysis of speech spectrogram images[J].Pattern Recognition,1997,30(5):777-787.
[5] BRIAN E D KINGSBURY,NELSON MORGAN,STEVEN GREENBERG.Robust speech recognition using the modulation spectrogram[J].Speech Communication,1998,25(1/2/3):117-132.
[6] PAWAN K AJMERA,DATTATRAY V JADHAV,RAGHUNATH S HOLAMBE.Text-independent speaker identification using Radon and discrete cosine transforms based features from speech spectrogram[J].Pattern Recognition,2011,44(10/11):2749-2759.
[7] TAI-SHIH CHI,CHUNG CHIEN HAU.Multiband analysis and synthesis of spectro-temporal modulations of fourier spectrogram[J].The Journal of the Acoustical Society of America,2011,129(5):190-196.
[8] GURBUZ SABRI,GOWDYJOHN N,TUFEKCI ZEKERIYA.Speech spectrogram based model adaptation for speaker identification[C]//IEEE Southeastcon,United:IEEE Piscataway NJ,2000:110-115.
[9] 潘凌云,孫達(dá)傳,吳美朝.語(yǔ)音識(shí)別中基于語(yǔ)譜圖的語(yǔ)音音素分割方法[J].杭州大學(xué)學(xué)報(bào)(自然科學(xué)版),1995,22(1):42-46.
[10] 馬義德,袁敏,齊春亮,等.基于PCNN的語(yǔ)譜圖特征提取在說(shuō)話人識(shí)別中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2005(20):81-84.
[11] 陳向民,張軍,韋崗.基于語(yǔ)譜圖的語(yǔ)音端點(diǎn)檢測(cè)算法[J].電聲技術(shù),2006(4):46-49.
[12] 姜洪臣,任曉磊,趙耀宏,等.基于音頻語(yǔ)譜圖像識(shí)別的廣告檢索[J].清華大學(xué)學(xué)報(bào)(自然科學(xué)版),2011,51(9):1249-1252.
[13] 吳迪,趙鶴鳴,陶智,等.低信噪比下采用感知語(yǔ)譜結(jié)構(gòu)邊界參數(shù)的語(yǔ)音端點(diǎn)檢測(cè)算法[J].聲學(xué)學(xué)報(bào),2014,39(3):392-399.
[14] XU SHEN,LIANG SHI LI,WANG SHUANG WEI,et al.A mathematical morophological processing of spectrograms for the tone of chinese vowels recognition[C]//Applied Mechanics and Materials,Shanghai:Trans Tech,2014:665-671.
[15] 趙力.語(yǔ)音信號(hào)處理 [M].北京:機(jī)械工業(yè)出版社,2009:128-129.
[16] 張家騄.漢語(yǔ)人機(jī)語(yǔ)音通信基礎(chǔ)[M].上海:上??萍汲霭嫔?,2010:328-331.
[17] 蔡蓮紅,黃德智,蔡銳.現(xiàn)代語(yǔ)音技術(shù)基礎(chǔ)與應(yīng)用[M].北京:清華大學(xué)出版社,2003:24-25.
(責(zé)任編輯:石紹慶)
Recognition of specific two-word Chinese vocabulary by applying Fourier transform twice to the spectrogram
PAN Di1,LIANG Shi-li1,WEI Ying1,LI Guang-yan,XU Ting-fa2,WANG Shuang-wei1
(1.School of Physics,Northeast Normal University,Changchun 130024,China;2.Institute of Photoelectric Imaging and Information Engineering,Beijing Institute of Technology,Beijing 100081,China)
This paper illustrates a method to recognize specific two-word Chinese vocabulary by analyzing speech signals using a spectrogram after Fourier transform is applied to it twice.First,we analyze the spectrogram in the frequency domain and its corresponding voice characteristics in detail after applying Fourier transform twice.Then,binary width zoning projection is carried out in the frequency domain.The projection value is treated as the characteristic value of semantic recognition feature and the support vector machine(SVM)is considered as the classifier for recognizing the semantics of specific two-word Chinese vocabulary.A total of 1000 voice samples were used in the simulation.The results using this method show a remarkable recognition rate of 92.4%.The proposed method provides a new way for vocabulary recognition.
spectrogram;fourier transform twice;support vector machine(SVM);binary width zoning projection
1000-1832(2017)02-0095-06
10.16163/j.cnki.22-1123/n.2017.02.018
2016-06-14
國(guó)家自然科學(xué)基金資助項(xiàng)目(61471111).
潘迪(1991—),女,碩士研究生;通訊作者:王雙維(1957—),男,教授,主要從事噪聲、聲音與振動(dòng)信號(hào)處理研究.
TN 7 [學(xué)科代碼] 510·40
A