郭霏霏
(泉州職業(yè)技術(shù)大學(xué)智能制造學(xué)院,福建泉州362000)
計(jì)算機(jī)和人工智能的迅速發(fā)展為實(shí)現(xiàn)語(yǔ)音身份識(shí)別提供了可能。當(dāng)下的智能設(shè)備能夠迅速捕捉并提取語(yǔ)音信息,將對(duì)應(yīng)的身份信息以代碼的形式輸入計(jì)算機(jī),使計(jì)算機(jī)能夠依照人類的思維方式,對(duì)捕捉到的語(yǔ)音進(jìn)行計(jì)算和分析[1-2]。如出現(xiàn)不同的語(yǔ)音控制指令時(shí),通過(guò)計(jì)算機(jī)的對(duì)比、思考及推斷,可以劃分、辨認(rèn)出指令人的身份,再判斷是否執(zhí)行指令[3]。物聯(lián)網(wǎng)終端語(yǔ)音身份識(shí)別技術(shù)的實(shí)現(xiàn)是多個(gè)領(lǐng)域共同努力研究的成果,其中包括計(jì)算機(jī)科學(xué)、聲學(xué)等多個(gè)領(lǐng)域[4-5]。計(jì)算機(jī)等硬件設(shè)備的發(fā)展,對(duì)人們的生活產(chǎn)生潛移默化的影響,越來(lái)越多的智能工具進(jìn)入大家的工作生活中,并成為生活中不可或缺的一部分。語(yǔ)音身份識(shí)別技術(shù)作為一種具有先進(jìn)性、創(chuàng)新性的技術(shù),在多模式人機(jī)交互等方面具有廣闊的發(fā)展前景[6]。為此,有學(xué)者提出相關(guān)的研究成果。余玲飛等[7]提出一種基于卷積神經(jīng)網(wǎng)絡(luò)和深度循環(huán)網(wǎng)絡(luò)的聲紋識(shí)別方法,但該方法存在訓(xùn)練和識(shí)別時(shí)間較長(zhǎng)等問(wèn)題。隱馬爾可夫模型是一種統(tǒng)計(jì)模型,用來(lái)描述一個(gè)含有隱含未知參數(shù)的馬爾可夫過(guò)程。隱馬爾可夫模型存在從可觀察的參數(shù)中確定隱含參數(shù),然后利用這些參數(shù)進(jìn)行下一步分析的復(fù)雜性,但對(duì)過(guò)程的狀態(tài)預(yù)測(cè)效果良好,能以較快的速度計(jì)算出具有維修能力和多重降級(jí)狀態(tài)的系統(tǒng)概率,實(shí)現(xiàn)物聯(lián)網(wǎng)終端語(yǔ)音身份動(dòng)態(tài)識(shí)別,從而解決以往方法存在識(shí)別時(shí)間較長(zhǎng)的問(wèn)題。目前,隱馬爾可夫模型已應(yīng)用于生物信息科學(xué)、故障診斷以及計(jì)算機(jī)文字識(shí)別等眾多領(lǐng)域?;诖?,提出了一種基于隱馬爾可夫模型的物聯(lián)網(wǎng)終端語(yǔ)音身份動(dòng)態(tài)識(shí)別方法,構(gòu)建隱馬爾可夫模型進(jìn)行語(yǔ)音采集,并對(duì)身份特征信號(hào)數(shù)據(jù)進(jìn)行分類識(shí)別,最終完成物聯(lián)網(wǎng)終端語(yǔ)音身份的動(dòng)態(tài)識(shí)別。
隱馬爾可夫模型具有對(duì)語(yǔ)音的文本、紋理建模的功能,能準(zhǔn)確高效地定位語(yǔ)音特征點(diǎn),已被廣泛應(yīng)用于語(yǔ)音身份特征點(diǎn)定位。運(yùn)用隱馬爾可夫模型時(shí),紋理需要通過(guò)仿射變換的形式映射到對(duì)應(yīng)的文本實(shí)例中,得到當(dāng)前對(duì)象的描述模型,從而實(shí)現(xiàn)表觀建模。
設(shè)Ps為一個(gè)物聯(lián)網(wǎng)終端語(yǔ)音序列,Pt為物聯(lián)網(wǎng)終端端點(diǎn)語(yǔ)音序列,θ為混合均值,Ps+i為s點(diǎn)到端點(diǎn)i的物聯(lián)網(wǎng)終端語(yǔ)音序列的差值,若特征均值E(Ps)=θ,語(yǔ)音方差V(Ps)=E(Ps-θ)2=τ2,且V(Ps,Pt)僅是特征差|t-s|的函數(shù),則稱物聯(lián)網(wǎng)終端語(yǔ)音序列是一個(gè)穩(wěn)定過(guò)程。
穩(wěn)定過(guò)程Ps與Ps+i之間的方差為
作為i的函數(shù),隱馬爾可夫只與文本特征i有關(guān),與文本序列e沒(méi)有關(guān)系。i點(diǎn)的物聯(lián)網(wǎng)終端語(yǔ)音序列為
式中:Zs+i為s到i點(diǎn)的標(biāo)準(zhǔn)化功率譜曲線。
對(duì)于給定的物聯(lián)網(wǎng)終端語(yǔ)音序列P1,P2,…,Pn,-e為文本序列e的平均值,si+t為i點(diǎn)到端點(diǎn)t的文本序列,物聯(lián)網(wǎng)終端語(yǔ)音序列的隱馬爾可夫模型為
從空間域來(lái)看,需要利用功率譜空間頻率對(duì)終端語(yǔ)音身份進(jìn)行驗(yàn)證。由于識(shí)別的語(yǔ)音均存在相似的功率譜分布特征,因此可得到語(yǔ)音紋理空間頻率的標(biāo)準(zhǔn)化功率譜曲線如下:
式中:j為語(yǔ)音紋理空間頻率;m為語(yǔ)音紋理指數(shù),且m∈(0,1)。
m值與功率譜曲線衰減速度呈正相關(guān)關(guān)系,且兩者越大,紋理越模糊;相反,m值越小,功率譜曲線衰減越慢,識(shí)別語(yǔ)音的高頻分量越多,紋理越清楚。
由于語(yǔ)音的紋理自相關(guān)函數(shù)和功率譜是傅里葉變換對(duì),因此可得到語(yǔ)音紋理的隱馬爾可夫模型為
式中:f為傅里葉變換的功率信號(hào);τ為語(yǔ)音紋理功率譜指數(shù)。
結(jié)合文本模型及紋理模型,完成隱馬爾可夫特征的構(gòu)建。對(duì)訓(xùn)練語(yǔ)音自動(dòng)標(biāo)記N個(gè)特征點(diǎn),并將這些點(diǎn)的位置構(gòu)成集合N={(x1,y1),(x2,y2),…,(xn,yn)}。
對(duì)訓(xùn)練語(yǔ)音對(duì)應(yīng)的標(biāo)記點(diǎn)進(jìn)行歸一化處理,以某個(gè)標(biāo)記點(diǎn)為基準(zhǔn),對(duì)其他標(biāo)記點(diǎn)進(jìn)行歸一化處理,使得其盡可能地接近基準(zhǔn)標(biāo)記點(diǎn)的整體位置。采用主成分分析法處理數(shù)據(jù),得到平均數(shù)據(jù)特征-A以及按特征值大小排序后的n個(gè)特征向量,隱馬爾可夫模型中標(biāo)記點(diǎn)特征方程為
式中:t0為初始給定的語(yǔ)音參數(shù);Qi為語(yǔ)音特征量。
在初始給定一組語(yǔ)音參數(shù)后,得到語(yǔ)音中心標(biāo)記點(diǎn),再根據(jù)訓(xùn)練語(yǔ)音的標(biāo)記點(diǎn),得到平均數(shù)據(jù)特征和標(biāo)記點(diǎn)特征向量,完成隱馬爾可夫特征模型的建模。
物聯(lián)網(wǎng)終端語(yǔ)音身份動(dòng)態(tài)識(shí)別是輸入一組或多組語(yǔ)音身份識(shí)別的數(shù)據(jù)后[8-9],對(duì)采集數(shù)據(jù)進(jìn)行預(yù)處理、特征提取以及識(shí)別分類,最終完成語(yǔ)音身份識(shí)別的過(guò)程[10]。
在隱馬爾可夫特征模型的基礎(chǔ)上,構(gòu)建由語(yǔ)音變化參考模塊和1臺(tái)計(jì)算機(jī)組成的語(yǔ)音捕捉平臺(tái),其能夠?qū)φZ(yǔ)音進(jìn)行文本和特征捕捉。當(dāng)平臺(tái)開(kāi)始工作時(shí),語(yǔ)音變化參考模塊通過(guò)無(wú)線網(wǎng)絡(luò)以30 Hz的頻率上傳語(yǔ)音變化的數(shù)據(jù),通過(guò)計(jì)算機(jī)接收數(shù)據(jù),并采用地址查詢方式接收語(yǔ)音變化參考模塊發(fā)送的數(shù)據(jù)[11-12]。為減小體積和電磁波干擾,需要增強(qiáng)平臺(tái)獨(dú)立性,采用隱馬爾可夫特征模型,對(duì)數(shù)據(jù)進(jìn)行實(shí)時(shí)采集,經(jīng)去噪處理進(jìn)行數(shù)據(jù)融合,實(shí)時(shí)捕捉語(yǔ)音特征,再通過(guò)無(wú)線網(wǎng)絡(luò)模塊將數(shù)據(jù)發(fā)送到上位機(jī),由上位機(jī)中的程序?qū)?shù)據(jù)進(jìn)行處理,最終轉(zhuǎn)變?yōu)樾盘?hào)形式。
語(yǔ)音質(zhì)量受很多因素的影響,例如,當(dāng)語(yǔ)音采集設(shè)備的質(zhì)量不達(dá)標(biāo)時(shí),采集到的語(yǔ)音會(huì)產(chǎn)生噪聲,影響語(yǔ)音質(zhì)量及語(yǔ)音身份識(shí)別率[13]。為解決此類問(wèn)題,需采取必要的預(yù)處理操作以消除噪聲,使特征表達(dá)更有效,為后面的分類打好基礎(chǔ)。需要說(shuō)明的是,人的語(yǔ)言表達(dá)為不連續(xù)性,包含語(yǔ)音片段與空白語(yǔ)音片段,而不含語(yǔ)音的片段對(duì)語(yǔ)音身份識(shí)別的影響較小,因此實(shí)驗(yàn)中去除了空白語(yǔ)音片段[14-15]。
本文采用隱馬爾可夫特征模型可對(duì)每個(gè)語(yǔ)音進(jìn)行數(shù)據(jù)樣本采集。選取目標(biāo)語(yǔ)音數(shù)據(jù)作為原始信號(hào),由于該信號(hào)存在噪聲,因此需要提高語(yǔ)音身份識(shí)別效果。為此,在提取原始信號(hào)特征前,對(duì)其進(jìn)行預(yù)處理,選取隱馬爾可夫特征模型對(duì)原始信號(hào)進(jìn)行濾波處理,利用加窗方法分割原始信號(hào),此時(shí)單個(gè)信號(hào)包含了1 024個(gè)樣本。設(shè)信號(hào)采樣頻率為100 Hz,經(jīng)過(guò)加窗處理后的信號(hào)時(shí)間跨度為10.24 s,以完成單個(gè)行為動(dòng)作。若矩形窗過(guò)短,則不能包含足夠用于識(shí)別不同語(yǔ)音的識(shí)別信息;反之,隱馬爾可夫特征模型濾波處理則會(huì)出現(xiàn)延遲的現(xiàn)象。
利用加窗方法對(duì)處理后的語(yǔ)音身份信號(hào)進(jìn)行身份特征提取,即
式中:Y為樣本數(shù);Ai為i點(diǎn)的樣本值。
根據(jù)X軸偏度進(jìn)行語(yǔ)音身份識(shí)別,有
相關(guān)系數(shù)可對(duì)變量之間線性相關(guān)程度指標(biāo)進(jìn)行衡量,變量A、B的相關(guān)系數(shù)為
式中:Bi為i點(diǎn)的的相關(guān)系數(shù)為相關(guān)系數(shù)的平均值。
根據(jù)提取的語(yǔ)音身份特征,對(duì)其數(shù)據(jù)進(jìn)行采集與處理,具體設(shè)計(jì)流程如下:
(1)根據(jù)傳感器特性對(duì)獲取的語(yǔ)音身份特征信號(hào)進(jìn)行信號(hào)空間初始化處理,使其賦予四階單位矩陣;
(2)語(yǔ)音傳感器遵循離散數(shù)據(jù)采集,形成四維矢量數(shù)據(jù),可將該數(shù)據(jù)全部輸出;
(3)利用隱馬爾可夫特征模型可處理數(shù)據(jù)空間矢量值,并獲取優(yōu)化估計(jì)結(jié)果;
(4)依據(jù)傳感器數(shù)據(jù)信噪比以及噪聲方差矩陣,對(duì)數(shù)據(jù)進(jìn)行修正處理;
(5)依據(jù)各個(gè)傳感器信任級(jí)別進(jìn)行語(yǔ)音身份識(shí)別。
初始化處理語(yǔ)音傳感器,采集語(yǔ)音信號(hào)的全部數(shù)據(jù);對(duì)身份信息進(jìn)行初始化處理,獲取身份數(shù)據(jù)。將這兩部分?jǐn)?shù)據(jù)全部集中到四維狀態(tài)數(shù)據(jù)空間,并對(duì)其進(jìn)行濾波處理,獲取最優(yōu)特征數(shù)據(jù),經(jīng)自適應(yīng)修正,在信任級(jí)別條件下動(dòng)態(tài)識(shí)別物聯(lián)網(wǎng)終端語(yǔ)音的身份。
選擇20人,在同一環(huán)境下采集每個(gè)人的20組控制命令語(yǔ)音,每段語(yǔ)音3~5 s,組成包含400段語(yǔ)音的測(cè)試數(shù)據(jù)集。設(shè)置語(yǔ)音信號(hào)采樣率為16 kHz,16位單聲道,采集幀長(zhǎng)為60,在Matlab仿真平臺(tái)上進(jìn)行模擬實(shí)驗(yàn),得到語(yǔ)音信號(hào)波形如圖1所示。
圖1 語(yǔ)音信號(hào)波形圖
實(shí)驗(yàn)中選取識(shí)別率及識(shí)別所需時(shí)間兩個(gè)指標(biāo),對(duì)本文方法和文獻(xiàn)方法進(jìn)行對(duì)比。將選用的樣本分為3種:噪聲環(huán)境、慢語(yǔ)速和快語(yǔ)速。表1為兩種方法在不同條件下的識(shí)別率及識(shí)別所用時(shí)間的對(duì)比。
表1 不同條件下的識(shí)別率與識(shí)別時(shí)間
由表1可知,在慢語(yǔ)速下兩種方法的識(shí)別率都達(dá)到了100%,證明了兩種方法的語(yǔ)音身份識(shí)別的有效性;但對(duì)于快語(yǔ)速下的識(shí)別率受到較大的影響,而本文方法的識(shí)別率下降較小。這是由于本文方法在語(yǔ)音身份識(shí)別時(shí)考慮到了語(yǔ)音身份的類內(nèi)差別和類間差別,且使用了語(yǔ)音特征空間;而文獻(xiàn)方法只考慮了不同語(yǔ)音身份之間的差別,所以導(dǎo)致識(shí)別率下降較大。在噪聲環(huán)境下的識(shí)別率,兩種方法都有所下降,但本文方法的識(shí)別率明顯高于文獻(xiàn)方法,表明本文方法的去噪性能較好。
隨著識(shí)別條件的增加,兩種方法的識(shí)別所用時(shí)間都隨之增加。但相較于文獻(xiàn)方法,本文方法在3種不同條件下識(shí)別所用的時(shí)間都要少于文獻(xiàn)方法。這是因?yàn)楸疚姆椒ㄊ褂玫碾[馬爾可夫模型能以較快的速度計(jì)算出具有維修能力和多重降級(jí)狀態(tài)的系統(tǒng)概率,從而實(shí)現(xiàn)物聯(lián)網(wǎng)終端語(yǔ)音身份動(dòng)態(tài)識(shí)別;文獻(xiàn)方法則因?yàn)閷⒕矸e神經(jīng)網(wǎng)絡(luò)與循環(huán)神經(jīng)網(wǎng)絡(luò)相結(jié)合,雖然可以提升識(shí)別率,但兩種方法疊加使用,增加了識(shí)別時(shí)間。
根據(jù)上述3種不同條件的語(yǔ)音身份識(shí)別,對(duì)兩種方法的穩(wěn)定性進(jìn)行對(duì)比。分別從每種條件數(shù)據(jù)中選取100組數(shù)據(jù)進(jìn)行識(shí)別穩(wěn)定性實(shí)驗(yàn),并將文獻(xiàn)[7]中的識(shí)別方法與本文方法進(jìn)行對(duì)比分析,結(jié)果如圖2所示。
由圖2(a)可知,兩種方法識(shí)別慢語(yǔ)速語(yǔ)音時(shí),均接近于標(biāo)準(zhǔn)值,穩(wěn)定性相差不大。但隨著識(shí)別條件的增加,由圖2(b)、(c)可知,相較于文獻(xiàn)方法,本文方法更加趨近于標(biāo)準(zhǔn)值,說(shuō)明本文方法的識(shí)別穩(wěn)定性更好。
圖2 不同條件下的語(yǔ)音身份識(shí)別穩(wěn)定性
本文提出了一種基于隱馬爾可夫模型的物聯(lián)網(wǎng)終端語(yǔ)音身份動(dòng)態(tài)識(shí)別方法,通過(guò)隱馬爾可夫特征建模,在此基礎(chǔ)上構(gòu)建語(yǔ)音捕捉平臺(tái);構(gòu)建隱馬爾可夫模型進(jìn)行語(yǔ)音采集,并對(duì)身份特征信號(hào)數(shù)據(jù)進(jìn)行分類識(shí)別,最終完成物聯(lián)網(wǎng)終端語(yǔ)音身份的動(dòng)態(tài)識(shí)別。實(shí)驗(yàn)結(jié)果表明,本文方法識(shí)別精準(zhǔn)度較高,識(shí)別用時(shí)較短,且穩(wěn)定性較好,以期為語(yǔ)音身份的精準(zhǔn)識(shí)別提供一定技術(shù)支持。
上海電機(jī)學(xué)院學(xué)報(bào)2021年6期