景亞鵬,蘇海濤,2,王 紹,桂文華,郭 慶,2,王明杰
(1.桂林電子科技大學電子工程與自動化學院,廣西桂林 541004;2.廣西自動檢測技術與儀器重點實驗室,廣西桂林 541004)
隨著汽車行業(yè)的快速發(fā)展,駕駛員對汽車駕駛體驗的要求越來越高。這不但對汽車駕駛中語音交互系統(tǒng)的要求越來越高,而且對車內聲品質的要求也越來越高。在理想的狀態(tài)下,車上的電子設備能夠利用語音交互系統(tǒng)準確地接收、識別駕駛員語音命令,并根據(jù)其命令執(zhí)行相應操作。但在實際的駕駛環(huán)境中,語音交互系統(tǒng)的語音識別率不可避免地會受到外部環(huán)境噪聲的影響,例如車內發(fā)動機噪聲、路面噪聲、輪胎噪聲,或者通訊系統(tǒng)的內部噪聲。對駕駛員語音進行增強可以有效地提高駕駛員對車載語音控制系統(tǒng)的使用體驗,因此選擇合理的語音增強算法性能評價標準顯得尤為重要。對汽車內駕駛員語音增強算法性能的評價主要分為主觀評價和客觀評價兩種方式[1]。主觀評價方式是利用人工試聽對語音質量作出評價,其結果準確,但是費時費力難以實現(xiàn);客觀評價方式是利用客觀參數(shù)對語音性能進行評價,可以量化地評價算法性能,不會受到主觀不穩(wěn)定因素的影響,所以在很多研究中使用客觀評價指標進行語音增強算法性能評價。文獻[2-3]利用信噪比(Signal to Noise Ratio,SNR)、信號干擾比(Signal to Interference Ratio,SIR)、信號失真比(Signal to distortion Ratio,SDR)作為語音增強算法性能的客觀評價指標,這些評價參數(shù)是從信號時域分析的角度來評價算法的性能。文獻[4-6]利用了對數(shù)譜距離(Log Spectral distance,LSD)、對數(shù)似然比(Log Likelihood Ratio,LLR)、對數(shù)譜失真度(Log-Spectral distortion,LSD)去客觀地評價語音增強算法性能,這些參數(shù)是從信號的頻域角度來分析算法的性能。文獻[7-8]利用了語音質量感知評估(Perceptual Evaluation of Speech Quality,PESQ[9])對語音質量進行評價。PESQ是國際電信聯(lián)盟標準化部門(ITU-T)在P.862標準中提出,適用于通訊系統(tǒng)語音質量的評估??梢钥闯?,現(xiàn)有的語音增強客觀評價參數(shù)是從信號處理的角度去評價語音增強算法性能,不能有效地反映人對聲音感知的主觀性,與主觀評價結果有一定的誤差。因此本文從心理聲學參數(shù)的角度出發(fā),研究了言語可懂度指數(shù)對汽車內駕駛員語音增強算法性能評價的適用性。
采用均勻線性傳聲器陣列對駕駛員的語音信號進行采集,利用延時求和波束形成[10]算法,對語音信號進行處理實現(xiàn)駕駛員的語音增強,選擇信噪比和言語可懂度指數(shù)對語音增強算法性能進行評價。通過兩個參數(shù)對不同速度和不同陣列組合方式下語音增強算法性能的評價,找到汽車內駕駛員語音增強算法性能評價的最佳參數(shù),為基于傳聲器陣列的汽車內駕駛員語音增強算法性能評價提供有力的參考。
圖1 傳聲器陣列模型Fig.1 Microphone array model
均勻線性陣列可以應用于多種場合,其結構簡單且規(guī)律性極強[14]。本文采用均勻線陣的方式來采集聲音,在近場模型中,聲音信號以球面波的形式到達傳聲器陣列,陣列中不同傳聲器的到達時間差不同。假設聲源信號到達第一個傳聲器的角度為θ,距離為d1,則圖1中以第一個傳聲器為參考,可以得到聲源和其他傳聲器的距離為
以第一個傳聲器為參考,可以得出均勻線性陣列的近場導向矢量a為[14]
傳聲器陣列波束形成分為固定波束形成和自適應波束形成。固定波束形成就是指其波束形成器的權系數(shù)是一個固定不變的值[15],又稱延時求和波束形成算法。其工作原理主要分為兩個部分:首先對采集的傳聲器陣列信號的到達時間差進行估計,然后對各通道的時間差進行補償并求和。盡可能獲得聲源方向的目標信號,抑制其他方向的干擾信號,實現(xiàn)目標信號的語音增強,固定波束形成器的結構如圖2所示。
圖2 固定波束形成器示意圖Fig.2 Schematic diagram of fixed beamformer
假設固定波束形成器的每個通道只引入時延和衰減,則在k時刻第n個傳聲器的輸出為
本文研究語音增強算法性能的評價,不對語音增強算法進行改進,所以本文利用經(jīng)典的延時求和波束形成算法實現(xiàn)語音增強,利用語音清晰度和信噪比對延時求和波束形成算法的性能進行評價。延時求和波束形成算法的計算過程分為兩步:
(2)對各個通道時延之后的信號進行等權重相加求和,最終延時波束形成器的輸出為
隨著心理聲學的發(fā)展,出現(xiàn)了許多客觀評價參量來反映語音清晰度。語音清晰度是指收聽人所聽到的聲音總量中目標語音所占的比例,可以有效地反映語音的質量。反映語音清晰度的客觀參數(shù)主要有語音清晰度(Articulation Index,AI)、言語可懂度指數(shù)(Speech Intelligibility Index,SII)、語音傳遞指數(shù)(Speech Transmission Index,STI)[17]等。SII的計算條件較容易滿足,所以得到了廣泛的應用。
SII的計算需要大量的參數(shù),例如:等效語音頻譜級、等效噪聲頻譜級、等效聽力閾值[18]等,在SII的計算標準中 ANSI -S3.5—1997[19]已經(jīng)給出了上述參數(shù)的數(shù)值。因為上述參數(shù)和人對聲音感知的心理和生理息息相關,所以這些參數(shù)是通過仿生測試人對聲音感知試驗得出的,這種測試方式保證了SII可以有效地反映人對聲音感知的主觀性。SII的計算過程為:
(1)在SII計算標準提供的4種計算方式中選擇1種。4種計算方式的原理基本相同,其區(qū)別在于頻帶的劃分方式不同,分別為臨界頻帶、三分之一倍頻程、相同貢獻頻帶、單倍頻帶。從結果上看4種計算方式的精度略有不同,本文選擇三分之一倍頻程計算方式。然后查表可以得到SII計算時所需參數(shù)對應的數(shù)值,例如:標準語音頻譜級、參考內部噪聲頻譜級,自由場耳膜傳輸函數(shù)等。
(2)確定等效語音頻譜級E′、等效噪聲頻譜級N′和聽力閾值頻譜級T′。
(3)等效掩蔽頻譜級Zi的求解。掩蔽包括帶內掩蔽、帶間掩蔽(掩蔽的擴展),以及一種語音對另一種語音的掩蔽(自語音掩蔽)。
③利用公式(8)計算每個頻帶的每倍頻程上掩蔽傳播的斜率Ci,計算公式為
其中:Fi為三分之一倍頻程頻帶的標稱中心頻率,Bi由上面第②步可求得。
④對于最低的頻帶,等效掩蔽譜級Zi等于Bi。對于其他頻帶利用式(9)得到等效掩蔽譜級Zi:
式(9)包含兩部分,分別表示相同頻帶內的帶內掩蔽和較低的i?1個頻帶對第i個頻帶的帶間掩蔽。
Ni′為等效噪聲頻譜級,Bk由步驟②中描述的方法計算得到,hk是頻帶k內的最高頻率。Fk是頻帶k的中心頻率。
(8)通過查表可以得到頻帶重要性函數(shù)Ii,各頻帶的頻帶重要性函數(shù)和頻帶可聽性函數(shù)相乘,然后再將各個頻帶所獲乘積求和得到言語可懂度指數(shù)的值。言語可懂度指數(shù)S計算公式為
從語音清晰度的計算過程可以看出,其計算過程符合人對聲音的感知過程,從而有效地保證了言語可懂度指數(shù)和人對聲音感知的一致性,為言語可懂度指數(shù)評價語音增強算法性能提供了保障。
本文利用某品牌汽車進行實驗,利用B&K公司的數(shù)據(jù)采集平臺采集語音信號。傳聲器采用的是4966-H-041,它是一款1/2 in(1 in=2.54 cm)高精度自由場傳聲器,帶1706型前置放大器,可測頻率范圍是6.3 Hz~20 kHz。數(shù)據(jù)采集卡利用兩塊LAN-XI 3052,它是一款三通道數(shù)據(jù)采集卡,輸入信號頻率范圍是0~102.4 kHz,支持多個模塊擴展使用,能夠實現(xiàn)多個通道的實時同步采集。最后將采集好的信號在PC端進行處理。
在實驗過程中,駕駛員將汽車分別控制在指定的速度下勻速運行,分別進行兩組實驗。第一組實驗是由駕駛員說一段固定語音“現(xiàn)在是北京時間2019年9月21日,請導航至解放橋”,且語音重復說三遍;第二組實驗是駕駛員不發(fā)聲,只錄制汽車在指定速度下的車內噪聲。
圖3 測試工況下汽車俯視示意圖Fig.3 Overlooking diagram of the vehicle under test conditions
圖4 現(xiàn)場測試圖Fig.4 Field test diagram
本文取權矢量等于導向矢量,成功補償了不同傳聲器采集信號的相位差,進而實現(xiàn)了各通道以語音信號為標準進行對齊,最后再將對齊后的各通道信號進行求和。最終駕駛員語音的增強結果為
本文在PC端利用Matlab軟件進行數(shù)據(jù)處理實現(xiàn)駕駛員的語音增強。并使用信噪比、言語可懂度指數(shù)對語音增強算法性能進行評價對比,得出更適合評價汽車內語音增強算法的評價指標。
本節(jié)討論在特定速度下,陣列上不同傳聲器所采集信號的差異。在特定速度下各個傳聲器采集信號的信噪比和言語可懂度指數(shù)如圖5所示。
圖5 不同速度下各傳聲器采集信號評價參數(shù)曲線Fig.5 Evaluation parameter curves of signal acquired by each microphone at different driving speeds
從圖5中可以看出,通道1到通道5的信噪比逐漸降低,其原因是1號傳聲器到5號傳聲器與聲源的距離在逐漸增大,造成了通道1到通道5的信噪比逐漸降低。同時1號和2號傳聲器的言語可懂度指數(shù)無明顯變化,之后言語可懂度指數(shù)隨著傳聲器標號的增加而逐漸降低。
本節(jié)討論2個傳聲器、3個傳聲器、4個傳聲器的不同組合方式對語音增強的影響。圖6所示為2個傳聲器下不同組合方式得到的語音增強結果的信噪比、言語可懂度指數(shù)曲線,其組合方式為(1&2)、(2&3)、(3&4)、(4&5)。
由圖6可知,當兩個傳聲器之間的距離為固定值20 cm時,采用2個傳聲器進行語音增強,組合(2&3)可以獲得最高的信噪比和言語可懂度指數(shù)。同時也發(fā)現(xiàn),言語可懂度指數(shù)曲線和信噪比曲線變化趨勢相似,信噪比相對于言語可懂度指數(shù)變化幅度較大。
圖6 不同速度下2個傳聲器不同組合的語音增強結果評價參數(shù)曲線Fig.6 Evaluation parameter curves of speech enhancement results of different combinations of 2 microphones at different driving speeds
當傳聲器組合為3個傳聲器時,因為陣列最多包含5個傳聲器,且相鄰兩個傳聲器的距離為固定值20 cm,所以對于3個傳聲器的組合方式只有3種形式(1&2&3)、(2&3&4)、(3&4&5)。信噪比和語音清晰度對三種組合方式語音增強結果評價如圖 7所示。
圖7 不同速度下3個傳聲器不同組合的語音增強結果評價參數(shù)曲線Fig.7 Evaluation parameter curves of speech enhancement results of different combinations of 3 microphones at different driving speeds
通過圖7對比發(fā)現(xiàn),信噪比和言語可懂度指數(shù)的曲線趨勢大體相同,隨著組合方式的改變數(shù)值均有所下降,組合(1&2&3)可以取得最佳的信噪比和言語可懂度指數(shù)。
對于4個傳聲器的組合方式,由于陣列中最多為5個傳聲器,故只討論組合(1&2&3&4)和(2&3&4&5)的語音增強結果。對應的評價參數(shù)曲線如圖8所示。
圖8 不同速度下4個傳聲器不同組合的語音增強結果評價參數(shù)曲線Fig.8 Evaluation parameter curves of speech enhancement results of different combinations of 4 microphones at different driving speeds
由圖8可知,4個傳聲器下最佳的語音增強組合方式為(1&2&3&4)。
經(jīng)過分析,對于每類特定傳聲器個數(shù)的陣列組合都選擇出了各類中相對最優(yōu)的組合方式,分別為:(2&3)、(1&2&3)、(1&2&3&4)、(1&2&3&4&5)。下面利用信噪比和語音清晰度對上面4種組合方式的語音增強結果進行評價,其評價結果如圖9所示。
圖9 相對最優(yōu)組合的語音增強結果評價參數(shù)曲線Fig.9 Evaluation parameter curves of speech enhancement results of the relative optimal combination
從圖9中可以發(fā)現(xiàn),信噪比隨著傳聲器個數(shù)的增加有大幅度的提高,但是言語可懂度指數(shù)不具備類似的規(guī)律,言語可懂度指數(shù)總體變化幅度較小,在組合(1&2&3)時取得最佳的語音清晰度。
通過某汽車內不同陣列組合方式下駕駛員語音增強的試驗,分析了信噪比和語音清晰度對不同車速下、不同陣列組合方式的駕駛員語音增強算法的評價,得到了適用于駕駛員語音增強算法性能的評價指標和最優(yōu)的傳聲器陣列組合,為汽車內駕駛員語音增強的研究提供了參考,結論如下:
(1)在不同速度下,陣列中不同傳聲器所采集信號的信噪比和言語可懂度指數(shù)具有相同的變化規(guī)律,即傳聲器與聲源的距離越遠,則所采集信號的信噪比和言語可懂度指數(shù)越低。
(2)當陣列組合中傳聲器個數(shù)一定時,信噪比和言語可懂度指數(shù)具有相同的變化趨勢,但是信噪比的變化較為劇烈,言語可懂度指數(shù)的變化更為平緩,更接近人耳對聲音的感知效果。
(3)當陣列組合中傳聲器個數(shù)改變時,增強后語音的信噪比隨著陣元個數(shù)的增加而增加,但增強后語音的清晰度隨陣元個數(shù)的改變無明顯變化,更接近人對聲音的感知效果。
(4)通過對不同速度、陣列組合方式的試驗,得出言語可懂度指數(shù)更適合作為基于傳聲器陣列的汽車內駕駛員語音增強的評價指標。