基于深度學習的雙耳聲源定位算法研究

2022-10-17 10:53:32劉雪潔俞勝鋒鐘小麗

聲學技術 2022年4期

宋昊，劉雪潔，俞勝鋒，鐘小麗

(1.廣東工業(yè)大學管理學院，廣東廣州 510000；2.華南師范大學物理與電信工程學院，廣東廣州 510006；3.華南理工大學物理與光電學院，廣東廣州 510640)

0 引言

在雙耳聽覺中，人類能夠通過接收到的雙耳聲信號反推出聲源的空間方位，即實現(xiàn)雙耳聲源定位。研究表明，雙耳聲源定位的主要因素包括耳間差異：包括雙耳時間差(Interaural Time Difference,ITD)、雙耳聲級差(Interaural Level Difference,ILD)和單耳譜特征[1-2]。通常，ITD是低頻聲源的主要定位因素，ILD是中、高頻聲源的主要定位因素，而單耳譜特征對于中垂面以及混亂錐定位至關重要。由于現(xiàn)實聲場景的復雜性，準確的聲源定位往往是多種定位因素綜合作用的結果[3]。

已有的雙耳聲源定位模型分為兩大類：基于聽覺系統(tǒng)的模型和基于機器學習的模型[4]。前者通過較為詳盡地再現(xiàn)聲信號傳輸和分析生理和心理過程，從而達到模擬人類聲源定位功能的目的。然而，受限于聲源定位的生理和心理過程的研究進展，目前基于聽覺系統(tǒng)的雙耳聲源定位模型只能表征較為簡單的聲場景，例如基于譜因素的中垂面定位[4-5]。本質上，雙耳聲源定位是一種基本的大腦機能，因此基于機器學習(即采用計算機模擬人腦行為)的雙耳聲源定位模型得到了重視[6]。Gill等[7]將單耳譜特征輸入單隱層(含9個神經(jīng)元)前饋型神經(jīng)網(wǎng)絡，以預測聲源的仰角方位。Chung等[8]以ITD和單耳譜特征作為輸入，采用淺層全連接后向傳播神經(jīng)網(wǎng)絡(Back Propagation Neural Network,BPNN)預測聲源的空間方位。Jin等[9]先采用耳蝸模型提取雙耳定位因素，再采用淺層時延神經(jīng)網(wǎng)絡預測聲源的空間方位?？梢姡延谢谏窠?jīng)網(wǎng)絡的定位模型通常以定位因素作為模型輸入進行訓練和預測。由于聲源定位是多種定位因素綜合作用的結果，且不同聲場景下這種綜合作用可能不同，目前對其尚無定論。因此，以定位因素作為模型輸入的定位模型需要較完備的先驗知識，且模型適用性取決于定位因素的選取。此外，已有基于神經(jīng)網(wǎng)絡的定位模型屬于全連接的淺度學習(即只包含一個或者兩個隱層)，這制約著預測效果的提升。隨著計算機計算能力以及數(shù)據(jù)量的提升，同時受益于神經(jīng)生物學家對動物大腦解剖研究的成果，2006年Hinton等[10]提出了深度學習的概念。深度學習源于機器學習的范疇。相比于機器學習中各種淺層的學習模型，比如支持向量機、最大熵方法等，深度學習神經(jīng)網(wǎng)絡能表達現(xiàn)實中各種復雜數(shù)據(jù)的內(nèi)部結構，已成為一種廣泛使用的工程方法[11-12]。2019年丁建策等[13]提出了利用深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)預測聲源方位角的算法。該方法采用子帶雙耳特征和雙耳信號互相關特征共計57維特征作為輸入，取得了較好的預測效果，為后續(xù)聲源距離的預測提供了可靠的信息。Ding等[14]進一步提出了多目標DNN算法。該方法提取了雙耳信號中的子帶特征和統(tǒng)計特性共計393維特征作為輸入，可同時預測聲源的距離和方位角；由于新算法降低了方位角變化對距離估計的影響，其距離預測的準確性高于現(xiàn)有的同類算法。

本文提出了基于深度學習的雙耳聲源定位算法，并采用完整的雙耳聲信號作為輸入，避免了人為提取特征的繁瑣過程。首先，實現(xiàn)了基于卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)和基于深層后向傳播神經(jīng)網(wǎng)絡(Deep Back Propagation Neural Network,D-BPNN)的深度學習框架，并采用不同空間聲源間隔的雙耳聲信號作為輸入進行訓練與預測，最后采用前后混亂率、定位準確率等指標比較了兩種深度學習模型的有效性。

1 算法介紹

本文的聲信號處理流程如圖1所示。首先，將單通道聲信號E0(t)分別與左右耳脈沖響應HL和HR進行卷積，合成雙耳聲信號EL和ER；然后，將預處理后的EL和ER輸入深度神經(jīng)網(wǎng)絡進行訓練；最后，采用訓練好的算法模型進行預測，得到聲源空間方位的分類輸出(即方位預測)。

圖1 聲信號處理流程圖Fig.1 Acoustic signal processing flow diagram

卷積神經(jīng)網(wǎng)絡CNN是一種典型的深度學習框架。目前，CNN已被廣泛應用于聲信號處理，例如遇險信號識別[15]、混響時間估計[16]、水下聲源距離預測[17]和海床類型識別[18]等。圖1中的深度神經(jīng)網(wǎng)絡主要采用CNN實現(xiàn)。在深度學習領域，卷積神經(jīng)網(wǎng)絡CNN和循環(huán)神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)都是常用的處理音頻信號的算法。兩者的區(qū)別在于：(1)RNN具有對時間進行擴展以及多個時間輸出計算的能力，而CNN能夠在空間上拓展并對特征進行卷積；(2)RNN可以用于描述時間上連續(xù)狀態(tài)的輸出(具備記憶功能)，而CNN用于靜態(tài)輸出；(3)RNN的層次結構深度有限，而CNN的層數(shù)能夠達到100層以上。本文的研究目標是實現(xiàn)對處于不同空間方位的聲源的準確定位(分類)，而不考慮聲信號在時間上的連續(xù)特征。因此，本文選用CNN作為實現(xiàn)深度學習的框架。此外，目前采用全連接后向傳播神經(jīng)網(wǎng)絡BPNN的定位模型多為淺層網(wǎng)絡。為了和CNN模型進行對比，本文通過增加隱層的層數(shù)，將淺層BPNN改進為DBPNN。因此，圖1中的深度神經(jīng)網(wǎng)絡分別采用CNN和D-BPNN實現(xiàn)。

1.1 數(shù)據(jù)準備

以人頭中心為坐標原點，建立順時針球坐標系。定義正前方的水平方位角為0°，正右方的水平方位角為90°。

采用虛擬聲技術合成雙耳聲信號數(shù)據(jù)庫，其中雙耳脈沖響應來自MIT HRTF數(shù)據(jù)庫[19]。該數(shù)據(jù)庫含有KEMAR人工頭遠場(距離聲源1.4 m)710個聲源空間方位的雙耳脈沖響應，數(shù)據(jù)長度為512點(44.1 kHz采樣,16 bit量化)。單通道聲信號采用中英文混合的單聲道語音信號(頻段范圍為150 Hz～4 000 Hz，采樣頻率為44.1 kHz)。首先，采用短時過零率語音端點檢測算法對初始語音信號進行檢測，依據(jù)檢測結果將其分別截斷成8 300段(100 ms每段)短時語言片段。然后，依據(jù)約10∶1的比例隨機將各方位的8 300段短時語言片段劃分為訓練信號與測試信號。最后，根據(jù)圖1中的虛擬聲合成方式得到不同聲源方位的雙耳時域聲信號。為了加快訓練的收斂速度，對所有合成的雙通路信號進行歸一化運算，將其幅值限制在[-1，1]范圍內(nèi)。

為了探討不同聲源空間間隔的影響，圖1中的網(wǎng)絡輸入分別采用水平面15°、30°和45°空間角度間隔的雙耳聲信號。表1是不同空間角度間隔時，深度神經(jīng)網(wǎng)絡所采用的數(shù)據(jù)情況。

表1 深度神經(jīng)網(wǎng)絡采用的數(shù)據(jù)Table1 Data used for DNN

1.2 基于D-BPNN模型的雙耳聲源定位算法

D-BPNN模型主要由兩個全連接層、一個隨機失活層和一個扁平層組成，網(wǎng)絡結構如圖2所示。

圖2 深層全連接后向傳播神經(jīng)網(wǎng)絡結構圖Fig.2 The structure of D-BPNN

輸入信號首先進入一個含250個神經(jīng)元的全連接層a[1]，隨后經(jīng)過丟棄概率為0.3的隨機失活層a[2]，最后經(jīng)過扁平層a[3]后進入輸出層a[4]輸出，圖2中輸出層神經(jīng)元個數(shù)n取決于所需分類的空間方位數(shù)目(見表1)。其中，第一個全連接層的激活函數(shù)為線性整流函數(shù)(Rectified Linear Units,ReLU)。與其他激活函數(shù)相比，ReLU激活函數(shù)具有提升網(wǎng)絡訓練速度、防止梯度消失及增加網(wǎng)絡非線性能力的優(yōu)點。最后一個全連接層采用Softmax函數(shù)輸出，將多個輸出映射到[0，1]區(qū)間內(nèi)，從而實現(xiàn)空間方位的多分類任務。

采用Adam優(yōu)化算法并使用交叉熵損失函數(shù)進行網(wǎng)絡訓練。交叉熵損失函數(shù)定義為

其中：m代表樣本數(shù)，即訓練集數(shù)據(jù)的總數(shù)目；n代表輸出分類數(shù)，即所需分類的空間方位數(shù)目；代表第k個樣本預測為第n個分類的概率。

1.3 基于CNN模型的雙耳聲源定位算法

CNN模型主要由三個卷積層和四個全連接層組成，網(wǎng)絡結構如圖3所示。需要說明的是，卷積層中的濾波器皆以一維卷積的形式在兩個輸入通道上分別做卷積，同時所有激活函數(shù)均為ReLU函數(shù)。此外，在激活函數(shù)層、卷積層、全連接層之間都加入歸一化層，實現(xiàn)了在神經(jīng)網(wǎng)絡層的中間進行預處理的操作。

圖3 卷積神經(jīng)網(wǎng)絡結構圖Fig.3 The structure of Convolutional Neural Network

輸入信號首先經(jīng)過連續(xù)三個卷積層進行特征提取。其中第一個卷積層共有128個濾波器(卷積核)，維度為1×300，步長為30；第二個卷積層共有128個濾波器，卷積核的大小為1×40，步長為2；第三個卷積層共有64個濾波器，卷積核的大小為1×20，步長為2。輸入信號經(jīng)過三個卷積層后，將特征向量再輸入四個全連接層。其中，前三個全連接層的神經(jīng)元個數(shù)分別為2 048、1 024、128，最后一個全連接層為輸出層，其神經(jīng)元個數(shù)取決于所需分類的空間方位數(shù)目(見表1)。最后采用Softmax函數(shù)計算出輸入數(shù)據(jù)屬于每個類別的概率值，并選取概率值最大的類別作為預測方位。

此外，為了在訓練時抑制過擬合，提高網(wǎng)絡的泛化能力，全連接層中均使用Dropout方法；同時，網(wǎng)絡在訓練時采用Adam優(yōu)化算法與交叉熵損失函數(shù)。

CNN模型仿真算法采用PyTorch框架實現(xiàn)。PyTorch框架是目前最為流行的深度學習框架之一，基于Torch框架，廣泛用于自然語言處理等領域，擁有極強的易用性與靈活性。D-BPNN模型仿真算法采用Keras框架實現(xiàn)。Keras框架是一種高層神經(jīng)網(wǎng)絡應用程序編程接口，使用TensorFlow、Theano及CNTK作為后端，具有拓展性強的優(yōu)點。上述兩種模型的仿真實驗均采用相同的數(shù)據(jù)集以及硬件仿真環(huán)境。硬件環(huán)境包括：Intel(R)Core(TM)i7-10750H CPU@2.60GHz 2.59GHz處理器以及NVIDIAQuadro T2000顯卡。

一共進行了6組仿真實驗，即2種算法模型(DBPNN模型和CNN模型)，每種執(zhí)行3種空間角度間隔(15°、30°和45°)。對D-BPNN模型和CNN模型分別進行了50次和20次迭代訓練后，觀察到模型訓練準確率達到穩(wěn)定或圍繞某一中值上下輕微波動，此時判定網(wǎng)絡訓練成功。圖4是D-BPNN模型訓練準確率隨迭代次數(shù)的變化。由圖4中可知，對于任何一種空間角度間隔的輸入，經(jīng)過50次迭代訓練后訓練準確率都趨于平穩(wěn)；此時，3種空間角度間隔(15°、30°和45°)的訓練準確率分別達到73.59%、77.18%、81.76%。

圖4 深層全連接后向傳播神經(jīng)網(wǎng)絡的訓練準確率Fig.4 Training accuracy of D-BPNN

圖5是CNN模型訓練準確率隨迭代次數(shù)的變化。圖5中可見，對于任何一種空間角度間隔的輸入，經(jīng)過20次迭代訓練后訓練準確率都趨于平穩(wěn)；此時，3種空間角度間隔(15°、30°和45°)的訓練準確率分別達到96.07%、98.22%、98.93%。

圖5 卷積神經(jīng)網(wǎng)絡的訓練準確率Fig.5 Training accuracy of CNN

2 實驗結果和討論

如表1所示，當網(wǎng)絡輸入的空間角度間隔為15°、30°和45°時，測試信號分別為19 031、9 133和6 174個。

2.1 模型定位效果

在人類聽覺中，由于前后鏡像方位(例如方位角θ=30°和θ'=150°)具有相似的ITD和ILD，因此容易出現(xiàn)前后混淆現(xiàn)象，即處于θ=30°的聲源被感知處于θ'=150°，反之亦然。在聽覺定位主觀實驗中，如果被試出現(xiàn)了前后混淆現(xiàn)象，通常是先校正混淆，即將發(fā)生混淆的方位進行空間的鏡像反演，然后再進行定位準確率計算[20]。假設某個空間方位角θ共有N個測試信號，經(jīng)模型預測后，有X1個測試信號的空間方位角預測為θ，即方位角預測正確；有X2個測試樣本的空間方位角預測為θ'(θ與θ'互為鏡像方位)，即出現(xiàn)前后混亂。那么，方向θ的前后混亂率R和定位準確率P分別為

在每一組實驗條件下，對所有測試方位的前后混亂率和定位準確率取平均，得到該實驗條件下的平均前后混亂率和平均定位準確率，如表2所示?？梢钥闯鯟NN模型的平均前后混亂率遠低于D-BPNN模型，其中前者的前后混亂率均低于2.24%。這表明，對于前后鏡像方位，當耳間差異(ITD和ILD)無法為定位提供有效信息時，CNN模型比D-BPNN模型能更好地通過自學習提取單耳譜特征，從而可以更好地區(qū)分前后鏡像方位。

為測試不同信噪比情況下的定位效果，在1.1節(jié)中生成的雙耳信號中加入不同信噪比的高斯白噪聲。合成的雙耳帶噪信號的信噪比分別為0 dB、10 dB、20 dB，分別采用CNN模型和D-BPNN模型進行方位角預測。結果表明，CNN模型的定位準確率分別為34.68%、76.92%、97.36%；而D-BPNN模型的定位準確率分別為32.85%、66.29%、85.71%?？梢姡谟柧毰c測試環(huán)境不匹配的情況下，兩種模型的預測準確率均有下降，但是CNN模型的魯棒性優(yōu)于D-BPNN模型。

2.2 模型訓練用時

為了進一步進行模型比對，在相同實驗環(huán)境下對模型的訓練時長進行了測算，結果如表2所示。由表2中可見，無論是D-BPNN模型還是CNN模型，隨著輸入空間角度間隔的減小，訓練時長都呈現(xiàn)上升趨勢；對于相同的空間角度間隔，CNN模型的訓練時長高于D-BPNN模型。進一步的計算結果表明，兩者訓練時長的差異隨著空間角度間隔的減小而增大，例如隨著空間角度間隔從45°變?yōu)?5°，CNN模型訓練時長高于D-BPNN模型時長的比例從7.34%增加到33.36%。

表2 基于D-BPNN和CNN的雙耳聲源定位算法的結果Table 2 Results of D-BPNN and CNN based binaural localization algorithms

2.3 CNN模型濾波器的分析

通過前后混亂率和定位準確率指標的對比研究發(fā)現(xiàn)，在同等實驗條件下CNN模型的預測效果優(yōu)于D-BPNN模型。為了進一步探究這一現(xiàn)象的內(nèi)部機制，對空間角度間隔為15°的輸入信號CNN模型中的三個卷積層的典型濾波器進行了展示，如圖6所示。限于篇幅，各層中僅選取一個典型濾波器進行分析。

濾波器代表CNN模型中對應卷積核的參數(shù)權重，用于提取相應的深度神經(jīng)網(wǎng)絡內(nèi)部特征。在訓練效果良好的模型中，濾波器圖形往往展現(xiàn)出平滑的濾波特性；卷積核的參數(shù)權重在第一個卷積層中體現(xiàn)出可解釋性，但是這種可解釋性隨著層次的加深而逐漸消失。

圖6(a)中顯示出類似于語音信號的波形，這是CNN模型對輸入信號進行特征提取的過程，展現(xiàn)了第一個卷積層對其卷積核參數(shù)權重的可解釋性。這類似于雙耳聽覺定位時，人類的神經(jīng)系統(tǒng)自動根據(jù)雙耳接收信號對各類參數(shù)差異進行判斷。圖6(b)、6(c)分別為第二層、第三層的典型濾波器的結果。與圖6(a)相比，圖6(b)的特征趨于抽象，主要表現(xiàn)為密集的波動。圖6(c)的特征則是在圖6(b)特征上的進一步提取和抽象，主要表現(xiàn)為平緩的波動?？梢姡S著網(wǎng)絡卷積層次的加深，更加抽象、基本的類別信息將被抽??；同時，對卷積核參數(shù)權重的可解釋性也逐漸降低。

圖6 卷積神經(jīng)網(wǎng)絡的典型濾波器Fig.6 Typical filters in CNN

3 結論

本文針對多種雙耳定位因素存在復雜關聯(lián)的問題，提出了兩種基于深度學習的算法模型：深層全連接后向傳播神經(jīng)網(wǎng)絡D-BPNN模型和卷積神經(jīng)網(wǎng)絡CNN模型；并采用前后混亂率、定位準確率、訓練時長等指標，比較了兩種深度學習模型在不同空間角度間隔情況下的仿真效果。

實驗結果表明：隨著輸入信號的空間角度間隔的減小，D-BPNN模型的定位準確率逐漸遞增；而CNN模型的定位準確率趨于穩(wěn)定，達到98%左右。當D-BPNN或CNN訓練信號空間角度間隔減小時，訓練時長呈現(xiàn)上升趨勢；同一空間角度間隔時，CNN模型的訓練時長均高于D-BPNN模型；隨著水平面空間角度間隔從45°變?yōu)?5°，CNN模型時長高于D-BPNN模型時長的比例從7.34%增加到33.36%。

綜上所述，在相同的實驗條件下，雖然卷積神經(jīng)網(wǎng)絡在對雙耳聽覺聲源定位算法中比BP神經(jīng)網(wǎng)絡需要耗費相對更多的訓練時長，但其擁有更高的定位準確率、更強的泛化能力與更低的前后混亂率。實際應用時，可根據(jù)用時和精度的具體需求進行算法選擇。