• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      一種魯棒的雙耳聲源方位角定位方法

      2022-12-01 01:06:32陳國(guó)良趙祥瑞
      計(jì)算機(jī)測(cè)量與控制 2022年11期
      關(guān)鍵詞:混響雙耳子帶

      陳國(guó)良,趙祥瑞

      (武漢理工大學(xué) 機(jī)電工程學(xué)院,武漢 430070)

      0 引言

      機(jī)器人的聽覺系統(tǒng)是機(jī)器人與外部環(huán)境互動(dòng)的一種重要方式。與視覺相比,機(jī)器人聽覺系統(tǒng)受障礙物影響較小,且具有360度的識(shí)別范圍。機(jī)器人聽覺系統(tǒng)包括許多方面,例如聲源定位、語(yǔ)音識(shí)別、講話者識(shí)別、情感識(shí)別和語(yǔ)音降噪等[1]。其中,機(jī)器人聲源定位(SSL, sound source localization)作為聽覺系統(tǒng)的前端處理模塊之一,在機(jī)器人導(dǎo)航、人機(jī)交互、視頻會(huì)議等領(lǐng)域發(fā)揮著重要作用[2-5]。

      目前的聲源定位研究主要分為兩類:基于雙耳SSL算法研究和基于傳聲器陣列的SSL算法研究。與基于傳聲器陣列的SSL相比,雙耳SSL具有陣列結(jié)構(gòu)簡(jiǎn)單,計(jì)算復(fù)雜度小,定位線索較少的特點(diǎn)。雙耳SSL的線索主要有:雙耳時(shí)間差(ITD,interaural time difference)、雙耳強(qiáng)度差(IID,interaural intensity difference)和雙耳相位差(IPD,binaural phase difference)[6-7]。ITD是指聲波從聲源到左右耳之間的時(shí)間間隔,IID是指兩耳接收到的聲波之間的強(qiáng)度差,IPD 是ITD在頻域內(nèi)的表現(xiàn)。在中低頻(小于1.5 kHz)的情況下,ITD其主要作用,利用該時(shí)延差可以很好地進(jìn)行方位的評(píng)估,但在噪聲和混響的干擾下,ITD的性能會(huì)嚴(yán)重下降。因此本文主要討論在噪聲和混響環(huán)境下基于ITD的雙耳聲源定位。

      在正常情況下,假設(shè)聲音從聲源到麥克風(fēng)是一個(gè)簡(jiǎn)單的直線傳輸。然而,在混響的室內(nèi)環(huán)境中,麥克風(fēng)接收到的信號(hào)是聲源信號(hào)與墻壁、地面、家具等物體反射產(chǎn)生的反射信號(hào)的疊加。這使得每個(gè)麥克風(fēng)之間的信號(hào)不服從理想的時(shí)間延遲關(guān)系,最終使得麥克風(fēng)之間的ITD難以判斷。此外,環(huán)境噪聲是SSL無(wú)法避免的一個(gè)重要問題。當(dāng)環(huán)境噪聲較強(qiáng)時(shí),目標(biāo)信號(hào)與雙耳麥克風(fēng)之間的時(shí)間差常常被抑制[8]。

      針對(duì)混響和噪聲的定位環(huán)境,基于ITD的雙耳聲源定位性能會(huì)嚴(yán)重下降問題,文獻(xiàn)[9]對(duì)基于互相關(guān)函數(shù)的ITD算法進(jìn)行改進(jìn),提出一種基于PHAH加權(quán)的廣義互相關(guān)算法和可控波束算法融合的聲源定位算法,實(shí)驗(yàn)證明該方法可提高在噪聲環(huán)境中的定位準(zhǔn)確性。文獻(xiàn)[10]提出一種基于過零率(ZC,zero crossing)的ITD估計(jì)方法,該算法首先根據(jù)過零點(diǎn)獲取各幀的ITD,然后通過信噪比估計(jì)進(jìn)行各幀ITD的加權(quán),從而獲取最后的ITD。文獻(xiàn)[11]提出一種基于混響加權(quán)的聲源定位算法,該算法通過信道的混響權(quán)重分別降低早期混響和晚期混響的影響,從而獲取更加準(zhǔn)確的雙耳定位線索,提高了在混響環(huán)境中的聲源定位性能。因此,降低噪聲和混響的干擾是雙耳聲源方位角定位技術(shù)的關(guān)鍵。

      近年來(lái),模式識(shí)別和機(jī)器學(xué)習(xí)技術(shù)在雙耳聲源定位中運(yùn)用,文獻(xiàn)[12]提出一種模板匹配的方法,對(duì)環(huán)境中的不同方位角建立不同的模板,基于特征和頻率加權(quán)進(jìn)行模板匹配。針對(duì)低信噪比的雙耳SSL問題,文獻(xiàn)[13]基于深度學(xué)習(xí)建立雙耳定位線索和方位角的映射關(guān)系,進(jìn)行定位。文獻(xiàn)[14]將基于模型的聲源頻譜特征信息與深度神經(jīng)網(wǎng)絡(luò)相結(jié)合,解決各種噪聲和混響條件下雙耳SSL問題。這些方法在噪聲和混響的環(huán)境中可取得較好的定位效果,但需要訓(xùn)練不同聲學(xué)環(huán)境下的ITD和IID模型,通用性差,且計(jì)算量較大。

      基于以上算法的不足之處,本文提出一種信號(hào)子頻帶選擇結(jié)合具有噪聲的基于密度的聚類方法(DBSCAN,density-based spatial clustering of applications with noise)的聲源定位方法。首先對(duì)采集到的雙耳語(yǔ)音信號(hào)進(jìn)行Gammatone濾波,分頻為不同的子頻帶;其次進(jìn)行數(shù)據(jù)壓縮,減少無(wú)關(guān)子帶數(shù)量,降低計(jì)算復(fù)雜度;然后基于譜減算法進(jìn)行各個(gè)子頻帶信噪比(SNR,signal-to-noise ratio)估計(jì),選出最優(yōu)的子頻帶;最后對(duì)子帶信號(hào)進(jìn)行分幀,基于互相關(guān)(CC,cross correlation)時(shí)延估計(jì)算法,獲取每一幀互相關(guān)函數(shù)峰值對(duì)應(yīng)的數(shù)據(jù)點(diǎn),再根據(jù)DBSCAN聚類算法消除異常幀的影響,獲取最優(yōu)點(diǎn),從而根據(jù)時(shí)延和ITD定位模型得到方位角。本文提出的算法不僅適用不同的SSL環(huán)境,而且提高SSL的魯棒性。所提算法的框圖如圖1所示。

      圖1 雙耳聲源定位算法框圖

      1 基于Gammatone濾波器的數(shù)據(jù)壓縮和子帶選擇

      1.1 基于Gammatone濾波器組的分頻

      Gammatone濾波器組可以模擬耳蝸基底膜對(duì)于語(yǔ)音信號(hào)的處理機(jī)制,耳蝸基底膜可以將信號(hào)分解為不同頻率的頻帶信號(hào)進(jìn)行處理,Gammatone濾波器組將其組中的各個(gè)濾波器的帶寬參數(shù)從低頻到高頻由窄到寬設(shè)置,可以將含噪語(yǔ)音按頻率高低范圍進(jìn)行分頻處理。

      假設(shè)s(n)為聲源語(yǔ)音信號(hào),左右耳接收到的語(yǔ)音信號(hào)為xL(n)和xR(n),則信號(hào)模型為:

      (1)

      式中,hL(n)和hR(n)分別為聲源信號(hào)到達(dá)左右耳的傳遞響應(yīng)函數(shù),nL(n)和nR(n)分別為左右耳的噪聲信號(hào),包含加性噪聲和混響。

      Gammatone濾波器組的響應(yīng)函數(shù)gi(n,fi)為:

      gi(n,fi)=

      cos(2πfinTs+φ)·exp(-2πBnTs)·BJ·nJ-1·U(n)

      (2)

      式中,fi為第i個(gè)子頻帶的中心頻率,Ts為采樣周期,φ為濾波器的初始相位,J為濾波器的階數(shù),設(shè)置J=4以模擬人類聽力,U(n)為單位階躍函數(shù),B為帶寬,B的計(jì)算公式為:

      B=b·ERB(fi)

      (3)

      式中,b=1.019為衰減系數(shù),ERB(fi)為濾波器等效矩形帶寬,根據(jù)大量實(shí)驗(yàn)[15],可得ERB(fi)的計(jì)算公式為:

      ERB(fi)=24.7+0.108fi

      (4)

      將左右耳信號(hào)xL(n)和xR(n)進(jìn)行分頻,第i個(gè)左右耳子頻帶信號(hào)為Gi,L(n,fi)和Gi,R(n,fi),:即:

      (5)

      1.2 數(shù)據(jù)壓縮

      語(yǔ)音信號(hào)經(jīng)過分頻之后,不同的頻帶具有的能量不同,所包含的信息量也不同,將分頻后的數(shù)據(jù)進(jìn)行數(shù)據(jù)壓縮,壓縮后的左右語(yǔ)音信號(hào)數(shù)據(jù)yL(n)和yR(n)為:

      (6)

      式中,yL(n)=[y1,L(n),y2,L(n),…,yi,L(n)]T,yR(n)=[y1,R(n),y2,R(n),…,yi,R(n)]T,其中yi,L(n)和yi,R(n)分別是加權(quán)之后第i個(gè)左右子帶信號(hào)。W是基于子帶能量的加權(quán)矩陣,W=diag(w1,w2,…,wi)。GL和GR是分別是分頻后的左右子帶信號(hào)矩陣,即加權(quán)之后第i個(gè)左右子帶信號(hào):

      (7)

      式中,Gi,L(n,fi)和Gi,R(n,fi)是經(jīng)過Gammatone濾波器組處理的左右耳第i個(gè)子帶的信號(hào)。

      由于語(yǔ)音信號(hào)的能量和信息主要集中在前2/3部分的子頻帶中[16],所以將w1,w2,…,w|2i/3|的權(quán)重設(shè)置為1,其余的權(quán)重設(shè)置為0。通過該數(shù)據(jù)壓縮,可以提取信號(hào)中的重要子帶信息,消除次要信息的干擾,降低計(jì)算復(fù)雜度。

      1.3 基于SNR估計(jì)的子帶選擇

      語(yǔ)音信號(hào)是一種非平穩(wěn)的隨機(jī)信號(hào),考慮到人類發(fā)聲器官在發(fā)聲過程中的變化速度具有一定限度而且遠(yuǎn)小于語(yǔ)音信號(hào)的變化速度,因此可以假定語(yǔ)音信號(hào)是短時(shí)平穩(wěn)的。噪聲分為加性噪聲和非加性噪聲,加性噪聲通常分為沖擊噪聲,周期噪聲,寬帶噪聲,語(yǔ)音干擾噪聲等;非加性噪聲主要是殘響及傳送網(wǎng)絡(luò)的電路噪聲等[17]。

      采用譜減法對(duì)子帶信號(hào)進(jìn)行SNR估計(jì),譜減法是語(yǔ)音增強(qiáng)的有效方法之一,其基本思想是假定加性噪聲與短時(shí)平穩(wěn)的語(yǔ)音信號(hào)相互獨(dú)立的條件下,從帶噪語(yǔ)音的功率譜中減去噪聲功率譜,將語(yǔ)音信號(hào)和噪聲信號(hào)分離,從而進(jìn)行SNR估計(jì)[18]。假定第i個(gè)左右子帶信號(hào)yi,L(n)和yi,R(n)中,si,L(n)和si,R(n)分別為左右子帶信號(hào)中的純凈語(yǔ)音信號(hào),ni,L(n)和ni,R(n)分別為左右子帶信號(hào)中的噪聲信號(hào),則有:

      (8)

      用Yi,L(w),Si,L(w),Ni,L(w)分別表示左通道的yi,L(n),si,L(n),ni,L(n)的傅里葉變換,Yi,R(w),Si,R(w),Ni,R(w)分別表示右通道的yi,R(n),si,R(n),ni,R(n)的傅里葉變換,則可得下式:

      (9)

      用Yi,L,angle(w),Yi,R,angle(w)分別表示相位譜,保留相角,則:

      (10)

      由于假定語(yǔ)音信號(hào)與加性噪聲是相互獨(dú)立的,因此有:

      (11)

      用Pi,L,y(w),Pi,L,s(w),Pi,L,n(w)分別表示yi,L(n),si,L(n),ni,L(n)的功率譜,用Pi,R,y(w),Pi,R,s(w),Pi,R,n(w)分別表示yi,R(n),si,R(n),ni,R(n)的功率譜,則有:

      (12)

      由于平穩(wěn)噪聲的功率譜在發(fā)聲前和發(fā)聲期間可以認(rèn)為基本沒有變化,因此可以通過發(fā)聲前的所謂“寂靜段”來(lái)估計(jì)噪聲的功率譜,從而有:

      (13)

      (14)

      因此根據(jù)第i個(gè)左右子帶信號(hào)yi,L(n)和yi,R(n)以及式(14),可得第i個(gè)左右子帶的信噪比SNRi,L,SNRi,R,即:

      (15)

      根據(jù)子帶SNR估計(jì),當(dāng)左右子頻帶信號(hào)SNR的均值最大值時(shí),為最優(yōu)左右子頻帶Y=[yL(n),yR(n)]T,其選擇計(jì)算公式為:

      (16)

      1.4 基于子帶選擇方法的定位對(duì)比實(shí)驗(yàn)

      為了評(píng)估本文所提出的子帶選擇方法的性能,將本文所提出的基于最優(yōu)子帶選擇的SSL算法(SS-SSL)與文獻(xiàn)[19]的基于通道求和的子帶選擇定位算法(GT-PHAT-SSL)進(jìn)行比較,實(shí)驗(yàn)設(shè)置和性能評(píng)估標(biāo)準(zhǔn)如3.1節(jié)所示。將采集到的雙耳信號(hào)添加信噪比為-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB的全局白噪聲,如圖2~3展示了不同SNR下的兩種算法定位的準(zhǔn)確率和RMSE。為了評(píng)估算法的運(yùn)算復(fù)雜度,本文使用Matlab 計(jì)算兩種子帶選擇算法的運(yùn)算時(shí)間,如表1展示了兩種算法的運(yùn)算時(shí)間對(duì)比。

      圖2 不同信噪比下的準(zhǔn)確率

      圖3 不同信噪比下的RMSE

      表1 運(yùn)算時(shí)間對(duì)比

      圖2顯示了不同SNR情況下基于最優(yōu)子帶選擇的SS-SSL算法的準(zhǔn)確率高于基于通道求和的子帶選擇的GT-PHAT-SSL算法,圖3顯示了不同SNR情況下基于最優(yōu)子帶選擇的SS-SSL算法的RMSE低于基于通道求和的子帶選擇的GT-PHAT-SSL算法,這說(shuō)明SS-SSL的定位性能優(yōu)于GT-PHAT-SSL。表1顯示了SS-SSL的運(yùn)算時(shí)間低于GT-PHAT-SSL,這說(shuō)明與GT-PHAT-SSL算法相比,采用最優(yōu)子帶選擇的SS-SSL可以降低運(yùn)算復(fù)雜度,提高機(jī)器人聲源方位角定位的實(shí)時(shí)性。

      2 基于互相關(guān)的ITD估計(jì)和基于DBSCAN的SSL

      2.1 基于互相關(guān)的ITD估計(jì)

      ITD估計(jì)算法的方法有很多,基于互相關(guān)的ITD算法(CC-ITD)具有原理簡(jiǎn)單,運(yùn)算量小的特點(diǎn)。CC-ITD通過求左右耳兩信號(hào)yL(n)與yR(n)之間的互功率譜,并在頻域內(nèi)給予一定的加權(quán)ΦyLyR,再反變換到時(shí)域得到兩信號(hào)之間的互相關(guān)函數(shù),互相關(guān)函數(shù)的峰值處就是兩信號(hào)之間的相對(duì)時(shí)延[20]。CC-ITD基本流程如圖4所示。

      圖4 CC-ITD基本流程

      yL(n)與yR(n)是左右兩耳的最優(yōu)子頻帶信號(hào),其傅里葉變換分別為YL(w)和YR(w),兩路濾波器的系統(tǒng)函數(shù)分別為FL(w)和FR(w),則兩信號(hào)之間的互相關(guān)函數(shù)RyLyR(τ)可表示為:

      (17)

      式中,φyLyR(w)為互相關(guān)函數(shù)的加權(quán)函數(shù),針對(duì)不同的噪聲和混響環(huán)境可以選擇不同的加權(quán)函數(shù),其計(jì)算公式為:

      (18)

      當(dāng)φyLyR(w)=1時(shí)表示基本廣義互相關(guān)法的加權(quán)函數(shù)。RyLyR(τ)的峰值處是兩信號(hào)yL(n)與yR(n)的相對(duì)時(shí)延τyLyR,即:

      (19)

      根據(jù)τyLyR可以通過ITD定位模型求得所需的方位角θ,ITD定位模型如圖5所示,圖中A,B是左右雙耳麥克風(fēng)用于接收聲源信號(hào),以O(shè)為圓心的圓半徑為r,θ為聲源的水平方位角。

      圖5 ITD定位模型

      假定聲速傳播速度為c,τyLyR與θ的關(guān)系式可以表示為:

      (20)

      對(duì)于不同的信號(hào)頻率,ITD模型有一定的變化規(guī)律,其參數(shù)化形式表示為:

      (21)

      式中,αf是與fi相關(guān)的尺度因子。反轉(zhuǎn)模型就可以得到水平方位角θ為:

      (22)

      式中,g-1為g(θ)=sinθ+θ的反轉(zhuǎn)函數(shù),g-1近似表示為:

      (23)

      2.2 基于DBSCAN的SSL

      圖6 不同幀的雙耳時(shí)間差

      引入DBSCAN算法解決CC-ITD的噪聲問題,DBSCAN算法使用基于密度的方法來(lái)計(jì)算數(shù)據(jù)中任意形狀的簇和離群值(噪聲),并且不需要事先知道簇的數(shù)量[21-22],所以引入DBSCAN用來(lái)解決異常問題,消除噪聲的干擾。

      1)核對(duì)象 一個(gè)樣本p以Eps為半徑的圓內(nèi)的有超過一定數(shù)目(≥MinPts)的樣本,則樣本p稱為核對(duì)象。

      2)Eps鄰域 領(lǐng)域內(nèi)的點(diǎn)定義為NEps(p)={q∈D,dist(p,q)≤Eps},其中dist(p,q)為p,q之間的距離。

      3)密度直達(dá)對(duì)象p為核對(duì)象,并且q為p的Eps鄰域,則稱對(duì)象q從對(duì)象p密度直達(dá)。

      4)密度相連 若存在一個(gè)對(duì)象o,使得對(duì)象p和q都從o密度可達(dá),則稱對(duì)象p和對(duì)象q密度相連。

      DBSCAN算法的處理流程如表2所示。

      表2 DBSCAN算法處理流程

      2.3 基于DBSCAN的SSL定位性能分析

      為了評(píng)估本文提出的基于DBSCAN的聲源定位算法(DBS-SSL)的定位性能,將DBS-SSL與基于均值互相關(guān)的聲源定位算法(MEAN-SSL)進(jìn)行對(duì)比實(shí)驗(yàn),實(shí)驗(yàn)條件和定位性能標(biāo)準(zhǔn)如3.1節(jié)所示。將采集到的雙耳信號(hào)添加信噪比為-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB的全局白噪聲,如圖7~8展示了不同SNR下的兩種算法定位的準(zhǔn)確率和RMSE。

      圖8 不同信噪比下的RMSE

      由圖7可知,不同信噪比的情況下DBS-SSL定位準(zhǔn)確率都高于MEAN-SSL算法,由圖8可知,不同信噪比的情況下DBS-SSL的RMSE都要低于MEAN-SSL算法,這說(shuō)明引入DNSCAN算法可以降低基于GCC-ITD法獲取τyLyR時(shí)的噪聲影響,提高定位魯棒性。

      3 實(shí)驗(yàn)與結(jié)果分析

      3.1 聲源定位實(shí)驗(yàn)

      聲源定位系統(tǒng)主要包括麥克風(fēng)模塊,數(shù)據(jù)采集模塊,計(jì)算機(jī)處理模塊等。兩個(gè)麥克風(fēng)陣列搭載在3D打印的平臺(tái)上,兩個(gè)麥克風(fēng)之間的距離為15 cm,麥克風(fēng)傳感器連接到信號(hào)數(shù)據(jù)采集卡上,通過數(shù)據(jù)線將計(jì)算機(jī)和信號(hào)數(shù)據(jù)采集卡進(jìn)行連接,使用LabView對(duì)聲源信號(hào)進(jìn)行采集,使用MatLab對(duì)采集到的左右耳聲源信號(hào)進(jìn)行數(shù)據(jù)分析和處理,聲源定位實(shí)驗(yàn)平臺(tái)如圖9所示。

      圖9 實(shí)驗(yàn)平臺(tái)

      本文選用的聲音傳感器型號(hào)為HJ-386,該型號(hào)麥克風(fēng)具有全指向性、靈敏度高、抗干擾能力強(qiáng)以及阻抗值低等特點(diǎn)。數(shù)據(jù)采集卡型號(hào)為NI USB-6009,其技術(shù)參數(shù)如表3所示。

      表3 數(shù)據(jù)采集卡技術(shù)參數(shù)

      實(shí)驗(yàn)在5 m×4 m×3.5 m和6 m×8 m×3.5 m的室內(nèi)環(huán)境中進(jìn)行,混響時(shí)間T60分別為0.3 s和0.6 s,室內(nèi)噪聲主要來(lái)自計(jì)算機(jī)散熱和室外車輛行駛噪聲。聲源采用CHAINS Speech Corpus語(yǔ)音庫(kù)SOLO中的單聲道女聲、男聲信號(hào)。噪聲采用Noisex-92和Nonspeech噪聲庫(kù)的噪聲語(yǔ)音。采樣率為44.1 kHz,濾波器的頻率范圍為[0,8 000]Hz,最大的中心頻率為 8 000 Hz,根據(jù)聽覺閾值范圍內(nèi)的臨界帶[23],選擇濾波器個(gè)數(shù)為 22個(gè),所以子帶數(shù)量為 22 條,由于語(yǔ)音信號(hào)的能量和信息主要集中在前 15個(gè)子頻帶中,所以將w1,w2, …,w15的權(quán)重設(shè)置為 1,其余的權(quán)重設(shè)置為 0。幀長(zhǎng)為20 ms,幀移為10 ms,規(guī)定聲源在雙耳麥克風(fēng)右側(cè)時(shí)方位角為0°,與雙耳麥克風(fēng)垂直時(shí)且垂直點(diǎn)為雙耳麥克風(fēng)中點(diǎn)時(shí)方位角為90,在雙耳麥克風(fēng)左側(cè)時(shí)方位角為180°。

      為了評(píng)估基于SNR估計(jì)的子帶選擇和DBSCAN算法對(duì)聲源定位性能的影響,本文采用4種不同算法做對(duì)比聲源定位實(shí)驗(yàn),分別是本文所提出的基于子帶選擇和DBSCAN的SSL算法(SS-DBS-SLL),基于互相關(guān)函數(shù)的SSL算法(CC-SSL),基于最優(yōu)子帶選擇的SSL算法(SS-SSL)和基于DBSCAN的SSL算法(DBS-SSL)。算法性能由定位準(zhǔn)確率和均方根誤差(RMSE)評(píng)估,其中定位準(zhǔn)確率定義為估計(jì)方位角和實(shí)際方位角之間的誤差在±5°之內(nèi)。

      3.2 不同信噪比下的聲源定位性能研究

      為了評(píng)估算法在不同噪聲環(huán)境中的聲源定位性能,本實(shí)驗(yàn)將采集之后的左右耳語(yǔ)音信號(hào)添加信噪比為-5 dB,0 dB,5 dB,10 dB,15 dB,20 dB的全局白噪聲,測(cè)試算法性能。如圖10~11展示了不同SNR下的算法定位性能。

      圖10表明,不同信噪比的情況下,本文所提的SS-DBS-SSL算法的定位準(zhǔn)確率都要優(yōu)于CC-SSL算法,并且SS-SSL和DBS-SSL算法的準(zhǔn)確率也都要優(yōu)于CC-SSL,這說(shuō)明子帶選擇和DBSCAN都可以有效提高定位準(zhǔn)確率,其中子帶選擇對(duì)于提高SSL的準(zhǔn)確率有更積極作用。在不同信噪比的情況下,4種算法的定位性能都隨SNR的提高而提高。圖11顯示了SS-DBS-SSL的RMSE在各個(gè)信噪比條件下也是最好的,并且隨著信噪比的增大RMSE越來(lái)越小,定位性能越來(lái)越好。

      圖10和圖11說(shuō)明子帶選擇和DBSCAN都可以提高定位性能,其中子帶選擇的作用更大。分析其原因,基于子帶選擇可以消除噪聲頻帶的影響,保留主要信號(hào)能量,引入DBSCAN可以消除在信號(hào)處理引入的異常幀,以及最優(yōu)子帶中殘留的部分噪聲的影響,從而從兩個(gè)方面提高了定位性能。

      圖10 不同信噪比下的定位準(zhǔn)確率

      圖11 不同信噪比下的RMSE

      3.3 不同噪聲環(huán)境下的聲源定位性能研究

      為了評(píng)估算法在不同噪聲環(huán)境下的定位性能,將采集到的雙耳信號(hào)添加SNR為的15 dB不同背景噪聲,選擇了12種不同的背景噪聲類型,其如表4所示。

      表5和表6顯示了不同噪聲環(huán)境下的定位準(zhǔn)確率和RMSE。從表5可以看出,N2和N11的定位準(zhǔn)確率較低,表6也可以看出,N2和N11的RMSE較高,定位性能較低,這說(shuō)明算法在babble和Crowd noise的背景噪聲下影響較大,分析其原因主要是該噪聲的主要頻率與信號(hào)中的主要頻率相似,通過子帶選擇無(wú)法有效消除噪聲干擾,從而影響定位性能。在不同的噪聲環(huán)境下,SS-DBS-SSL的定位性能最好,這也說(shuō)明了SS-DBS-SSL具有較高的魯棒性。

      3.4 不同混響條件下聲源定位性能研究

      為了評(píng)估算法在不同混響環(huán)境下的定位性能,分別在混響參數(shù)T60為0.3 s和0.6 s的房間中進(jìn)行方位角定位實(shí)驗(yàn)。如圖12展示了算法在不同混響條件下的定位性能。

      表4 背景噪聲類型

      表5 不同噪聲環(huán)境下的定位準(zhǔn)確率

      表6 不同噪聲環(huán)境下的RMSE

      圖12 不同混響條件下的定位性能

      圖12顯示了4種算法在不同混響條件下的定位準(zhǔn)確率和RMSE。由圖12可知,4種算法在低T60的混響條件下的定位準(zhǔn)確率表現(xiàn)更好,并且RMSE也更低。這T60說(shuō)明越大,定位性能越低。在不同的混響條件下,SS-DBS-SSL的表現(xiàn)優(yōu)于其它算法。這也說(shuō)明了本文所提算法在混響環(huán)境中具有一定的魯棒性。

      3.5 不同距離和角度下的聲源定位性能研究

      為了評(píng)估算法在不同角度下的定位性能,將聲源放置在實(shí)驗(yàn)平臺(tái)的前半面,聲源與雙耳麥克風(fēng)的中點(diǎn)距離為1 m,角度依次為0°,30°,60°,90°,120°,150°,180°。圖13展示了不同角度的情況下定位的準(zhǔn)確率和RMSE。從圖13可以看到,不同角度的情況下,各個(gè)算法的定位性能沒有明顯的變化趨勢(shì),基本保持穩(wěn)定,其中SS-DBS-SSL的定位性能最好。

      圖13 不同角度下的定位性能

      為了評(píng)估算法在不同距離下的定位性能,將聲源放置在距離實(shí)驗(yàn)平臺(tái)1 m,1.5 m,2 m,2.5 m,3 m,3.5 m處,角度為90°。圖14展示了不同距離的情況下定位的準(zhǔn)確率和RMSE。從圖14可以看到,算法的定位性能隨著距離的增大而降低。分析其原因,隨著距離的增大,采集到的信號(hào)中的噪聲能量越來(lái)越高,聲源信號(hào)能量越來(lái)越低,從而導(dǎo)致SNR越來(lái)越低,所以定位性能下降。

      圖14 不同距離下的定位性能

      在不同角度和距離的情況下,SS-DBS-SSL的定位性能都要優(yōu)于其它算法,這也體現(xiàn)了本文算法具有較高的魯棒性和穩(wěn)定性。

      3.6 不同聲源下的聲源定位性能研究

      為了評(píng)估不同聲源對(duì)定位性能的影響,采用男聲、女聲作為不同的聲源,分析男聲和女聲情況下的定位性能。圖15顯示了男聲和女聲的情況下的定位準(zhǔn)確率和RMSE。從圖15可以看到,在聲源為女聲的情況下的定位準(zhǔn)確率要優(yōu)于聲源為男聲的情況,在聲源為女聲的情況下,RMSE也較小,并且本文所提算法的表現(xiàn)優(yōu)于其它算法。這說(shuō)明聲源為女聲的定位性能要優(yōu)于男聲,在不同的聲源條件下,SS-DBS-SSL的定位性能也更好。分析其原因可知,女聲信號(hào)的能量大,在相同的實(shí)驗(yàn)環(huán)境中,其定位性能也越好。

      圖15 不同聲源下的定位性能

      4 結(jié)束語(yǔ)

      本文基于Gammatone 濾波原理對(duì)雙耳語(yǔ)音信號(hào)進(jìn)行分頻,并通過數(shù)據(jù)壓縮降低計(jì)算復(fù)雜度,然后基于譜減法的SNR估計(jì)選擇最優(yōu)子帶,減少無(wú)關(guān)子頻帶影響,并引入DBSCAN算法減少噪聲點(diǎn),降低異常幀對(duì)定位結(jié)果的干擾。從實(shí)驗(yàn)結(jié)果和分析可以看出,本文提出的算法通用性強(qiáng),與基于互相關(guān)的傳統(tǒng)算法相比,可以有效改善在混響和噪聲的復(fù)雜環(huán)境中雙耳聲源的定位精度,提高聲源定位的魯棒性。進(jìn)一步,該實(shí)驗(yàn)平臺(tái)可與移動(dòng)機(jī)器人結(jié)合,研究機(jī)器人與聲源相對(duì)運(yùn)動(dòng)時(shí)的雙耳聲源定位問題。

      猜你喜歡
      混響雙耳子帶
      板式混響在錄音鼓組中產(chǎn)生的作用
      三角洲(2024年15期)2024-12-31 00:00:00
      輕叩雙耳好處多
      輕叩雙耳好處多
      一種基于奇偶判斷WPT的多音干擾抑制方法*
      哥窯青釉雙耳彝爐
      紫禁城(2020年5期)2021-01-07 02:13:34
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      海洋混響特性分析與建模仿真研究?
      輕叩雙耳好處多
      基于虛擬孔徑擴(kuò)展的子帶信息融合寬帶DOA估計(jì)
      用于室內(nèi)環(huán)境說(shuō)話人識(shí)別的混響補(bǔ)償方法
      三明市| 扶沟县| 石柱| 玉溪市| 常山县| 台安县| 大荔县| 荆门市| 广东省| 衡阳市| 中山市| 自贡市| 封丘县| 察隅县| 响水县| 岗巴县| 景洪市| 洛扎县| 永新县| 潍坊市| 恩平市| 北川| 临沧市| 屯留县| 八宿县| 鄄城县| 长子县| 阜康市| 容城县| 湘潭市| 巴马| 九龙城区| 柞水县| 耒阳市| 陈巴尔虎旗| 临安市| 修水县| 太白县| 衡东县| 三原县| 砚山县|