• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      飛機(jī)駕駛艙噪聲環(huán)境下的飛行員語音端點(diǎn)檢測

      2018-01-19 00:53:56,,,
      計(jì)算機(jī)工程 2018年1期
      關(guān)鍵詞:子帶端點(diǎn)正確率

      , ,,

      (上海交通大學(xué) a.航空航天學(xué)院; b.電子信息與電氣工程學(xué)院,上海 200240)

      0 概述

      民用航空飛行安全是民用航空器有效運(yùn)行的基礎(chǔ)[1]。當(dāng)前,航空人為因素已經(jīng)成為導(dǎo)致飛行事故最為主要的因素。飛機(jī)駕駛艙中的人為因素研究作為航空人為因素研究的重點(diǎn),需要準(zhǔn)確地識別和測量出飛行員的行為或動作,例如通信、導(dǎo)航、執(zhí)行檢查單等,從而評價(jià)飛行員的工作負(fù)荷,對飛機(jī)駕駛艙的設(shè)計(jì)或飛行員操作流程進(jìn)行改進(jìn),避免由于飛行員任務(wù)負(fù)荷過重導(dǎo)致的人為操作錯誤[2]。

      飛行員語音信息是分析飛行員行為或動作的重要依據(jù),利用語音端點(diǎn)檢測(Speech Endpoint Detection,SED)技術(shù)可以提取語音記錄中的飛行員語音[3]。然而飛機(jī)駕駛艙中的噪聲環(huán)境十分復(fù)雜,包括發(fā)動機(jī)噪聲、飛機(jī)飛行時(shí)外部氣流紊流聲、機(jī)艙內(nèi)被操縱器件的活動聲、空調(diào)噪聲等,使得在低信噪比的情況下,基于線譜頻率、全帶寬信號能量、低頻帶信號能量或過零率的傳統(tǒng)語音端點(diǎn)檢測方法的檢測效果急劇下降[4]。

      有研究表明,語音的共振峰頻率信息能更有效地體現(xiàn)語音信號的時(shí)變特性[5]?;诖私Y(jié)論,文獻(xiàn)[6]利用譜減法進(jìn)行降噪,并將降噪后語音的子帶譜熵作為判決參數(shù)實(shí)現(xiàn)語音端點(diǎn)檢測。但是譜減法比較適用于噪聲平穩(wěn)的條件,其對于非平穩(wěn)的、復(fù)雜的航空背景噪聲抑制能力較弱,且在降噪過程中會產(chǎn)生音樂噪聲[7]。子帶譜熵能有效地區(qū)分語音和噪聲,但在有嘈雜人聲時(shí)性能較差,而此時(shí)語音與噪聲的能量仍是超過噪聲的,因此,文獻(xiàn)[8]引入一種結(jié)合熵與能量的判決參數(shù),但該文獻(xiàn)方法在低信噪情況下性能不穩(wěn)定。

      針對飛機(jī)駕駛艙中的強(qiáng)噪聲環(huán)境,本文結(jié)合最優(yōu)改進(jìn)對數(shù)譜幅度估計(jì)(Optimally Modified Log-Spectral Amplitude Estimator,OM-LSA)語音增強(qiáng)算法與Teager能量算子(Teager Energy Operator,TEO),提出一種魯棒語音端點(diǎn)檢測方法。首先通過OM-LSA算法對含噪語音數(shù)據(jù)進(jìn)行初步降噪處理;然后利用TEO對噪聲的抑制作用進(jìn)一步濾除殘留的噪聲,降低其對語音端點(diǎn)判決的干擾;最后整合降噪后語音的能量值與譜熵得到端點(diǎn)檢測的判決參數(shù),實(shí)現(xiàn)強(qiáng)航空背景噪聲環(huán)境下對飛行員語音端點(diǎn)的有效檢測。

      1 檢測原理

      1.1 OM-LSA算法

      OM-LSA算法作為一種單通道頻域語音增強(qiáng)算法,能夠適應(yīng)多種噪聲環(huán)境,在保護(hù)較弱語音信號分量的同時(shí),可避免音樂噪聲的產(chǎn)生。該算法對于低輸入信噪比和非平穩(wěn)噪聲尤其有效[7]。假設(shè)語音信號為s(n),疊加一個不相關(guān)的噪聲信號u(n),構(gòu)成含噪語音信號y(n):

      y(n)=s(n)+u(n)

      (1)

      其中,s(n)和u(n)是統(tǒng)計(jì)獨(dú)立的。

      對含噪語音信號y(n)加窗分幀處理后,得到第i幀語音信號yi(m),通過短時(shí)傅里葉變換求yi(m)的傅里葉變換系數(shù),如式(2)所示。

      Y(k,i)=S(k,i)+U(k,i)

      (2)

      其中:k為頻率分量;i為幀數(shù)。

      OM-LSA算法是基于最小均方誤差的對數(shù)幅度譜估計(jì)器,對于符合高斯分布的語音和噪聲信號,可以通過式(3)估計(jì)語音信號的傅里葉變換系數(shù)。

      (3)

      語音存在時(shí)的增益函數(shù)GH1可以根據(jù)下式估計(jì)得到:

      (4)

      其中,υξγ/(1+ξ)。

      (5)

      1.2 Teager能量算子

      TEO是一個強(qiáng)大的非線性算子,可以跟蹤調(diào)制能量并識別瞬時(shí)幅度和頻率[10-11]。TEO對噪聲具有抑制作用,可以進(jìn)一步濾除含噪語音信號經(jīng)OM-LSA算法處理后殘留的噪聲[12]。

      在離散時(shí)間條件下,s(n)的TEO定義如式(6)所示,含噪語音信號y(n)的TEO如式(7)所示。

      Ψd[s(n)]=s(n)2-s(n+1)s(n-1)

      (6)

      Ψd[y(n)]=Ψd[s(n)]+Ψd[u(n)]+

      (7)

      從上述推導(dǎo)可以看出,TEO主要提取的是含噪語音信號中語音的能量。圖1顯示了含噪語音信號y(n)和Ψd[y(n)]的語譜圖,y(n)的信噪比為10 dB。

      圖1 語譜圖對比

      對比語譜圖可以看出,TEO不僅抑制了噪聲能量,并且在保留語音信號能量的同時(shí),突出了語音的共振峰信息。

      1.3 短時(shí)能量與子帶譜熵

      設(shè)各幀語音信號yi(m)的幀長為N,短時(shí)能量指各語音幀的能量,其定義如下:

      (8)

      圖2為y(n)和Ψd[y(n)]的短時(shí)能量曲線。可以看出,y(n)的能量值是噪聲能量與語音能量的疊加,而Ψd[y(n)]的能量值曲線能較好地跟蹤純凈語音信號能量的變化,且在噪聲段更平滑。

      圖2 短時(shí)能量曲線對比

      譜熵反映了離散信源在頻域內(nèi)幅值分布的無序性。將熵值作為特征參數(shù)進(jìn)行端點(diǎn)檢測的實(shí)驗(yàn)結(jié)果表明,語音的熵與噪聲的熵存在較大區(qū)別[13]。

      子帶譜熵的提出是為了消除每一條譜線幅值受噪聲影響的問題,其將每幀語音信號的全頻帶均勻地分成Nb個子帶,語音信號第i幀的第w個子帶的能量譜為:

      (9)

      相應(yīng)地,每幀各子帶的歸一化概率密度pb(w,i)和每幀的子帶譜熵Hb(i)分別為:

      (10)

      (11)

      圖3為y(n)和Ψd[y(n)]的子帶譜熵曲線??梢钥闯?當(dāng)語音信噪比下降時(shí),子帶譜熵對語音和噪聲的區(qū)分性也相應(yīng)下降。

      圖3 子帶譜熵曲線對比

      1.4 端點(diǎn)檢測方法

      本文結(jié)合OM-LSA語音增強(qiáng)算法和TEO對飛行員語音記錄中的航空背景噪聲進(jìn)行抑制,然后計(jì)算降噪后語音信號的短時(shí)能量與子帶譜熵。從圖2和圖3可以看出,在語音中的有話區(qū)間,短時(shí)能量曲線是向上凸起的,而子帶譜熵曲線卻相反,其在有話區(qū)間向下凹陷。若將兩者的比值作為雙門限判決的參數(shù),則可以放大有話區(qū)間的判決參數(shù)值,從而實(shí)現(xiàn)強(qiáng)航空背景噪聲環(huán)境下的飛行員語音端點(diǎn)檢測?;谏鲜龇治?本文方法的檢測過程如圖4所示。

      圖4 語音端點(diǎn)檢測過程

      (12)

      圖5為y(n)和Ψd[y(n)]的歸一化能熵比曲線??梢钥闯?基于TEO的能熵比曲線增強(qiáng)了語音與噪聲段的區(qū)分性,且在噪聲段更平滑。

      圖5 能熵比曲線對比

      利用能熵比檢測語音端點(diǎn)的主要步驟如下[14]:

      1)選取一個較高的閾值(門限)T2對EERTEO(i)進(jìn)行一次粗判,高于T2的肯定是語音。

      2)選取一個較低的閾值(門限)T1,從1)中的交匯點(diǎn)向兩旁擴(kuò)展搜索,分別找到EERTEO(i)與T1相交的2個點(diǎn),將其判定為語音的起止點(diǎn)。

      2 實(shí)驗(yàn)與結(jié)果分析

      2.1 實(shí)驗(yàn)場景及數(shù)據(jù)

      實(shí)驗(yàn)中的飛行員語音記錄采集自如圖6所示的駕駛艙中。

      圖6 實(shí)驗(yàn)場景

      在飛行過程中,通過頭戴式麥克風(fēng)采集飛行員語音,采樣率為8 kHz,采樣精度為16 bit,幀長選擇25 ms,幀移為10 ms。實(shí)驗(yàn)對10段語音數(shù)據(jù)(總時(shí)長為48 min)進(jìn)行檢測,計(jì)算檢測正確率與錯誤率的平均值。

      2.2 實(shí)驗(yàn)方法

      首先利用OM-LSA語音增強(qiáng)算法對飛機(jī)駕駛艙中的語音記錄做增強(qiáng)處理,然后對基于短時(shí)能量與過零率比值的檢測算法(EZR)[15]、基于短時(shí)能量與譜熵比值的檢測方法(EER)以及本文方法進(jìn)行比較,具體過程如圖7所示。

      圖7 實(shí)驗(yàn)過程

      2.3 評價(jià)指標(biāo)

      對飛機(jī)駕駛艙中的飛行員語音記錄進(jìn)行人工標(biāo)定起止點(diǎn),將算法檢測結(jié)果與手工標(biāo)定的起止點(diǎn)進(jìn)行比較,通過以下3個客觀評價(jià)指標(biāo)來評價(jià)端點(diǎn)檢測方法的性能[5]:

      1)語音幀檢測正確率,如式(13)所示。

      PS=TS/frameS

      (13)

      其中:TS為語音信號中被正確判斷為語音幀的幀數(shù);frameS為手動標(biāo)定為語音幀的總數(shù)。

      2)噪聲幀檢測正確率,如式(14)所示。

      PN=TN/frameN

      (14)

      其中:TN為語音信號中被正確判斷為噪聲幀的幀數(shù);frameN為手動標(biāo)定為噪聲幀的總數(shù)。

      3)檢測錯誤率,如式(15)所示。

      PF=(FN+FS)/(frameS+frameN)

      (15)

      其中:FN為被錯誤判斷為語音幀的噪聲幀數(shù);FS為被錯誤判斷為噪聲幀的語音幀數(shù)。

      2.4 結(jié)果分析

      圖8(a)和圖8(b)為一段原始飛行員語音數(shù)據(jù)及其語譜圖,在136 Hz~2 170 Hz的頻率范圍內(nèi),語音信號的頻譜被噪聲的頻譜遮掩,在2 170 Hz~4 000 Hz頻率范圍內(nèi),可見語音信號的頻譜。圖8(c)和圖8(d)為語音經(jīng)過OM-LSA算法初步降噪后的語音數(shù)據(jù)及其語譜圖,其中中低頻的噪聲能量被濾除,可見語音信號的頻譜,但在2 170 Hz~4 000 Hz頻率范圍內(nèi)仍有能量較小的噪聲殘留。利用TEO進(jìn)一步降噪后的端點(diǎn)檢測結(jié)果標(biāo)記在圖8(c)中。

      圖8 語音端點(diǎn)檢測結(jié)果

      對飛行員語音數(shù)據(jù)集進(jìn)行測試,得到的平均檢測正確率和錯誤率如表1所示??梢钥闯?本文方法在對語音幀和噪聲幀檢測的平均正確率上,均高于EZR和EER方法。

      表1 3種方法的檢測性能對比 %

      3 結(jié)束語

      提取飛行員語音記錄中的飛行員語音信息,對于分析飛行員的行為或動作起到關(guān)鍵的作用,也是駕駛艙人為因素研究的重點(diǎn)。針對飛機(jī)駕駛艙中的強(qiáng)噪聲環(huán)境,以及基于能量參數(shù)和基于頻譜熵參數(shù)方法在低信噪比情況下的局限性,本文提出一種結(jié)合OM-LSA語音增強(qiáng)算法與TEO的語音端點(diǎn)檢測方法。首先利用OM-LSA算法對飛行員語音數(shù)據(jù)初步降噪;然后通過TEO做進(jìn)一步的噪聲濾除,減少其對端點(diǎn)檢測的干擾;最后將降噪后語音的能量與頻譜熵比值作為端點(diǎn)檢測的判決參數(shù),實(shí)現(xiàn)強(qiáng)航空背景噪聲下的飛行員語音端點(diǎn)檢測。實(shí)驗(yàn)結(jié)果表明,本文方法對語音幀和噪聲幀的平均檢測正確率可達(dá)95.6%和92%,能準(zhǔn)確獲取飛行員語音信息。后續(xù)工作將改進(jìn)端點(diǎn)檢測過程中所使用的判決參數(shù),進(jìn)一步提高檢測正確率。

      [1] KRAUSE S.Aircraft Safety:Accident Investigations,Analyses,& Applications[M].[S.l.]:McGraw-Hill Professional,2003.

      [2] SHAPPELL S A,WIEGMANN D A.A Human Error Approach to Aviation Accident Analysis:The Human Factors Analysis and Classification System[M].[S.l.]:Ashgate Publishing,Ltd.,2012.

      [3] KOLA J,ESPY-WILSON C,PRUTHI T.Voice Activity Detection[EB/OL].[2016-10-10].http://ece.umd.edu/merit/archives/merit2011/merit_fair11_reports/report_Kola.pdf.

      [4] BENYASSINE A,SHLOMOT E,SU H Y,et al.ITU-T Recommendation G.729 Annex B:A Silence Compression Scheme for Use with G.729 Optimized for V.70 Digital Simultaneous Voice and Data Applications[J].IEEE Communications Magazine,1997,35(9):64-73.

      [5] WANG K C,TASI Y H.Voice Activity Detection Algorithm with Low Signal-to-Noise Ratios Based on Spectrum Entropy[C]//Proceedings of the 2nd Inter-national Symposium on Universal Communication.Washington D.C.,USA:IEEE Press,2008:423-428.

      [6] JIN Li,CHENG Jiang.An Improved Speech Endpoint Detection Based on Spectral Subtraction and Adaptive Sub-band Spectral Entropy[C]//Proceedings of Inter-national Conference on Intelligent Computation Tech-nology and Automation.Washington D.C.,USA:IEEE Press,2010:591-594.

      [7] COHEN I,BERDUGO B.Speech Enhancement for Non-stationary Noise Environments[J].Signal Processing,2001,81(11):2403-2418.

      [8] HUANG L,YANG C.A Novel Approach to Robust Speech Endpoint Detection in Car Environments[C]//Proceedings of International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,2000:1751-1754.

      [9] 劉鳳增,李國輝,李 博,等.OM-LSA和小波閾值去噪結(jié)合的語音增強(qiáng)[J].計(jì)算機(jī)科學(xué)與探索,2011,5(6):547-552.

      [10] KAISER J F.On a Simple Algorithm to Calculate the Energy of a Signal[C]//Proceedings of International Conference on Acoustics,Speech,and Signal Processing.Washington D.C.,USA:IEEE Press,1990:381-384.

      [11] 霍鋮宇,黃曉林,寧新寶,等.基于Teager算子的短時(shí)HRV樣本熵算法[J].計(jì)算機(jī)工程,2012,38(23):281-283.

      [12] 李 杰,周 萍,杜志然.短時(shí)TEO能量在帶噪語音端點(diǎn)檢測中的應(yīng)用[J].計(jì)算機(jī)工程與應(yīng)用,2013,49(12):144-147.

      [13] SHEN J,HUNG J,LEE L.Robust Entropy-based Endpoint Detection for Speech Recognition in Noisy Environments[C]//Proceedings of ICSLP’98.Sydney,Australia:Australian Speech Science and Technology Association,1998:232-235.

      [14] LI X,LI G,LI X.Improved Voice Activity Detection Based on Iterative Spectral Subtraction and Double Thresholds for CVR[C]//Proceedings of 2008 Workshop on Power Elec-tronics & Intelligent Transportation System.Washington D.C.,USA:IEEE Press,2008:153-156.

      [15] 張徽強(qiáng).帶噪語音信號的端點(diǎn)檢測和聲韻分離[D].長沙:國防科學(xué)技術(shù)大學(xué),2005.

      猜你喜歡
      子帶端點(diǎn)正確率
      非特征端點(diǎn)條件下PM函數(shù)的迭代根
      一種基于奇偶判斷WPT的多音干擾抑制方法*
      門診分診服務(wù)態(tài)度與正確率對護(hù)患關(guān)系的影響
      子帶編碼在圖像壓縮編碼中的應(yīng)用
      電子制作(2019年22期)2020-01-14 03:16:24
      不等式求解過程中端點(diǎn)的確定
      參數(shù)型Marcinkiewicz積分算子及其交換子的加權(quán)端點(diǎn)估計(jì)
      生意
      品管圈活動在提高介入手術(shù)安全核查正確率中的應(yīng)用
      生意
      故事會(2016年15期)2016-08-23 13:48:41
      基于虛擬孔徑擴(kuò)展的子帶信息融合寬帶DOA估計(jì)
      乳源| 苍山县| 北辰区| 搜索| 宁蒗| 通州区| 简阳市| 惠东县| 右玉县| 澄迈县| 高唐县| 松潘县| 阿图什市| 濮阳市| 吉林市| 永州市| 喀什市| 石泉县| 丹阳市| 连城县| 雷山县| 武川县| 会泽县| 建始县| 宁陵县| 邓州市| 长治市| 呼伦贝尔市| 白河县| 洪江市| 广平县| 汶上县| 兴安盟| 建瓯市| 镇远县| 新郑市| 泾川县| 富蕴县| 河津市| 新安县| 六安市|