王書海 石俊峰
摘 要:近年來隨著傳感器技術(shù)不斷發(fā)展和語音信號定向處理技術(shù)的不斷研究,應(yīng)用在這種領(lǐng)域的技術(shù)以及應(yīng)用也在逐漸進入人們的視野,比如語音定位、語音跟蹤系統(tǒng)等,更是被廣泛的應(yīng)用于軍用和民用領(lǐng)域,比如會議說話人的定位以及在戰(zhàn)地勘探方面等,這都為語音信號處理等領(lǐng)域的技術(shù)發(fā)展提供了極大的推動。所以,研究探索技術(shù)的工程實踐應(yīng)用這方面的技術(shù),對推動語音信號等處理理論發(fā)展和相關(guān)技術(shù)的成果,有著非常重大的意義。文章著重介紹了語音定向的相關(guān)算法與研究,主要探究了延時估計。延時估計是利用麥克風(fēng)陣列解決寬帶語音的信號的技術(shù)之關(guān)鍵,更是通過麥克風(fēng)陣列進行聲音源定向方法中最常用的一種。
關(guān)鍵詞:麥克風(fēng)陣列;TDOA;聲源定向
中圖分類號:TN912.3 文獻標(biāo)志碼:A 文章編號:2095-2945(2018)23-0013-02
Abstract: In recent years, with the continuous development of sensor technology and the continuous research of directional processing technology of speech signal, the technology and application applied in this field are gradually entering people's field of vision, such as speech localization, speech tracking system and so on. It is widely used in military and civilian fields, such as conference speaker positioning and field exploration, which provide a great impetus to the development of speech signal processing and other fields. Therefore, it is of great significance to study and explore the technology of engineering practice and application of this technology to promote the development of speech signal processing theory and related technology. This paper focuses on the related algorithms and research of speech orientation, and mainly explores the delay estimation. Delay estimation is the key technology to solve the broadband speech signal using microphone array, and it is also one of the most commonly used methods of sound source orientation through microphone array.
Keywords: microphone array; TDOA; sound source orientation
目標(biāo)定向技術(shù)擁有廣泛的應(yīng)用領(lǐng)域,主要是利用雷達技術(shù)或者聲吶完成目標(biāo)的定向,但是由于雷達和聲吶的工作原理是主動發(fā)出電磁波或者聲波,這就極大可能的會暴露自身,這本身就會對系統(tǒng)的隱蔽性和安全性造成很大的威脅。因此,目標(biāo)定向系統(tǒng)需要不斷的去研究,目標(biāo)定向技術(shù)逐漸成為研究目標(biāo)。然而對于聲源定向,這一在目標(biāo)定向中的重要的分支,它的原理和聲吶和雷達等有明顯的差別:聲源定向技術(shù)是通過聲源主動地發(fā)信號,麥克風(fēng)陣列去接受目標(biāo)發(fā)來的信號去做處理,這也就為定向本身的隱蔽性和安全性有了極大的提升,由于它自身并不產(chǎn)生電磁波或者聲波,這成了研究相關(guān)領(lǐng)域的重要技術(shù)目標(biāo)。語音信號,不但是非平穩(wěn)的信號,而且是寬帶信號。因此,語音信號這種寬帶信號的處理要比處理傳統(tǒng)的窄帶信號困難了很多倍。那么為了更好地處理語音信號,必須得先把語音信號分解成傳統(tǒng)的信號,即平穩(wěn)的窄帶信號。對前期語音信號的處理主要包括以下幾個步驟:欲加重、加窗、分幀、欲濾波、分頻處理等。而對聲音處理的前期和十分重要的一部分就是要對聲音源信號確立好它的基本模型,確定好的模型攜帶了省心信號距離麥克風(fēng)陣列的距離信息以及角度信息,因此,最重要的一步就是能夠用非常合理的空間模型,對聲音信號處理,這樣才能更好、更準(zhǔn)確的對聲音信號進行分析。
麥克風(fēng)陣列的性能主要是和所采用的陣元數(shù)量、幾何的形狀、陣元之間距離以及所用麥克風(fēng)的類型。其中影響最重要的就是陣列的形狀,這個因素對定向的性能相當(dāng)重要。窄帶信號的幾何模型一般可以分為一維均勻線性陣列和二維均勻圓形陣列。應(yīng)用最為廣泛是線性陣列的結(jié)構(gòu)簡單,主要是適用于分扇區(qū)域的測向系統(tǒng),是因為它缺陷于有定向的盲區(qū),而圓形的陣列就恰好避免了前者的這一缺點,它處理也較前者更加容易。
由于聲音源位置和麥克風(fēng)陣列的距離不同,可以將空間接收模型分為近場和遠場模型兩種不同的模型。一般情況下,根據(jù)下式來區(qū)分遠場、近場的:
其中,用L來表示麥克風(fēng)陣列的整個長度,用?姿來表示聲源信號的最小波長。用r來表示聲源目標(biāo)和麥克風(fēng)陣列之間的距離。
一般情況下,聲源信號一般的波長一般是在17mm~17m之間,頻率則是在20Hz~20KHz之間的自然信號,但是在實際工作中,一般通過取聲源信號的波長一般分布是在20cm左右,頻率一般是分布在1700Hz左右。根據(jù)式(1)可以知道,假如用8個麥克風(fēng)組成陣列的均勻陣列,當(dāng)陣元的間距是10cm,就可以計算出,如果r>6.4m時,就可以當(dāng)作是遠場模型,不過這單單是一維均勻線陣,假如是取半徑為0.5m的均勻圓型矩形陣,矩陣元之間的距離是10cm的時候,根據(jù)上式1就可以計算出,如果r?叟100m時,那么空間模型才會是遠場模型,這樣麥克風(fēng)數(shù)量也就增多了,將會需要至少32個麥克風(fēng)陣列組成的均勻圓陣結(jié)構(gòu)。因此,對于麥克風(fēng)考慮不同的拓撲結(jié)構(gòu)來分析,近場和遠場的區(qū)分由于不同的拓撲結(jié)構(gòu)之間導(dǎo)致的差別是很大的。
遠場的模型最為典型的例子就是傳統(tǒng)的天線陣列,就假如是雙麥克風(fēng)的模型時,當(dāng)聲源的距離到達麥克風(fēng)的距離大于2L2/?姿min時,我們先假定認為此時的麥克風(fēng)陣列模型是遠場模型。其中,L的陣元間距,?姿min是聲波的最小波長。在理想的情況下考慮,聲波發(fā)出的聲音信號為平面波前。麥克風(fēng)陣元也可以理想縮小為點。
如圖 1 中所示,聲波前的法線與陣列連線之間成θ 角,而且每個麥克風(fēng)所接受到的信號會比參考的麥克風(fēng)相比有一個延遲或者超前。兩麥克風(fēng)間距為d,第二個麥克風(fēng)所接受的信號由于平面波前的傳播路徑,相對于參考麥克風(fēng)多出一個d·cos?茲的距離,從而造成的延時。因此,兩麥克風(fēng)間的時間差為?子12=d·cos?茲/c,此處的c代表空氣中的聲速。如果θ范圍在0°和180°之間而且?子12已知,就可以求出θ的值。因此,估計角度θ即等價于估計時間差?子12。
當(dāng)然對于近場模型而言,遠場的模型的平面波前將會被球面波前所取代。如圖2所示,將第一個麥克風(fēng)作為參考。用θn表示聲源到麥克風(fēng)n的傾角,用rn表示聲源到麥克風(fēng)n的距離,n=1,2,3。
在真實的環(huán)境中,一個可用的系統(tǒng),間距d是可以很簡單的測量出來的,那么再將?子12和?子13已知,那么也可以很輕易的將未知參數(shù)θ1,r1,r2和r3等計算出來,再根據(jù)正弦定理,就可以計算出θ2和θ3的估計值。所以,獲取了時延的信息,所有與聲源位置相關(guān)的信息都可以通過三角函數(shù)的知識計算出來。
但是不論麥克風(fēng)陣列是處于近場還是遠場模型,最先做的工作就是要獲取陣元之間的TDOA的估計。在理想情況下是非常容易解決的,一旦在實際應(yīng)用中獲取陣元之間的TDOA的估計,信號源通常會受到環(huán)境噪聲中以及混響的影響,獲取TDOA估計是一個很困難的問題。
在理想情況下,由于有噪聲的影響,兩個麥克風(fēng)組成的陣列接收信號的模型如下:
x1(t)=s(t)+n1(t)x2(t)=?琢s(t+D)+n2(t)
上式中,x1(t)和x2(t)分別代表兩個麥克風(fēng)收到的信號, s(t)為聲源信號,D為延時,?琢是幅度衰減因子,n1(t)和n2(t)用來表示環(huán)境中的加行噪聲,并且他們本身互不相關(guān)且與s(t)不相關(guān)。
在實際情況中,兩個麥克風(fēng)m1和m2的間距為D,分別接收到的信號xi(t)(i=1,2)可以表示為:
其中符號“*”為卷積算子,ni(t)為干擾部分,niI(t)表示第i個傳聲器的環(huán)境噪聲,niR(t)表示第i個傳聲器的多徑反射噪聲,hi(t)=R12()cij(j)是由IMAGE模型定義的房間脈沖響應(yīng)函數(shù),cij(i=1,2,j=0,1,…∞)為多徑反射的衰減因子,由于聲源信號直接傳播到傳聲器所經(jīng)過的路徑最短,并且多徑反射的衰減因子與聲源信號傳播的距離平方成反比,因此對于所有的j>0,有τij>τ,cij<=α(1,2)。
時延估計完成后就可以得到兩個麥克風(fēng)之間的時延τ,就可以進行聲源定向過程了。
參考文獻:
[1]M_ Brandstein and D.editors. Microphone Arrays: Signal Processing Techniques and Applications. Digital Signal Processing. Springer-Verlag, Berlin, 2001.
[2]Loftus J, Smart N P. Secure outsourced computation. Lecture Notes in Computer Science, vol 6737,2010, Berlin: Springer, 2010:1-20.