• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多說話人環(huán)境下目標(biāo)說話人語音提取方案①

      2016-06-15 03:50:14葉于林莫建華劉夏中國人民解放軍78438部隊成都610066
      計算機系統(tǒng)應(yīng)用 2016年4期

      葉于林,莫建華,劉夏(中國人民解放軍78438部隊,成都 610066)

      ?

      多說話人環(huán)境下目標(biāo)說話人語音提取方案①

      葉于林,莫建華,劉夏
      (中國人民解放軍78438部隊,成都 610066)

      摘 要:于目標(biāo)聲源的方位信息與非線性時頻掩蔽語音欠定盲分離方法和BP說話人識別技術(shù)的研究基礎(chǔ)上,針對現(xiàn)實生活中多說話人交流場景,設(shè)計并提出了一種行之有效的解決方案,實現(xiàn)了對處于任意方位的任意目標(biāo)說話人語音的提取.該方案總體上分目標(biāo)語音搜索與提取兩個階段,搜索階段采用了BP說話人識別技術(shù),提取階段采用了一種改進的勢函數(shù)聚類聲源方位信息與非線性時頻掩蔽的語音欠定盲分離方法.實驗結(jié)果表明: 該方案具有可行性,可從混合語音流中有效提取處于任意方位的目標(biāo)說話人語音,且效果較好,信噪比增益平均為8.68dB,相似系數(shù)為85%,識別率為61%,運行時間為20.6S.

      關(guān)鍵詞:欠定盲分離; 勢函數(shù)聚類; 非線性時頻掩蔽; BP說話人識別

      在現(xiàn)實生活中,人們無時無刻不處在伴隨著大量混響、噪聲、干擾、背景音樂等嘈雜聲學(xué)環(huán)境之中,比如多人在一起交流討論、會議活動等.在這樣的復(fù)雜環(huán)境中,對于人類而言總是能夠主動地關(guān)注、跟蹤、鎖定感興趣的聲音信號,并有選擇性的分辨提取所需的聲音信息.人耳這種聽覺選擇關(guān)注現(xiàn)象即所謂的“雞尾酒會效應(yīng)”[1](cocktail party effect),也叫選擇性關(guān)注(selective attention),該現(xiàn)象表明了人耳聽覺系統(tǒng)對聲音信號的處理機理,同時也展示了人類語音理解機制所特有的一種感知機能,即人耳聽覺系統(tǒng)的強大語音辨識和抗干擾能力.

      隨著語音處理及計算機技術(shù)的飛速發(fā)展,如何讓計算機語音系統(tǒng)來模擬人耳的聽覺功能,實現(xiàn)智能的跟蹤、識別目標(biāo)說話人并提取其語音,無疑是一項具有挑戰(zhàn)性的研究工作.為使得該研究工作的順利進行,首先我們需設(shè)計出具有科學(xué)性、可行性、可靠性的解決方案,而方案的設(shè)計以語音分離與說話人識別技術(shù)為基礎(chǔ).為此,我們必須對語音分離與說話人識別兩項技術(shù)進行深入研究.語音分離技術(shù)目前比較成熟且國內(nèi)外普遍使用的主要是盲源分離,其研究熱點為欠定盲分離[2],它主要采用稀疏分量分析(SCA),利用語音信號在時頻域的稀疏特性并采用兩步法來實現(xiàn)盲源分離[3-5],文獻[3-5]提出了一些解決欠定盲分離的方法,但還存在著一定的局限和缺陷,如計算量大、混迭矩陣盲辨識復(fù)雜、空間方向擴散等問題; 說話人識別技術(shù)目前則主要圍繞語音特征參數(shù)提取與識別方法兩個方面進行研究,特征參數(shù)以基于聽覺模型的語音特征為主,包括有LPCC、MFCC等特征參數(shù)[6],識別方法主要有基于DTW、VQ、HMM、GMM、BP、深度信念神經(jīng)網(wǎng)絡(luò)等說話人識別技術(shù)[7].

      本文就多說話人環(huán)境中目標(biāo)說話人語音提取展開研究,主要基于目標(biāo)聲源的方位信息與非線性時頻掩蔽語音欠定盲分離方法和BP說話人識別技術(shù),提出了一種具有一定主動性和選擇性的目標(biāo)說話人語音的提取解決方案并應(yīng)用于現(xiàn)實生活中多說話人交流場景,實現(xiàn)了智能跟蹤識別目標(biāo)說話人并提取其語音的研究目的,且通過仿真實驗驗證了所提方案的有效性.該研究對豐富和發(fā)展計算機聽覺理論及其在聲源定位、語音分離、語音/說話人識別、人工智能等研究領(lǐng)域都具有重要的意義,同時對人耳聽覺系統(tǒng)的研究也有著深遠的影響.

      1 多說話人環(huán)境下目標(biāo)說話人語音欠定盲分離及識別技術(shù)

      多說話人環(huán)境下目標(biāo)說話人語音提取研究,是一項非常復(fù)雜的語音處理系統(tǒng)工程,主要涉及了語音分離和說話人識別兩個方面的研究內(nèi)容,本文針對多說話人語音分離采用了一種基于目標(biāo)聲源方位信息與非線性時頻掩蔽的語音欠定盲分離方法,目標(biāo)說話人識別采用了BP說話人識別技術(shù).

      1.1基于目標(biāo)聲源方位信息與非線性時頻掩蔽的語音欠定盲分離

      1.1.1基本原理

      一般情況,麥克風(fēng)接收到的干擾信號和目標(biāo)語音信號來自不同方位,具有方位信息.其方位信息可通過麥克風(fēng)間的相對時延(ITD)與聲強差(IID)來表征.由于聲源方位信息為聲音信號固有的一種特性,在頻域中具有聚類特性,在進行語音分離處理時可作為一種特定參數(shù),對它進行聚類分析,其后估計出混合矩陣,為語音分離提供條件.同時語音信號又具有時頻近似稀疏性,根據(jù)時頻域單源主導(dǎo)的相關(guān)理論,采用非線性時頻掩蔽可實現(xiàn)混合語音信號的盲分離及提取.由此本文以語音信號的方位信息、時頻稀疏性及人耳聽覺感知的時頻掩蔽效應(yīng)為理論基礎(chǔ),依據(jù)P.Bofill[8]等提出的在SCA條件下欠定盲分離的兩步分離法,第一步采用勢函數(shù)聚類分析估計混合矩陣或每個聲源的方位信息; 第二步采用非線性時頻掩蔽法提取目標(biāo)(某方向)的語音.以最終實現(xiàn)混合語音的目標(biāo)語音分離提取.

      1.1.2實現(xiàn)步驟

      本文研究的混合語音分離模型為衰減—時延模型,在時域上的表達式為:

      式(1)中,xi(t)為第i個麥克風(fēng)接收到的混合語音信號,sl(t)為第l個源語音信號,ail表示衰減系數(shù),til表示時間延遲,t=1 ,...,N 表示離散時間.

      針對此分離模型,本文基于雙麥克風(fēng)陣進行語音欠定盲分離,如圖1所示.

      圖1 多聲源到雙麥克風(fēng)的傳輸示意圖

      根據(jù)圖1,對麥克風(fēng)接收的混合語音信號進行短時傅里葉變換(STFT)可得:

      定義聲源的方位信息為DH,它可通過相對幅度衰減和相對時延來表示:

      根據(jù)式(3),在實際語音信號分離處理中,聲源的方位信息可轉(zhuǎn)換為計算不同聲源處于不同方位而導(dǎo)致的不同的q和t.依據(jù)以上分析,本文混合語音分離的實現(xiàn)步驟如下:

      ① 通過雙麥克風(fēng)(1、2)接收并得到語音信號x1,x2,對接收信號進行預(yù)處理、端點檢測并對其進行短時傅里葉變換(STFT)得到頻域信號X1(wk,t),X2(wk,t).

      ④ 將這一段語音的所有時頻點(qk,tk)采用勢函數(shù)聚類分析,估計得到聲源的個數(shù)及其各聲源的相對衰減和時延(qi,ti).

      ⑤ 以估計得到的每個聲源方位信息為基準(zhǔn),通過比較各時頻單元的DHt(wk)與它的差別,采用非線性時頻掩蔽分離提取語音.

      通過以上5個步驟可實現(xiàn)在欠定條件下混合語音的盲分離.實現(xiàn)步驟中,步驟4和5是關(guān)鍵,體現(xiàn)了兩步法的精髓.本文在步驟4中采用了一種改進的勢函數(shù)聚類算法[9],步驟5中采用了非線性時頻掩蔽語音分離法[10],下面分別對其進行研究分析.

      1.1.3關(guān)鍵技術(shù)

      1)改進的勢函數(shù)聚類算法

      該算法是在原勢函數(shù)的基礎(chǔ)上改進得來,原勢函數(shù)表示為:

      其基函數(shù)j(a)為:

      由于原勢函數(shù)的聚類區(qū)間范圍受限,只能在接近于0到p的范圍內(nèi),且也不能同時對二維或多維數(shù)據(jù)進行聚類,故本文對原勢函數(shù)進行了改進,使之能滿足同時對本文聲源方位信息的衰減和時延兩個參數(shù)進行聚類.

      改進的勢函數(shù)聚類算法,新勢函數(shù)表示為:

      新勢函數(shù)的基函數(shù)表示為:

      式(7)中,參數(shù)x、p為需要設(shè)置的可變參數(shù),本文分別設(shè)置為: 0.15,10.

      改進的勢函數(shù)對二維變量聚類時,需同時對a和t進行搜索,算法復(fù)雜度將呈平方增加,計算量增大,且耗時.故本文采用兩次聚類方式使得聚類效率進一步提升,主要思想是第一次采用大間隔進行搜索聚類,取值間隔越大,精度越低,搜索速度越快.第一次聚類后會得到一個勢函數(shù)曲面,通過圖形可直觀的看出有n個波峰,即有n個聲源.第二次采用小間隔搜索聚類,取值是根據(jù)第一次聚類后n個波峰的坐標(biāo),以最小間隔為搜索間隔.

      2)非線性時頻掩蔽分離法

      在利用改進的勢函數(shù)聚類估計出聲源個數(shù)及混合矩陣的基礎(chǔ)上,可結(jié)合混合矩陣實現(xiàn)對混合語音的欠定盲分離,本文主要采用了非線性時頻掩蔽的分離方法.具體實現(xiàn)如下:

      定義每個時頻點的掩蔽系數(shù)為Mk(wk,t),計算公式為:

      式(9)中,參數(shù)l、p為可變參數(shù),需要自定義,本文分別設(shè)置為8,6.參數(shù)a為聲源某時頻單元估計的方位信息與目標(biāo)語音方位信息的差異.在雙麥克風(fēng)陣條件,a表示為:

      1.2BP說話人識別

      隨著說話人識別技術(shù)的研究發(fā)展,人工神經(jīng)網(wǎng)絡(luò)方法也應(yīng)用于說話人識別中,其中BP神經(jīng)網(wǎng)絡(luò)[11]是目前應(yīng)用最為廣泛的神經(jīng)網(wǎng)絡(luò)模型之一.

      BP神經(jīng)網(wǎng)絡(luò)是一種將誤差按逆方向進行傳播修正的多層前饋網(wǎng)絡(luò),應(yīng)用在說話人識別中具有識別率高、識別時間短等優(yōu)點.網(wǎng)絡(luò)組成的最小基本單元為神經(jīng)元,網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)由輸入層、隱層、輸出層構(gòu)成,隱層可為多層; 網(wǎng)絡(luò)學(xué)習(xí)算法主要采用BP算法[12,13],基本思想是利用負(fù)梯度下降算法采取迭代運算來求解權(quán)值,主要有前向計算(正向傳播)和反向傳播誤差兩個過程,兩個過程交替進行,使得網(wǎng)絡(luò)誤差達到最小值,同時保存網(wǎng)絡(luò)的權(quán)值和偏差; 實現(xiàn)步驟包括網(wǎng)絡(luò)構(gòu)建、網(wǎng)絡(luò)訓(xùn)練、網(wǎng)絡(luò)識別三個步驟.

      本文主要是針對多說話人環(huán)境中目標(biāo)說話人語音提取方案進行研究設(shè)計,說話人識別只是對分離語音進行目標(biāo)說話人身份確認(rèn),其技術(shù)本身不是本文研究重點,故本文借鑒文獻13的基本思想來實現(xiàn)說話人識別,具體參數(shù)設(shè)置為: 網(wǎng)絡(luò)結(jié)構(gòu)為三層,輸入層、隱層(為一層)、輸出層各層的神經(jīng)元分別設(shè)置為24、49、3; 網(wǎng)絡(luò)訓(xùn)練基于遺傳算法優(yōu)化的BP算法,學(xué)習(xí)率為0.0001,訓(xùn)練精度為0.00001,反向傳播算法迭代次數(shù)為1000,網(wǎng)絡(luò)輸出準(zhǔn)則設(shè)置為輸出節(jié)點選取最大值置1,其它輸出置0; 語音特征參數(shù)為24維的差分MFCC特征參數(shù),前12維為靜態(tài)參數(shù),后12維為動態(tài)參數(shù).

      2 多說話人環(huán)境下目標(biāo)說話人語音提取方案設(shè)計

      在基于目標(biāo)說話人語音方位信息與非線性時頻掩蔽語音欠定盲分離方法及BP說話人識別技術(shù)的研究基礎(chǔ)上,本文針對現(xiàn)實生活中多人談話交流的情景,設(shè)計并提出了一種目標(biāo)說話人語音提取解決方案,該方案總體上分兩個階段: 一是目標(biāo)語音搜索階段; 二是目標(biāo)語音提取階段.

      2.1方案設(shè)計

      具體解決方案如圖2所示.

      2.2方案分析

      2.2.1實現(xiàn)步驟

      對解決方案示意圖進行研究分析,可通過如下的步驟來實現(xiàn)目標(biāo)說話人語音的提取:

      ① 對輸入的混合語音流進行分割分段處理;

      ② 通過改進勢函數(shù)聚類提取混合語音方位信息;

      ③ 依據(jù)主導(dǎo)方位信息通過非線性時頻掩蔽法分離提取主導(dǎo)語音(注: 為簡化計算,搜索階段每段語音只提取了主導(dǎo)語音,即能量最大方位的語音);

      ④ 將提取的主導(dǎo)語音采用BP說話人識別進行目標(biāo)說話人識別,如果識別結(jié)果是目標(biāo)說話人轉(zhuǎn)向步驟5,否則轉(zhuǎn)向步驟1對下一段語音流進行搜索處理.

      圖2 解決方案示意圖

      ⑤ 由于混合語音經(jīng)時頻掩蔽后,分離出的語音信號依然保留了原有的方位信息,因此可對目標(biāo)說話人語音方位信息進行進一步修正,獲得更準(zhǔn)確的方位信息;

      ⑥ 基于修正的方位信息提取目標(biāo)說話人語音;

      ⑦ 目標(biāo)說話人的跟蹤監(jiān)測(同樣采用BP說話人識別),經(jīng)識別如果還是目標(biāo)說話人,則轉(zhuǎn)向步驟5繼續(xù)對目標(biāo)說話人的方位進行修正; 如果不是則進行重新搜索.(注: 此步目標(biāo)說話人的跟蹤監(jiān)測,不是時時進行,本文采用了一定時間間隔(5秒)進行抽查.)

      2.2.2相關(guān)步驟說明

      以上解決方案的實現(xiàn)步驟中有三處處理需要特別說明: 一是語音流分割分段處理; 二是聲源方位信息修正處理; 三是目標(biāo)說話人的跟蹤監(jiān)測.

      語音流分割分段處理: 為了實現(xiàn)對目標(biāo)語音的實時搜索,就需要將語音流分割成較小的段,但較小的段會帶來目標(biāo)說話人的識別率下降,本文綜合考慮了各種因素以及實現(xiàn)的簡單,采用了固定段長分割方法,具體分20幀一段.

      聲源方位信息修正處理: 一般情況通過勢函數(shù)聚類分析可得到語音初估方位信息,再利用初估的語音方位信息進行時頻掩蔽提取語音,在一定程度上提取出的語音有比較高的信噪比,分離效果較好.但為了進一步提升語音分離效果,還需進一步對初估的語音方位信息進行修正,使之更加精確.由于掩蔽分離后的語音信號依然保留了聲源的方位信息,在進行方位修正時可直接對其進行修正.對此,本文采用了相關(guān)辨識法來獲取更加準(zhǔn)確的DH0(w)估計,計算公式如下:

      式(12)中,G21(w)和G11(w)分別表示麥克風(fēng)1、2掩蔽分離后的語音信號的互功率譜和麥克風(fēng)1掩蔽后分離后的語音信號的功率譜.

      目標(biāo)說話人的跟蹤監(jiān)測處理: 在實際情況下目標(biāo)說話人的方位有可能發(fā)生變化,因此方案設(shè)計了對目標(biāo)說話人的跟蹤監(jiān)測.具體進行跟蹤監(jiān)測不是隨時進行的,本文采用了一定的時間間隔(5s)進行抽查監(jiān)測.

      在以上的實現(xiàn)步驟中只包括了對目標(biāo)說話人的識別及語音提取,除此之外,還需提前對待識別和分離的混合語音流進行相關(guān)的預(yù)處理、端點檢測,同時對說話人語音的MFCC特征參數(shù)提取、BP網(wǎng)絡(luò)學(xué)習(xí)等相關(guān)步驟,以此為方案的實現(xiàn)奠定基礎(chǔ).

      3 實驗仿真

      為了論證本文提出的解決方案的可行性,下面進行實驗仿真,并對實驗結(jié)果進行分析.

      3.1實驗環(huán)境及數(shù)據(jù)

      本文研究內(nèi)容是模擬現(xiàn)實生活中多人(3人,2男1 女)交流情況,對任意方位的目標(biāo)說話人進行辨識且分離提取其語音.由于現(xiàn)實環(huán)境中隨時隨地存在噪聲,故本文利用專業(yè)軟件“Room Impulse Response 2.2”構(gòu)建有混響情況的實驗環(huán)境,具體如圖3所示.

      圖3 設(shè)置三個聲源和雙麥克風(fēng)環(huán)境示意圖

      房間長、寬、高分別為(5、4、3)m,房間混響時間T=160ms,兩個全向麥克風(fēng)置于房間的中心,它們之間的距離0.1m,具體位置為: x1(2.45,2,1.5)、x2(2.55,2,1.5),利用這兩個麥克風(fēng)接收來自三個不同方位的說話人語音,即三個聲源.三個聲源(3個說話人,2男1女)成圓環(huán)狀放置且在正半平面,到兩麥克風(fēng)中心的距離為1m,g為方位角(定義為聲源相對于雙麥克風(fēng)陣(x1,x2)水平線的夾角),三個聲源的g取值分別45o,90o,135o,利用聲源的方位角可計算出聲源對應(yīng)的位置,具體分別為: S1(3.21,2.71,1.75),S2(2.5,3,1.70)和S3(1.79,2.71,1.65),同時三個說話人與聲源對應(yīng)關(guān)系為: S1為男生1、S2為女生1、S3為男生2.聲源到麥克風(fēng)的沖擊響應(yīng)由專業(yè)軟件生成,觀測信號由3個源信號和沖擊響應(yīng)卷積混合并疊加-30dB的高斯白噪聲模擬環(huán)境噪聲獲得.

      實驗數(shù)據(jù): 分別對三人采集時長為20s,文本內(nèi)容不一樣的2句語音作為識別訓(xùn)練樣本,待分離識別語音流時長為150s.語音格式為wav格式,采樣頻率為10kHz,預(yù)加重系數(shù)為0.9375,分幀采用漢明窗(窗長512,幀移256),端點檢測采用短時能量與短時過零率兩者相結(jié)合的雙門限檢測方法.

      3.2性能評價參數(shù)

      語音分離性能效果的評價,本文采用基于信號的評價準(zhǔn)則,具體為信噪比增益與互相關(guān)系數(shù)兩個評價指標(biāo).信噪比增益定義如下:

      互相關(guān)系數(shù)定義為:

      式(13)、(14)中,E[.]為求均值運算,S(t)為純凈的目標(biāo)語音信號,y(t)為提取的目標(biāo)語音信號,x(t)為麥克風(fēng)接收的混合語音信號.式(13)中,SNRG的值越大說明分離效果越好,反之則較差; 另式(14)中,xsy表示純凈的目標(biāo)語音信號與提取的目標(biāo)語音信號的互相關(guān)系數(shù),如果xsy=1,說明提取的目標(biāo)語音信號與純凈的目標(biāo)語音信號完全相同,分離效果非常好.由于估計誤差的存在,xsy只能接近1; 如果xsy的值趨于0,說明y(t)與s(t)不相關(guān); 如果所有的xsy值偏離1較遠,則表示分離未完成.

      說話人識別性能的評價指標(biāo)主要采用了識別率,識別率是反映系統(tǒng)的識別正確率的高低.

      3.3實驗及結(jié)果分析

      實驗一: 設(shè)目標(biāo)說話人為女生1且位置相對固定,方位角為90o,利用設(shè)計方案從混合語音流中識別她并提取她的語音流.

      實驗采用改進的勢函數(shù)進行聚類分析,其中參數(shù)lt,x,p分別設(shè)置為1、0.15、10,兩次聚類取值間隔大小分別為:la1=10,lt1=2;la2=0.8,lt2=1;ka=2,kt=1; 非線性時頻掩蔽語音分離,參數(shù)l,p分別設(shè)置為8和6.在構(gòu)建的實驗環(huán)境中根據(jù)實驗條件進行仿真實驗,實驗實得勢函數(shù)聚類曲面效果圖如4所示.

      圖4中X軸表示相對時間延遲,Y軸表示相對幅度衰減(用角度表示),Z軸表示信號的勢能.從圖中可以看出有3個最大波峰,即對應(yīng)三個源信號,由于環(huán)境噪聲的存在,其大的波峰后面還有小的干擾波峰.波峰位置對應(yīng)源信號勢函數(shù)聚類估計的相對衰減、時延及勢能,根據(jù)對應(yīng)的參數(shù)值,得出估計的參數(shù)為:

      圖4 勢函數(shù)聚類效果圖

      根據(jù)上面估計得到參數(shù)利用時頻掩蔽可分離出目標(biāo)說話人的語音信號.實驗一分離提取的目標(biāo)說話人(女生1)時域波形如圖5所示.

      圖5 目標(biāo)說話人語音提取波形

      從圖5可以看出,采用本文設(shè)計的解決方案能成功的識別出了目標(biāo)說話人并提取出對應(yīng)的語音流,由此說明了本文提出的解決方案具有可行性.但由于目標(biāo)說話人源語音信號在開始階段沒有出現(xiàn),方案首先需要對給定的語音流進行目標(biāo)說話人語音搜索,因此分離提取的目標(biāo)說話人語音時域波形圖的開始階段和源語音有一定的差異.

      實驗數(shù)據(jù)結(jié)果如表1.

      表1 目標(biāo)說話人語音識別和分離實驗結(jié)果

      由表1可以直觀的看出,該方案提取的目標(biāo)說話人語音信號的信噪比增益、相似系數(shù)、識別率及運行時間都在我們所能接受的范圍內(nèi),且效果不錯.

      實驗二: 設(shè)目標(biāo)說話人同樣為女生1,位置發(fā)生變化,方位角由90 o變?yōu)?35o并相對固定不動,利用設(shè)計方案從混合語音流中識別她并提取她的語音流.

      實驗二分離提取的目標(biāo)說話人(女生1)時域波形如圖6所示.

      圖6 目標(biāo)說話人語音提取波形

      由圖6可以看出,同一目標(biāo)說話人(女生1)方位發(fā)生變化,該方案同樣能實現(xiàn)目標(biāo)說話人的語音提取.同時將圖5與6進行對比分析可得出,分離提取的目標(biāo)說話人語音波形圖形大致一樣,不同之處是分離提取語音的能量不一樣,實驗二比實驗一的能量要小一些,主要是由于目標(biāo)說話人的方位發(fā)生了變化(由90o變到135o)導(dǎo)致的,由此說明了說話人方位變化對分離效果有影響.

      表2 目標(biāo)說話人語音識別和分離實驗結(jié)果

      由表1、2對比可以看出,在同樣的SNR_in的情況下,實驗二的SNR_out、SNRG、、識別率比實驗一有所降低,主要是因為目標(biāo)說話人在新的位置(135o)的幅度衰減和時延要大一些,由此進一步說明了目標(biāo)說話人方位對分離效果有影響; 但運行時間沒有發(fā)生多大變化,幾乎沒有變化,說明系統(tǒng)運行時間與目標(biāo)說話人方位信息沒有關(guān)系,只與SNR_in有關(guān).

      實驗三: 設(shè)目標(biāo)說話人為男生1位置相對固定不動,方位角為45o,利用設(shè)計方案從混合語音流中識別他并提他的語音流.

      實驗三分離提取的目標(biāo)說話人(男生1)時域波形如圖7所示.

      圖7 目標(biāo)說話人語音提取波形

      對圖7分析可得,分離提取目標(biāo)說話人的語音信號波形圖與源語音信號相差不大,只是能量有所降低.主要是由于目標(biāo)說話人(男生1)源語音信號一開始就有,在利用設(shè)計方案進行目標(biāo)說話人語音搜索時,很快就搜索到; 同時由于方位的差異,衰減和時延大小有所不同.

      表3 目標(biāo)說話人語音識別和分離實驗結(jié)果

      根據(jù)表3的實驗數(shù)據(jù),證明本文的設(shè)計方案對任意方位的目標(biāo)說話人都可以識別并提取其語音,且效果較好.

      通過實驗一、實驗二、實驗三的實驗數(shù)據(jù)可得: 信噪比增益平均為8.68dB,相似系數(shù)為85%,識別率為61%,運行時間為20.6S,由此證明了本文設(shè)計的解決方案在現(xiàn)實多說話人的復(fù)雜環(huán)境中對任意方位的任意目標(biāo)說話人進行識別并提取其語音具有可行性; 實驗一、實驗二進一步證明了同一目標(biāo)說話人方位任意變化,設(shè)計方案也能有效的識別目標(biāo)說話人并提取其語音,只是分離提取出的語音能量有所不同.

      4 結(jié)語

      本文主要基于目標(biāo)聲源方位信息與非線性時頻掩蔽的語音欠定盲分離方法與BP說話人識別技術(shù)的研究基礎(chǔ)上,針對現(xiàn)實生活中多說話人交流的情景,設(shè)計并提出了一種解決方案,實現(xiàn)了對處于任意方位的目標(biāo)說話人語音的提取,以模擬實現(xiàn)“雞尾酒效應(yīng)”中人耳聽覺系統(tǒng)智能辨識語音的能力.通過仿真實驗證明,該方案具有科學(xué)性、可行性和有效性,但在可靠性、穩(wěn)定性和實用性方面還需進一步改進完善.根據(jù)研究體會,具體應(yīng)從下面幾個方面進行著重考慮: 一是大規(guī)模聲源的分離及識別(本文考慮了3個聲源);二是實際生活環(huán)境中,聲源信號實時移動或者是觀測點相對聲源信號移動情況下的語音分離(本文考慮的聲源信號相對固定不動或者移動幅度不大的情況); 三是復(fù)雜環(huán)境下說話人語音分離和識別中噪聲消除及語音增強; 四是利用音頻和視頻相結(jié)合的信息對說話人進行定位(本文只利用了語音的方位信息).

      參考文獻

      1Maddox J,鄭佳.解開“雞尾酒會效應(yīng)”之謎.世界科學(xué),1995,(1):23–23,40.

      2李從清,孫立新,龍東,任曉光.語音分離技術(shù)的研究現(xiàn)狀與展望.聲學(xué)技術(shù),2008,27(5):779–787.

      3邱天爽,畢曉輝.稀疏分量分析在欠定盲源分離問題中的研究進展及應(yīng)用.信號處理,2008,24(6):966–970.

      4李白燕,郭水旺,李應(yīng)生.基于兩步法稀疏分量分析的欠定盲源分離.電聲技術(shù),2010,34(9):64–67.

      5代勇,夏秀渝,陳林,葉于林.基于時頻域的具有延遲的欠定盲分離.四川大學(xué)學(xué)報(工程科學(xué)版),2014,46(Z1):166–170.

      6余建潮,張瑞林.基于MFCC和LPCC的說話人識別.計算機工程與設(shè)計,2009,30(5):1189–1191.

      7單進.說話人識別技術(shù)研究.科技資訊,2010,(21):3–3.

      8Bofill P,Zibulevsky M.Underdetermined blind source separation using sparse representation.Signal Processing,2001,81(11): 2353–2362.

      9代勇,夏秀渝,陳林.一種改進的勢函數(shù)聚類算法.電子技術(shù)應(yīng)用,2013,39(11):107–110.

      10夏秀渝,何培宇.基于聲源方位信息和非線性時頻掩蔽的語音盲提取算法.聲學(xué)學(xué)報,2013,38(2):224–230.

      11陳仁林,郭中華,朱兆偉.基于BP神經(jīng)網(wǎng)絡(luò)的說話人識別技術(shù)的實現(xiàn).智能計算機與應(yīng)用,2012,2(2):47–49.

      12陳仁林.基于神經(jīng)網(wǎng)絡(luò)的說話人識別算法研究[學(xué)位論文].銀川:寧夏大學(xué),2012.

      13蘭勝坤.遺傳算法優(yōu)化BP神經(jīng)網(wǎng)絡(luò)的說話人識別系統(tǒng).重慶理工大學(xué)學(xué)報(自然科學(xué)版),2013,27(10):91–95.

      Extraction Scheme of Target Speaker’s Speech Under Multi-Speaker Environment

      YE Yu-Lin,MO Jian-Hua,LIU Xia
      (78438 Troops of the Chinese People’s Liberation Army,Chengdu 610066,China)

      Abstract:Aiming at multi-speaker communication scene in real life,an effective solution is designed and proposed based on researches of underdetermined blind speech separation method of target sound source’s azimuth information and nonlinear time-frequency masking and BP speaker recognition technology,which can extract any target speaker’s speech in any orientation.The solution is generally divided into two stages,one is target speech search and the other is target speech extraction.The search stage uses BP speaker recognition technology.The speech extraction stage uses the method of underdetermined blind speech separation based on sound source azimuth information by an improved potential function clustering and nonlinear time-frequency masking.The results show that the solution is feasible.It can effectively extract the target speaker’s speech in any position from the mixed speech stream.The average SNRG is 8.68dB,the similarity coefficient is 85%,the recognition rate is 61%,and the running time is 20.6S.

      Key words:underdetermined blind source separation; potential function clustering; nonlinear time-frequency masking; BP speaker recognition

      收稿時間:①2015-07-10;收到修改稿時間:2015-08-12

      巧家县| 澄迈县| 博湖县| 定西市| 平泉县| 祁东县| 麻栗坡县| 沈丘县| 新野县| 黔西县| 三江| 合水县| 宜章县| 台南市| 耒阳市| 天津市| 长沙市| 日喀则市| 沧州市| 银川市| 三穗县| 嘉荫县| 增城市| 南开区| 大埔区| 沙田区| 武宣县| 铅山县| 昭觉县| 滦平县| 昭苏县| 招远市| 宣化县| 博野县| 瓦房店市| 黑山县| 青铜峡市| 浦东新区| 德令哈市| 阜新市| 桐乡市|