• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      PSO-BP神經(jīng)網(wǎng)絡(luò)在語音干擾效果評(píng)估中的應(yīng)用

      2019-04-04 03:17:40許亮趙松波高強(qiáng)莫家慶呂小毅郭翔
      現(xiàn)代電子技術(shù) 2019年6期
      關(guān)鍵詞:粒子群優(yōu)化算法干擾BP神經(jīng)網(wǎng)絡(luò)

      許亮 趙松波 高強(qiáng) 莫家慶 呂小毅 郭翔

      關(guān)鍵詞: 干擾; BP神經(jīng)網(wǎng)絡(luò); 粒子群優(yōu)化算法; Mel倒譜; 特征參數(shù); 主觀MOS

      中圖分類號(hào): TN912?34 ? ? ? ? ? ? ? ? ? ? 文獻(xiàn)標(biāo)識(shí)碼: A ? ? ? ? ? ? ? ? ? ? ? ? ?文章編號(hào): 1004?373X(2019)06?0043?04

      Abstract: An objective speech interference effect evaluation method which uses the particle swarm optimization (PSO) algorithm to optimize the BP neural network is proposed, so as to overcome the shortcomings during the process of using the back propagation (BP) neural network to evaluate continuous speech data interference effects. In the method, the continuous speech data feature parameters obtained and extracted by using the Mel cepstrum technology are taken as the input of the model. The multi?point optimization is conducted for the initial weight coefficient of the BP neural network by means of the PSO, so as to construct the BP neural network model based on PSO algorithm optimization. The nonlinear mapping from the input values to the corresponding mean opinion scores of subjective evaluation is implemented by using the optimized BP neural network model. A verification for effectiveness of the method was conducted by using the selected representative speech data. The results show that, in comparison with the traditional BP neural network, the BP neural network model based on PSO algorithm optimization has a big improvement in the convergence speed, its convergence error can be effectively controlled within 4%, and the correlation coefficients and standard deviations of the model are closer to the ideal parameters.

      Keywords: interference; BP neural network; PSO algorithm; Mel cepstrum; feature parameter; subjective MOS

      伴隨著通信技術(shù)的發(fā)展及生活標(biāo)準(zhǔn)的提高,基于輸出的客觀語音干擾效果評(píng)估已經(jīng)成為干擾效果評(píng)估研究中的重要內(nèi)容,在實(shí)際的通信系統(tǒng)具有不可或缺的意義[1]。如現(xiàn)代軍事領(lǐng)域、遙感通信傳輸領(lǐng)域等在較難甚至不能獲取原始語音的狀況下,要實(shí)現(xiàn)語音質(zhì)量的客觀評(píng)價(jià),則必須采用基于輸出的客觀語音干擾效果評(píng)估系統(tǒng)進(jìn)行評(píng)估操作[2]。同時(shí)對命令的傳遞和執(zhí)行、通信設(shè)備的研制,以及語音信號(hào)增強(qiáng)、語音信號(hào)自動(dòng)快速識(shí)別、語音自動(dòng)客觀評(píng)分等領(lǐng)域中都具有重要的應(yīng)用前景[3]。

      目前,國內(nèi)外研究學(xué)者在語音干擾效果評(píng)估領(lǐng)域中提出眾多譜失真測度。其中,Mel倒譜失真測度充分且更真實(shí)地反映了人耳對語音重要特征參量的非線性感知特性,并形象地模擬了人耳聽到復(fù)雜聲音時(shí)所表現(xiàn)的頻率分析和譜合成特性[4]。同時(shí),Mel倒譜失真測度作為一種彎折頻率譜失真測度,以計(jì)算量少、運(yùn)行速度快的優(yōu)點(diǎn)受到了廣泛的關(guān)注,在語音干擾下效果客觀評(píng)價(jià)和語音識(shí)別等方面取得了大量的工程應(yīng)用,并獲取了顯著的成績[5?6]。本文采用Mel倒譜對連續(xù)語音信號(hào)進(jìn)行特征參數(shù)提取。

      BP神經(jīng)網(wǎng)具有強(qiáng)大的自組織性、協(xié)同性、容錯(cuò)性和聯(lián)想記憶性的優(yōu)勢,是目前人工智能領(lǐng)域中研究最多、應(yīng)用范圍最廣的一種神經(jīng)網(wǎng)絡(luò)。該網(wǎng)絡(luò)依據(jù)大腦結(jié)構(gòu)為原理,可以實(shí)現(xiàn)處理數(shù)據(jù)間的并行分析,進(jìn)而組建成了一種新的信息處理系統(tǒng)。在實(shí)際工程中,BP神經(jīng)網(wǎng)絡(luò)存在易陷入局部最優(yōu)、學(xué)習(xí)效率較低、搜索時(shí)間長、速度慢、網(wǎng)絡(luò)泛化及適應(yīng)能力較差等問題。文獻(xiàn)[7?8]提出粒子群優(yōu)化(Particle Swarm Optimization,PSO)算法,該算法以群體全局尋優(yōu)為基礎(chǔ),對種群進(jìn)行歷次迭代搜索,依據(jù)追蹤鳥群捕食的路徑,分析和研究后提出一種有效的尋優(yōu)算法,該算法具有易于實(shí)現(xiàn)、結(jié)構(gòu)簡單、收斂速度快等特點(diǎn)。目前已廣泛應(yīng)用于模式識(shí)別、函數(shù)優(yōu)化、數(shù)據(jù)挖掘及神經(jīng)網(wǎng)絡(luò)等許多領(lǐng)域,具有良好的應(yīng)用前景。本文利用PSO優(yōu)化的BP神經(jīng)網(wǎng)絡(luò)模型,由一些簡單且高度互聯(lián)的處理元素來實(shí)現(xiàn)語音信號(hào)特征參數(shù)到主觀評(píng)價(jià)平均意見得分(MOS)的映射,完成基于輸出的客觀音質(zhì)快速精準(zhǔn)的評(píng)估。

      1 ?基于Mel倒譜的特征參數(shù)提取

      Mel倒譜失真測度基于語音信號(hào)頻域分析原理而建立,在一定程度上模擬了人耳的聽覺系統(tǒng)特征,從而實(shí)現(xiàn)了對語音干擾前后語音頻率及幅度的模擬評(píng)價(jià)。并依據(jù)感知實(shí)驗(yàn)結(jié)果,通過非線性彎折,將信號(hào)頻率映射到新的頻率尺度空間,在新尺度空間下提取一系列典型的語音特征參數(shù)。Mel頻率尺度可以很精準(zhǔn)地模擬聽覺系統(tǒng)對音量的敏感程度及與聲頻之間的關(guān)系。Mel倒譜系數(shù)表示法則是一種基于短時(shí)傅里葉變換的譜包絡(luò)參數(shù)表示方法。Mel倒譜與其他倒譜相比,運(yùn)算量較小,易于實(shí)現(xiàn),不依賴于全局點(diǎn)語音產(chǎn)生模型,在噪聲干擾條件下具有較強(qiáng)的穩(wěn)定性,使得其在語音信號(hào)分析中取得更加廣泛的應(yīng)用[6]。對連續(xù)語音信號(hào)進(jìn)行特征參數(shù)提取的步驟如下。

      1) 預(yù)處理:由于聲門激勵(lì)和口鼻輻射的影響,且語音信號(hào)是非平穩(wěn)信號(hào),因此需對語音信號(hào)s(n)進(jìn)行預(yù)處理,預(yù)處理包括預(yù)加重、分幀和加窗兩部分操作。預(yù)加重前信號(hào)是s(n),預(yù)加重后信號(hào)為[sn]。本文選取8 000 Hz進(jìn)行采樣,一幀為25 ms,故一幀的采樣點(diǎn)數(shù)為200個(gè);采用Hamming窗作為窗函數(shù)進(jìn)行窗截取。

      2) FFT變換:FFT變換之前,對每一幀語音序列[P(n)]補(bǔ)56個(gè)0,然后進(jìn)行256點(diǎn)FFT變換,再取模平方進(jìn)行短時(shí)功率譜[P(f)]的計(jì)算。

      3) 頻率彎折和濾波:頻率彎折過程中,利用線性頻率彎折的方法處理1 000 Hz以下的頻率,利用對數(shù)頻率彎折處理1 000 Hz以上的頻率。Mel頻率與線性頻率的非線性映射為:[mel=1 000 log2(1+f1 000)]。其中,[mel]表示Mel頻率;[f]表示線性頻率。彎折處理之后,使[P(f)]通過Mel測度三角帶通濾波器組,計(jì)算可得該序列通過每個(gè)數(shù)字濾波器的能量加權(quán)和[Ak]。

      通過語音數(shù)據(jù)測試實(shí)驗(yàn)結(jié)果可得,在同一個(gè)干擾效果客觀評(píng)估系統(tǒng)之中,對多組不同的語音文件進(jìn)行客觀評(píng)價(jià)時(shí),PSO?BP網(wǎng)絡(luò)模型誤差明顯低于BP網(wǎng)絡(luò)模型,且PSO?BP模型的各項(xiàng)性能指標(biāo)也均優(yōu)于BP模型。由此可得,PSO?BP神經(jīng)網(wǎng)絡(luò)評(píng)估模型在BP神經(jīng)網(wǎng)絡(luò)評(píng)估模型的基礎(chǔ)上,對BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)系(權(quán)值和閾值)進(jìn)行優(yōu)化,降低了模型的評(píng)估誤差,提高了模型的可靠性,并進(jìn)一步提升了BP神經(jīng)網(wǎng)絡(luò)評(píng)估模型的精確度。

      5 ?結(jié) ?語

      本文利用Mel倒譜對不同失真條件下的語音文件進(jìn)行MFCC特征參數(shù)提取,采用PSO算法對BP神經(jīng)網(wǎng)絡(luò)的初始權(quán)值和閾值進(jìn)行優(yōu)化,利用優(yōu)化后PSO?BP神經(jīng)網(wǎng)絡(luò)模型對不同語音文件進(jìn)行干擾效果客觀評(píng)估,形成一個(gè)新的語音干擾效果評(píng)估模型,也為語音干擾效果客觀評(píng)估確立了一個(gè)新的快速評(píng)估標(biāo)準(zhǔn)。客觀評(píng)估結(jié)果與主觀評(píng)估結(jié)果相關(guān)聯(lián),與失真干擾的變化規(guī)律一致,能有較真實(shí)且精確地反映不同失真條件人的主觀感覺[13]。最終可以通過PSO?BP模型的客觀評(píng)估結(jié)果來快速精確預(yù)測或者代替主觀評(píng)估結(jié)果,對主觀判斷者起到較好的輔助作用,且減小了干擾環(huán)境下主觀評(píng)估的不確定性,具有較好的應(yīng)用前景。

      注:本文通訊作者為呂小毅。

      參考文獻(xiàn)

      [1] 張偉偉.通信系統(tǒng)中語音質(zhì)量評(píng)價(jià)的研究[D].北京:北京郵電大學(xué),2014.

      ZHANG Weiwei. The research on speech quality assessment in communication system [D]. Beijing: Beijing University of Posts and Telecommunications, 2014.

      [2] 譚曉衡,許可,秦基偉.基于聽覺感知特性的語音質(zhì)量客觀評(píng)價(jià)方法[J].西南交通大學(xué)學(xué)報(bào),2013,48(4):756?760.

      TAN Xiaoheng, XU Ke, QIN Jiwei. Objective evaluation method of speech quality based on auditory perceptual properties [J]. Journal of Southwest Jiaotong University, 2013, 48(4): 756?760.

      [3] 郝佳,彭沛沛.BP神經(jīng)網(wǎng)絡(luò)在語音干擾評(píng)估系統(tǒng)中的應(yīng)用研究[J].信息通信,2016(4):6?7.

      HAO Jia, PENG Peipei. Application of BP neural network in speech interference assessment system [J]. Information & communications, 2016(4): 6?7.

      [4] 袁飛,陳煒玲,李曄,等.水聲語音通信體驗(yàn)質(zhì)量的實(shí)時(shí)測量方法[J].數(shù)據(jù)采集與處理,2016,31(2):307?314.

      YUAN Fei, CHEN Weiling, LI Ye, et al. Real?time measurement for experience quality of underwater acoustic voice communication [J]. Journal of data acquisition & processing, 2016, 31(2): 307?314.

      [5] 尚永強(qiáng),殷未來,姜雙雙,等.基于相位調(diào)制特征的語音活動(dòng)檢測[J].吉林大學(xué)學(xué)報(bào)(信息科學(xué)版),2016,34(1):29?33.

      SHANG Yongqiang, YIN Weilai, JIANG Shuangshuang, et al. Voice activity detection based on phase modulation feature [J]. Journal of Jilin University (Information science edition), 2016, 34(1): 29?33.

      [6] 鄧瑞,肖純智,高勇.基于MFCC相似度和譜熵的端點(diǎn)檢測算法[J].現(xiàn)代電子技術(shù),2013,36(21):67?69.

      (上接第46頁)

      DENG Rui, XIAO Chunzhi, GAO Yong. Endpoint detection algorithm based on MFCC similarity and spectrum entropy [J]. Modern electronics technique, 2013, 36(21): 67?69.

      [7] EBERHART R C, KENNEDY J. A new optimizer using particle swarm theory [C]// Proceedings of the Sixth International Symposium on Micro Machine and Human Science. Nagoya: IEEE, 1995: 39?43.

      [8] EBERHART R C, KENNEDY J. Particle swarm optimization [C]// Proceedings of IEEE International Conference on Neural Networks. Perth: IEEE, 1995: 1942?1948.

      [9] KENNEDY J, EBERHART R C, SHI Y. Swarm intelligence [M]. San Francisco: Morgan Kaufman Publishers, 2001: 20?28.

      [10] 楊遵,雷虎民.采用粒子群優(yōu)化算法規(guī)劃無人機(jī)偵察航路[J].電光與控制,2007,14(2):4?7.

      YANG Zun, LEI Humin. Particle swarm optimization based path planning for reconnaissance of unmanned air vehicles [J]. Electronics optic & control, 2007, 14(2): 4?7.

      [11] 中華人民共和國信息產(chǎn)業(yè)部.軍用通信系統(tǒng)音質(zhì)的MOS評(píng)價(jià)法:SJ/T20771?2000[S].北京:中國標(biāo)準(zhǔn)出版社,2000.

      Ministry of Industry and Information Technology of the People′s Republic of China. MOS method of speech quality assessment for military communication systems: SJ/T20771?2000 [S]. Beijing: Standards Press of China, 2000.

      [12] 佚名.MOS測試語音材料表(配套應(yīng)用標(biāo)準(zhǔn)):SJ6607?2000[S].北京:中國標(biāo)準(zhǔn)出版社,2000.

      Anon. Speech material table of MOS test (matched application standard): SJ6607?2000 [S]. Beijing: Standards Press of China, 2000.

      [13] 張毅,謝延義,羅元,等.一種語音特征提取中Mel倒譜系數(shù)的后處理算法[J].智能系統(tǒng)學(xué)報(bào),2016,11(2):208?215.

      ZHANG Yi, XIE Yanyi, LUO Yuan, et al. Postprocessing method of MFCC in speech feature extraction [J]. CAAI transactions on intelligent systems, 2016, 11(2): 208?215.

      猜你喜歡
      粒子群優(yōu)化算法干擾BP神經(jīng)網(wǎng)絡(luò)
      基于改進(jìn)SVM的通信干擾識(shí)別
      基于自適應(yīng)線程束的GPU并行粒子群優(yōu)化算法
      基于混合粒子群算法的供熱管網(wǎng)優(yōu)化設(shè)計(jì)
      基于改進(jìn)支持向量機(jī)的船舶縱搖預(yù)報(bào)模型
      科學(xué)處置調(diào)頻廣播信號(hào)對民航通信干擾實(shí)例
      基于BP神經(jīng)網(wǎng)絡(luò)的旅行社發(fā)展方向研究
      商情(2016年39期)2016-11-21 09:30:36
      復(fù)雜背景下的手勢識(shí)別方法
      BP神經(jīng)網(wǎng)絡(luò)在軟件質(zhì)量評(píng)價(jià)中的應(yīng)用研究 
      BP神經(jīng)網(wǎng)絡(luò)算法在數(shù)值預(yù)報(bào)產(chǎn)品釋用中的應(yīng)用
      科技視界(2016年20期)2016-09-29 14:15:12
      富顺县| 义乌市| 广安市| 当涂县| 四会市| 民丰县| 三江| 迁西县| 广河县| 宁城县| 香河县| 建平县| 吉水县| 新化县| 霍城县| 子洲县| 天水市| 阿克陶县| 广灵县| 榆社县| 徐汇区| 隆化县| 迭部县| 华容县| 洱源县| 翁源县| 巴林右旗| 榆中县| 崇阳县| 中山市| 个旧市| 德州市| 永城市| 上饶县| 育儿| 连平县| 沙洋县| 荣成市| 二连浩特市| 临夏市| 乌审旗|