• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      利用諧波顯著度和語者音色特征的混合語音中目標人基頻軌跡提取

      2019-09-02 08:38:06后方帥黎美琪劉若倫
      聲學技術(shù) 2019年4期
      關(guān)鍵詞:八度基頻元音

      后方帥,黎美琪,劉若倫

      利用諧波顯著度和語者音色特征的混合語音中目標人基頻軌跡提取

      后方帥1,黎美琪2,劉若倫1

      (1. 山東大學,山東威海 264209;2. 中國科學院聲學研究所,北京 100190)

      從混合語音中提取出目標語者的基頻軌跡,是語音監(jiān)聽、語音門禁、對話管理等應(yīng)用的關(guān)鍵技術(shù)。為提高基頻軌跡跟蹤的準確率、增強抗八度誤差的能力、降低系統(tǒng)復雜度,多基頻估計以諧波乘積譜為核心,八度校正與基頻分組均以元音段為基本單元,并結(jié)合了諧波顯著度和語者音色特征?;贛IREX2005語音數(shù)據(jù)集的實驗表明,MIREX的4種多基頻估計性能指標均在75%以上,基頻分組在混合語音中的判斷準確率可達92%。

      多基頻軌跡;諧波乘積譜;語者識別

      0 引言

      混合語音基頻隨時間變化的軌跡,是語音分離、增強與識別的關(guān)鍵?,F(xiàn)有的基頻軌跡估計方法,主要依賴于各語音幀的靜態(tài)多基頻估計(Multi-Pitch Estimation, MPE),其基本思想可分為盲源分離、機器學習、諧波理論三大類。盲源分離類方法將混合信號看作是多個不同音源發(fā)出的信號,通過對音源信號特征的提取,將其分解為多個不同單源信號疊加的形式,然后分別檢測單源信號的基頻。最典型的就是基于計算聽覺場景分析(Computational Auditory Scene Analysis, CASA)的方法[1,2]。該類方法復雜且魯棒性不佳,對信噪比較敏感,且因連續(xù)語音存在清音及無聲段,基頻軌跡不完全連續(xù),難以實現(xiàn)精確時序組合。機器學習類方法[3]的共性是先提取混合信號每幀的基頻特征,并用于訓練分類器以獲取基頻軌跡。該法需大量數(shù)據(jù)才能訓練出比較理想的模型,而混合語音MPE的研究尚不成熟,可供使用的數(shù)據(jù)資源也不夠理想,故很難習得性能良好的分類器。諧波理論類方法[4]的主要思想是:混合語音信號所包含的基頻軌跡是各幀基頻信息連續(xù)變化的結(jié)果。典型的算法是HSU等[5]提出的諧波疊加法。這類方法大致分為兩部分,第一步計算語譜圖,然后將屬于某基頻的若干諧波幅度相加;第二步進行基頻判決確定基頻軌跡?;l判決的方法多樣,常用的有隱馬爾科夫模型(Hidden Markov Model, HMM)、趨勢估計等。這類方法理論基礎(chǔ)完善、研究成果豐富,而且實現(xiàn)簡單、計算量小。其中諧波乘積譜(Harmonic Product Spectrum, HPS)方法作為諧波疊加方法的改進,直觀地展現(xiàn)了元音段基頻軌跡,可以很好地體現(xiàn)基頻幀間的連續(xù)性。不過該方法較易出現(xiàn)倍/半頻錯誤,常用的基頻判決方法也較為復雜且判準率不高。

      基于不同的處理域,MPE方法又可分為時域、頻域和時頻域三大類。時域類方法的理論依據(jù)是音頻波形在時域上的周期性,該周期的倒數(shù)就是基頻。傳統(tǒng)的方法主要有增強的求和自相關(guān)法[6],該方法能取得較高的準確率,但是只適用于分析低頻信號;基于正弦混合模型的算法[7]在基頻數(shù)不超過3的情況下能取得較高的準確率。頻域類方法的理論依據(jù)是,混合語音信號可以看成基頻成分及其諧波成分的組合,混合信號的頻譜是多個單人語音信號頻譜的線性疊加。代表性的方法有迭代譜減算法[6],該方法的準確率高,但是在確定終止準則參數(shù)時需要不斷地實驗。時頻域類方法是在時域和頻域上同時對語音信號進行信息處理,可以起到一定的互補效果,主要方法有短時傅里葉變換(Short Time Fourier Transform, STFT)、小波分析等算法。

      鑒于時頻域及諧波理論類方法的優(yōu)越性,選取STFT下的HPS作為多基頻估計的基礎(chǔ)算法?,F(xiàn)有的基頻軌跡估計方法,主要依賴于各語音幀的單幀靜態(tài)多基頻估計,對幀間連貫性考慮則相對粗淺,故準確率并不高。HPS的計算過程還會在特定條件下加劇八度錯誤。故本文引入“元音段”重要概念,即時間和基頻都連續(xù)的語音成分。這里的連續(xù)性是指在幀間隔和頻率分辨率前提下的時頻連續(xù)?;谠舳沃C波顯著度的八度校正及基于語者音色的基頻分組,能夠有效提高基頻軌跡跟蹤的準確性,且降低了判決復雜度。

      元音及相關(guān)特征,如過零率、短時能量和梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCC)等,不僅可用于判別說話人的性別[8],還能用來區(qū)分不同語者。這類方法的關(guān)鍵問題是元音的端點檢測,許多學者也對此進行了研究[9-10]。端點檢測的一般方法都可以準確測定較純凈語音的元音起止位置,但對混合語音效果不佳。本文在混合語音多基頻估計中得到的元音段信息包含了準確的元音端點檢測結(jié)果,這保證了元音段音色特征在基頻分組中的有效性。雖然混合語音分析的早期代表人物趙鶴鳴等[11]、王敏等[12]眾多學者,多次討論了混合語音的多基頻提取及說話人識別問題,卻較少有將基頻估計與說話人識別聯(lián)合考慮的。本文將目標人基頻軌跡跟蹤視為基頻估計與說話人識別的聯(lián)合問題,用元音段作為兩者的橋梁,由多基頻估計確定元音段,并以此提取音色特征,同時特征參數(shù)又用于對元音段進行分組及修正,兩者融合互補。

      1 算法描述

      本文提出的算法框圖如圖1所示。預處理后的混合語音,首先通過HPS獲取元音段基頻,然后利用諧波能量和及諧波顯著度和對元音基頻進行八度校正,實現(xiàn)多基頻初步估計。根據(jù)已有的MPE結(jié)果,再用說話人識別中常用的音色特征對元音段基頻進行分組,從而準確跟蹤不同人語音的基頻變化軌跡,進而實現(xiàn)混合語音的增強與分離。

      圖1 針對目標人的混合語音多基頻軌跡提取算法框圖

      1.1 預處理

      預處理分時域和頻域兩種方式:時域預處理包括語音分段、消除趨勢項及直流分量和元音端點檢測;頻域預處理包括最佳語譜圖的確定及離散化和穩(wěn)態(tài)噪聲濾除。

      本文在傳統(tǒng)的基于短時平均過零率和短時平均能量的雙門限語音端點檢測方法[13]的基礎(chǔ)上,根據(jù)有話段能量大,過零率小,無話段和清音段的能量小,過零率大,故元音段能零比會更大,非元音段則更小。通過引入前導無話段能零比,就可實現(xiàn)準確的基于短時能零比的雙門限動態(tài)元音端點檢測。

      語音頻譜的離散化包括主瓣抑制和旁瓣抑制,其示意圖如圖2所示。首先用旁瓣抑制,只保留大于某閾值的部分譜峰。然后用主瓣抑制,只保留各峰值頻率附近一定譜寬的幅度。幅度閾值的設(shè)置需考慮語音信號的含噪聲情況,一般噪聲較大時取較大閾值,當語音信號比較純凈時可以取較小閾值甚至為0。譜峰寬度設(shè)為峰值幅度左右各衰減3 dB所對應(yīng)的寬度。離散化的主要目的是減少語音中的噪聲影響,增加基頻的魯棒性及減少計算量,使得后續(xù)HPS結(jié)果中,那些代表潛在基頻的頻譜峰值更加顯著。圖3是離散化后的語譜圖。

      圖2 語音頻譜離散化示意圖

      圖3 離散語譜圖示例

      1.2 基于連續(xù)性的元音段基頻提取

      混合語音MPE中的基頻連線的依據(jù),一般是頻率的幀間連續(xù)性,如周超等[14]利用語音基頻在相鄰兩幀內(nèi)不會超過15 Hz來區(qū)分不同基頻軌跡,雖然該方法只對單個音節(jié)進行了討論,并不適用于連續(xù)語音,但在一個元音段內(nèi)還是可行的。

      元音段基頻軌跡提取過程包括:HPS計算、歸一化、二值化及基頻連線等步驟。

      第1步,按式(1)定義計算HPS:

      第2步,為了凸顯各幀基頻并減少基頻野點,對每幀HPS幅度按最大值進行歸一化:

      第4步,由頻率的連續(xù)性以及元音段最小長度,對初始集合進行分組連線。在HPS給出的某幀基頻中,頻差小于較低頻率的1 Bark的所有頻率(Bark=26.81/(1+ (1960/))-0.53),將視為同一頻率的多個估計,取其平均值作為該基頻的估計結(jié)果。相鄰幀基頻間頻差經(jīng)類似處理后,即可得到元音段候選基頻軌跡集合{,},和分別代表軌跡的頻率和起止時刻。段長小于200 ms的結(jié)果將視為野點,直接從集合剔除。

      1.3 元音段基頻八度校正

      MPE中出現(xiàn)的次頻與倍頻錯誤統(tǒng)稱為八度錯誤。HPS的計算過程會在特定條件下加劇這種錯誤,因而需要引入八度校正對錯誤基頻進行重置。為了在校正中避免刪除真實的基頻,對于兩段重疊的候選元音,判定存在八度錯誤需同時滿足以下4條:重疊長度超過長段的1/4;重疊部分兩段軌跡變化趨勢大體相同;重疊部分兩段的基頻均值符合八度關(guān)系;兩段元音區(qū)分度小于八度校正閾值。本文聯(lián)合諧波能量、諧波顯著度這兩個指標進行八度錯誤校正,其物理基礎(chǔ)是短時HPS給出的候選基頻軌跡間的以下幾點發(fā)現(xiàn):

      (1) 八度錯誤軌跡和正確軌跡之間存在部分幀重疊,重疊部分的軌跡走向相同,但真實基頻軌跡一般會較長且間斷時間較短。以真實100 Hz軌跡為例,其可能存在的4種幀重疊如圖4所示。

      圖4 100 Hz正確基頻軌跡(藍色)的4種八度錯誤基頻軌跡(紅色)

      (2) 當諧波次數(shù)一定時,元音段的諧波能量將在真實基頻的情況下達到最大值。段諧波能量(Segment Harmonics Energy, SHE)定義為,在元音段內(nèi),基頻及其各次諧波的能量總和。式(3)給出了集合中第個基頻軌跡的SHE:

      (3) 在絕大部分情況下,諧波功率在基頻整數(shù)倍處的一個基頻寬度內(nèi),通常存在極大值;如果在兩倍基頻寬度內(nèi),就可能出現(xiàn)多個競爭性極值;在半個基頻寬度內(nèi),諧波點功率相對于鄰近頻率成分的優(yōu)勢則較低,即諧波功率極值的顯著程度會明顯降低[15]。

      類比SHE的定義方式,通過對各次諧波窄帶相對功率譜加權(quán)求和,定義第個元音段的FPS:

      式中,為壓縮因子[5],0<<1。引入該因子的目的是,讓容易出現(xiàn)失真的高次諧波對基頻產(chǎn)生更小的影響,本文選取=0.5。

      兩段元音存在八度關(guān)系不等于存在八度錯誤,如果兩段的區(qū)分度不足夠大,即和相差不大,可認為存在八度錯誤;若很大,即和相差很大,則認為兩段均應(yīng)獨立存在,暫不做處理。選取重置參考的時候也需類似的考量,僅當和同時大于1或同時小于1時,才按前述方法選取參考顯著度,否則需選動態(tài)范圍小的一對SHE或FPS設(shè)為參考顯著度。

      表1 八度重置方式

      1.4 基于元音段平均MFCC與平均基頻的基頻分組

      首先,按照上述方式確定目標人訓練集語音元音段基頻軌跡,并計算各段MFCC的均值(Averaged MFCC, AMFCC)和基頻均值(Averaged Fundamental Pitch, AFP)作為音色特征,分別存入目標人AMFCC和AFP樣本庫。測試時,對混合語各元音段進行相同的處理,并將提取到的結(jié)果與樣本庫中的樣本,依據(jù)相關(guān)系數(shù)進行遍歷匹配。若掃描任一樣本庫時的最大相關(guān)系數(shù)小于0.8,則判定該元音段為非目標人語音,直接剔除。

      2 實驗分析

      本文選取MIREX2005數(shù)據(jù)集中Amy(女)、Leon(男)、Yifen(女)3人的朗讀語音為基礎(chǔ)實驗材料,將其線性疊加后制成3~12 s的混合語音片段。

      2.1 基于HPS的MPE

      圖5為一段混合語音的MPE結(jié)果。其中圖5(a)、5(b)分別為引入八度校正前后的結(jié)果,圖5(c)為混合前各語音的單基頻估計結(jié)果的直接疊加。從前兩組結(jié)果可以看出,原始的HPS-MPE方法八度錯誤十分明顯,這主要是由頻譜的諧波結(jié)構(gòu)的起伏造成的。八度校正的引入去除了近90%的倍頻、半頻錯誤,這主要源于對元音基頻連續(xù)性、諧波能量、諧波顯著度等參數(shù)的多方面考慮,合理地對錯誤基頻進行了校正。

      (a) 同幀同頻處理+基頻分組+剔除野點

      (b) 剔除野點+八度糾正

      (c) 混合前單基頻檢測結(jié)果直接疊加 圖5 某段混合語音的MPE結(jié)果圖 Fig.5 Multipitch estimation results of a speech mixture segment

      將MIREX中四個性能指標的計數(shù)單位由幀改為元音段,就得到了本文MPE性能的評價指標。、、、R分別為查全率、查準率、精確率、精確率折中率:

      (9)

      式中,、、分別表示準確、虛報、漏檢的元音段個數(shù)??紤]到人耳感知音高的響應(yīng)時間頻率分辨能力,文中對頻率偏差不超過10%、元音段長度偏差不超過20%的元音段估計結(jié)果,都認為是準確的估計結(jié)果。

      整體系統(tǒng)運行過程中要具有一定的兼容性與可擴展性,采用標準的組建和接口配置,預留端口,為以后的系統(tǒng)擴展升級提供一定的條件。信號源和發(fā)射應(yīng)相互配合,能夠進行自動切換,在任何的情況下都能夠保證信號源的持續(xù)性,發(fā)射不中斷,盡量避免出現(xiàn)系統(tǒng)漏洞與設(shè)備故障的存在。[3]

      表2是針對Amy和Leon的混合語音,采用諧波能量、諧波顯著度的查全率,以及兩者聯(lián)合的MPE結(jié)果的全部4種性能指標。

      表2 Amy-Leon混合語音MPE實驗結(jié)果(%) Table 2 Multipitch estimation results of amy-leon mixrture(%) RrRrRaRpR 諧波能量諧波顯著度諧波能量+諧波顯著度 72.277.686.775.084.785.7

      從實驗結(jié)果可以看出,聯(lián)合兩個指標計算得出的查全率明顯高于單獨使用一項指標的結(jié)果,這主要是因為重置算法中使用了諧波能量比與諧波顯著度比中較大的作為參考值,當其中一個判斷錯誤時另一個可以彌補,從而減少整體的錯誤概率。查全率的提高是以虛報率的增加為代價的,丟失的基頻很難恢復,但虛報基頻卻可被剔除,所以需要稍微提高八度錯誤判定的門限值。漏檢錯誤主要是因為在端點檢測、消除噪聲、諧波乘積譜兩極化提取候選基頻中,誤刪了部分基頻,或在八度校正過程中誤判兩個真實的元音段存在八度錯誤而導致基頻被重置或者去除。虛報錯誤主要來自噪聲或者未被處理的八度錯誤基頻,它將在下面的分組中得到解決。從整體上來看,基頻估計的準確率較高,這主要是因為引入了幀間連續(xù)性,加入的八度校正模塊減少了八度錯誤。

      2.2 基頻軌跡分組

      本文對基于音色特征進行元音段分組算法的抗噪性、性別相關(guān)性及音色特征區(qū)分度,每組各做了100次試驗,其結(jié)果如表3所示,表中沒有對語音材料做特殊說明的均為純凈語音,含噪語音的信噪比為5 dB。本文中的識別率定義為:僅考慮測試語音中重疊元音段的前提下,準確判別說話人的元音段個數(shù)與全部重疊元音段個數(shù)之比。

      表3 基于音色特征的語者識別結(jié)果 Table 3 Speaker recognition results based on timbre features 實驗目的訓練樣本集測試集識別率/% 抗噪性Amy,LeonLeon99.2 Amy,LeonAmy(含噪)93.53 性別相關(guān)性Amy,Yifen(含噪)Amy95.4 Leon,Yifen(含噪)Leon98.7 AMFCC和AFP基頻軌跡分組的影響Amy,LeonAMFCCAmy+Leon64.5 Amy,LeonAMFCC, AFPAmy+Leon92.0

      如果單純從基頻的角度考慮,相同性別的混合語音基頻通常比較接近,因而較難區(qū)分。不過本文以元音段為最小識別單位,并且結(jié)合了音色識別來輔助基頻軌跡的分組,故識別率并無明顯降低。實驗結(jié)果表明,對于單人語音的分組,僅用一個AMFCC音色特征,即使在含噪聲的情況下也可以取得95%以上的識別率,這說明AMFCC能夠很好地區(qū)分不同說話人且具備一定的抗噪性?;旌险Z音分組識別率急劇下降的主要原因是:元音段的AMFCC在元音段重疊嚴重時,相關(guān)匹配誤差增大,通過引入AFP可以明顯改善分組結(jié)果,改善效果如圖6所示。

      街上有提著筐子賣蒲公英的了,也有賣小根蒜的了。更有些孩子們他們按著時節(jié)去折了那剛發(fā)芽的柳條,正好可以擰成哨子,就含在嘴里滿街地吹。聲音有高有低,因為那哨子有粗有細。

      圖6(a)是僅使用AMFCC時,完全重疊的基頻分組出現(xiàn)錯誤的可能性很大;圖6(b)顯示的是根據(jù)同一人同一時間不能對應(yīng)多個基頻的約束條件,同時使用AMFCC和AFP對錯判元音段進行糾正的結(jié)果,這證明音色特征參數(shù)越多,對說話人的刻畫越精細,識別率越高。

      (a) 八度糾正前基頻軌跡

      (b) 八度糾正后基頻軌跡 圖6 AMFCC基頻分組與AMFCC+AFP基頻分組結(jié)果的對比圖 Fig.6 Comparison of pitch trajectory grouping by AMFCC and AMFCC+AP 3 總結(jié) 本文將混合語音中目標人基頻軌跡的提取分為兩步:(1) 以元音段為單位,利用基于HPS及八度校正的MPE算法,減少了近90%的八度錯誤,與文獻[14]相比,提高了近10%。目前在MIREX2005音樂主旋律提取測試集上,音樂中人聲基頻提取性能最好的結(jié)果在88%~90%之間,但均對數(shù)據(jù)庫要求高,運行時間長;相對于大部分方法中用到的HMM等模型,本文的系統(tǒng)流程和算法簡單,運行速度快,效率高;引入元音段代替語音幀進行MPE,更好地考慮了幀間連續(xù)性,基于元音段的八度校正有效地糾正了HPS中的八度錯誤,最終在更為復雜的混合語音中,基頻估計準確率達84.7%。(2) 將基頻分組問題轉(zhuǎn)換為聯(lián)合音色相關(guān)匹配的MPE,提出基于元音段音色特征的與文本無關(guān)的基頻軌跡分組算法,僅使用AMFCC音色特征時,該算法在單人語音條件下的識別率接近100%,但是在混合語音情況下,識別率急劇下降,通過引入元音相關(guān)的AFP進行改進,最終識別率可達92.0%,即增加音色特征參數(shù)可以提升識別率。MPE結(jié)果與音色匹配融合互補,降低了噪聲對基頻估計的影響,同時提高了基頻估計準確率和識別率。本文在對MPE結(jié)果的分組判決中,訓練集樣本庫信息存在較大的冗余,模板對音色的刻畫能力有待提升。 參考文獻 [1] 胡琦. 基于計算聽覺場景分析的單信道語音分離[D]. 北京: 北京交通大學, 2014. HU Qi. Single channel speech separation based on CASA[D]. Beijing: Beijing Jiaotong University, 2014. [2] 吳春. 基于計算聽覺場景分析的雙說話人混合語音分離研究[D]. 廣西: 廣西大學, 2014. WU Chun. Double speakers speech mixture separation based on CASA[D]. Guangxi: Guangxi University, 2014. [3] 陳麟琳. 基于機器學習的欠定語音分離方法研究[D]. 大連: 大連理工大學, 2016. CHEN Linlin. Sub-defined speech sparation based on machine learning[D]. Dalian: Dalian University of Technology, 2016. [4] HUANG Q H, WANG D M. Multi-pitch estimation for speech mixture based on multi-length windows harmonic model[C]//2011 Fourth International Joint Conference on Computational Sciences and Optimization, 2011, 345-348. [5] HSU C L, WANG D L, JANG J R, et al. A tandem algorithm for singing pitch extraction and voice separation from music accompaniment[J]. IEEE Transactions on Audio, Speech, and Language Processing, 2012, 20(5): 1482-1491. [6] 陳雪梅. 樂音信號的MPE[D]. 山東: 山東大學, 2014. CHEN Xuemei. Multipitch estimation of music signal[D]. Jinan: Shandong University, 2014. [7] DAVY M, GODSILL S, IDIER J. Bayesian analysis of western tonal music[J]. J. Acoust. Soc. Am., 2006, 119(4): 2498-2517. [8] BHARALI S S, KALITA S K. Zero crossing rate and short term energy as a cue for sex detection with reference to Assamese vowels[C]//Convergence of Technology (I2CT), 2014 International Conference, 2014. [9] KUMAR A, SHAHNAWAZUDDIN S, PRADHAN G. Exploring different acoustic modeling techniques for the detection of vowels in speech signal[C]//Communication (NCC), 2016 Twenty Second National Conference on 4-6 March 2016. [10] STANEK M. Algorithms for vowel recognition in fluent speech based on formant positions[C]//Telecommunications and Signal Processing (TSP), 2013 36th International Conference on 2-4 July 2013. [11] 趙鶴鳴, 周旭東, 金延慶, 等. 基于小波變換的重疊語音基頻提取及聲調(diào)識別[J]. 聲學學報, 1999, 24(1): 87-93. ZHAO Heming, ZHOU Xudong, JIN Qingyan, et al. Overlapped speech fundamental frequency extraction and pitch recognition based on wavelet transform[J]. Acta Acustica, 1999, 24(1):87-93. [12] 王敏, 趙鶴鳴.基于多帶解調(diào)分析和瞬時頻率估計的耳語音話者識別[J]. 聲學學報, 2010, 35(1): 471-476. WANG Min, ZHAO Heming. Wisper speaker recognition based on multiband demodulation analysis and instance frequency estimation[J]. Acta Acustica, 2010, 35(1): 471-476. [13] 宋知用. MATLAB在語音信號分析與合成中的應(yīng)用[M]. 北京: 北京航空航天大學出版社, 2013, 78-95. SONG Zhiyong. Applications of MATLAB in speech signal analysis and synthesis[M]. Beijing: Beihang University Press, 2013, 78-95. [14] 周超, 洪弘. 漢語普通話雙基頻檢測[J]. 聲學學報, 2011, 36(2):239-243. ZHOU Chao, HONG Hong. Double fundamental pitch detection of Chinese mandarin[J]. Acta Acustica, 2011, 36(2): 239-243. [15] 宋黎明, 李明, 顏永紅. 諧波顯著度的基頻提取方法[J]. 聲學學報, 2015, 40(2): 294-299. SONG Liming, LI Ming, YAN Yonghong. Fundamental frequency extraction based on harmonic saliency[J]. Acta Acustica, 2015, 40(2): 294-299. Target pitch trajectory extraction in hybrid speech by using harmonic saliency and speaker’stimbre features KOU Fang-shuai1, LI Mei-qi2, LIU Ruo-lun1 (1. Shandong University, Weihai 264209, Shandong, China; 2. The Institute of Acoustics of the Chinese Academy of Sciences, Beijing 100190, China) Abstract: Tracking the pitch trajectory of a target speaker in hybrid speech is of great importance in speech monitoring, voice access, and dialog management. To improve the accuracy of pitch trajectory tracking and enforce the octave error suppression ability while reducing the system complexity, the harmonic product spectrum is used in the multipitch estimation. Both the octave error correction and the pitch grouping are based on the vowel segment unit and using the harmonic saliency and the speaker’s timbre features. In the evaluation over the speech data set of MIREX2005, the four performance indexes of the multipitch estimation are all higher than 75 %, and the accuracy of pitch grouping in the hybrid speech can reach 92 %. Key words: multipitch trajectory;harmonic product spectrum; speaker recognition 中圖分類號:H107 文獻標識碼:A 文章編號:1000-3630(2019)-04-0408-06 DOI編碼:10.16300/j.cnki.1000-3630.2019.04.009 收稿日期: 2018-04-11; 修回日期: 2018-05-14 基金項目: 上海市信息安全綜合管理重點實驗室開放基金項目(AGK201709)、山東省自然科學基金資助項目(ZR2016FM44)。 作者簡介:后方帥(1992-), 男, 山東曹縣人, 碩士研究生, 研究方向為音頻信號模式分類。 通訊作者: 劉若倫,E-mail: ruolun.liu@sdu.edu.cn

      猜你喜歡
      八度基頻元音
      語音同一認定中音段長度對基頻分析的影響
      基于時域的基頻感知語音分離方法?
      元音字母和元音字母組合的拼讀規(guī)則
      元音字母和元音字母組合的拼讀規(guī)則
      橋面鋪裝層對中小跨徑橋梁基頻影響分析
      45000kHz基頻晶體濾波器
      電子制作(2017年20期)2017-04-26 06:57:35
      鋼琴演奏中的八度技巧
      ——探究李斯特鋼琴曲《魔王》
      北方音樂(2016年11期)2016-08-12 09:19:03
      芻議音樂表演與鋼琴演奏中的八度技巧
      Playing with “ar”
      試論音樂表演中如何進行鋼琴演奏中的八度技巧
      南投市| 舟山市| 北京市| 仁怀市| 富川| 页游| 禹城市| 景泰县| 绿春县| 彰武县| 天水市| 措勤县| 塘沽区| 汉寿县| 宽甸| 韩城市| 伊吾县| 靖远县| 玉林市| 清苑县| 阜阳市| 岫岩| 广元市| 大足县| 罗定市| 岗巴县| 普定县| 射洪县| 临沂市| 新宁县| 宜宾市| 泰宁县| 霍山县| 阿坝县| 蒙自县| 鹤峰县| 阳信县| 南丰县| 平度市| 永康市| 文水县|