• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      引入非局部模塊卷積神經(jīng)網(wǎng)絡的基頻提取模型

      2023-03-16 10:21:02劉晶晶
      計算機工程 2023年3期
      關鍵詞:基頻高斯音頻

      劉晶晶,黃 浩

      (新疆大學 信息科學與工程學院,烏魯木齊 830017)

      0 概述

      基本頻率或基音是語音信號的重要參數(shù),在語音產(chǎn)生的數(shù)字模型中是激勵源的一個重要參數(shù)?;l提取是一項從音頻信號中估計最低頻率部分的任務,近年來一直是一個流行的研究課題。準確檢測語音信號中的基頻周期對高質(zhì)量的語音合成[1]、語音識別[2]、說話人識別[3]、語音增強[4]等各種語音應用起著至關重要的作用。

      目前,研究人員已經(jīng)提出了各種用于基頻提取的方法。傳統(tǒng)的基頻提取方法包括簡單的信號處理算法和啟發(fā)式算法。現(xiàn)有的傳統(tǒng)方法通常使用某個候選生成函數(shù),通過預處理和后處理階段來獲得基頻曲線。這些函數(shù)包括頻譜[5]、自相關函數(shù)(Autocorrelation Function,ACF)[6]、平均幅度差函數(shù)(Average Magnitude Difference Function,AMDF)[7]、RAPT[8]和PRAAT[9]中的歸一化互相關函數(shù)(Normalized Cross-Correlation Function,NCCF)以及YIN[10]。最近提出的傳統(tǒng)方法包括PEFAC[11]、SWIPE[12]、pYIN[13]等。pYIN 是對YIN算法的改進,它使用概率模型從時域輸入信號的累積平均歸一化差函數(shù)來預測脈沖序列。PEFAC[11]算法使用匹配濾波器分析對數(shù)頻域中的噪聲信號,并使用通用長期平均語音頻譜進行歸一化,該歸一化階段使用基頻提取濾波器來減弱強噪聲分量,該基頻估計濾波器可以忽略具有平滑功率譜的寬帶噪聲。SWIPE[12]將基頻估計為匹配輸入信號頻譜的鋸齒波形。除這種實時數(shù)字信號處理方法外,還開發(fā)出了使用隱馬爾可夫模型(Hidden Markov Model,HMM)[14]、高斯混合模型(Gaussian Mixture Model,GMM)[15]、貝葉斯網(wǎng)絡[16]等機器學習方法來進行魯棒的基頻提取。

      目前的研究使用數(shù)據(jù)驅(qū)動的方法進行基頻提取。其中應用深度神經(jīng)網(wǎng)絡(Deep Neural Network,DNN)及其變體,包括卷積神經(jīng)網(wǎng)絡和遞歸神經(jīng)網(wǎng)絡(Recurrent Neural Network,RNN)改善嚴重噪聲條件下的基頻提取。只要深度神經(jīng)網(wǎng)絡在其隱藏層中包含足夠數(shù)量的單元,它們就會派生判別模型來表示任意復雜的映射函數(shù)。因此,相比較于傳統(tǒng)方法,深度神經(jīng)網(wǎng)路模型能夠處理具有更強相關性、更高維度的輸入特征。

      文獻[17]介紹了使用監(jiān)督學習來提取基頻,將基頻的預測問題轉(zhuǎn)換為分類問題,其中概率基頻狀態(tài)是直接從嘈雜的語音數(shù)據(jù)中學習的。該研究給定觀測值的2個替代神經(jīng)網(wǎng)絡,它們模擬了基頻狀態(tài)分布:第1個是前饋深度神經(jīng)網(wǎng)絡,它在靜態(tài)幀級聲學特征上進行訓練。第2 個是遞歸深度神經(jīng)網(wǎng)絡,它在連續(xù)的幀級特征上進行訓練并能夠?qū)W習時間動態(tài)。DNN 和RNN都產(chǎn)生基頻狀態(tài)的準確概率輸出,然后通過維特比解碼將其連接到基頻輪廓中。該基頻提取算法對不同的噪聲條件具有魯棒性,甚至可以應用于混響語音。但是,基頻輪廓的最終估計值具有有限的頻率分辨率,該分辨率由量化的頻率狀態(tài)數(shù)決定,就基頻的估計精度而言,這是一個潛在的問題。文獻[18]介紹了遞歸神經(jīng)網(wǎng)絡回歸模型,該模型將頻譜序列直接映射到基頻值,以解決上述分類方法中的缺點。首先,該模型采用直接波形輸入而不是頻譜序列。其次,提出了一種新的基頻信息的編碼方法,即使用一個以基頻的基本真值振蕩的簡單正弦波。這種編碼使模型能夠?qū)⒃颊Z音波形映射到原始正弦曲線,而無需進行其他預處理或后處理。最后,也為實驗增加了噪聲條件,以便針對各種噪聲類型檢查噪聲魯棒性。

      文獻[19]介紹的CREPE 是一種直接在時域波形上運行的深度卷積神經(jīng)網(wǎng)絡(Convolutional Neural Network,CNN)的算法。該算法優(yōu)于SWIPE[12]和pYIN[13]等啟發(fā)式方法,同時對噪聲也更加魯棒。該網(wǎng)絡結構存在以下不足:在該網(wǎng)絡結構中,將每幀1 024 個音頻樣本點作為輸入,全連接層在一層可以獲取全局信息,但是它帶來了很多參數(shù),并且增加了網(wǎng)絡優(yōu)化的難度;全連接層還需要固定大小的輸入和輸出,并且會失去位置信息。這些缺點在許多情況下限制了全連接層的使用。文獻[20]介紹的FCNF0 使用了全卷積網(wǎng)絡(Fully Convolutional Network,F(xiàn)CN)結構。FCNF0使用等效的卷積層代替了最后的全連接層,該卷積層的長度等于輸入矢量的時間維,并且卷積核的數(shù)量等于預期輸出的大小。由于卷積層不需要固定大小的輸入,因此此網(wǎng)絡只允許在整個輸入信號上運行一次卷積,而不是逐幀運行,從而節(jié)省了大量的計算量。然后,網(wǎng)絡將不會輸出單個矢量,而是會在每個時間步長包含輸出預測矢量的三維矩陣。然而,上述使用幾種卷積神經(jīng)網(wǎng)絡提取基頻的方法沒有考慮到相鄰幀與幀之間的關系,而且也沒有捕獲遠程全局的幀與幀之間的關系。這些問題會直接導致基頻提取的性能下降。

      為了解決卷積運算的上述問題,本文提出了使用帶有非局部模塊的卷積神經(jīng)網(wǎng)絡來進行基頻提取。非局部模塊計算所有音頻樣本點之間的相似性,即可以快速捕獲長范圍的幀與幀之間以及樣本點與樣本點之間的相互依賴關系,以較少增加計算復雜度來捕獲音頻的全局信息。

      1 基于卷積神經(jīng)網(wǎng)絡的基線模型

      本文使用了文獻[19]介紹的基于卷積神經(jīng)網(wǎng)絡的基線模型CREPE,CREPE 是一種數(shù)據(jù)驅(qū)動的基頻提取算法,該算法直接在時域波形上運行深度卷積神經(jīng)網(wǎng)絡。深度卷積神經(jīng)網(wǎng)絡的輸入來自時域音頻信號的1 024 個音頻樣本,經(jīng)過6 個卷積層,產(chǎn)生2 048 維的潛在表示。然后將其與對應于360 維輸出向量的S 型(Sigmoid)激活函數(shù)連接到輸出層。

      該網(wǎng)絡結構存在以下缺點:在該網(wǎng)絡結構中,使用的卷積核非常長(第1 層的輸入是1 024 個音頻樣本),每層的大多數(shù)卷積運算都會導致與零的乘法運算,模型不會受益,反而會增加計算量。這與應用于每層卷積層的零填充(“same”卷積)有關,這是保持該層的輸入和輸出之間相同大小所必需的,并且由于CREPE 只能接受固定大小的輸入,這意味著必須以幀為基礎預測基頻。同時,由于卷積神經(jīng)網(wǎng)絡提取基頻的方法沒有考慮到相鄰幀與幀之間的關系,而且也沒有捕獲遠程全局的幀與幀之間的關系。這些問題會直接導致基頻提取的性能下降。

      因此,本文首先提出使用帶有非局部模塊的卷積神經(jīng)網(wǎng)絡來進行基頻提取。然后對網(wǎng)絡的最后一層輸出進行修改,將其對應于537 維的語音音頻的輸出。最后將修改后的模型應用于語音音頻中的基頻提取。

      2 基頻提取的非局部模塊

      2.1 非局部模塊實例化

      在文獻[21]中,非局部操作根據(jù)輸入的相似性聚合輸入的信息,定義如下:

      其中:i是要計算其響應的輸出位置時間的索引;j是所有可能位置的索引;x表示輸入信號;y是與x大小相同的輸出信號;函數(shù)f(xi,xj)是用來計算i和所有可能關聯(lián)的位置j之間的關系(相似度);一元函數(shù)g(xj)是計算輸入信號在位置j處的特征值;C(x)是歸一化參數(shù)。為簡單起見,僅考慮以線性嵌入的形式定義g函數(shù),即:

      其中:Wg是要學習的權重矩陣,通過1×1 卷積實現(xiàn)。

      本文引入4 種計算相似性的f函數(shù)的形式:即高斯、嵌入式高斯、點積和級聯(lián)。

      2.1.1 高斯

      f函數(shù)的自然選擇是高斯函數(shù),如式(3)所示:

      其中:是點積相似度。

      歸一化因子C(x)表示為:

      2.1.2 嵌入式高斯

      高斯函數(shù)的擴展是計算嵌入空間中的相似度,如式(5)所示:

      其中:θ(xi)=Wθ xi和?(xj)=W? xj是兩個嵌入。最近提出的用于機器翻譯的自注意力機制其實是非局部操作中嵌入式高斯函數(shù)的一個特例。

      2.1.3 點積

      f函數(shù)可以定義為點積相似度,如式(6)所示:

      在這種情況下,將歸一化因子設置為C(x)=N,其中N是x中的位置數(shù),而不是f的總和,因為它簡化了梯度的計算。

      點積和嵌入式高斯之間的主要區(qū)別在于歸一化指數(shù)函數(shù)softmax 的存在,它是一個激活函數(shù),如式(7)所示,可被視為K個線性函數(shù)的softmax 函數(shù)的復合。

      2.1.4 級聯(lián)

      f函數(shù)的級聯(lián)形式如式(8)所示:

      其中:[,]表示級聯(lián);Wf是一個權重向量,把級聯(lián)的向量投影到一個標量上,將歸一化因子設置為C(x)=N。在這種情況下,f函數(shù)中采用ReLU 激活函數(shù),如式(9)所示:

      2.2 非局部模塊

      非局部模塊的輸入和輸出是具有相同數(shù)量的任意確定維度的特征。因此,非局部模塊可以很容易地與其他深度神經(jīng)網(wǎng)絡模型相結合來構建網(wǎng)絡模型。本文使用了二維卷積,其中將時間方向視為通道維度,卷積核執(zhí)行幀與幀之間的卷積操作。非局部模塊能夠基于它們的相似性在遠處的時頻單元之間傳遞信息,因此可以應用于基頻提取任務中來傳遞遠距離樣本點之間的信息。非局部模塊中的殘差連接定義如式(10)所示:

      其中:yi通過式(1)給出;+xi表示殘差連接。本文將非局部塊插入卷積神經(jīng)網(wǎng)絡中,具有相同的輸入輸出維度,而不會破壞其初始行為(Wz初始為零)。一個非局部模塊的內(nèi)部結構如圖1 所示。

      圖1 非局部模塊結構Fig.1 Non-local module structure

      2.3 網(wǎng)絡結構

      圖2 是一個用于基頻提取的網(wǎng)絡結構。網(wǎng)絡的輸入是時域音頻信號的1 024 個音頻樣本點,本文使用多層卷積神經(jīng)網(wǎng)絡,其中一些卷積塊與非局部模塊相連。網(wǎng)絡的前幾層用于處理音頻樣本點的時域信息,并且可以將學習好的特征映射傳遞給后續(xù)的網(wǎng)絡層。簡單地增加非局部模塊的個數(shù)并不能實現(xiàn)更好的性能。因此,本文將2 個非局部模塊插入到卷積層的最后三層。最后使用一層具有線性激活的全連接層將前一層所獲得的特征分為537 類,并得到每一幀音頻的基頻的后驗概率。

      圖2 網(wǎng)絡結構Fig.2 Network structure

      2.4 訓練目標

      為了使基頻提取問題成為一個分類問題,將基頻范圍[fmin,fmax]量化為M個頻點,這M個頻點對應于 RAPT 中的M個基頻狀態(tài)。輸出層的M個節(jié)點中的每一個都對應于區(qū)間的特定中心頻率:

      其中:Dp=0.005 是預定義的最小相對基頻變化;fmax=500 Hz 是最大可能的基頻值。本文通過在ci≥fmin中減小i來計算中心頻率ci,其中fmin=50 Hz 是預定義的最小可能基頻值。因此,最大狀態(tài)數(shù)M=537。

      如式(12)所示,訓練網(wǎng)絡是使用最小化目標向量y與預測向量之間的二元交叉熵:

      其中:yi和都是0~1 之間的實數(shù),表示模型的輸出,yi表示每幀對應的基頻的真實值。此損失函數(shù)使用文獻[22]介紹的ADAM 優(yōu)化器進行優(yōu)化,學習率為0.000 5,訓練了100 輪(epochs)。每個卷積層后面都有批歸一化處理,后面是一個衰減層,衰減率為0.25。

      3 實驗設置

      3.1 實驗數(shù)據(jù)

      實驗數(shù)據(jù)集使用公開的基頻語音數(shù)據(jù)庫:格拉茨科技大學的基頻跟蹤數(shù)據(jù)庫(PTDB-TUG)[23],該數(shù)據(jù)庫的文本內(nèi)容來源于文獻[24]介紹的TIMIT語料庫,由2條方言句子(標記為sa)、450條語音緊湊的句子(標記為sx)和1 890條語音多樣化的句子(標記為si)組成。表1所示為上述文本句子在PTDB-TUG數(shù)據(jù)集中與說話者之間的分布,其中:M 表示男性;F 表示女性。PTDB-TUG中包含來自20 位英語母語者的平行語料(10 位女性說話者,10 位男性說話者)。20 位說話者都閱讀了2 條標記為sa 的句子。此外,每位說話者閱讀了45 條標記為sx 的句子和189 條標記為si 的句子。音頻總時長為9 h 36 min13 s,原始音頻采樣率設置為48 000 Hz,本文將其降采樣至16 000 Hz,分別以80%、7%、13%進行訓練、驗證和測試。該語料庫使用RAPT 算法提取基頻的真實值。

      表1 PTDB-TUG 數(shù)據(jù)庫數(shù)據(jù)Table 1 Data of PTDB-TUG database

      3.2 評價方法

      根據(jù)以下評價指標評估基頻提取結果:

      1)平均絕對誤差(Mean Absolute Error,MAE)。文獻[25]介紹的MAE 表示預測值與真實值的所有絕對誤差的平均值,MAE 是一種線性分數(shù),所有個體差異在平均值上的權重都相等,如式(13)所示:

      其中:N表示數(shù)據(jù)集中所有幀的總數(shù)表示模型的輸出;yi表示每幀對應的基頻真實值。

      2)檢測率(Detection Rate,DR)。在有聲幀上評估DR,如果估計偏差在真實值的1%以內(nèi),則認為基頻估計是正確的。

      其中:N0.01表示正確估計的基頻與真實值的偏差不超過1%的情況;Np表示有聲幀的總數(shù)。

      3)總基頻誤差(Gross Pitch Error,GPE)。文獻[26]介紹的GPE 表示的是所有相對誤差大于其基頻真實值的20%的濁音幀。

      其中:NGPE表示基頻估計錯誤的幀數(shù);Nv表示語音幀的總數(shù)。估計錯誤是指估計的基頻與真實值的偏差超過20%的情況。

      4 實驗結果與分析

      4.1 實驗結果

      本文首先確定加入網(wǎng)絡中最優(yōu)的非局部模塊的數(shù)量。表2 所示為分別在訓練集、驗證集和測試集上具有不同數(shù)量的非局部模塊的MAE。其中,f函數(shù)為嵌入式高斯形式??梢园l(fā)現(xiàn):當使用2 個非局部模塊時已經(jīng)給出最佳性能,在卷積神經(jīng)網(wǎng)絡中加入2 個以上的非局部模塊并不能帶來更好的效果。從實驗結果可以看出:前幾層的卷積神經(jīng)網(wǎng)絡已經(jīng)可以學習一些局部特征,以便為后續(xù)其他網(wǎng)絡層學習更好的特征。

      表2 不同數(shù)量的非局部模塊基頻提取的MAE 結果Table 2 MAE results of fundamental frequency extract for different numbers of non-local modules

      本文驗證了4 種不同的f函數(shù)的形式對整個模型的影響。從表3 可以看出:使用嵌入式高斯模型性能最好,在測試集上其MAE 只有4.8,這也是文獻[27]中介紹的自注意力機制的一種等價操作。當f函數(shù)為高斯時,在4 種f函數(shù)中性能最差,其在測試集上MAE 為5.2。相比于CREPE 基線模型,使用這4 種f函數(shù)中的任何一種,模型的性能都有提升,這也說明了本文在基線模型中加入非局部模塊的合理性。

      表3 使用2 個非局部模塊的4 種不同f 函數(shù)形式的MAETable 3 MAE for four different f functional forms using two non-local modules

      本文使用嵌入式高斯形式來驗證拼接相鄰幾幀的信息對模型性能的影響。表4 所示為加入2 個NLM 后獲取全局特征并且分別拼接5、7、9、15 幀獲取局部特征的實驗結果??梢钥闯觯涸跍y試集上拼接5 幀的MAE 最低,為4.7(本文后續(xù)的對比實驗將使用該模型與基線模型對比),但是隨著拼接幀數(shù)的增加,MAE 反而開始上升,模型性能在下降。當拼接的幀數(shù)在9 幀以上時,對整個模型的影響沒有變化。這也驗證了相鄰幾幀之間的信息對當前幀的基頻值影響比較大,但隨著時間變化,遠距離音頻幀之間的影響并不大。

      表4 拼接相鄰幾幀的MAE 結果Table 4 MAE results of splicing adjacent frames

      4.2 對比實驗

      為了驗證本文在基頻提取任務中的有效性,本文選擇了3 種基線模型:RAPT[8],DNN[17]和CREPE[19],調(diào)用了PyThon pysptk 庫中的RAPT 算法。深度學習方法DNN 模型是一個從音頻到量化頻率狀態(tài)的分類模型,它包括3 個隱藏層,每層有1 600 個Sigmoid 激活單元,以及1 個softmax 輸出層,其大小設置為基頻狀態(tài)的數(shù)量。CREPE 其代碼地址為:https://github.com/marl/crepe。由于CREPE 模型是用于音樂基頻提取,因此本文修改了模型最后的輸出層,將特征分為537 類。

      表5 所示為本文所提出的模型與RAPT、DNN和CREPE 模型的對比結果??梢钥闯觯河捎贑REPE模型是音樂數(shù)據(jù)集上的基頻提取模型,本文將其最后一層全連接層進行修改(其他層保持不變)應用到語音數(shù)據(jù)集上,所得到的MAE 為5.5。RAPT 模型由于是傳統(tǒng)方法,沒有用到現(xiàn)在流行的深度學習的模型,因此結果較差,MAE 高達7.8?;?DNN 的方法利用幀級特征來計算基頻狀態(tài)的后驗概率。雖然它利用相鄰幀來合并時間信息,但由于特征維數(shù)的限制,無法捕捉長范圍的依賴關系,因此使用該模型的結果相比于傳統(tǒng)模型,MAE 提升了1.5 個百分點。但是相比于深度學習的CREPE 模型,DNN 模型并沒有優(yōu)勢。而本文所提出的模型其MAE 達到了最佳,只有4.7。

      表5 不同模型的MAE 結果對比Table 5 Comparison of MAE results for different models

      如表6 所示,在測試集上,本文所提出的模型的GPE 比傳統(tǒng)模型RAPT 降低了2.5 個百分點。同時,本文模型在測試集上比基線模型CREPE 的GPE 降低了0.4 個百分點,這也證明了加入非局部模塊后估計基頻幀錯誤率會下降。

      表6 不同模型的GPE 率結果對比Table 6 Comparison of GPE rate results for different models

      不同模型的DR 如表7 所示,本文所提出的模型在測試集上的DR 為93.4%,而CREPE 的DR 為92.8%,這也表明了加入非局部模塊后網(wǎng)絡的整體性能有一定的提升。相比之下,基于DNN 的基頻提取模型的性能較差,其DR 只有91.7%。

      表7 不同模型DR 結果對比Table 7 Comparison of DR results for different models %

      5 結束語

      本文提出一種改進的基頻提取模型,該模型非局部模塊能夠通過計算所有幀之間的相似度來捕獲時域中的全局信息。非局部模塊具有相同的輸入輸出,因此可以與任何現(xiàn)有的網(wǎng)絡結構同時使用。在此基礎上,驗證了相鄰幾幀之間的信息對當前幀的基頻值影響較大,但隨著時間變化,遠距離音頻幀之間的影響并不大。實驗結果表明,本文提出的網(wǎng)絡比基線模型具有較好的性能,其在測試集上的MAE 只有4.7。然而,本文模型仍處于開發(fā)階段,下一步將研究深度自注意力變化網(wǎng)絡以及對基頻提取有益的先驗知識,進一步提升基頻提取模型性能。

      猜你喜歡
      基頻高斯音頻
      小高斯的大發(fā)現(xiàn)
      語音同一認定中音段長度對基頻分析的影響
      基于時域的基頻感知語音分離方法?
      橋面鋪裝層對中小跨徑橋梁基頻影響分析
      天才數(shù)學家——高斯
      必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      45000kHz基頻晶體濾波器
      電子制作(2017年20期)2017-04-26 06:57:35
      音頻分析儀中低失真音頻信號的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      丁青县| 湟源县| 临海市| 高安市| 盐源县| 海林市| 慈利县| 丘北县| 万全县| 襄垣县| 平安县| 合肥市| 合作市| 宜宾市| 樟树市| 宜春市| 个旧市| 溧阳市| 定安县| 固阳县| 广东省| 大同市| 长乐市| 盘锦市| 清镇市| 和平县| 嵩明县| 丽水市| 盈江县| 上栗县| 芷江| 来宾市| 南乐县| 黑龙江省| 马龙县| 开原市| 西贡区| 象州县| 汶川县| 伊宁市| 休宁县|