• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于因子分解的語(yǔ)音轉(zhuǎn)換研究

      2018-08-31 11:44:38魏子怡
      關(guān)鍵詞:波形圖傅里葉表達(dá)式

      魏子怡

      (山東省濰坊第一中學(xué),山東 濰坊 261000)

      0 引言

      語(yǔ)音識(shí)別是為一門新興的交叉性學(xué)科,2011年8月微軟亞洲研究院通過引入DNN以后,語(yǔ)音識(shí)別準(zhǔn)確率得到大幅提高,進(jìn)入飛速發(fā)展時(shí)期。

      語(yǔ)音識(shí)別最初發(fā)展時(shí)期采用語(yǔ)音模型的方法進(jìn)行識(shí)別,已經(jīng)能夠?qū)崿F(xiàn)初步的說話內(nèi)容識(shí)別。例如云知聲、百度(度秘)和蘋果(Siri)等均能實(shí)現(xiàn)語(yǔ)音層面的在線人機(jī)交互;語(yǔ)種識(shí)別與說話人識(shí)別技術(shù)也已提出,目前已投入使用。

      語(yǔ)音識(shí)別領(lǐng)域已顯示出強(qiáng)勁的生命力,其中語(yǔ)音轉(zhuǎn)換技術(shù)仍處于科技前沿,是一項(xiàng)創(chuàng)新性的科研項(xiàng)目,本實(shí)驗(yàn)將因子分解方法應(yīng)用在此領(lǐng)域,可解開語(yǔ)言交流的神秘面紗,使生活發(fā)生翻天覆地的變化。

      1 背景知識(shí)介紹

      1.1 Kaldi介紹

      當(dāng)下的音頻主要通過錄音軟件,以一定的頻率對(duì)模擬信號(hào)進(jìn)行采樣、編碼,將模擬信號(hào)通過數(shù)模轉(zhuǎn)換器轉(zhuǎn)換為數(shù)字信號(hào),并進(jìn)行一定的壓縮后進(jìn)行存儲(chǔ),得到音頻的波形圖,而電腦無法對(duì)波形圖進(jìn)行進(jìn)一步的處理,必須轉(zhuǎn)成向量中的數(shù)值形式的信息才能進(jìn)一步處理。因此,需要利用Kaldi工具,將波形圖轉(zhuǎn)化為聲譜圖,聲譜圖以熱圖的形式將時(shí)間、頻率、聲音強(qiáng)度(數(shù)值用顏色的深淺加以呈現(xiàn))展現(xiàn)到矩陣當(dāng)中。

      1.2 深度神經(jīng)網(wǎng)絡(luò)(DNN)的發(fā)展

      神經(jīng)網(wǎng)絡(luò)是利用計(jì)算機(jī)模擬人腦思考過程對(duì)事物進(jìn)行聚類與分類的一種算法,電腦可以按照事先設(shè)定好的聚類與分類層對(duì)所輸入的事物進(jìn)行分類。 神經(jīng)網(wǎng)絡(luò)中單個(gè)節(jié)點(diǎn)的工作原理是將輸入數(shù)據(jù)與權(quán)重之積的和輸入給激活函數(shù),判斷信息是否能在節(jié)點(diǎn)中繼續(xù)運(yùn)行。

      傳統(tǒng)的機(jī)器學(xué)習(xí)系統(tǒng)主要使用淺層神經(jīng)網(wǎng)絡(luò)。當(dāng)一個(gè)神經(jīng)網(wǎng)絡(luò)擁有3層以上的系統(tǒng)時(shí),就可成為深度神經(jīng)網(wǎng)絡(luò)。人腦的認(rèn)知過程是一個(gè)深度多層的復(fù)雜過程,每深入一層就多一層抽象,深度神經(jīng)網(wǎng)絡(luò)使計(jì)算機(jī)能夠更精確地模擬人腦的深度思考過程。

      2 研究語(yǔ)音轉(zhuǎn)換的目的及意義

      2.1 語(yǔ)音轉(zhuǎn)換的目的

      從古到今人們?yōu)榱烁玫厣?,產(chǎn)生了蘊(yùn)含信息由少到多,表達(dá)清晰度由低到高的交流方式,其中口語(yǔ)更加多變——人體發(fā)聲時(shí),因?yàn)槁暤栏鞑拷Y(jié)構(gòu)不同,導(dǎo)致音色因人而異;氣流通過聲道時(shí)也會(huì)因摩擦而產(chǎn)生噪聲,胸腔和頭部也會(huì)產(chǎn)生共振,對(duì)音色產(chǎn)生影響。

      聲音無論怎樣千差萬(wàn)別,總離不開個(gè)性音色、表達(dá)內(nèi)容和情感3個(gè)要素,而因子分解的方法恰好將音頻分解為以上3部分。于是作者立即考慮到,因子分解方法的提出恰恰是為語(yǔ)音轉(zhuǎn)換領(lǐng)域提供了一個(gè)全新的思路,若將這一方法應(yīng)用于此,將是語(yǔ)音識(shí)別領(lǐng)域的一大可賀突破。

      2.2 語(yǔ)音轉(zhuǎn)換的軍事及娛樂意義

      身份識(shí)別技術(shù)廣泛地存在于生活中,例如:密碼登錄技術(shù)、中國(guó)三代身份證的指紋驗(yàn)證技術(shù)、DNA檢測(cè)技術(shù),以及虹膜識(shí)別技術(shù)等。語(yǔ)音蘊(yùn)含著豐富的身份信息,相應(yīng)的語(yǔ)音識(shí)別技術(shù)也迅速崛起,音頻加密方法逐漸被攻破。因此,針對(duì)語(yǔ)音識(shí)別技術(shù)的保密工作也應(yīng)該得到重視。而通過語(yǔ)音轉(zhuǎn)換可實(shí)現(xiàn)說話人身份的更改,從而可以保障重要人員的人身安全。

      目前市場(chǎng)上有很多變聲軟件,如騰訊QQ的變聲模塊以及手機(jī)魔音變聲,但方法簡(jiǎn)單,變聲后的聲音失真,而且要想真正模擬一個(gè)人的音色很難實(shí)現(xiàn)。若成功實(shí)現(xiàn)語(yǔ)音轉(zhuǎn)換,換聲的設(shè)想就能實(shí)現(xiàn),其娛樂色彩也就更加濃厚。

      3 語(yǔ)音轉(zhuǎn)換的研究方法

      3.1 傳統(tǒng)的研究方法

      以往語(yǔ)音轉(zhuǎn)換的研究主要對(duì)音頻信號(hào)進(jìn)行直接處理,例如改變音頻的播放速度,進(jìn)而改變聲音頻率及波長(zhǎng);或通過改變聲音的相位與共振峰信息以及將音頻的高頻降低、低頻升高來改變音色。隨后發(fā)展出語(yǔ)音模型、頻譜彎曲與單元挑選的方法。但以上方法大都保留了音頻的完整性,未能深一層次地觸及語(yǔ)音的本質(zhì)特點(diǎn)。

      3.2 本實(shí)驗(yàn)的研究方法

      本實(shí)驗(yàn)前期主要通過國(guó)內(nèi)外期刊論文對(duì)關(guān)鍵技術(shù)的研究進(jìn)展、理論基礎(chǔ)和現(xiàn)實(shí)背景進(jìn)行了解,尋找獨(dú)特的研究視角來查找數(shù)據(jù)。最終,本論文借鑒了清華大學(xué)CSLT實(shí)驗(yàn)室發(fā)表的一篇關(guān)于“語(yǔ)音信號(hào)關(guān)于因子分解”的文章。

      將因子分解方法應(yīng)用于語(yǔ)音轉(zhuǎn)換將帶來一個(gè)全新的視角。其透徹直觀地將音頻劃分為三大部分:能表達(dá)說話人特征的Peaker部分、傳達(dá)交流內(nèi)容的Phone部分、與交流的語(yǔ)境相關(guān)的Emotion部分,只要將語(yǔ)音以以上三部分呈現(xiàn),便可隨心所欲地轉(zhuǎn)換。如將說話人1的Speaker部分替換為說話人2的Speaker部分。

      因子分解不僅可以實(shí)現(xiàn)身份的轉(zhuǎn)換,還可以進(jìn)一步實(shí)現(xiàn)先前未曾有的內(nèi)容轉(zhuǎn)換、情感轉(zhuǎn)換,其在語(yǔ)音轉(zhuǎn)換領(lǐng)域的應(yīng)用是一個(gè)里程碑式的創(chuàng)新。

      4 語(yǔ)音轉(zhuǎn)換實(shí)驗(yàn)

      4.1 實(shí)驗(yàn)原理介紹

      4.1.1 傅里葉變換(Fourier Transform簡(jiǎn)稱FT)

      當(dāng)?shù)玫揭粋€(gè)波形圖的函數(shù)表達(dá)式X(t)時(shí),可通過傅里葉變換:

      將頻域的頻譜圖的函數(shù)表達(dá)式X(f)表示成X(t)的積分的形式,從而得到頻譜圖。

      若將頻譜圖函數(shù)表達(dá)式轉(zhuǎn)化回波形圖函數(shù)表達(dá)式,則需要用到傅里葉變換逆變換(Inverse Fourier Transform簡(jiǎn)稱IFT):

      4.1.2 短時(shí)傅里葉變換(STFT)

      通過傅里葉變換得到的頻譜圖不具有時(shí)間軸,無法反映出音頻隨時(shí)間的變化,所以無法分析語(yǔ)音。欲得到音頻的變化與時(shí)間的關(guān)系,則需要使用短時(shí)傅里葉變換。

      首先規(guī)定矩形窗口函數(shù)ω(t),ω(-t)=ω(t),在波形圖函數(shù)表達(dá)式上截取音頻,窗口函數(shù)可移動(dòng)截取,移動(dòng)后的窗口函數(shù)記為ω(t-τ),得到采樣信號(hào)x′(t,τ)=x(t)ω(t-τ).再對(duì)采樣信號(hào)進(jìn)行傅里葉變換,得到此段波形圖函數(shù)表達(dá)式的頻譜圖。像這般對(duì)整個(gè)波形圖函數(shù)表達(dá)式進(jìn)行小時(shí)段的分割,繼而進(jìn)行傅里葉變換,成為短時(shí)傅里葉變換(圖1)。

      隨后將采樣信號(hào)函數(shù)表達(dá)成積分形式

      由于t與τ同樣可以表示出音頻隨時(shí)間的變化,于是將X(f,τ)中的τ替換為t,X(f,t)為時(shí)頻圖的函數(shù)表達(dá)式

      再利用短時(shí)傅里葉變換逆變換

      可將時(shí)頻圖函數(shù)表達(dá)式轉(zhuǎn)換為波形圖函數(shù)表達(dá)式。

      4.1.3 深度神經(jīng)網(wǎng)絡(luò)因子分解

      利用Kaldi工具將波形圖轉(zhuǎn)化為聲譜圖后,需要利用深度神經(jīng)網(wǎng)絡(luò)進(jìn)行因子分解。

      深度神經(jīng)網(wǎng)絡(luò)進(jìn)行因子分解時(shí),識(shí)別出的Phone譜作為下一層的輸入信息,分離出的Speaker譜再與Phone譜一同作為輸入信息輸入,分理出Emotion譜。此圖中的ASR,SRE,AER分別是系統(tǒng)的簡(jiǎn)化形式,ASR(automatic speech recognition)代表自動(dòng)說話人識(shí)別系統(tǒng),SRE(speaker recognition)代表說話人識(shí)別系統(tǒng),AER(automatic emotion recognition)代表自動(dòng)情感識(shí)別系統(tǒng)。

      將分離的3個(gè)聲譜圖重新組合(圖2),利用公式In(x)=In{f(q)}+In{g(s)}+In{h(e)}+e,將三個(gè)譜相加得到新的譜,即可得到一個(gè)恢復(fù)的聲譜圖。

      圖1 短時(shí)傅里葉變換(右下角為時(shí)頻圖)

      圖2 深度神經(jīng)網(wǎng)絡(luò)分離Phone、Speaker、Emotion譜

      4.2 實(shí)驗(yàn)介紹

      利用Kaldi工具將音頻文件轉(zhuǎn)換為聲譜圖,再利用深度神經(jīng)網(wǎng)絡(luò)將其分離為Speaker譜、Phone譜和Emotion譜。

      然后利用Python代碼提取語(yǔ)音信號(hào)的幅度譜和相位譜,在Python讀取Speaker1,Phone2 和Emotion2的數(shù)據(jù),分別存檔于矩陣ss1,ss2和ss3,分別標(biāo)記為metrix_speaker,metrix_phone和metrix_emotion,并將其和標(biāo)記為metrix,即metrix=ss1+ss2+ss3,最后將其轉(zhuǎn)換為音頻文件。

      4.3 實(shí)驗(yàn)結(jié)果及分析

      本實(shí)驗(yàn)探究了基于因子分解的語(yǔ)音轉(zhuǎn)換實(shí)驗(yàn)。利用深度神經(jīng)網(wǎng)絡(luò)分離出3個(gè)聲譜圖時(shí),由于提取特征時(shí)丟掉了一些無關(guān)特征,這樣影響到還原的音頻有一定的雜音,其中的權(quán)值參數(shù)或許仍需進(jìn)一步進(jìn)行調(diào)整,但本次試驗(yàn)的整體效果比較理想,創(chuàng)新性地將新方法應(yīng)用到了語(yǔ)音轉(zhuǎn)換領(lǐng)域。

      除此之外,本實(shí)驗(yàn)將3個(gè)譜重組時(shí),Speaker譜與Phone譜有一定的粘連關(guān)系,特征與說話人1還是說話人2有關(guān)主要與Phone譜來自說話人1還是2有關(guān),為解決該問題,接下來需要再多做幾組實(shí)驗(yàn),調(diào)節(jié)其中的一些參數(shù),進(jìn)而達(dá)到一個(gè)完美的效果。

      結(jié)論

      作為因子分解方法的創(chuàng)新性應(yīng)用實(shí)驗(yàn),本實(shí)驗(yàn)結(jié)果非??捎^。雖然仍有需要改進(jìn)之處,但是本實(shí)驗(yàn)走出了語(yǔ)音識(shí)別領(lǐng)域的突破性的一步,結(jié)果的優(yōu)化目前來看只是時(shí)間問題。接下來需要做的是通過深度學(xué)習(xí)繼續(xù)調(diào)整實(shí)驗(yàn)中的參數(shù),重復(fù)幾組不同的實(shí)驗(yàn):如相同性別的說話人、情緒相近的說話人等,挑戰(zhàn)細(xì)微差別下的語(yǔ)音轉(zhuǎn)換。

      猜你喜歡
      波形圖傅里葉表達(dá)式
      交流接觸器典型通斷過程分析
      由波形圖領(lǐng)悟聲音特性
      淺析CH-γ方程中解的求法
      用DIS數(shù)字化信息系統(tǒng)測(cè)量金屬棒中聲速的有效方法
      一個(gè)混合核Hilbert型積分不等式及其算子范數(shù)表達(dá)式
      表達(dá)式轉(zhuǎn)換及求值探析
      雙線性傅里葉乘子算子的量化加權(quán)估計(jì)
      淺析C語(yǔ)言運(yùn)算符及表達(dá)式的教學(xué)誤區(qū)
      基于小波降噪的稀疏傅里葉變換時(shí)延估計(jì)
      基于傅里葉變換的快速TAMVDR算法
      巴马| 手机| 保康县| 萨迦县| 呈贡县| 宝坻区| 长汀县| 双城市| 休宁县| 璧山县| 融水| 惠州市| 南江县| 灵武市| 霍州市| 文成县| 滨海县| 舞阳县| 商水县| 松阳县| 嘉荫县| 黑山县| 宁都县| 抚州市| 浦东新区| 江孜县| 伊金霍洛旗| 镶黄旗| 七台河市| 秀山| 新乡市| 长葛市| 靖宇县| 房产| 团风县| 广灵县| 雷波县| 高阳县| 西华县| 南雄市| 崇文区|