• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      語譜

      • 彝語北部方言輔音塞擦音聲學(xué)特征分析研究
        彝語輔音z(a)語譜圖Fig.3 Yi Consonants z(a)spectrogram表2 彝語輔音z(a)聲學(xué)參數(shù)表Table 2 Yi Consonants z(a)Acoustic parameter table輔音za發(fā)音時(shí)雙唇微微張開,上下牙齒自然合攏(不完全閉合,有一定縫隙),舌尖靠近牙齦,氣流從舌端和牙齦中的窄縫隙泄出,VOT為正值(0.001 7),但時(shí)長較短送氣較弱.從圖3輔音za語圖可以看出開始有能量較弱的充值條,后面是高頻段有些

        西南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2023年4期2024-01-10

      • 基于掩蔽自監(jiān)督語音特征提取的帕金森病檢測方法
        理信息的M el語譜圖特征,對(duì)患者語音進(jìn)行全局時(shí)序化表示;然后,利用掩蔽自監(jiān)督模型來掩蔽部分Mel語譜圖特征并對(duì)其進(jìn)行重構(gòu),從而學(xué)習(xí)到帕金森病患者語音的更高級(jí)特征表示,并利用后續(xù)的帕金森病檢測結(jié)果來評(píng)估所提的掩蔽自監(jiān)督模型的性能。其中,為解決帕金森病語音數(shù)據(jù)稀缺的問題,先在LibriSpeech公開數(shù)據(jù)集上對(duì)掩蔽自監(jiān)督模型進(jìn)行預(yù)訓(xùn)練,然后基于遷移學(xué)習(xí)的思想,利用帕金森病語音數(shù)據(jù)對(duì)預(yù)訓(xùn)練好的掩蔽自監(jiān)督模型進(jìn)行微調(diào)和加權(quán)求和,以提升該模型特征表示學(xué)習(xí)的性能。結(jié)

        電子與信息學(xué)報(bào) 2023年10期2023-11-18

      • 用于語音檢索的三聯(lián)體深度哈希方法
        維特征參數(shù)不同,語譜圖[12]以二維模式攜帶時(shí)域頻域信息,是語音特征很好的表現(xiàn)形式。將語音轉(zhuǎn)換成語譜圖圖像的形式,從語譜圖圖像的角度研究基于深度學(xué)習(xí)的語音檢索方法,可將圖像領(lǐng)域中的三聯(lián)體深度哈希方法的優(yōu)勢在語音檢索領(lǐng)域發(fā)揮出來,對(duì)于海量語音數(shù)據(jù)檢索具有重要的研究意義和應(yīng)用價(jià)值。綜上所述,為提高語音檢索效率和精度,確保生成的二值哈希碼更加高效緊湊,且具有最大鑒別力,本文引入注意力機(jī)制-殘差網(wǎng)絡(luò)(Attentional mechanism-Residual N

        計(jì)算機(jī)應(yīng)用 2023年9期2023-09-27

      • 基于語音特征融合的帕金森疾病診斷
        此,筆者提出基于語譜圖和聲學(xué)特征的語音識(shí)別模型,旨在從語音中獲取更豐富的信息,通過傅里葉變換轉(zhuǎn)換成語譜圖,結(jié)合手工提取的聲學(xué)特征,更好地捕捉語音的動(dòng)態(tài)病理特征,利用卷積神經(jīng)網(wǎng)絡(luò)和循環(huán)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),進(jìn)行PD檢測,為了評(píng)估所提方法的性能,使用來自PC-GITA數(shù)據(jù)集的帕金森病語音記錄,與UCI數(shù)據(jù)庫中提取好的特征信息數(shù)據(jù)不同,該數(shù)據(jù)集提供完整的原始語音信號(hào),結(jié)果表明,得到了84.1%的分類準(zhǔn)確率。1 語音特征融合算法1.1 模型提出模型總體結(jié)構(gòu)如圖1所示。所提

        數(shù)字制造科學(xué) 2023年3期2023-09-20

      • 面向戰(zhàn)場環(huán)境下的語種識(shí)別
        2]提取線性灰度語譜圖特征(LGSS),將語種識(shí)別轉(zhuǎn)為圖像識(shí)別,取得了很大進(jìn)展。Lopez等[13]將特征提取、特征變換和分類器融于一個(gè)神經(jīng)網(wǎng)絡(luò)模型,后續(xù)在此基礎(chǔ)上又研發(fā)出不同的神經(jīng)網(wǎng)絡(luò),包括延時(shí)神經(jīng)網(wǎng)絡(luò)[14]、殘差神經(jīng)網(wǎng)絡(luò)[15](ResNet)等。Wang等[16]將注意力機(jī)制模型結(jié)合長短時(shí)記憶循環(huán)神經(jīng)網(wǎng)絡(luò)搭建的端到端系統(tǒng)也取得了不錯(cuò)的效果。Jin等[17]從網(wǎng)絡(luò)中間層中提取LID-senone特征。同年Cai等[18]提出了一種基于可學(xué)習(xí)的字典編碼

        兵工學(xué)報(bào) 2023年7期2023-08-08

      • 連續(xù)漢語語音的自動(dòng)切分研究*
        合利用端點(diǎn)檢測、語譜圖分析、基音周期軌跡檢測等技術(shù)研究了漢語連續(xù)語音的自動(dòng)切分。研究了一種連續(xù)語音多級(jí)切分方法,計(jì)算流程如圖1。圖1 連續(xù)語音多級(jí)切分計(jì)算過程2 語音特征參數(shù)提取語音信號(hào)是一種短時(shí)信號(hào),在短時(shí)間內(nèi)可看作平穩(wěn)信號(hào)[6]。語音信號(hào)攜帶有語義和大量的說話人特征。語音特征參數(shù)可分為時(shí)域特征參數(shù)和頻域特征參數(shù)。2.1 預(yù)處理計(jì)算語音特征參數(shù)之前,要對(duì)語音信號(hào)進(jìn)行預(yù)處理,一般包括預(yù)加重、分幀和加窗[7]。預(yù)加重可以增強(qiáng)語音高頻部分能量,使語音特征更明顯

        計(jì)算機(jī)與數(shù)字工程 2023年4期2023-08-02

      • 基于中心對(duì)稱局部二值模式的合成偽裝語音檢測方法
        換得到語音信號(hào)的語譜圖,再利用中心對(duì)稱局部二值模式提取語譜圖的紋理特征,并用該紋理特征訓(xùn)練隨機(jī)森林分類器,從而實(shí)現(xiàn)真?zhèn)握Z音的判別。該方法綜合考慮語譜圖中像素點(diǎn)的數(shù)值大小和位置關(guān)系,包含了更加全面的紋理信息,并將特征維度降低至16維,有利于減少計(jì)算量。實(shí)驗(yàn)結(jié)果表明,在ASVspoof 2019數(shù)據(jù)集上,與傳統(tǒng)的基于局部二值模式的偽裝語音檢測方法相比,所提方法將合成偽裝語音的串聯(lián)檢測代價(jià)函數(shù)(t-DCF)降低了16.98%,檢測速度提高了89.73%。說話人驗(yàn)

        電信科學(xué) 2023年1期2023-02-09

      • 面向戰(zhàn)場環(huán)境下的語音傳輸與重構(gòu)
        輸,提出一種基于語譜圖壓縮傳輸和重構(gòu)的方法。首先將語音信號(hào)壓縮為語譜圖進(jìn)行傳輸;再在接收端對(duì)圖像進(jìn)行去噪;最后根據(jù)圖像重構(gòu)出語音信號(hào)。實(shí)驗(yàn)結(jié)果表明,本文方法在一定程度上解決了高壓縮比和低信噪比下重構(gòu)語音質(zhì)量不佳問題,達(dá)到了提高重構(gòu)語音質(zhì)量的目的。1 構(gòu)建語音傳輸和接收模型聲音和圖像是聽覺和視覺上兩種模態(tài)接收的輸入信息,在數(shù)字處理領(lǐng)域各自有不同的處理方法[17]??紤]到可以進(jìn)行視聽覺交互融合的方式進(jìn)行信息交流,本文將語音信號(hào)壓縮為語譜圖信號(hào)傳輸。對(duì)語譜圖的研

        兵工學(xué)報(bào) 2022年11期2022-12-01

      • 一種水電廠水輪機(jī)碰撞故障聲音識(shí)別的研究與應(yīng)用
        聲音,并預(yù)處理成語譜圖樣本集,利用樣本集對(duì)卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行訓(xùn)練,得到能夠識(shí)別故障碰撞聲音的故障識(shí)別模型,通過故障識(shí)別模型對(duì)水輪機(jī)的實(shí)時(shí)轉(zhuǎn)動(dòng)聲音進(jìn)行實(shí)時(shí)監(jiān)測,實(shí)現(xiàn)通過故障碰撞聲音識(shí)別水輪機(jī)是否發(fā)生故障碰撞。系統(tǒng)設(shè)置有人工糾偏單元,通過人工介入提高系統(tǒng)的魯棒性,能夠根據(jù)糾偏結(jié)果進(jìn)一步對(duì)故障識(shí)別模型進(jìn)行優(yōu)化,提高識(shí)別的準(zhǔn)確性。3 基于語譜圖的聲音數(shù)據(jù)預(yù)處理3.1 語譜圖在水輪機(jī)故障碰撞故障音頻識(shí)別過程中,不僅包含需要提取的故障信息,還存在干擾信息及環(huán)境噪聲。為了

        電力設(shè)備管理 2022年20期2022-11-28

      • 基于CEEMDAN-小波閾值和3D-CNN的變壓器鐵心松動(dòng)故障診斷模型*
        構(gòu)。2 Mel-語譜語譜圖是聲音信號(hào)分析處理的重要特征頻率譜圖,能夠反映信號(hào)在不同時(shí)間下的頻率能量分布。完整地建立聲音信號(hào)在時(shí)域與頻域之間的聯(lián)系,實(shí)現(xiàn)聲音特征信息的最大化,有助于后期聲紋特征的提取與學(xué)習(xí)。將采集到的變壓器各種工況下的聲紋信號(hào),用上述CEEMDAN-小波閾值濾波法得到純凈的變壓器運(yùn)行的聲音信號(hào)。利用濾波后的信號(hào)繪制聲紋語譜圖,語譜圖的繪制包括分幀、加窗和離散傅里葉變換過程。由于變壓器噪聲較人聲更加平穩(wěn),可以適當(dāng)增加幀長以保證語音信號(hào)特征的完

        電機(jī)與控制應(yīng)用 2022年10期2022-11-03

      • 抽油機(jī)音頻故障分析研究與應(yīng)用
        轉(zhuǎn)換為特征圖像(語譜圖),利用深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)對(duì)圖像分類識(shí)別,從音頻信號(hào)中提取梅爾頻率倒譜系數(shù)(MFCC),將音頻信號(hào)轉(zhuǎn)換為語譜圖,通過深度卷積神經(jīng)網(wǎng)絡(luò)提取圖像特征,應(yīng)用遷移學(xué)習(xí)和知識(shí)蒸餾等多種學(xué)習(xí)方法,結(jié)合深度殘差網(wǎng)絡(luò)進(jìn)行抽油機(jī)音頻故障分類。2 抽油機(jī)音頻采集技術(shù)通過研究音頻智能采集器在不同安裝位置所獲取的音頻數(shù)據(jù),排除來自其他方向的干擾音頻信號(hào),選擇監(jiān)測能表征抽油機(jī)工作狀態(tài)的聲音信號(hào)。2.1 聲源定位系統(tǒng)聲源定位系統(tǒng)主要包括: 麥克風(fēng)陣列、多通道

        石油化工自動(dòng)化 2022年5期2022-10-17

      • 基于變壓器聲紋Mel語譜圖-ResNet的鐵心松動(dòng)故障診斷*
        對(duì)其降維后生成的語譜圖,比較這兩種模型的識(shí)別效果,確定最適合變壓器鐵心松動(dòng)故障的聲紋識(shí)別模型。1 噪聲信號(hào)預(yù)處理1.1 語譜圖繪制語譜圖能直觀地表示語音信號(hào)隨時(shí)間變化的頻譜特性,任一給定頻率成分在給定時(shí)刻的強(qiáng)弱用相應(yīng)點(diǎn)的灰度或色調(diào)的濃淡來表示[6]。正確建立噪聲信號(hào)時(shí)頻域的關(guān)系,能從中提取到重要的特征量,有助于后期聲紋特征的學(xué)習(xí)。聲紋語譜圖的繪制過程包括分幀、加窗和離散傅里葉變換,再計(jì)算出每一幀的功率譜,用顏色的深淺表示能量的大小,從而繪制出語譜圖[7]。

        電機(jī)與控制應(yīng)用 2022年9期2022-09-29

      • 基于C語言的語譜圖生成
        上世紀(jì)40年代初語譜圖儀問世。語譜圖是語音的時(shí)域和頻域結(jié)合的視圖,其橫坐標(biāo)是時(shí)間,縱坐標(biāo)是頻率,坐標(biāo)點(diǎn)值為語音采樣數(shù)據(jù)的能量。語音信號(hào)的語譜圖又稱為聲紋,在語音信號(hào)處理、編碼、識(shí)別等方面有著重要的應(yīng)用??紤]到橫坐標(biāo)一個(gè)時(shí)間點(diǎn)采樣數(shù)據(jù)很難分析出各個(gè)頻率成分,橫坐標(biāo)一般采用一幀語音采樣數(shù)據(jù),這樣可以通過傅里葉變換得到該幀數(shù)據(jù)的頻譜,即縱坐標(biāo)。而縱坐標(biāo)各個(gè)頻率點(diǎn)的能量不同,如何在一個(gè)像素點(diǎn)反映這些不同能量?首先,能量的表示方法有很多種,有的采用幅頻的幅度絕對(duì)值作

        現(xiàn)代計(jì)算機(jī) 2022年14期2022-09-20

      • 基于改進(jìn)Inception-ResNet_v2的低資源少數(shù)民族語音識(shí)別
        語音信號(hào)[5]和語譜圖[6]兩個(gè)角度切入。針對(duì)基于語音信號(hào)的語音識(shí)別研究,李余芳等[7]分別利用特定發(fā)音人和非特定發(fā)音人所錄的語音進(jìn)行隱馬爾可夫模型(Hidden Markov Model,HMM)訓(xùn)練,對(duì)普米語孤立詞進(jìn)行識(shí)別;趙爾平等[8]利用藏語語音學(xué)特征提出改進(jìn)的藏語孤立詞語音識(shí)別方法,識(shí)別精度可達(dá)92.83%;胡文君等[9]利用kaldi 分別訓(xùn)練5種不同的聲學(xué)模型,發(fā)現(xiàn)G-DNN 模型的普米語語音識(shí)別率明顯高于Monophone、Triphone

        軟件導(dǎo)刊 2022年8期2022-08-25

      • 基于卷積神經(jīng)網(wǎng)絡(luò)的鳥聲識(shí)別實(shí)驗(yàn)設(shè)計(jì)
        果繪制STFT 語譜圖,同時(shí)提取梅爾倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)特征參數(shù),將MFCC特征和STFT語譜圖特征放入CNN 進(jìn)行訓(xùn)練,獲取最優(yōu)的訓(xùn)練參數(shù),利用訓(xùn)練好的CNN完成對(duì)鳥聲的識(shí)別分類,整個(gè)實(shí)驗(yàn)過程如圖1 所示。圖1 鳥聲識(shí)別實(shí)驗(yàn)流程圖實(shí)驗(yàn)時(shí)既可使用已訓(xùn)練好的CNN 對(duì)MFCC 特征和STFT語譜圖特征進(jìn)行鳥聲識(shí)別實(shí)驗(yàn),分析比較兩者的結(jié)果,也可由學(xué)生自行編程設(shè)計(jì)CNN模型進(jìn)行鳥聲識(shí)別實(shí)驗(yàn),通

        實(shí)驗(yàn)室研究與探索 2022年4期2022-08-06

      • 基于注意力機(jī)制和殘差卷積網(wǎng)絡(luò)的語音增強(qiáng)?
        構(gòu),將含噪語音的語譜圖作為輸入特征,輸出為增強(qiáng)后語音的語譜圖,最后重構(gòu)語音信號(hào)。2 基本原理2.1 卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)一般由卷積層、池化層,上采樣層和全連接層組成,通過這些網(wǎng)絡(luò)層就可以構(gòu)建一個(gè)卷積神經(jīng)網(wǎng)絡(luò)。卷積層是通過卷積核和前一網(wǎng)絡(luò)層輸出進(jìn)行卷積運(yùn)算來提取特征的,然后偏置項(xiàng)相加,得出當(dāng)前層的特征。卷積核具有權(quán)值共享特性,相對(duì)于DNN和RNN可以大大減少參數(shù)。卷積層的更新公式如下[17]:式(1)中:xmj代表當(dāng)前層m的第j個(gè)特征圖輸入;f表示激活函

        艦船電子工程 2022年5期2022-06-21

      • 漢語方言語音信號(hào)的語譜圖分析
        察不同語音信號(hào)的語譜圖,可獲取語音的一些參數(shù)和特征,經(jīng)分析比對(duì),可識(shí)別出不同地方的語言,為語音合成奠定了基礎(chǔ)。語音識(shí)別技術(shù)的發(fā)展依賴計(jì)算機(jī)技術(shù)、數(shù)字信號(hào)處理器(Digital Signal Process,DSP)技術(shù)以及人工智能(Artificial Intelligence,AI)技術(shù)的進(jìn)步。要實(shí)現(xiàn)人機(jī)對(duì)話,需要設(shè)計(jì)制造出一種能將人類語音信號(hào)進(jìn)行自動(dòng)轉(zhuǎn)換和處理的機(jī)器來模擬現(xiàn)實(shí)生活中的人,實(shí)現(xiàn)人與機(jī)器的“無障礙”溝通交流。要設(shè)計(jì)出能聽懂人類語言的機(jī)器,關(guān)

        電聲技術(shù) 2022年4期2022-06-15

      • 基于ResNet模型的兒童口吃類型識(shí)別研究
        征,將語音轉(zhuǎn)換成語譜圖,使用ResNet模型對(duì)語譜特征提取并識(shí)別.2 兒童口吃語料庫構(gòu)建本文首先對(duì)兒童語音進(jìn)行實(shí)地采集,然后采用語音合成技術(shù)生成口吃類型語音,再將其隨機(jī)填充到采集的兒童語音中,模擬真實(shí)口吃語音,最后對(duì)構(gòu)建口吃語音及真實(shí)口吃語音的語譜圖進(jìn)行相似度分析.2.1 語音采集本文研究所用語料是與書丸子教育有限公司合作,對(duì)21名幼兒園兒童進(jìn)行語音采集所得.每名兒童被要求朗讀一段幼兒園教材的文章,語音以 16 kHz 采樣率、16 bit 量化的wav格

        云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2022年2期2022-03-26

      • 資源匱乏多語言的語種辨識(shí)技術(shù)研究
        轉(zhuǎn)化為相應(yīng)的灰度語譜圖,其次利用CNN提取語譜圖的空間特征,之后運(yùn)用BiGRU提取語譜圖的時(shí)間序列信息,最終輸出語種的分類結(jié)果。本文結(jié)構(gòu)安排如下:第三部分介紹采用的的方法,第四部分介紹實(shí)驗(yàn)設(shè)置,第五部分描述實(shí)驗(yàn)并分析結(jié)果,第六部分進(jìn)行總結(jié)。3 本文方法3.1 語譜圖生成語譜圖是語音信號(hào)在圖像域的一種表示方法,它能夠表示語音信號(hào)不同頻段的強(qiáng)度,可以通過傅里葉變換從語音信號(hào)中產(chǎn)生。語譜圖的橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示頻率,同時(shí)語譜圖中顯示了大量與語音特性有關(guān)的重

        計(jì)算機(jī)仿真 2022年12期2022-02-09

      • DenseNet在聲紋識(shí)別中的應(yīng)用研究*
        展。近年來,隨著語譜圖的出現(xiàn),研究者提出采用語譜圖與卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式進(jìn)行說話人身份識(shí)別[6 - 8],其優(yōu)勢在于語譜圖具有很強(qiáng)的綜合表征能力,能夠充分表示說話人身份的完整信息,且卷積神經(jīng)網(wǎng)絡(luò)CNN(Convolutional Neural Network)擅于提取特征的能力,使聲紋識(shí)別系統(tǒng)的識(shí)別性能得到大幅度提升。針對(duì)基于語譜圖的聲紋識(shí)別算法的研究目前仍處于初級(jí)階段,文獻(xiàn)[6-8]將卷積神經(jīng)網(wǎng)絡(luò)視為一種特征提取器,所用卷積層數(shù)較少,網(wǎng)絡(luò)的表達(dá)能力有

        計(jì)算機(jī)工程與科學(xué) 2022年1期2022-01-24

      • 基于時(shí)空特征的語音情感識(shí)別模型TSTNet
        到3個(gè)不同尺度的語譜圖,分別提取它們的空間特征、時(shí)間特征以及前后語義關(guān)系,在特征融合模塊中將提取得到的3個(gè)特征向量融合到一起。1 相關(guān)工作1.1 情感描述方式目前主要有2種描述情感的方法:基于離散的方法和基于維度的方法。情感的離散描述方法是將情感離散化,并進(jìn)一步類別化。陳煒亮等[5]提出一種新的情感識(shí)別模型MFCCG-PCA,實(shí)現(xiàn)生氣、高興、害怕、悲傷、驚訝和中性6種情感的分類。離散的描述方式簡單并且應(yīng)用廣泛,但是情感描述單一。情感的維度描述方法是將情感狀

        鄭州大學(xué)學(xué)報(bào)(工學(xué)版) 2021年6期2021-12-14

      • 基于二次引導(dǎo)圖像濾波的跨模態(tài)語音增強(qiáng)方法*
        像處理技術(shù)來處理語譜圖,這種技術(shù)已應(yīng)用于音樂轉(zhuǎn)錄、樂器聲音分離、降噪等[3-5]. 相反,我們可以從視為語譜圖的圖像中產(chǎn)生聲音信號(hào),這種技術(shù)稱為圖像到聲音的映射或模式回放[6-9].Han等[10]將監(jiān)督學(xué)習(xí)的方法擴(kuò)展到去噪中,在沒有受限玻爾茲曼機(jī)(Restricted Boltzmann Machine,RBM)預(yù)訓(xùn)練的情況下對(duì)深度神經(jīng)網(wǎng)絡(luò)(Deep Neural Networks,DNN)進(jìn)行訓(xùn)練,DNN被訓(xùn)練直接學(xué)習(xí)從損壞語音的語譜圖到干凈語音的語譜

        測試技術(shù)學(xué)報(bào) 2021年5期2021-11-02

      • 基于計(jì)算聽覺場分析的單聲道的雙人語音濁音分離*
        文嘗試?yán)L制語音的語譜圖與基音周期譜圖,考慮到幀移越大,繪制效果越好,但計(jì)算量也越大,故進(jìn)行繪制時(shí),對(duì)采樣率16000Hz的語音,統(tǒng)一以幀長512個(gè)采樣點(diǎn),幀移487個(gè)采樣點(diǎn)的標(biāo)準(zhǔn)進(jìn)行語譜圖與基音周期譜圖的繪制,確保一句完整的語音能顯示在一幅屏幕范圍內(nèi)的同時(shí),擁有最佳的繪制效果。語譜圖的繪制取語音信號(hào)進(jìn)行單幀傅里葉變換后,將所得的振幅譜數(shù)據(jù)映射到灰度值0~255之間。對(duì)第m幀語音信號(hào)x(n)進(jìn)行短時(shí)傅里葉變換,得到短時(shí)頻譜,其中N為幀長,如式(1)所示:單幀

        計(jì)算機(jī)與數(shù)字工程 2021年4期2021-10-09

      • 基于MD-CGAN的情感語音去噪算法
        Iz表示有噪聲的語譜圖,Ix表示干凈語譜圖,Ig表示去噪后的語譜圖,Iy表示語音情感類別標(biāo)簽。生成器網(wǎng)絡(luò)G的輸入是Iz和標(biāo)簽Iy,輸出是Ig,判決器網(wǎng)絡(luò)D的輸入是Ix和Ig,輸出為1或0。D需要將Ix判定為真,將Ig判定為假,從而使得G為了通過D的判定,將改變它的參數(shù)讓Ig更加接近Ix,而D通過反向傳播,在判定Ig和Ix方面變得更加優(yōu)秀。Iy作為整個(gè)網(wǎng)絡(luò)的約束來指導(dǎo)語譜圖去噪過程。最后,訓(xùn)練出適合去除語譜圖噪聲的生成器模型。圖1 基于CGAN的語音去噪模型

        杭州電子科技大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年5期2021-09-29

      • 基于主輔網(wǎng)絡(luò)特征融合的語音情感識(shí)別
        得了較好的效果。語譜圖是一維語音信號(hào)在二維時(shí)頻域的展開,能夠充分反映語音信號(hào)在時(shí)頻域大部分信息。卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)由于其自動(dòng)學(xué)習(xí)特征的能力和適用于二維圖像數(shù)據(jù)的特點(diǎn),目前被廣泛用在語譜圖中提取特征,進(jìn)一步提高語音情感識(shí)別性能[5-8]。如文獻(xiàn)[8]先將語譜圖輸入全卷積網(wǎng)絡(luò)(fully convolutional networks,F(xiàn)CN),并在最后一層卷積層使用注意力機(jī)制,最后進(jìn)行情感識(shí)別,在

        太原理工大學(xué)學(xué)報(bào) 2021年5期2021-09-22

      • 簡析聲紋串并在非接觸性網(wǎng)絡(luò)詐騙案件偵破中的應(yīng)用
        手段 案件串并 語譜圖分析1 引言近年來,非接觸性網(wǎng)絡(luò)詐騙案件呈現(xiàn)多發(fā)、高發(fā)態(tài)勢,犯罪手段多樣,犯罪團(tuán)伙人員組成復(fù)雜,涉案地域廣,這些案件特點(diǎn)給案件偵破工作帶來前所未有的考驗(yàn)。習(xí)近平總書記在對(duì)打擊治理電信網(wǎng)絡(luò)詐騙犯罪工作中作出重要指示,強(qiáng)調(diào)“堅(jiān)持以人民為中心,統(tǒng)籌發(fā)展和安全,強(qiáng)化系統(tǒng)觀念、法治思維,注重源頭治理、綜合治理,堅(jiān)持齊抓共管、群防群治,全面落實(shí)打防管控各項(xiàng)措施和金融、通信、互聯(lián)網(wǎng)等行業(yè)監(jiān)管主體責(zé)任,加強(qiáng)法律制度建設(shè),加強(qiáng)社會(huì)宣傳教育防范,推進(jìn)國際

        中國安全防范技術(shù)與應(yīng)用 2021年2期2021-06-11

      • 基于自適應(yīng)濾波法與譜減法的語音增強(qiáng)的研究
        音信號(hào)的信噪比和語譜圖來說明語音增強(qiáng)效果的優(yōu)劣[15-16].圖4和圖5分別是原始語音信號(hào)和噪聲語音信號(hào)的語譜圖.通過觀察可以發(fā)現(xiàn),純語音信號(hào)的語譜圖的頻率分布是非常規(guī)則的,由于沒有背景噪聲干擾,所以純語音信號(hào)的語譜圖只有有聲段有頻率的分布,在無聲段沒有頻率的分布;含有背景噪聲的語音信號(hào)的語譜圖,在整個(gè)時(shí)域上都會(huì)出現(xiàn)頻率分布并且有原始語音信號(hào)丟失的現(xiàn)象.因此,根據(jù)語譜圖中頻率在有聲段和無聲段的分布情況可以判斷使用新型譜減算法進(jìn)行語音增強(qiáng)之后是否能夠去除殘留

        溫州大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年1期2021-06-08

      • 基于C-LSTM 的鳥鳴聲識(shí)別方法*
        FCT)獲得3種語譜數(shù)據(jù)集,用VGG16 模型對(duì)18 種鳥類語譜圖進(jìn)行分類達(dá)到了較高的識(shí)別準(zhǔn)確率。鳥鳴聲中不僅包含個(gè)性聲音的空間特征[8],而且包含了鳴聲段之間的時(shí)序特征,上述鳥鳴聲識(shí)別方面的研究均沒有充分利用鳥類聲紋時(shí)序特征。長短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Memory)是一種時(shí)間遞歸神經(jīng)網(wǎng)絡(luò),該網(wǎng)絡(luò)適合于處理具有時(shí)間關(guān)聯(lián)度的聲紋信號(hào)。本文在深度卷積神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)上加入了長短時(shí)記憶網(wǎng)絡(luò)LSTM(Long Short-Term Me

        科技創(chuàng)新與應(yīng)用 2021年15期2021-06-03

      • 基于語譜圖的江西境內(nèi)贛方言自動(dòng)分區(qū)研究
        FCC)特征以及語譜圖兩種不同的語音特征。針對(duì)語音特征提取的維度過大問題,在MFCC特征上采取了PCA(principle component analysis)降維處理,在語譜圖特征上采用基于卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural networks,CNN)系統(tǒng)的自編碼降維處理。對(duì)降維后的語音特征分別采用k-均值算法聚類、高斯混合聚類和層次聚類對(duì)方言自動(dòng)分區(qū),并采用聚類性能度量指標(biāo)評(píng)價(jià)聚類效果。實(shí)驗(yàn)結(jié)果表明,新型語譜圖特征的聚類性能度量內(nèi)

        中文信息學(xué)報(bào) 2021年4期2021-05-27

      • 基于放電聲音識(shí)別的高壓電器絕緣監(jiān)測研究
        本文使用聲音信號(hào)語譜圖和卷積神經(jīng)網(wǎng)絡(luò)相結(jié)合的方式來提取聲音信號(hào)的特征參數(shù)[6-7]。生成的網(wǎng)絡(luò)模型具備處理數(shù)據(jù)能力強(qiáng)、識(shí)別率高以及便于優(yōu)化等優(yōu)點(diǎn)。對(duì)比文獻(xiàn)[8]20、文獻(xiàn)[9]56,本文方法能夠識(shí)別的聲音信號(hào)更加多樣化,同時(shí)在準(zhǔn)確率上也有所提升[10-11]。1 聲音信號(hào)特征提取信號(hào)特征能反映聲音的重要本質(zhì)參數(shù),而信號(hào)又處于非穩(wěn)態(tài)且時(shí)變的狀態(tài),因而聲音信號(hào)需要進(jìn)行預(yù)處理,便于提取特征。預(yù)處理主要是對(duì)聲音信號(hào)進(jìn)行預(yù)加重、分幀以及加窗處理。預(yù)加重一般通過數(shù)字濾

        電氣自動(dòng)化 2021年2期2021-05-13

      • 基于CNN的普米語孤立詞語譜圖分類
        于語音信號(hào)和基于語譜圖的2種語音識(shí)別方法.語音識(shí)別中,同一個(gè)詞不同說話者的語速不同,同一個(gè)人發(fā)同一個(gè)音,在不同時(shí)刻,所用的時(shí)間也不相同[2-3].因此,通過語音信號(hào)來統(tǒng)計(jì)人類語音的發(fā)音特征非常困難.基于語音信號(hào)的語音識(shí)別中提取的特征參數(shù)主要有梅爾頻率倒譜系數(shù)(Mel-Frequency Cepstral Coefficient,MFCC)、線性預(yù)測倒譜系數(shù)(Linear Prediction Cepstrum Coefficient,LPCC)等,其中MF

        西南大學(xué)學(xué)報(bào)(自然科學(xué)版) 2021年2期2021-02-01

      • 生成對(duì)抗網(wǎng)絡(luò)下小樣本語音情感識(shí)別方法
        時(shí)域和頻域特征的語譜圖信號(hào)[11]。首先,對(duì)一段長的語音數(shù)據(jù)執(zhí)行分幀操作,把語音信號(hào)切割成大小相等的片段,其中的每一段為一幀,分別對(duì)每一個(gè)語音幀進(jìn)行加窗處理,以減小信號(hào)中不連續(xù)部分的幅值,通過傅里葉變換計(jì)算出每幀語音數(shù)據(jù)的頻率譜,對(duì)其平方轉(zhuǎn)化得到對(duì)應(yīng)頻譜的能量譜,最后把所得到的結(jié)果按照時(shí)間維度拼接形成語譜圖,如圖2所示。圖2 語譜圖人們的情感變化可以清晰表現(xiàn)在語譜圖上。例如,人們傷心時(shí),語速較慢,平均音調(diào)較低,語氣強(qiáng)度比較低,在語譜圖中深顏色部分的面積較小

        計(jì)算機(jī)工程與設(shè)計(jì) 2020年12期2020-12-28

      • 基于CNN-BGRU的音素識(shí)別研究
        數(shù)據(jù)集上進(jìn)行音素語譜圖分類任務(wù),基于CNN-BGRU的混合模型在識(shí)別效果的準(zhǔn)確率明顯高于其它4個(gè)模型,基于CNN-BGRU的混合模型的正確率可以達(dá)98.6%.1 相關(guān)工作1.1 VGGNet模型2014年GoogleNet和VGGNet分別獲得了ILSVRC圖像分類大賽的冠亞軍,兩個(gè)模型都注重從加深網(wǎng)絡(luò)深度的角度去提升卷積神經(jīng)網(wǎng)絡(luò)的性能.GoogleNet對(duì)傳統(tǒng)卷積層的結(jié)構(gòu)進(jìn)行了改進(jìn),而VGGNet則采用了較小的卷積核,卷積核小能一定程度上減少參數(shù)量且方便

        云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2020年5期2020-12-18

      • 融合淺層學(xué)習(xí)和深度學(xué)習(xí)模型的語音情感識(shí)別
        進(jìn)行結(jié)合,提出了語譜圖特征提取方法,并應(yīng)用于語音識(shí)別[4]和語音情感識(shí)別相關(guān)領(lǐng)域[5]。在識(shí)別模型研究方面,從淺層學(xué)習(xí)的支持向量機(jī)(SVM)[6]、隱馬爾可夫模型(HMM)[7]、高斯混合模型(GMM)[8],到深度學(xué)習(xí)的卷積神經(jīng)網(wǎng)絡(luò)(CNN)[9]、深度置信網(wǎng)絡(luò)(DBN)[11]和遞歸神經(jīng)網(wǎng)絡(luò)等(RNN)[10]。與傳統(tǒng)的機(jī)器學(xué)習(xí)模型相比,深度學(xué)習(xí)能夠提取高層的特征,近年來在計(jì)算機(jī)視覺領(lǐng)域具有出色的表現(xiàn),其中卷積神經(jīng)網(wǎng)絡(luò)在語音識(shí)別、圖像識(shí)別等領(lǐng)域取得了前

        計(jì)算機(jī)應(yīng)用與軟件 2020年12期2020-12-14

      • 漢語連續(xù)語音切分技術(shù)研究?
        5]。本文通過對(duì)語譜圖以及基音周期軌跡的分析,研究了一種音節(jié)切分的算法,能夠有效提高漢語語音切分的準(zhǔn)確率。2 端點(diǎn)檢測技術(shù)語音的端點(diǎn)檢測是指從一段原始信號(hào)中準(zhǔn)確地找出語音信號(hào)的起始點(diǎn)和結(jié)束點(diǎn)[6]。它的目的是為了使有用的語音信號(hào)和無用的無聲段與噪聲信號(hào)相分離,增加后續(xù)語音處理的有效性[7]。目前廣泛采用的端點(diǎn)檢測方法是雙門限端點(diǎn)檢測技術(shù)[8]。本文基于對(duì)傳統(tǒng)雙門限檢測法理論的研究,研究了一種多閾值檢測方法,有效提高了端點(diǎn)檢測的準(zhǔn)確率。2.1 雙門限端點(diǎn)檢測

        計(jì)算機(jī)與數(shù)字工程 2020年8期2020-10-14

      • 基于ResNet-BLSTM的端到端語音識(shí)別
        直接將整段語音的語譜圖作為輸入,相比其他以傳統(tǒng)語音特征作為輸入的語音識(shí)別模型速度更快。其次,從模型結(jié)構(gòu)來看,本文的ResNet與傳統(tǒng)端到端系統(tǒng)中的CNN 做法不同,它借鑒了圖像識(shí)別中做法,通過將語音轉(zhuǎn)化成一張圖像作為輸入,再將時(shí)間和頻率作為圖像的兩個(gè)維度,然后通過一些卷積層和池化(pooling)層的組合,這樣大大增強(qiáng)了CNN的表達(dá)能力。其次在ResNet 后接BLSTM,通過該網(wǎng)絡(luò)能夠?qū)W習(xí)到語音信號(hào)的上下文信息,從而提升端到端模型的識(shí)別率。2 DCNN模

        計(jì)算機(jī)工程與應(yīng)用 2020年18期2020-09-15

      • 基于語譜圖和神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別研究
        李蜜基于語譜圖和神經(jīng)網(wǎng)絡(luò)的聲紋識(shí)別研究李蜜(華中師范大學(xué) 物理科學(xué)與技術(shù)學(xué)院,湖北 武漢 430079)隨著科技的不斷發(fā)展,人們對(duì)信息安全的要求越來越高,如何更簡單、更方便、更加安全地進(jìn)行身份驗(yàn)證變得異常重要.在卷積神經(jīng)網(wǎng)絡(luò)(CNN)的基礎(chǔ)上,結(jié)合語譜圖和直方均衡增強(qiáng)算法對(duì)聲紋識(shí)別特征進(jìn)行學(xué)習(xí)和訓(xùn)練.模型使用非固定長度語音段,首先將語音段進(jìn)行濾波、分幀、加窗和離散余弦變換得到語譜圖,再使用直方均衡算法將像素點(diǎn)不均勻分布語譜圖轉(zhuǎn)化成像素點(diǎn)能在整個(gè)灰度區(qū)間均勻

        高師理科學(xué)刊 2020年4期2020-06-23

      • 基于CNN_LSTM的語音情感識(shí)別系統(tǒng)設(shè)計(jì)
        。我院設(shè)計(jì)采用的語譜圖作為輸入,克服了傳統(tǒng)算法在提取情感特征向量時(shí)造成的誤差,并提出了基于卷積神經(jīng)網(wǎng)絡(luò)(CNN)改進(jìn)的深度學(xué)習(xí)框架,采用中科院漢語情感數(shù)據(jù)集CASIA語料庫和柏林情感語音庫,將語譜圖輸入到三通道CNN中,每通道設(shè)置不同的卷積核,進(jìn)行多維特征提取,初步訓(xùn)練后,將得到的三組特征組合成新的情感特征向量,通過LSTM再次進(jìn)行訓(xùn)練,最終得到情感分類。實(shí)驗(yàn)結(jié)果表明,本文結(jié)構(gòu)在識(shí)別多分類情感時(shí),表現(xiàn)良好,在六分類問題上可達(dá)到平均92%的識(shí)別率。1 基于語

        電聲技術(shù) 2020年3期2020-06-18

      • 基于雙重?cái)?shù)據(jù)增強(qiáng)策略的音頻分類方法
        強(qiáng)后的數(shù)據(jù)轉(zhuǎn)化為語譜圖;三是對(duì)得到的語譜圖使用隨機(jī)均值替換方法進(jìn)行譜圖增強(qiáng),即第二次數(shù)據(jù)增強(qiáng)。雙重?cái)?shù)據(jù)增強(qiáng)后還需進(jìn)行卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)森林分類器[12-13]兩個(gè)訓(xùn)練過程,以完成整個(gè)音頻分類流程。1 方法介紹本文方法大體可分為4個(gè)步驟,分別為數(shù)據(jù)預(yù)處理、數(shù)據(jù)增強(qiáng)、獲取高層特征和分類器訓(xùn)練,框架結(jié)構(gòu)如圖1所示,其核心內(nèi)容為雙重?cái)?shù)據(jù)增強(qiáng)(Double Data Augmentation,DDA)、神經(jīng)網(wǎng)絡(luò)模型(Inception_Resnet_V2)訓(xùn)練、隨機(jī)

        武漢科技大學(xué)學(xué)報(bào) 2020年2期2020-05-12

      • 基于語譜圖與改進(jìn)DenseNet的野外車輛識(shí)別
        寶清,袁曉兵基于語譜圖與改進(jìn)DenseNet的野外車輛識(shí)別周鵬1,2,3,李成娟1,3,趙沁1,3,王艷1,唐洪瑩1,李寶清1,袁曉兵1(1. 中國科學(xué)院上海微系統(tǒng)與信息技術(shù)研究所微系統(tǒng)技術(shù)重點(diǎn)實(shí)驗(yàn)室,上海 201800;2. 上海科技大學(xué)信息學(xué)院,上海 201210;3. 中國科學(xué)院大學(xué),北京 100049針對(duì)在野外運(yùn)動(dòng)車輛分類過程中,傳統(tǒng)梅爾倒譜系數(shù)與高斯混合模型分類方法對(duì)干擾噪聲較為敏感的情況,提出了改進(jìn)的密集卷積網(wǎng)絡(luò)結(jié)構(gòu)(DenseNet)方法。首

        聲學(xué)技術(shù) 2020年2期2020-05-09

      • 基于語譜圖和深度置信網(wǎng)絡(luò)的方言自動(dòng)辨識(shí)與說話人識(shí)別
        出了一種基于特征語譜圖和自適應(yīng)聚類SOM 的快速說話人識(shí)別算法。2 語音信號(hào)預(yù)處理語音信號(hào)中低頻部分能量占主體,為了讓頻譜中高頻部分的幅度得到提升,對(duì)語音信號(hào)做后續(xù)處理之前,通常需要用一個(gè)一階高通濾波器對(duì)語音信號(hào)進(jìn)行預(yù)加重[6][12][13]。本文研究基于孤立詞的方言自動(dòng)辨識(shí)和說話人識(shí)別,為了將整段語音信號(hào)分割成一個(gè)個(gè)孤立詞,需要利用端點(diǎn)檢測技術(shù)確定每個(gè)孤立詞語音的起始位置和終止位置[6][7]。雙門限判決法是一種常用的語音信號(hào)端點(diǎn)檢測方法[6][7],

        電子技術(shù)與軟件工程 2020年14期2020-02-03

      • 基于Praat的藏語連續(xù)語音參數(shù)提取仿真和分析
        有語音波形繪制、語譜顯示、特征參數(shù)標(biāo)注、語音分解和合成等多種功能的語音信號(hào)分析研究工具。Praat強(qiáng)大的可視化交互界面,可以直觀動(dòng)態(tài)觀察語音信號(hào)的細(xì)節(jié)參數(shù)。圖1是把一個(gè)真人錄音的語音文件導(dǎo)入到Praat軟件后的語音分析界面。2.1 語音時(shí)域波形和參數(shù)提取在Praat軟件環(huán)境下,一段語音完成錄音后,可以進(jìn)行語音的各種時(shí)域參數(shù)提取和分析。圖2是一個(gè)語音文件的時(shí)域語音強(qiáng)度波形圖。從強(qiáng)度曲線變化上可以直觀的觀察這段語音強(qiáng)度的特性,是語音發(fā)音過程中節(jié)奏變化的體現(xiàn)。在

        電子技術(shù)與軟件工程 2019年20期2019-11-16

      • 基于組合DNN的語音分離方法
        域波形圖和對(duì)應(yīng)的語譜圖,圖5表示DNN2語音分離系統(tǒng)的純凈語音、混合信號(hào)和分離語音的時(shí)域波形圖和對(duì)應(yīng)的語譜圖,圖6表示CE_DNN語音分離系統(tǒng)的純凈語音、混合信號(hào)和分離語音的時(shí)域波形圖和對(duì)應(yīng)的語譜圖。(a)純凈語音時(shí)域波形圖(b)混合語音時(shí)域波形圖(c)分離語音時(shí)域波形圖(d)純凈語音的語譜圖(e)混合語音的語譜圖(f)分離語音的語譜圖Fig.4 DNN1 speech separation system of pure speech, mixed sig

        數(shù)碼設(shè)計(jì) 2019年2期2019-09-19

      • HR-DCGAN方法的帕金森聲紋樣本擴(kuò)充及識(shí)別研究
        Alexnet對(duì)語譜圖分類,在數(shù)據(jù)集[8]上達(dá)到86.67%的精確度.將語音信號(hào)轉(zhuǎn)換為語譜圖,可以利用神經(jīng)網(wǎng)絡(luò)識(shí)別并提取與研究目標(biāo)相關(guān)的重要聲紋特征以自動(dòng)對(duì)圖像進(jìn)行分類.目前,最受歡迎的卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Network,CNN)VGGNets中的VGG16模型是用于圖像識(shí)別和分類的主要工具.VGG16具有拓展性很強(qiáng)、泛化性好等優(yōu)點(diǎn),在其他領(lǐng)域的圖像數(shù)據(jù)集上達(dá)到很好的效果,作為一種數(shù)據(jù)驅(qū)動(dòng)模型,依賴大量樣本.但現(xiàn)階段用于

        小型微型計(jì)算機(jī)系統(tǒng) 2019年9期2019-09-09

      • 連續(xù)漢語語音切分技術(shù)研究?
        分析2.2.1 語譜語譜圖[9]反映語音的時(shí)頻特性,語譜圖的橫軸表示時(shí)間(幀序號(hào)),縱軸表示語音信號(hào)的頻率。語譜圖中像素點(diǎn)顏色深表示該點(diǎn)的語音能量較強(qiáng)。語譜圖的繪制步驟如下:1)對(duì)語音信號(hào)進(jìn)行預(yù)處理,再根據(jù)式(3)求快速傅里葉變換。2)根據(jù)式(4)將Xn(ω)轉(zhuǎn)換為振幅譜,R 表示Xn(ω)的實(shí)部,I表示Xn(ω)的虛部。3)將振幅轉(zhuǎn)換為灰度圖像數(shù)據(jù)。振幅越大,像素點(diǎn)的灰度越深;反之越淺。4)繪制語譜圖,因?yàn)閷?shí)數(shù)的振幅譜為偶函數(shù),關(guān)于中心對(duì)稱,所以繪制語

        計(jì)算機(jī)與數(shù)字工程 2019年7期2019-07-31

      • 基于AlexNet模型的佤語語譜圖識(shí)別
        主要從語音信號(hào)和語譜圖兩個(gè)角度切入.語音信號(hào),主要的研究方法有隱馬爾科夫模型、深度置信網(wǎng)絡(luò)等.蔡琴[12]建立了維吾爾語的連續(xù)數(shù)字語音聲學(xué)模型,對(duì)維吾爾語連續(xù)數(shù)字短語識(shí)別率達(dá)到80%,詞識(shí)別率達(dá)到91.19%.胡文君[13]分別訓(xùn)練了5種不同的聲學(xué)模型: Monophone、Triphone1、Triphone2、O-SGMM、G-DNN,實(shí)驗(yàn)結(jié)果表明,隨著語料量的增加,系統(tǒng)魯棒性提高.語譜圖,宋洋[14]針對(duì)維吾爾語音素的語譜圖像提取二值和邊緣特征,建立

        云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年4期2019-07-31

      • 基于免疫遺傳優(yōu)化支持向量機(jī)的普米語孤立詞語譜圖分類
        為研究對(duì)象,借助語譜圖研究其特征,最終實(shí)現(xiàn)普米語孤立詞分類.1 語音識(shí)別相關(guān)研究工作目前,語音識(shí)別的方法可以歸結(jié)基于語音信號(hào)和基于語譜圖2種.1) 基于語音信號(hào)的方法.語音信號(hào)是一種非線性隨機(jī)并存在混沌的機(jī)制,就目前而言處理這種機(jī)制的模型主要語音信號(hào)的線性模型和非線性模型兩種.線性模型的理論基礎(chǔ)是確定性線性系統(tǒng)理,而非線性模型則視語音信號(hào)為一些調(diào)幅—調(diào)頻信號(hào)的疊加,其核心是瞬時(shí)頻率.在此之前本團(tuán)隊(duì)基于語音信號(hào)的普米語語音識(shí)別,已取得了一些成果[2-4].2

        云南民族大學(xué)學(xué)報(bào)(自然科學(xué)版) 2019年1期2019-01-22

      • 聲音-圖像的跨模態(tài)處理方法綜述
        最重要的中介就是語譜圖。語譜圖將聲音的頻譜隨時(shí)間變化的信息展現(xiàn)在一個(gè)二維平面圖上,其中橫軸是時(shí)間,縱軸是頻率,某一點(diǎn)處顏色的深淺代表了對(duì)應(yīng)時(shí)刻和頻率的信號(hào)能量大小,也被稱為聲譜圖(spectrogram)。它雖然反映了聲音信號(hào)的特征,但是卻和二維圖像具有相同的屬性。以它為中介,可以完成圖像到聲音和聲音到圖像的雙向轉(zhuǎn)換,達(dá)到跨模態(tài)處理的目的。本文接下來一方面介紹了從語譜圖的角度進(jìn)行聲音分類的研究內(nèi)容及進(jìn)展情況,包括用于音樂流派分類圖像特征類型及其分類的精確度

        中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版) 2018年4期2018-08-02

      • 基于時(shí)頻域特征的場景音頻研究
        得到待分析信號(hào)的語譜圖, 對(duì)于其中涉及到的重要參數(shù)進(jìn)行調(diào)整, 使其中的聲學(xué)特征得到完整保留, 使語譜圖的表現(xiàn)效果達(dá)到最佳狀態(tài), 進(jìn)而可應(yīng)用于場景音頻的分類處理及模式識(shí)別等研究方向[6]。1 語譜語譜圖是一種可視化語言, 能描述聲音時(shí)間-頻率-頻譜能量密度的變化, 被廣泛應(yīng)用于音頻識(shí)別及去噪領(lǐng)域[7,8]。語譜圖的顯示簡潔明了, 灰度語譜圖上會(huì)用深淺不同的黑灰色條紋呈現(xiàn)出有規(guī)律的形狀, 即聲紋, 它反映音頻信號(hào)的變化規(guī)律。語譜圖的橫坐標(biāo)為時(shí)間, 縱坐標(biāo)為頻

        吉林大學(xué)學(xué)報(bào)(信息科學(xué)版) 2018年3期2018-06-13

      • 語音情感識(shí)別算法中新型參數(shù)研究*
        ,提出一種新型的語譜圖顯著性特征來改善語音情感識(shí)別效果。識(shí)別算法利用選擇性注意模型獲取語音信號(hào)語譜圖像的顯著圖,并從中提取顯著性特征,結(jié)合語音信號(hào)傳統(tǒng)的時(shí)頻特征構(gòu)成語音情感識(shí)別特征向量。最后,利用KNN分類方法進(jìn)行語音情感識(shí)別。實(shí)驗(yàn)結(jié)果表明,加入顯著性特征后識(shí)別率有明顯提升。語音情感識(shí)別;顯著性特征;KNN分類當(dāng)今世界科技水平高速發(fā)展,人們也對(duì)計(jì)算機(jī)提出了更多要求。在智能人機(jī)交互系統(tǒng)構(gòu)建中,語音情感識(shí)別已成為關(guān)鍵技術(shù)之一。對(duì)語音信號(hào)的情感分析,使得人機(jī)交互

        電子器件 2017年5期2017-11-03

      • 語譜圖二次傅里葉變換特定人二字漢語詞匯識(shí)別
        100081)語譜圖二次傅里葉變換特定人二字漢語詞匯識(shí)別潘 迪1,梁士利1,魏 瑩1,李廣巖1,許廷發(fā)2,王雙維1(1.東北師范大學(xué)物理學(xué)院,吉林 長春 130024;2.北京理工大學(xué)光電成像與信息工程研究所,北京 100081)以語音信號(hào)的語譜圖作為處理對(duì)象,提出了基于語譜圖二次傅里葉變換對(duì)特定人二字詞匯識(shí)別的方法.首先對(duì)語譜圖二次傅里葉變換頻域圖的圖像意義以及相應(yīng)的語音特性表征進(jìn)行了詳細(xì)剖析;然后對(duì)語譜圖頻域圖像進(jìn)行二進(jìn)寬度行投影,將投影值作為語音識(shí)

        東北師大學(xué)報(bào)(自然科學(xué)版) 2017年2期2017-06-13

      • 基于語譜圖提取瓶頸特征的情感識(shí)別算法研究
        10003)基于語譜圖提取瓶頸特征的情感識(shí)別算法研究李 姍,徐瓏婷(南京郵電大學(xué) 通信與信息工程學(xué)院,江蘇 南京 210003)傳統(tǒng)的譜特征(諸如MFCC)來源于對(duì)語譜圖特征的再加工提取,但存在著因分幀處理引起相鄰幀譜特征之間相關(guān)性被忽略的問題和所提取的譜特征與目標(biāo)標(biāo)簽不相關(guān)的問題。這導(dǎo)致了從語譜圖中提取的特征丟失了很多有用信息。為此,提出了獲取深度譜特征(Deep Spectral Feature,DSF)的算法。DSF的特征是把直接從語譜圖中提取的譜特

        計(jì)算機(jī)技術(shù)與發(fā)展 2017年5期2017-06-05

      • 基于語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別
        君鵬,杜留鋒基于語譜圖和卷積神經(jīng)網(wǎng)絡(luò)的語音情感識(shí)別田熙燕1,徐君鵬1,杜留鋒2(1.河南科技學(xué)院信息工程學(xué)院,河南新鄉(xiāng)453002;2.南京郵電大學(xué)通信與信息工程學(xué)院,江蘇南京210003)針對(duì)語音情感識(shí)別的特征提取和分類模型構(gòu)建問題,首先提出了一種基于語譜圖的特征提取方法,將語譜圖進(jìn)行歸一灰度化后,利用Gabor濾波器進(jìn)行紋理特征提取,并采用主成分分析(principal componentanalysis, PCA)對(duì)特征矩陣進(jìn)行降維;然后分析了卷積神

        河南科技學(xué)院學(xué)報(bào)(自然科學(xué)版) 2017年2期2017-05-11

      • 基于設(shè)備本底噪聲頻譜特征的手機(jī)來源識(shí)別
        機(jī)品牌的本底噪聲語譜本底噪聲的定義表明,本底噪聲的特性與手機(jī)的電路設(shè)計(jì)和電子元器件的使用密切相關(guān)。由于不同型號(hào)的手機(jī)在電路設(shè)計(jì)和電子元器件的使用上存在部分差異。所以,本底噪聲可以作為手機(jī)的“指紋”進(jìn)行手機(jī)的來源識(shí)別。2.2 本底噪聲的性質(zhì)為了研究本底噪聲的特性,對(duì)現(xiàn)下流行的7個(gè)品牌24個(gè)型號(hào)的25臺(tái)設(shè)備 (其中有兩臺(tái)iPhone 5)進(jìn)行了研究,具體手機(jī)型號(hào)見表1。實(shí)際本底噪聲樣本是在無回聲的錄音棚的靜音環(huán)境下錄制的。為了避免其他電氣設(shè)備噪聲對(duì)實(shí)驗(yàn)的干擾,

        電信科學(xué) 2017年1期2017-05-03

      • 基于語譜圖特征信息分割提取的聲景觀中鳥類生物多樣性分析
        48823基于語譜圖特征信息分割提取的聲景觀中鳥類生物多樣性分析蔣錦剛1,邵小云1,萬海波1,*,齊家國1,2,荊長偉1,程天佑11 浙江大學(xué), 海洋學(xué)院, 杭州 310058 2 密歇根州立大學(xué), 全球變化與對(duì)地觀測研究中心, 東蘭辛市 48823聲學(xué)手段是監(jiān)測和研究生態(tài)系統(tǒng)生物活動(dòng)規(guī)律、評(píng)價(jià)生態(tài)系統(tǒng)健康狀況的一種新方法,聲景觀生態(tài)學(xué)也是景觀生態(tài)學(xué)的一個(gè)新興研究領(lǐng)域。聲景指數(shù)是描述復(fù)雜的音頻數(shù)據(jù)生態(tài)學(xué)特征的有效方法,但是,單一的聲景指數(shù)并不能有效的指示

        生態(tài)學(xué)報(bào) 2016年23期2016-04-14

      • 語音信號(hào)的多小波脊提取算法研究
        語音信號(hào)時(shí)頻圖的語譜圖方法,把小波脊提取方法運(yùn)用到語音信號(hào)的頻譜提取中,并對(duì)兩種方法進(jìn)行了對(duì)比。1 方法原理現(xiàn)代語音信號(hào)處理中,我們常用語譜圖方法得到語音信號(hào)的時(shí)頻譜,小波在語音信號(hào)的處理中運(yùn)用的比較多,但是在語音信號(hào)的時(shí)頻圖取得方面運(yùn)用比較少。待分析的信號(hào)形式如下:以上各個(gè)變量的物理意義是:b表示平移因子,如果變換過程中消除了偏移,b和時(shí)間t是意義對(duì)應(yīng)的,因此A(b)表示時(shí)間點(diǎn)b上的振幅大小,Φ′(b)表示時(shí)間點(diǎn)b上的瞬時(shí)頻率,Φ(b)表示時(shí)間點(diǎn)b上的瞬

        科技視界 2013年6期2013-11-13

      • Java和Matlab混合編程及其應(yīng)用
        COM技術(shù)實(shí)現(xiàn)語譜圖讀取情感語音分析中常用的特征值分為兩類:一是韻律特征;另一是音質(zhì)特征。而各分類中又包含著多個(gè)特征值的選取,如短時(shí)能量、基音、強(qiáng)度、共振峰、語譜圖分析等。2.1 語譜語譜圖主要用于反映語音信號(hào)動(dòng)態(tài)頻率特征,在語音分析中具有極其重要的實(shí)用價(jià)值。有時(shí)也可以把語譜圖看作是可視語言。語譜圖的水平方向表示時(shí)間軸,垂直方向表示頻率軸,圖上的灰度條紋則可表示各個(gè)時(shí)間點(diǎn)的語音短時(shí)譜。語譜圖上因其不同的灰度,形成不同的紋路,稱之為“聲紋”。聲紋因人而異

        長春大學(xué)學(xué)報(bào) 2012年10期2012-09-21

      • 中國大學(xué)生英語/ i/-/ / 感知模式研究
        8)。音質(zhì)體現(xiàn)在語譜特征(spectral properties)的變化上,主要是前兩個(gè)共振峰(F1、F2)的變化;音長則體現(xiàn)在時(shí)長變化上。在大多數(shù)英語方言中,/i/與/1/相比,其F1較低,F2較高,且時(shí)長也較長(Morrison 2008)。一般情況下,人們?cè)谡Z音感知中對(duì)不同聲學(xué)信息的關(guān)注有所區(qū)別。例如,在大部分英語方言中,人們主要靠語譜特征對(duì)/i/-/1/進(jìn)行區(qū)分,而時(shí)長因素則只是發(fā)揮次要作用(Hillenbrandetal.2000)。然而,對(duì)英語

        當(dāng)代外語研究 2011年2期2011-12-05

      • 基于時(shí)頻分布的漢語語音關(guān)鍵頻率分布研究
        的特性。2.3 語譜語譜圖是語音信號(hào)短時(shí)頻譜的時(shí)間-強(qiáng)度表示[4]。語譜圖是語音信號(hào)時(shí)頻分布的一個(gè)比較好的應(yīng)用。其橫坐標(biāo)表示時(shí)間,縱坐標(biāo)表示頻率,每個(gè)像素的灰度值大小及顏色的濃淡反映相應(yīng)時(shí)刻和相應(yīng)頻率的能量。能量功率譜具體表示為其中,ω[n]是一個(gè)長度為2N+1的窗函數(shù),X(n,ω)表示在時(shí)域以n點(diǎn)為中心的一幀信號(hào)的傅里葉變換在ω處的大小。下面圖1給出了語音“開始”的語譜圖。圖中橫軸表示時(shí)間,縱軸表示頻率,顏色的深淺表示(n,ω)處的能量大小,一般用能量

        電子設(shè)計(jì)工程 2011年10期2011-03-14

      • 網(wǎng)絡(luò)語音聊天與真人語音的比較
        進(jìn)行辨析,從寬帶語譜圖和共振峰頻率兩方面,通過各組數(shù)據(jù)具體分析了其與真人語音的差別。此文只討論使用Skype和QQ兩種軟件進(jìn)行語音聊天的音頻。2 網(wǎng)絡(luò)語音聊天原理實(shí)現(xiàn)原理網(wǎng)絡(luò)語音聊天,又稱VoIP (voice over internet protocol),指的是在使用了互聯(lián)網(wǎng)協(xié)議的網(wǎng)絡(luò)上進(jìn)行語音傳輸,其中的IP是代表互聯(lián)網(wǎng)協(xié)議,它是互聯(lián)網(wǎng)的中樞,互聯(lián)網(wǎng)協(xié)議可以將電子郵件,即時(shí)訊息以及網(wǎng)頁傳輸?shù)匠汕先f的PC或者手機(jī)上[1]。其最大的優(yōu)勢是能廣泛地采用I

        電信科學(xué) 2010年2期2010-03-11

      余干县| 兰西县| 岚皋县| 青浦区| 平阴县| 泰兴市| 靖边县| 开化县| 高清| 五原县| 衡阳县| 霍林郭勒市| 长丰县| 丰台区| 鱼台县| 德清县| 鹿泉市| 教育| 镇坪县| 井陉县| 会同县| 宝清县| 黄骅市| 四子王旗| 台北县| 普格县| 东莞市| 个旧市| 隆尧县| 马边| 江津市| 平度市| 利川市| 深圳市| 玛纳斯县| 台湾省| 屏边| 鄢陵县| 宁强县| 河北区| 上思县|