裴安山,王讓定,嚴(yán)迪群
(寧波大學(xué) 信息科學(xué)與工程學(xué)院,浙江 寧波 315211)
隨著互聯(lián)網(wǎng)的不斷發(fā)展和便攜式智能終端的快速普及,人們能夠更加方便、快捷地借助于各種便攜設(shè)備在網(wǎng)絡(luò)上與他人分享自己的所見所聞所感,但是隨著數(shù)字多媒體編輯軟件的普及,以及其功能的強(qiáng)大和操作的簡單化,編輯、修改以及發(fā)布多媒體信息也變得越來越簡單有趣。盡管大多數(shù)人對多媒體的編輯只是為了增強(qiáng)表現(xiàn)效果,但也不乏有人無意或是有意,甚至惡意地傳播、發(fā)布經(jīng)過精心篡改或偽造的多媒體數(shù)據(jù)[1]。
音頻來源取證是數(shù)字音頻被動取證中的一個(gè)重要環(huán)節(jié),目的是通過對獲取的錄音文件進(jìn)行信號處理與分析,利用能表征錄制設(shè)備及其特性的信息,實(shí)現(xiàn)對錄音來源的辨識。是對音頻來源的真實(shí)性、完整性等進(jìn)行驗(yàn)證的,是多媒體取證技術(shù)的重要研究內(nèi)容,其領(lǐng)域隨著學(xué)者們?nèi)找娴年P(guān)注獲得了重大的研究進(jìn)展[2-7]。裴安山等[8]首次將設(shè)備的本底噪聲應(yīng)用于語音的設(shè)備來源取證研究,將在靜音段上采用譜減法去除環(huán)境噪聲之后的噪聲認(rèn)為是廣義的設(shè)備本底噪聲,在此基礎(chǔ)上提出頻譜的對數(shù)譜特征作為分類特征,在CKC-SD(CKC Speech Database)語音數(shù)據(jù)庫上識別準(zhǔn)確率達(dá)到99%。之后考慮到本底噪聲的提取較大程度上受環(huán)境噪聲的影響,該特征的實(shí)際場景的通用性偏弱,提出在非語音段上提取特征表征設(shè)備特有痕跡的方法,該方法減少了利用譜減法去除環(huán)境噪聲的工作,同時(shí)考慮到非語音段包含與語音段相同的設(shè)備痕跡信息,具有不會受到說話人、文本、情感等可能因素的干擾的優(yōu)點(diǎn),將非語音段上去離散余弦變換(Discrete Cosine Transform, DCT)的梅爾倒譜系數(shù)(Mel Frequency Cepstral Coefficients, MFCC)作為分類特征,采用均值歸一化方法對提取的特征進(jìn)行歸一化,最后采用LIBSVM分類器對TIMIT翻錄語音數(shù)據(jù)庫和CKC-SD語音數(shù)據(jù)庫的樣本進(jìn)行分類識別。實(shí)驗(yàn)結(jié)果表明,該算法在23種不同型號的設(shè)備的識別實(shí)驗(yàn)中平均識別率達(dá)到99%[9]。Hanilci等[10]提取錄音文件的MFCC及其一階、二階差分值作為特征向量,用于判斷該錄音文件歸屬何種品牌、何種型號的手機(jī)。實(shí)驗(yàn)結(jié)果表明,他們在自建的由14種型號手機(jī)組成的音頻數(shù)據(jù)庫上能夠達(dá)到96.42%的分類準(zhǔn)確率。Kotropoulos[11]使用整個(gè)翻錄TIMIT庫訓(xùn)練的GMM-UBM(Gaussian Mixture Model-Universal Background Model)構(gòu)建高斯超向量的稀疏表示作為特征時(shí),測試采用SRC(Sparse Representation based Classification)、SVM(Support Vector Machine)和NN(Nearest Neighbor)三種分類器,對數(shù)據(jù)庫中7種品牌21種型號的手機(jī)實(shí)現(xiàn)了較高的分類準(zhǔn)確率。當(dāng)下語音設(shè)備來源取證的研究大多數(shù)所提的分類特征是單一特征,如MFCC特征、頻譜對數(shù)譜特征等。因?yàn)楫?dāng)下的研究基于的語音數(shù)據(jù)庫設(shè)備的種類和數(shù)量較少,設(shè)備型號陳舊,導(dǎo)致不同設(shè)備采集語音的差異性較大,相關(guān)特征在手機(jī)來源識別中取得了不錯(cuò)的效果,但是當(dāng)語音數(shù)據(jù)庫中設(shè)備種類和數(shù)量達(dá)到一定程度之后,特別是隨著相同品牌不同型號設(shè)備不斷增加后,相關(guān)特征在手機(jī)來源識別中是否依舊能取得不錯(cuò)的效果呢?而基于靜音段的特征雖然有效地避免了語義信息和說話人情感等因素的干擾,但是對環(huán)境噪聲的要求是較高的,當(dāng)環(huán)境噪聲過大時(shí),靜音段特征提取的工作難度就增大了。
本文通過在現(xiàn)下主流的7個(gè)品牌23個(gè)型號的手機(jī)構(gòu)建的語音庫上分析不同設(shè)備語音信號的語譜圖,發(fā)現(xiàn):不同設(shè)備的頻譜信息不盡相同,不同品牌的設(shè)備差異明顯,可以用頻譜單一特征來有效地進(jìn)行區(qū)分;而相同品牌不同型號的設(shè)備雖然存在差異,但較為相似,單一的頻譜特征難以準(zhǔn)確實(shí)現(xiàn)不同品牌手機(jī)的類內(nèi)識別。本文研究了語音頻譜對數(shù)譜特征、相位譜特征和信息量特征在語音手機(jī)來源識別中反映的設(shè)備差異信息,發(fā)現(xiàn)信息量特征和對數(shù)譜特征分別增大了高頻部分和低頻部分頻率幅度譜的差異分辨度,而相位譜特征反映了設(shè)備語音在相位譜上的差異信息。在此基礎(chǔ)上為了構(gòu)建更好地反映設(shè)備語音差異的特征,提出一種基于頻譜融合特征的手機(jī)來源識別方法。實(shí)驗(yàn)結(jié)果表明,語音頻譜融合特征可以作為語音手機(jī)來源識別的特征,識別準(zhǔn)確率優(yōu)于單一的頻譜特征和MFCC特征,且融合特征的泛化能力較單一特征會更好。文中算法在由德州儀器(Texas Instruments, TI)、麻省理工學(xué)院(Massachusetts Institute of Technology, MIT)和斯坦福研究院(Stanford Research Institute, SRI)合作構(gòu)建的聲學(xué)-音素連續(xù)語音語料庫(The DARPA TIMIT Acoustic-Phonetic Continuous Speech Corpus, TIMIT)數(shù)據(jù)庫和研究所自建的基礎(chǔ)語音數(shù)據(jù)庫(CKC-SD)上的平均識別準(zhǔn)確率可以達(dá)到99.96%和99.91%。
由于手機(jī)和錄音筆具備體積小易攜帶的特點(diǎn),很多人在進(jìn)行錄音取證時(shí)常常會采用。而隨著手機(jī)的快速普及和手機(jī)錄音音質(zhì)的提高,將智能手機(jī)作為錄音取證設(shè)備的人變得越來越多。本文語音庫錄制采用的手機(jī)設(shè)備來自7個(gè)品牌的23款手機(jī),手機(jī)的信息和標(biāo)簽如表1所示。
表1 實(shí)驗(yàn)手機(jī)的品牌列表以及類名Tab. 1 List and specifications of cell-phones
本研究錄制了兩個(gè)語音數(shù)據(jù)庫。第一個(gè)語音數(shù)據(jù)庫是對TIMIT數(shù)據(jù)庫的語音樣本進(jìn)行回放和重新錄制的TIMIT翻錄語音數(shù)據(jù)庫,這也是錄音設(shè)備來源識別領(lǐng)域構(gòu)建基準(zhǔn)數(shù)據(jù)庫的典型方法之一。從TIMIT數(shù)據(jù)庫中選取100個(gè)人(男性50人,女性50人)的1 000個(gè)語音樣本,采用高保真音箱(PhilipsDTM3500)進(jìn)行回放,同時(shí)用設(shè)備列表中所有的設(shè)備一起錄制。共同構(gòu)成每個(gè)手機(jī)擁有1 000個(gè)翻錄語音的數(shù)據(jù)庫。第二個(gè)數(shù)據(jù)庫是本研究構(gòu)建的基礎(chǔ)語音數(shù)據(jù)庫(CKC-SD)。該構(gòu)建的數(shù)據(jù)庫采集了12個(gè)人(6名男性,6名女性)的語音。每個(gè)人參與兩段語音的錄制,一段是問答和主題演講,一段是固定語料的朗讀,錄制時(shí)均要求語速、語調(diào)和音強(qiáng)勻速正常,時(shí)間長短控制在5 min以上。在相對安靜的辦公室里,將所有錄音設(shè)備按圓弧形平放在以參錄人員為圓心的辦公桌上,每個(gè)設(shè)備距離參錄人員約為1~1.2 m;為了保證語音錄制具有較好的同步性,由多名同學(xué)同時(shí)控制所有錄音軟件的開關(guān)。每臺設(shè)備均獲得24段語音,為排除錄音開始之前人為因素引起的噪聲對語音樣本的影響,從語音正式開始錄制部分進(jìn)行切割,將每段錄音分割成3 s的語音片段,每個(gè)手機(jī)獲取1 000個(gè)語音樣本,這樣就可構(gòu)建23 000個(gè)語音樣本的語音數(shù)據(jù)庫。
語譜圖又名語音頻譜圖,能簡潔明了地展示語音樣本的頻譜值在時(shí)間軸上的變化。圖1給出了8個(gè)手機(jī)采集的內(nèi)容為“芝麻開門,我是土豪”的語音的語譜圖的灰度圖。通過觀察圖1可以看出不同品牌手機(jī)語音的語譜圖存在很大差異。例如,Samsung Galaxy Note2語音信號的高頻部分語音能量較強(qiáng);HTC D610t的語譜圖在頻率為4 000 Hz附近有大幅度的下降;iPhone 4s和iPhone 5的語譜圖比較相似,語譜圖在15 000 Hz附近有大幅下降;其他型號的手機(jī)語譜圖語音能量分布規(guī)律和開始大幅下降的頻率界限也不盡相同??梢缘贸鲞@樣的猜想:即不同品牌手機(jī)的頻譜特征差異較明顯,而相同品牌不同型號的手機(jī)的語譜圖雖然總體較為相似,但也存在差異。
圖1 相同語音的語譜圖 Fig. 1 Spectrograms of same speech
為了進(jìn)一步研究不同設(shè)備語音頻譜特征的差異,本文提取了語音的頻譜信息量特征。信息量[12]來源于信息論,它用一個(gè)變量的概率描述不確定問題。設(shè)一個(gè)符號集t={x1,x2,…,xn},第m個(gè)符號出現(xiàn)的概率為p(xm),且p(x1)+p(x2)+…+p(xn)=1,每個(gè)符號所提供的信息量I=-lbp(xm),某個(gè)符號出現(xiàn)的概率越小,則說明該符號攜帶的信息量就越大。頻譜信息量特征的提取過程為:
首先,對語音樣本x進(jìn)行分幀處理,并對第i幀語音進(jìn)行快速傅里葉變換,即:
(1)
傅里葉變換的點(diǎn)數(shù)N=1 024,k=0,1,…,N-1,i=1,2,…,T,T表示總幀數(shù); 對于第i幀第k個(gè)頻率點(diǎn)的頻率值xi(k),求其幅值,即:
(2)
然后,求第k點(diǎn)頻率沿時(shí)間軸的統(tǒng)計(jì)平均值x(k)和總的頻率值S(k),即:
(3)
(4)
求出頻率點(diǎn)k出現(xiàn)的概率P(k),并得到第k個(gè)頻率點(diǎn)的信息量特征,即:
P(k)=x(k)/S
(5)
I(k)=-lbP(k)
(6)
可以看出每個(gè)頻率點(diǎn)所攜帶的信息量受該點(diǎn)頻率值幅值、沿時(shí)間軸的統(tǒng)計(jì)平均值和頻率值總和的影響,不同頻率值的信息量是不同的,頻率值越小其對應(yīng)的信息量特征越大。由圖1可以看出語音信號在高頻部分的能量較低,可得高頻部分的信息量特征值較大,頻譜信息量特征增大了不同設(shè)備高頻部分差異的分辨率。
圖2展示了8款手機(jī)(兩臺iPhone)的語音樣本的頻譜信息量特征。其具體實(shí)現(xiàn)過程為:首先提取語音樣本頻譜的信息量特征,然后對信息量特征值進(jìn)行歸一化,再采用特征尋優(yōu)降維的方法選出區(qū)分性最大的特征子集,最后畫出所選特征子集的折線圖。可以看出本文所構(gòu)建的頻譜信息量特征在不同品牌的手機(jī)之間有較明顯的差異,雖然相同品牌不同型號的手機(jī)的特征曲線圖較為相似,但可以發(fā)現(xiàn)第10~20維特征可以完成相同品牌不同型號的設(shè)備區(qū)分。
圖2 相同語音的頻譜信息量特征 Fig. 2 Spectral information quantity feature of same speech
語音信號的對數(shù)譜特征是先對語音信號的頻譜幅度譜特征作對數(shù)運(yùn)算,然后沿時(shí)間軸取統(tǒng)計(jì)平均值所得。對第k個(gè)頻率點(diǎn)幅值作對數(shù)運(yùn)算,然后沿時(shí)間軸取統(tǒng)計(jì)平均值得到第k個(gè)頻率點(diǎn)的頻譜對數(shù)譜特征L(k),即:
(7)
由式(7)可得,對數(shù)譜特征的大小與語音信號頻率值幅值變化成正比,頻率幅值越大,對應(yīng)的對數(shù)譜特征的值越大。由圖1可以看出,語音信號的能量主要集中在低頻部分,因此語音信號對數(shù)譜特征在低頻部分的值較大,對數(shù)譜特征可以有效增加不同設(shè)備語音頻譜低頻部分的差異分辨率。
圖3為8款手機(jī)(兩臺iPhone)語音樣本對數(shù)譜特征的折線圖。具體實(shí)現(xiàn)過程為:先提取對數(shù)譜特征,然后對特征值進(jìn)行歸一化,再采用特征尋優(yōu)降維的方法選出區(qū)分性最大的特征子集,最后畫出所選特征子集的折線圖??梢钥闯霰疚乃鶚?gòu)建的頻譜對數(shù)譜特征在不同品牌的手機(jī)之間有較明顯的差異,雖然相同品牌不同型號的手機(jī)的特征曲線圖相對較為相似,但是仍然可以在第8~10維發(fā)現(xiàn)明顯差異,作出有效區(qū)分。
圖3 相同語音的頻譜對數(shù)譜特征 Fig. 3 Spectral logarithmic feature of same speech
頻譜的信息量特征和對數(shù)譜特征分別有效地增大了不同設(shè)備語音樣本高頻部分和低頻部分的頻譜差異分辨精度,兩組特征都是在語音的頻譜幅度譜特征的基礎(chǔ)上構(gòu)建的,較好地反映了不同設(shè)備在語音幅度譜上不同頻率區(qū)間的差異信息。由于頻譜是由幅度譜和相位譜共同構(gòu)成的,為了提升不同設(shè)備之間的差異分辨精度,本文研究了語音信號的相位譜特征。其提取過程如下。
對語音信號第i幀求其相位譜特征:
(8)
然后求其第k個(gè)頻率點(diǎn)的相位譜特征沿時(shí)間軸的統(tǒng)計(jì)平均值Ψ(k),即為本文所提頻譜的相位譜特征:
(9)
圖4是8款手機(jī)(兩臺iPhone)語音樣本的相位譜特征的折線圖。其具體實(shí)現(xiàn)過程為:先提取語音信號的相位譜特征;然后對該特征沿時(shí)間軸按幀取平均和對特征值進(jìn)行歸一化;最后采用特征尋優(yōu)降維的方法選出區(qū)分性最大的特征子集并畫出折線圖??梢钥闯霾煌放圃O(shè)備的相位譜特征差異明顯,相同品牌不同型號的手機(jī)設(shè)備的相位譜特征雖然較不同品牌差異小,但可以進(jìn)行分類判別,相位譜特征是語音手機(jī)來源識別的有效特征。
本文所構(gòu)建的語音信號的頻譜信息量特征和對數(shù)譜特征較為全面地反映了不同設(shè)備語音頻譜幅度譜上的差異,構(gòu)建的相位譜特征較好地反映了不同設(shè)備相位譜上的差異。為了更好地反映不同設(shè)備語音樣本頻譜特征之間的差異,本文提出了一種基于頻譜融合特征的語音設(shè)備來源識別方法,將以上三組頻譜單一特征的初始特征串聯(lián)起來,每個(gè)語音樣本得到一個(gè)1 539維的特征,對樣本初始特征構(gòu)成的特征空間進(jìn)行特征值歸一化和采用最佳優(yōu)先搜索[13]對特征空間尋優(yōu)降維,特征子集的分類效果的好壞是由CfsSubsetEval評價(jià)函數(shù)評價(jià)的,主要是考量特征子集的預(yù)測能力和關(guān)聯(lián)性[14]。預(yù)測能力是指每個(gè)特征或每個(gè)特征子集的分類性能的優(yōu)劣,關(guān)聯(lián)性指的是特征與特征之間的冗余(重復(fù))程度的高低,首選的最優(yōu)化的特征子集是:與分類具有高相關(guān)性,同時(shí)特征與特征之間相關(guān)度較低的特征子集。最后將所得的最優(yōu)特征子集作為本文所提的特征。語音頻譜融合特征的構(gòu)建和基于該特征的手機(jī)來源識別的流程如以下步驟所示。
步驟1 對語音樣本進(jìn)行采樣分幀和加窗;
步驟2 對每幀語音進(jìn)行快速傅里葉變換得到語音的頻譜xi(k);
步驟3 對頻譜取模得到頻譜幅度譜‖xi(k)‖;
步驟4 對幅度譜按幀取統(tǒng)計(jì)平均,得到平均幅度譜特征x(k);
步驟5 對x(k)求信息量特征I(k);
步驟6 對‖xi(k)‖求每幀的對數(shù)譜特征,然后沿時(shí)間軸取統(tǒng)計(jì)平均,得到樣本的對數(shù)譜特征L(k);
步驟7 對xi(k)求每幀的相位譜特征,然后沿時(shí)間軸取統(tǒng)計(jì)平均,得到樣本的相位譜特征Ψ(k);
步驟8 將每個(gè)樣本的信息量特征I(k)、對數(shù)譜特征L(k)和相位譜特征Ψ(k)串聯(lián)起來,構(gòu)成513×3維的初始的頻譜融合特征F(k);
步驟9 按型號依次提取構(gòu)建23個(gè)手機(jī)的23×1 000個(gè)語音樣本的初始頻譜融合特征F(k),構(gòu)成實(shí)驗(yàn)的樣本特征矩陣;
步驟10 采用WEKA平臺的CfsSubsetEval評價(jià)函數(shù)和最佳優(yōu)先搜索原則進(jìn)行特征選擇,得到降維后的樣本特征矩陣和每個(gè)樣本的頻譜融合特征Fend(k);
步驟11 采用基于徑向基核函數(shù)(Radial Basis Function, RBF)的LibSVM分類器[15],利用5折交叉驗(yàn)證方式對樣本特征選擇后的特征矩陣進(jìn)行模型訓(xùn)練和測試,實(shí)驗(yàn)中對懲罰系數(shù)(cost,C)和gamma(γ)的值進(jìn)行了交叉驗(yàn)證尋優(yōu)。
圖4 相同語音的頻譜相位譜特征 Fig. 4 Spectral phase feature of same speech
表2為頻譜融合特征子集(即經(jīng)過特征選擇后)為57維時(shí),在TIMIT庫上,對23個(gè)不同型號的手機(jī)的設(shè)備來源識別結(jié)果,平均識別準(zhǔn)確率達(dá)到了99.96%。其中只有HTC D610t的樣本和HTC D820t的樣本分類出現(xiàn)誤判,原因可能是兩者屬于同一個(gè)品牌,語音樣本特征的差異性相對其他品牌和型號而言較小,所以分類更容易誤判,其他型號手機(jī)的識別可以達(dá)到較好的識別效果。
表3給出了頻譜融合特征為46維時(shí),在CKC-SD庫上,對23個(gè)不同型號的手機(jī)的設(shè)備來源識別結(jié)果,平均識別準(zhǔn)確率達(dá)到了99.91%。iPhone 5s的識別率最低為98.5%,iPhone 6的識別率為99.5%,兩款手機(jī)的部分語音樣本誤判為兩者內(nèi)的另一款手機(jī),其他品牌和型號的手機(jī)可以實(shí)現(xiàn)無差錯(cuò)分類??赡艽嬖诘脑蚴莍Phone品牌內(nèi)部不同型號的手機(jī)采集的語音所包含的頻譜特征差異度較小,第2章中的語音信號的頻譜單一特征分析也可以證明這一點(diǎn)。
表2 頻譜融合特征在TIMIT庫上的識別準(zhǔn)確率 %Tab. 2 Identification accuracy of spectral fusion feature on TIMIT %
表3 頻譜融合特征在CKC-SD庫上的識別準(zhǔn)確率 %Tab. 3 Identification accuracy of spectral fusion feature on CKC-SD %
為了研究頻譜融合特征較語音頻譜單一特征識別性能的優(yōu)劣,表4給出了對數(shù)譜特征、相位譜特征和信息量特征在TIMIT庫和CKC-SD庫上的實(shí)驗(yàn)結(jié)果??梢钥闯鰧?shù)譜特征和信息量特征在本文所用數(shù)據(jù)庫上有較好的識別效果,而相位譜的識別效果相對較差,本文所提融合特征的識別準(zhǔn)確率要優(yōu)于單一特征的識別準(zhǔn)確率。另外,由表4可得降維后單一特征在TIMIT庫上的特征維數(shù)和識別準(zhǔn)確率均略高于CKC-SD庫,這一規(guī)律與融合特征在兩個(gè)數(shù)據(jù)庫上的表現(xiàn)相互印證,可以得出本文所構(gòu)建的頻譜單一特征和融合特征在TIMIT庫上的分類性能要略優(yōu)于CKC-SD庫。
表4 頻譜單一特征的語音設(shè)備來源識別結(jié)果Tab. 4 Source cell-phone identification results with spectral single feature
為了直觀研究不同特征對各設(shè)備識別準(zhǔn)確率的影響,圖5給出了不同頻譜單一特征在23款不同型號手機(jī)閉集識別的準(zhǔn)確率??梢钥闯鲈赥IMIT庫上頻譜單一特征的識別準(zhǔn)確率除HTC品牌以外,基本都優(yōu)于該特征在CKC-SD庫上的識別準(zhǔn)確率。三組頻譜特征中對數(shù)譜特征和信息量特征對各個(gè)設(shè)備均有較好的識別準(zhǔn)確率,而相位譜特征在HTC和iPhone上識別準(zhǔn)確率較差,該特征各設(shè)備的識別準(zhǔn)確率較另外兩組特征也略差,可能的原因是不同設(shè)備對語音的影響更多地反映在對語音幅度增強(qiáng)的程度不同上,頻譜的相位譜信息含有的設(shè)備差異性信息較少。綜合來看各特征在語音庫上的主要誤判來自于iPhone和HTC兩個(gè)品牌的設(shè)備的類內(nèi)區(qū)分判別,可能造成此結(jié)果的原因是這兩款設(shè)備的頻譜特征的區(qū)分性相對較小。
為了綜合考量本文所提的算法,和Hanilci等[10]提出的基于MFCC特征的手機(jī)來源識別算法進(jìn)行了比較。文獻(xiàn)[10]的工作,無論是從特征的選擇還是實(shí)驗(yàn)設(shè)置上,都是十分經(jīng)典和充分的。將該文所提特征在本文所錄制的語音數(shù)據(jù)庫上實(shí)驗(yàn),實(shí)驗(yàn)設(shè)置與文獻(xiàn)[10]相同,樣本數(shù)目與本文實(shí)驗(yàn)相同。文獻(xiàn)[10]將48維的MFCC及其一階差分特征作為語音設(shè)備來源識別的分類特征。表5展示了文獻(xiàn)[10]算法和本文算法在手機(jī)來源識別實(shí)驗(yàn)中平均識別準(zhǔn)確率的對比。
表5 兩種算法的識別準(zhǔn)確率對比 %Tab. 5 Identification accuracy comparison of two algorithms %
從表5可以看出,本文所提算法在平均識別準(zhǔn)確率方面較文獻(xiàn)[10]算法好,平均識別準(zhǔn)確率在TIMIT庫和CKC-SD庫上分別提高了6.58和5.14個(gè)百分點(diǎn)。可能的原因是:文獻(xiàn)[10]中48維的分類特征之中存在冗余特征,其中的冗余的特征可能會降低特征集的識別準(zhǔn)確率,而且MFCC特征在提取時(shí)的DCT損失了部分語音信號的高頻特征信息,而且離散余弦變換(DCT)的降維也無法保證選取到最優(yōu)的特征子集。而本文算法將1 539維頻譜組合特征作為原始分類特征,按照最佳優(yōu)先原則對原始的組合特征集合進(jìn)行尋優(yōu)降維,將特征選擇得到的最優(yōu)特征子集作為最終的分類特征,既有效地降低了特征的維度,降低了計(jì)算復(fù)雜度,又有效地避免了原始特征中冗余特征對分類識別效果的影響;同時(shí)本文所提的頻譜融合特征既通過公式放大了語音樣本特征在高頻部分的差異和語音樣本特征在低頻部分的差異,又包含了頻譜的相位譜信息,有效地涵蓋了頻譜特征的大部分信息,并降低了計(jì)算復(fù)雜度,提高了計(jì)算效率。相比文獻(xiàn)[10]算法,該算法有效提高了識別準(zhǔn)確率。
本文從特征泛化的角度提出了一種手機(jī)來源識別的方法,用語音頻譜融合特征表征手機(jī)特有的痕跡信息進(jìn)行分類判別。實(shí)驗(yàn)結(jié)果也表明了本文所提的特征可以作為語音手機(jī)來源識別的分類特征;而且,該特征相比經(jīng)典的基于MFCC特征的手機(jī)來源識別算法有更好的識別效果。該方法應(yīng)用語音頻譜相關(guān)特征進(jìn)行手機(jī)來源識別的研究,但是仍然存在一定的局限性,例如沒有考慮在噪聲攻擊的情況下特征的魯棒性問題,還有基準(zhǔn)數(shù)據(jù)庫的完善和科學(xué)設(shè)置也是一項(xiàng)值得考究的工作,所以在接下來的工作中會對上述問題展開更加深入的研究。
參考文獻(xiàn)(References)
[1] 胡永健, 劉琲貝, 賀前華. 數(shù)字多媒體取證技術(shù)綜述[J]. 計(jì)算機(jī)應(yīng)用, 2010, 30(3): 657-662.(HU Y J, LIU B B, HE Q H. Survey on techniques of digital multimedia forensics[J]. Journal of Computer Applications, 2010, 30(3):657-662.)
[2] ESKIDERE O. Identifying acquisition devices from recorded speech signals using wavelet based features [J]. Turkish Journal of Electrical Engineering & Computer Sciences, 2015, 24: 1942-1954.
[3] 賀前華, 王志鋒, RUDNICKY A I,等. 基于改進(jìn)PNCC特征和兩步區(qū)分性訓(xùn)練的錄音設(shè)備識別方法[J]. 電子學(xué)報(bào), 2014,42(1):191-198. (HE Q H,WANG Z F, RUDNICKY A I, et al. A recording device identification algorithm based on improved PNCC feature and two-step discriminative training[J]. Acta Electronica Sinica, 2014, 42(1): 191-198.)
[4] KOTROPOULOS C, SAMARAS S. Mobile phone identification using recorded speech signals [C]// Proceedings of the 2014 19th International Conference on Digital Signal Processing. Piscataway, NJ: IEEE, 2014: 586-591.
[5] ESKIDERE O. Source microphone identification from speech recordings based on a Gaussian mixture model[J]. Turkish Journal of Electrical Engineering & Computer Sciences, 2014, 22(3):754-767.
[6] PANAGAKIS Y, KOTROPOULOS C L. Telephone handset identification by collaborative representations[J]. International Journal of Digital Crime & Forensics, 2013, 5(4):1-14.
[7] HICSONMEZ S, SENCAR H T, AVCIBAS I. Audio codec identification from coded and transcoded audios[J]. Digital Signal Processing, 2013, 23(5):1720-1730.
[8] 裴安山, 王讓定, 嚴(yán)迪群. 基于設(shè)備本底噪聲頻譜特征的手機(jī)來源識別[J]. 電信科學(xué), 2017,33(1):85-94.(PEI A S, WANG R D, YAN D Q. Cell-phone origin identification based on spectral features of device self-noise[J]. Telecommunications Science, 2017, 33(1):85-94.)
[9] 裴安山, 王讓定, 嚴(yán)迪群. 基于語音靜音段特征的手機(jī)來源識別方法[J]. 電信科學(xué), 2017, 33(7):103-111.(PEI A S, WANG R D, YAN D Q. Source cell-phone identification from recorded speech using non-speech segments[J]. Telecommunications Science, 2017, 33(7):103-111.)
[10] HANILCI C, ERTAS F, ERTAS T, et al. Recognition of brand and models of cell-phones from recorded speech signals[J]. IEEE Transactions on Information Forensics & Security, 2012, 7(2): 625-634.
[11] KOTROPOULOS C L. Source phone identification using sketches of features[J]. IET Biometrics, 2014, 3(2): 75-83.
[12] 沈連豐,葉之慧. 信息論與編碼[M]. 北京: 科學(xué)出版社.2004:12-17. (SHEN L F, YE Z H. Information Theory and Coding[M]. Beijing: Science Press, 2004: 12-17.)
[13] XU L, YAN P, CHANG T. Best first strategy for feature selection [C]// Proceedings of the 9th International Conference on Pattern Recognition. Piscataway, NJ: IEEE, 1988: 706-708.
[14] HALL M A. Correlation-based feature selection for machine learning [D]. Hamilton, New Zealand: The University of Waikato, 1999: 51-74.
[15] 林升梁,劉志. 基于RBF核函數(shù)的支持向量機(jī)參數(shù)選擇[J].浙江工業(yè)大學(xué)學(xué)報(bào),2007,35(2):163-167.(LIN S L, LIU Z. Parameter selection in SVM with RBF kernel function [J]. Journal of Zhejiang University of Technology, 2007, 35(2): 163-167.)
This work is partially supported by the National Natural Science Foundation of China (61672302, 61300055), the Natural Science Foundation of Zhejiang Province (LZ15F020002, LY17F020010), the Ningbo Natural Science Foundation (2017A610123), the Scientific Research Foundation of Ningbo University (XKXL1509, XKXL1503).
PEIAnshan, born in 1992, M. S. candidate. His research interests include multi-media communication, information security, mobile terminal source detection.
WANGRangding, born in 1962, Ph. D., professor. His research interests include multi-media information security, digital forensics.
YANDiqun, born in 1979, Ph. D., associate professor. His research interests include multi-media information security, digital forensics.