喬立能,夏秀渝,葉于林
1(四川大學(xué) 電子信息學(xué)院,成都 610064)
2(中國(guó)人民解放軍78438部隊(duì),成都 610066)
基于音頻指紋的兩步固定音頻檢索①
喬立能1,夏秀渝1,葉于林2
1(四川大學(xué) 電子信息學(xué)院,成都 610064)
2(中國(guó)人民解放軍78438部隊(duì),成都 610066)
提出了一種基于過(guò)零率和音頻指紋的兩步固定音頻檢索算法.在基于過(guò)零率直方圖的初步檢索中,采用直方圖的迭代計(jì)算和動(dòng)態(tài)的觀測(cè)窗滑動(dòng)步長(zhǎng)來(lái)減少計(jì)算量并加快搜索速度,快速篩選出相似度較高的候選音頻片段;接著基于降維Philips音頻指紋對(duì)候選音頻進(jìn)行精檢索,進(jìn)一步提高檢索精度.實(shí)驗(yàn)結(jié)果表明,該音頻檢索算法在保證較好的檢索準(zhǔn)確性基礎(chǔ)上,大幅度提高了檢索速度,且具有較好的魯棒性.
音頻檢索;過(guò)零率;直方圖;音頻指紋
隨著現(xiàn)代信息技術(shù)、多媒體技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展,多媒體信息的數(shù)據(jù)量急劇增多.人們對(duì)如何在海量的多媒體庫(kù)中快速找到感興趣或有用的信息產(chǎn)生了越來(lái)越大的需求[1].在多媒體檢索中,音頻檢索是一個(gè)受人們關(guān)注且富有挑戰(zhàn)性的研究課題[2,3].目前,音頻檢索主要分為兩大類(lèi):一類(lèi)是基于特征相似度的固定音頻檢索,它是指給定一個(gè)查詢(xún)音頻段,在待檢音頻庫(kù)中檢索與其相同或同源的片段[4,5];另一類(lèi)是基于內(nèi)容的音頻檢索技術(shù),該技術(shù)主要研究如何利用音頻的幅度、頻譜等物理特征,響度、音高、音色等聽(tīng)覺(jué)特征,詞字、旋律等語(yǔ)義特征實(shí)現(xiàn)基于內(nèi)容的音頻信息檢索[6,7].
相對(duì)來(lái)說(shuō),基于內(nèi)容的音頻檢索數(shù)據(jù)復(fù)雜、技術(shù)難度大,而基于相似度的固定音頻檢索實(shí)現(xiàn)簡(jiǎn)單靈活,檢索正確率高,是實(shí)際常用的音頻檢索方法.固定音頻檢索目前主要有基于距離的方法、基于特征直方圖的方法[8,9]及上述 2種方法的結(jié)合[10].基于特征直方圖的方法本質(zhì)上是屬于概率統(tǒng)計(jì)的方法,避免了復(fù)雜的空間距離計(jì)算,檢索速度較快,但是檢索精度低.基于距離的方法將待檢音頻和模板音頻按相同時(shí)間間隔劃分成幀系列,通過(guò)計(jì)算兩者幀序列之間距離的累加和判斷音頻的相似度.該方法的檢索精度很高,但是檢索速度較慢.文獻(xiàn)[11]提出了基于模板子空間的固定音頻檢索,即根據(jù)模板間的相似性劃分模板子空間,確定各模板所屬的子空間.文獻(xiàn)[12]利用文本搜索引擎中的倒排索引方法,為音頻建立音頻字典和倒排索引,提出基于倒排索引的音頻檢索方法.建立音頻索引是解決大規(guī)模靜態(tài)音頻數(shù)據(jù)庫(kù)快速檢索的有效手段,但實(shí)際中也經(jīng)常遇到未建立音頻索引的情況,如廣播電臺(tái)、電話(huà)等動(dòng)態(tài)音頻的實(shí)時(shí)監(jiān)測(cè),事先未建立音頻索引的動(dòng)態(tài)音頻庫(kù)檢索等.這時(shí)無(wú)索引文件可用,音頻檢索必須從原始音頻數(shù)據(jù)分析做起,實(shí)現(xiàn)快速準(zhǔn)確的音頻檢索難度更大,對(duì)檢索魯棒性的要求也更高.
針對(duì)實(shí)際中無(wú)索引文件可用的動(dòng)態(tài)音頻庫(kù)檢索,本文提出了一種基于過(guò)零率和音頻指紋的二步固定音頻檢索方法,第一步利用過(guò)零率直方圖從待檢音頻數(shù)據(jù)中初步篩選出相似度較高的音頻片段,第二步利用音頻指紋對(duì)匹配出的音頻片段進(jìn)行精確檢索,進(jìn)一步提高檢索精度.由于利用了迭代法計(jì)算直方圖、動(dòng)態(tài)滑動(dòng)觀測(cè)時(shí)間窗以及音頻指紋的魯棒性,算法減少了計(jì)算量,提高了篩選速度和音頻檢索的魯棒性.
2.1 基本算法
直方圖計(jì)算方法由于不用逐幀比較,在檢索速度上有著絕對(duì)的優(yōu)勢(shì),至今仍是固定音頻檢索領(lǐng)域使用常用的方法.
圖1給出了直方圖匹配算法的示意圖.首先,計(jì)算查詢(xún)音頻和待檢音頻片段的特征矢量.然后用一個(gè)等長(zhǎng)的觀測(cè)時(shí)間窗來(lái)觀測(cè)查詢(xún)音頻和待檢音頻,對(duì)觀測(cè)窗內(nèi)特征矢量進(jìn)行量化后建立直方圖.接著比較查詢(xún)音頻和待檢音頻片段之間直方圖的相似度.當(dāng)計(jì)算的相似度大于給定的門(mén)限值時(shí),認(rèn)為初步搜索到指定音頻,記錄待檢音頻中對(duì)應(yīng)的時(shí)刻信息.否則,觀測(cè)時(shí)間窗繼續(xù)向前滑動(dòng)進(jìn)行下一步搜索.
圖1 直方圖算法示意圖
直方圖法作為本文音頻檢索的第一步,目的是從大量音頻數(shù)據(jù)中快速篩選出與待檢音頻相似度高的音頻片段,從時(shí)間消耗的角度當(dāng)然希望采用計(jì)算量小的音頻特征.常用的音頻特征有過(guò)零率、Mel頻率倒譜系數(shù)(MFCC)、感知線(xiàn)性預(yù)測(cè)(PLP)等,其中 MFCC、PLP計(jì)算復(fù)雜,時(shí)間消耗大.而過(guò)零率的計(jì)算簡(jiǎn)單,且能較好區(qū)分不同聲音.為提高初步檢索效率,本文采用過(guò)零率來(lái)建立直方圖.
根據(jù)查詢(xún)音頻過(guò)零率的取值范圍,劃分出若干個(gè)等間隔的取值區(qū)間,然后統(tǒng)計(jì)在每一個(gè)取值區(qū)間的過(guò)零率的頻率,這樣就生成了直方圖.生成的直方圖h可以表示為:
這里 L是直方圖的直方柱總數(shù),ih是第i個(gè)直方柱的過(guò)零率的頻率.
查詢(xún)音頻和待檢音頻片段之間的直方圖相似度通常用直方圖交集法進(jìn)行測(cè)量.其相似度定義為:
2.2 觀測(cè)窗滑動(dòng)步長(zhǎng)及直方圖的迭代計(jì)算
采用直方圖交集法的相似度具有一定的時(shí)間連續(xù)性,因此不必逐幀進(jìn)行直方圖搜索匹配.可以根據(jù)某一時(shí)間位置直方圖的相似度,預(yù)測(cè)出之后若干位置的相似度上界,如果這些位置的相似度上界小于預(yù)設(shè)門(mén)限,則可以直接跳過(guò).因?yàn)榇龣z音頻的觀測(cè)時(shí)間窗是按照時(shí)間的先后順序向前滑動(dòng)的,當(dāng)觀測(cè)時(shí)間窗從第幀向前移動(dòng)到第 l2幀時(shí),移動(dòng)了(l2-l1)幀,在第l2幀,直方圖各取值區(qū)間的過(guò)零頻數(shù)最多增加(l2-l1)個(gè),假設(shè)時(shí)間窗內(nèi)的總幀數(shù)是N,所以,待檢音頻在第 l2幀的直方圖的每個(gè)直方的最大值是第 l1幀的直方圖的每個(gè)直方加(l2-l1)/N,因此,當(dāng)計(jì)算出第 l1幀待檢音頻和查詢(xún)音頻的相似度,就可以知道在第 l2幀的相似度的上界.
其中,hR(l1)和 hR(l2)分別是待檢音頻窗函數(shù)在l1和 l2幀生成的直方圖.利用公式(3)和給定的門(mén)限值 ST可以給出窗函數(shù)向前滑動(dòng)的步長(zhǎng):
其中,w是滑動(dòng)步長(zhǎng).當(dāng)計(jì)算的相似度超過(guò)給定的門(mén)限值時(shí),檢索結(jié)束;否則按照 w的大小向前滑動(dòng)窗函數(shù),繼續(xù)進(jìn)行檢索.由于觀測(cè)窗動(dòng)態(tài)滑動(dòng)步長(zhǎng)的引入,使得檢索速度大大提高.
直方圖計(jì)算本質(zhì)上就是觀測(cè)時(shí)間窗內(nèi)每個(gè)取值區(qū)間過(guò)零次數(shù)的累加,因此可以通過(guò)迭代方法由前一個(gè)時(shí)間窗內(nèi)的直方圖求得后一個(gè)時(shí)間窗內(nèi)的直方圖.公式(1)中,過(guò)零率分為L(zhǎng)個(gè)取值區(qū)間,各區(qū)間的概率為設(shè)某一幀的過(guò)零率取值為x,定義:
其中,ai和ib分別是過(guò)零率第i個(gè)取值區(qū)間的下限和上限,直方圖計(jì)算可采用迭代公式:
直方圖編碼的缺點(diǎn)是忽略了時(shí)序信息,如將一段音頻信號(hào)按時(shí)間倒序重新排列后,它的直方圖將和原音頻信號(hào)相同,另過(guò)零率本身包含的信息非常有限,因此當(dāng)待檢音頻與查詢(xún)音頻屬于同一類(lèi)音頻(如語(yǔ)音)時(shí),檢索的準(zhǔn)確性能就會(huì)大大降低.為了進(jìn)一步提高檢索準(zhǔn)確性,本文針對(duì)直方圖法初步篩選出的音頻片段,采用音頻指紋進(jìn)行二次精確檢索.
3.1 音頻指紋
一個(gè)數(shù)字音頻指紋可以視為一段音頻的摘要,即一個(gè)指紋函數(shù)F可以把一段包含大量數(shù)據(jù)的音頻X映射為只有有限個(gè)比特的一個(gè)指紋.音頻指紋作為內(nèi)容自動(dòng)識(shí)別技術(shù)的的核心算法,已廣泛應(yīng)用于音樂(lè)識(shí)別,版權(quán)內(nèi)容監(jiān)播,內(nèi)容庫(kù)去重和電視第二屏互動(dòng)等領(lǐng)域.使用音頻指紋而不是音頻數(shù)據(jù)本身進(jìn)行比較和檢索具有三方面好處:因?yàn)橹讣y數(shù)據(jù)量相對(duì)比較小,可以大大減少檢索過(guò)程的相似度的比較計(jì)算量;指紋來(lái)源于音頻數(shù)據(jù)聽(tīng)覺(jué)最重要的部分,因此在經(jīng)受信號(hào)失真時(shí)仍能進(jìn)行有效比對(duì);指紋數(shù)據(jù)庫(kù)與媒體數(shù)據(jù)庫(kù)相比尺寸減小很多,可以進(jìn)行更高效的搜索.
Philips魯棒音頻指紋模型是業(yè)界許多實(shí)際商業(yè)應(yīng)用的原型和學(xué)術(shù)界不斷研究的對(duì)象.當(dāng)前音頻哈希指紋方法不足以滿(mǎn)足特定音頻(如廣告)的實(shí)時(shí)監(jiān)測(cè)問(wèn)題,與現(xiàn)有方法相比,Philips魯棒音頻指紋模型在保證音頻檢測(cè)準(zhǔn)確性的同時(shí),能實(shí)現(xiàn)指紋的快速提取.本文采用Philips魯棒音頻指紋模型[13,14],指紋提取過(guò)程如下:
圖2 音頻指紋提取算法框架
1)分幀:以每0.064秒為一幀對(duì)音頻進(jìn)行分幀,幀與幀之間保持50%的重疊率,每一幀用相同長(zhǎng)度的漢寧窗進(jìn)行加權(quán),公式(7)為漢寧窗公式,式中N為漢寧窗長(zhǎng)度,大小為一幀音頻的樣點(diǎn)數(shù).
2)傅立葉變換:用快速傅里葉算法FFT對(duì)每一幀內(nèi)容進(jìn)行離散傅立葉變換DFT,一維離散傅立葉變換的定義公式如公式(8)所示,其中X(k)為頻域信號(hào),x(n)為時(shí)域信號(hào),N為DFT變換的樣的長(zhǎng)度:
3)分成33子帶:將每一幀頻譜圖300Hz-2000Hz的內(nèi)容按對(duì)數(shù)空間映射成33個(gè)不重疊的子帶,第m子帶的起始頻率也即第m-1子帶的終止頻率f(m)可表示為式(9),其中Fmin為映射下限,此處為300Hz,Fmax為映射上限,此處為2000Hz,M為子帶個(gè)數(shù),此處為33.
4)計(jì)算能量:計(jì)算每個(gè)子帶所包含的能量,設(shè)第m子帶起始頻率為f(m),終止頻率為f(m+1),DFT之后的頻域信號(hào)為X(k),則下式給出子帶m的能量計(jì)算表達(dá)式:
5)生成指紋:假定第n幀的第m子帶的能量為E(n,m),其對(duì)應(yīng)的二進(jìn)制指紋比特為F(n,m),則音頻指紋的每個(gè)比特定義為:
所以每一幀數(shù)據(jù)最后生成31比特的二進(jìn)制指紋信息.
3.2 指紋降維
上述音頻指紋提取,每一幀數(shù)據(jù)最后生成31比特的二進(jìn)制指紋信息.實(shí)際應(yīng)用中,希望進(jìn)一步降低指紋維數(shù)從而有效的減少數(shù)據(jù)量.本文提出基于音頻指紋每一位方差大小來(lái)降低指紋維數(shù)的方法.利用音頻庫(kù)數(shù)據(jù),我們統(tǒng)計(jì)了音頻指紋每一位的方差,由于隨機(jī)變量的方差描述的是它的離散程度,也就是該變量離其期望值的距離.音頻指紋某位方差越大,不同音頻在該位的差異越大,說(shuō)明該位的區(qū)分性越好,反之區(qū)分性差.所以保留區(qū)分性好的位,而去掉區(qū)分性差的位,可以將31維音頻指紋轉(zhuǎn)換為較低的維數(shù)從而有效的減少數(shù)據(jù)量.
3.3 精確檢索方法
本文對(duì)直方圖法初步篩選出的結(jié)果基于音頻指紋進(jìn)行二次精確檢索.首先提取查詢(xún)音頻段以及直方圖相似度大于門(mén)限值的待檢音頻段的數(shù)字音頻指紋.然后對(duì)查詢(xún)音頻段和待檢音頻段的數(shù)字音頻指紋進(jìn)行比對(duì),這里就需要一個(gè)簡(jiǎn)單有效的檢索匹配算法.本文采用比特誤差率(Bit Error Rate,BER)比較兩個(gè)音頻片段數(shù)字音頻指紋之間的相似度,其計(jì)算如下:
F(n,m),F’(n,m)分別代表查詢(xún)音頻和待檢音頻第n幀音頻指紋的第m位,N為總幀數(shù),M為指紋位數(shù).當(dāng)搜索到低于預(yù)設(shè)門(mén)限的比特誤差率時(shí),則表明找到了匹配的音頻文件.
4.1 性能評(píng)測(cè)指標(biāo)
為了對(duì)算法結(jié)果進(jìn)行有效的評(píng)價(jià),本文采用了信息檢索領(lǐng)域常用的評(píng)價(jià)標(biāo)準(zhǔn):查全率和查準(zhǔn)率,對(duì)檢索結(jié)果進(jìn)行評(píng)價(jià),查全率即從檢索源中正確檢出的目標(biāo)數(shù)和目標(biāo)總數(shù)的比值;查準(zhǔn)率即從檢索源中正確檢出的目標(biāo)數(shù)和檢索出的目標(biāo)數(shù)的比值.
4.2 實(shí)驗(yàn)結(jié)果
本文實(shí)驗(yàn)所用數(shù)據(jù)采集于成都人民廣播電臺(tái)播放的節(jié)目,包括新聞、音樂(lè)、廣播劇、廣告等,音頻數(shù)據(jù)總時(shí)為20h,數(shù)據(jù)均為單聲道,采樣率為 8 kHz,量化精度為 8 bit.在提取聲學(xué)特征參數(shù)時(shí),幀長(zhǎng)為 0.064s,幀移為0.032s.
1)音頻指紋性能分析
首先考察信號(hào)幅度變化對(duì)音頻指紋的影響.設(shè)y(t)=ax(t),x(t)為原始音頻,a為放大系數(shù),y(t)為幅度發(fā)生變化后的音頻.實(shí)驗(yàn)結(jié)果顯示,任意改變信號(hào)幅度(a值隨機(jī)選取),同一音頻所提取出來(lái)的音頻指紋都是一樣的,即音頻指紋不受幅度變化的影響.
接著,我們考察了噪聲對(duì)音頻指紋的影響.從數(shù)據(jù)庫(kù)中隨機(jī)選取了一段30s長(zhǎng)的音頻,然后分別疊加不同信噪比的高斯白噪聲生成帶噪音頻數(shù)據(jù),我們統(tǒng)計(jì)了不同信噪比下帶噪音頻和無(wú)噪音頻的音頻指紋誤碼率,實(shí)驗(yàn)結(jié)果如圖3所示.
圖3 音頻指紋距離曲線(xiàn)圖
從圖3可以看出,音頻指紋具有一定的抗噪性,但還不算太好.于是對(duì)提取音頻指紋作如下改進(jìn):
門(mén)限值T的取值以各幀信號(hào)子帶能量的均值為基準(zhǔn),并乘以不同系數(shù)c進(jìn)行動(dòng)態(tài)選取.改進(jìn)后的音頻指紋抗噪性能如圖4所示.
圖4顯示系數(shù)c取得越大,音頻指紋抗噪性能越好,但音頻指紋區(qū)分不同音頻的能力也會(huì)下降.我們反復(fù)實(shí)驗(yàn)顯示,當(dāng)門(mén)限值取各幀信號(hào)子帶能量均值的0.1倍時(shí),既能很好地提高音頻指紋抗噪性能,又能有效區(qū)分不同類(lèi)型的音頻.后續(xù)實(shí)驗(yàn)均基于改進(jìn)音頻指紋完成.
圖4 不同門(mén)限值對(duì)音頻指紋的影響
我們從音頻庫(kù)中挑選出不同種類(lèi)適量的音頻數(shù)據(jù),提取其Philips音頻指紋,然后統(tǒng)計(jì)了音頻指紋每一位的方差,為音頻指紋降維做準(zhǔn)備.31位Philips音頻指紋每一位的方差統(tǒng)計(jì)結(jié)果如圖5所示.
圖5 31維音頻指紋方差
根據(jù)3.2節(jié)的分析,降維音頻指紋將采取保留方差大的位,去掉方差小的位來(lái)降低指紋維數(shù).
2)檢索性能分析
利用采集的音頻數(shù)據(jù)庫(kù),每次隨機(jī)從數(shù)據(jù)庫(kù)中選擇時(shí)長(zhǎng)2s的音頻作為查詢(xún)音頻,然后對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索,每類(lèi)實(shí)驗(yàn)重復(fù)進(jìn)行100次實(shí)驗(yàn).
① 不同維數(shù)音頻指紋的檢索性能
根據(jù)實(shí)驗(yàn)統(tǒng)計(jì)的音頻指紋各位方差情況(圖5),采取保留方差值大的位進(jìn)行音頻指紋降維.分別選取了31維,15維,7維的音頻指紋進(jìn)行對(duì)比實(shí)驗(yàn),不同維數(shù)音頻指紋的檢索結(jié)果如表1所示.
表1 音頻指紋維數(shù)對(duì)檢索結(jié)果的影響
表1表明,音頻指紋取15維時(shí),既能達(dá)到有效減少數(shù)據(jù)量的效果,又能取得較好的檢索性能,所以最終我們選取了15維的音頻指紋進(jìn)行精檢索.
② 初檢索與精檢索對(duì)比
本文基于兩步法進(jìn)行固定音頻檢索,第一步采用過(guò)零率直方圖法進(jìn)行初檢索,選取的門(mén)限主要要保證足夠高的查全率,盡量不漏掉目標(biāo);第二步依靠精檢索來(lái)確保高的查準(zhǔn)率.每次隨機(jī)從數(shù)據(jù)庫(kù)中選擇2s音頻作為查詢(xún)音頻,然后對(duì)數(shù)據(jù)庫(kù)進(jìn)行檢索,重復(fù)進(jìn)行100次實(shí)驗(yàn).初檢索和精檢索實(shí)驗(yàn)結(jié)果如表2所示.
表2 初檢索和精精索性能對(duì)比
從實(shí)驗(yàn)結(jié)果可以看出,初檢索在保證基本不漏檢的情況下,精檢索可以大幅度提高檢索準(zhǔn)確性.
③ 檢索魯棒性實(shí)驗(yàn)
我們還在待檢音頻中加入噪聲,進(jìn)行了不同信噪比情況下的仿真實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果如表3.
表3 信噪比對(duì)檢索結(jié)果的影響
由實(shí)驗(yàn)結(jié)果可以看出,查全率幾乎不受噪聲的影響;當(dāng)信噪比降低時(shí),檢索準(zhǔn)確性有不同程度的下降.由音頻指紋的性能分析可知,抗噪性能與提取音頻指紋的門(mén)限值有關(guān),當(dāng)門(mén)限值越大,檢索準(zhǔn)確性越好,但音頻指紋區(qū)分不同音頻的能力也會(huì)下降.而本文方法主要適用于錄音片段在線(xiàn)查詢(xún)等應(yīng)用,實(shí)際中錄音機(jī)的信噪比應(yīng)在40dB以上,實(shí)驗(yàn)結(jié)果表明該方法能夠滿(mǎn)足實(shí)際應(yīng)用需求.
本文提出了一種基于過(guò)零率和音頻指紋的二步固定音頻檢索方法.首先利用過(guò)零率直方圖從待檢音頻數(shù)據(jù)中快速篩選出相似度較高的音頻片段,采取直方圖迭代計(jì)算,動(dòng)態(tài)的觀測(cè)窗滑動(dòng)步長(zhǎng)等措施減少計(jì)算量并加快了搜索速度.然后利用降維Philips音頻指紋對(duì)匹配出的音頻片段進(jìn)行精確檢索,基于降維音頻指紋的簡(jiǎn)潔性、區(qū)分性及魯棒性,精檢索不僅提高了檢索精度,而且檢索匹配速度快,具有良好魯棒性.實(shí)驗(yàn)結(jié)果給出該音頻檢索算法良好性能的證明.本文重點(diǎn)針對(duì)無(wú)索引文件可用的動(dòng)態(tài)音頻檢索問(wèn)題,提出了一系列簡(jiǎn)化計(jì)算、加快搜索速度的措施,適用于錄音片段在線(xiàn)查詢(xún)等應(yīng)用,后續(xù)我們將針對(duì)大規(guī)模靜態(tài)音頻數(shù)據(jù)庫(kù)建立音頻索引開(kāi)展進(jìn)一步的研究應(yīng)用.
1 Wang Y,Liu Z,Huang JC.Multimedia content analysis using both audio and visualclues.IEEE SignalProcessing Magazine,2000,17(6):12–36.
2 Foote J.An overview of audio information retrieval. Multi-Media Systems,1999,7(1):2–10.
3楊繼臣,王偉凝.一種基于隨機(jī)段的固定音頻檢索方法.計(jì)算機(jī)應(yīng)用,2010,30(1):230–232.
4張衛(wèi)強(qiáng),劉加.網(wǎng)絡(luò)音頻數(shù)據(jù)庫(kù)檢索技術(shù).通信學(xué)報(bào), 2007,28(12):152–155.
5張衛(wèi)強(qiáng),劉加.一種基于仿生模式識(shí)別思想的固定音頻檢索方法.自然科學(xué)進(jìn)展,2008,18(7):808–813.
6 Hanesn JHL,Huang RQ.Speech find:Advances in spoken document retrieval for a national gallery of the spoken Word. IEEE Trans.on Speech and Audio Processing,2005,13(5): 712–730.
7 Chechil G,Le E,Rehn M,et al.Large scale content based audio retrieval from text queries.Proc.of the 1st ACM International Conference on Multimedia Information Retrieval.New York,USA.ACM Press.2008.105–112.
8 Kashino K,Kurozumi T,Murase H.A quick search method for audio and video signals based on histogram pruning.IEEE Trans.on Multimedia,2003,5(3):348–357.
9 Kim KM,Kim SY,Jeon JK,et al.Quick audio retrieval Using multiple feature vectors.IEEE Trans.on Consumer Electronics,2006,52(1):200–205.
10齊曉倩,陳鴻昶.基于K-L距離的兩步固定音頻檢索方法.計(jì)算機(jī)工程,2011,37(19):160–162.
11談會(huì)星,陳福才,李邵梅.基于模板子空間的快速固定音頻檢索方法.計(jì)算機(jī)工程,2012,38(20):260–263.
12張雪源,賀前華.一種基于倒排索引的音頻檢索方法.電子與信息學(xué)報(bào),2012,34(11):2561–2567.
13郭杰,王之禹.應(yīng)用于快速音樂(lè)檢索系統(tǒng)中的音樂(lè)指紋提取算法.中國(guó)聲學(xué)學(xué)會(huì)2007年青年學(xué)術(shù)會(huì)議.2007.135–136.
14李偉,李曉強(qiáng),陳芳,王淞聽(tīng).數(shù)字音頻指紋技術(shù)綜述.小型微型計(jì)算機(jī)系統(tǒng),2008,29(11):2124–2130.
Two-Stage SpecificAudio Retrieval Based onAudio Fingerprinting
QIAO Li-Neng1,XIA Xiu-Yu1,YE Yu-Lin2
1(College of Electronics and Information,Sichuan University,Chengdu 610064,China)
2(78438 Troops of the Chinese People’s Liberation Army,Chengdu 610066,China)
This paper proposes a two-step fixed audio retrieval algorithm based on zero crossing rate and audio fingerprinting.The iterative calculation of the histogram and the sliding step of the observation time window are used in preliminary retrieval based on the zero crossing rate histogram to reduce the amount of calculation and speed up the search,fast filtering out candidate audio segments with high similarity;Then based on the dimension reduction Philips audio fingerprint,accurate retrieval of the candidate audio is carried out,further improving the retrieval accuracy.The experimental results show that the audio retrieval algorithm can improve the retrieval speed greatly and has good robustness,ensuring good retrieval accuracy.
audio retrieval;zero crossing rate;histogram;audio fingerprinting
2016-09-03;收到修改稿時(shí)間:2016-11-14
10.15888/j.cnki.csa.005819