王楠鑫 張雨佳
【摘要】音樂為音頻數(shù)據(jù)的一種,提高音頻數(shù)據(jù)檢索效率,是改善用戶檢索體驗的主要途徑。本文從音樂內容入手,闡述了基于內容的音樂檢索處理框架?;诖耍攸c對端點檢測方法,以及語音識別方法進行了比較研究。并根據(jù)研究結果,設計了一種基于內容的音樂檢索系統(tǒng)。通過對系統(tǒng)檢索效果的觀察,證實了系統(tǒng)的應用價值。以期能夠為有關人員提供參考。
【關鍵詞】音樂內容;檢索方法;端點檢測;語音識別;優(yōu)化設計
【中圖分類號】J605 【文獻標識碼】A
一、基于內容的音樂檢索處理框架
音樂檢索的本質,即模仿人的大腦,對聲音進行分析。在此基礎上,根據(jù)旋律以及節(jié)奏的快慢,對音樂加以分辨的過程。為確?;趦热莸囊魳窓z索有效實現(xiàn),準確提取歌曲節(jié)奏的特征數(shù)據(jù),對提取歌曲的基音數(shù)據(jù)進行對比較為關鍵。具體處理框架,既“特征提取--檢索引擎--查詢結果/繼續(xù)提取特征”的這一過程。系統(tǒng)接收到信息后,會對用戶聲音的特征進行提取。采用匹配算法,將用戶的聲音,與系統(tǒng)中音樂的聲音進行匹配,最終將匹配結果,反饋給用戶。將上述檢索方法應用到音樂檢索過程中,使用戶在了解音樂特征的基礎上,實現(xiàn)對音樂的查找。對改善用戶檢索體驗,具有較高的實踐價值。
二、基于內容的音樂檢索方法的比較及優(yōu)化
(一)端點檢測方法
端點檢測算法,包括門限法端點檢測、噪音檢測以及動態(tài)窗長語音檢測三種。以動態(tài)窗長語音檢測為例,當開始檢測時,如動態(tài)窗較長,檢測系統(tǒng)可隨之進入到過渡段,反復檢測,即可準確的判斷出語音的起始點,進而實現(xiàn)對音樂的檢索。如動態(tài)窗較短,則可經(jīng)由起始點,回到正常窗,實現(xiàn)對音樂的檢索。與英語不同,漢子語音末尾,多為濁音。因此,僅采用短時的能量,即能夠判斷出語音的結尾點,使基于內容的音樂檢索的過程得以實現(xiàn)。
用戶可將動態(tài)窗長語音檢測算法,應用到音樂的檢索過程中,對用戶的哼唱音頻進行檢索。假設用戶的哼唱音,為“do、re、mi、fa”,系統(tǒng)可根據(jù)對哼唱音頻短時能量的觀察,對短時過零率進行計算。鑒于“fa”中,“f”為清音。因此,如用戶發(fā)聲時聲帶未振動,而是產(chǎn)生的收縮。則“fa”的短時能量,通常會有所降低。但該特征,不會對哼唱的過零率產(chǎn)生影響。因此,用戶采用端點檢測方法,以內容為基礎對音樂進行檢索,可取得較好的效果。
(二)語音識別方法
語音識別屬于模式識別的一種,為確保用戶的語音能夠被識別,機器必須具備一定的“理解”以及“響應”能力。目前常用的語音識別技術,主要包括特征提取技術以及模式匹配準則等。各技術的應用,均需經(jīng)過“選取語音識別單元”的過程。該過程中如下:預處理--提取特征--訓練--模式識別(存儲至模式庫)--結束識別。即當用戶的語音信息,被系統(tǒng)接收后,系統(tǒng)可隨之對其進行預處理。并在提取語音數(shù)據(jù)特征的基礎上,對其進行訓練。被處理后的語音數(shù)據(jù),經(jīng)模式識別后,既可得到檢索結果。
將語音識別方法,應用到基于內容的音樂檢索過程中,同樣可檢索出用戶所需的音樂。用戶哼唱歌譜時,常用音主要包括“do、re、mi、fa、sol、la、si”共7個。根據(jù)音高的不同,各音的特征同樣有所差異。假設語音識別方法僅能夠識別出音符,而無法識別音高,則檢索所得到的結果,準確度通常會存在一定的誤差。為解決上述問題。將低音組音階,與高音組音階,共同影射為14個字符。在此基礎上,實現(xiàn)對音高特征的識別,既能夠得到更加精準的識別結果,進而使音樂檢索效率得以提升。
(三)音樂檢索方法的優(yōu)化
端點檢測方法,以及語音識別方法,在基于內容的音樂檢索過程中,均具有各自的應用優(yōu)勢。將兩者的優(yōu)勢相結合,對音樂檢索系統(tǒng)進行設計,可有效優(yōu)化系統(tǒng)的檢索性能。本課題所設計的音樂檢索系統(tǒng),功能主要包括“源音樂庫存儲功能”“人聲端點檢測功能”以及“旋律特征提取功能”三種。當用戶哼唱一段旋律后,系統(tǒng)會隨之對所采集到的哼唱數(shù)據(jù)的旋律特征進行提取,并以音頻為準,檢索旋律的特征。當明確音樂特征后,系統(tǒng)會隨之將其與源音樂庫中的音樂進行對比。對比無誤后,既可顯示出檢索結果。
為判斷系統(tǒng)是否能夠達到優(yōu)化音樂檢索性能的目的,本課題對不同檢索方法的檢索成功率進行了對比。將同樣的用戶哼唱音頻,分別采用不同的方法檢索后發(fā)現(xiàn):端點檢測法。34段用戶哼唱音頻中,共30例被成功檢索,檢索準確度為88.23%;語音識別法。34段用戶哼唱音頻中,共29例被成功檢索,檢索準確度為85.29%;本系統(tǒng)功能。34段用戶哼唱音頻中,共34例被成功檢索,檢索準確度為100%。對比發(fā)現(xiàn),將兩種檢索方法,共同應用到音樂檢索過程中,準確度更高。
三、結論
綜上所述,基于內容的音樂檢索方法,主要包括端點檢測法,與語音識別法兩種,兩者各有其優(yōu)勢。設計人員可充分利用兩種檢測方法在檢索音樂方面存在的優(yōu)勢,設計更好的系統(tǒng),實現(xiàn)對音樂的檢索。