石浩東,謝 偉,徐天保,祝享庭,李 琪
(大連民族大學(xué)信息與通信工程學(xué)院,遼寧 大連 116600)
我國各民族都有自己特有的民族古樂器,如藏族的馬頭琴、維吾爾族的扎木聶、哈薩克族的冬不拉、朝鮮族的長鼓等等。各民族的古樂器在幾千年的歷史長河中不竭地發(fā)展和演變,譜寫出九曲黃河水,曲曲是同鄉(xiāng)的民族贊歌,這些都是中華兒女智慧的象征。各族同胞的古樂器不僅僅是物質(zhì)文化遺產(chǎn),更是寄托了先人無聲教導(dǎo)的精神遺產(chǎn)。是后人們應(yīng)該進(jìn)行保護(hù),創(chuàng)新,并不斷發(fā)展發(fā)揚(yáng)光大的。
傳統(tǒng)的樂器識(shí)別分類方法采用的是樹形分類方法,這種分類方法的過程較為繁瑣,且識(shí)別的準(zhǔn)確率不是很高。而采用模式識(shí)別的分類方法來對(duì)民族樂器進(jìn)行識(shí)別,能夠有效克服傳統(tǒng)屬性分類方法的錯(cuò)誤累計(jì)缺陷。王飛和于鳳芹基于改進(jìn)的卷積神經(jīng)網(wǎng)絡(luò)與聽覺譜圖進(jìn)行樂器識(shí)別[1];王芳提取梅爾多頻系數(shù),并基于深度置信網(wǎng)絡(luò)設(shè)計(jì)樂器識(shí)別算法[2];Etienne等應(yīng)用調(diào)制功率譜識(shí)別西洋樂器[3]。
音樂特征可以廣泛地被應(yīng)用,來分析識(shí)別和提取表征冗余音樂的本質(zhì)屬性,因此在民族樂器的識(shí)別分類中提取音樂特征是非常重要的。圖1為音樂特征提取流程圖。
圖1 音樂特征提取流程圖
2.2.1 短時(shí)能量
短時(shí)能量表征的是在時(shí)域中音樂信號(hào)幅度的變化情況,幅度將顯著隨時(shí)間變化,將有音音段與無音音段形成鮮明的對(duì)比,故該特征常被用于判斷音頻的起始、過度和結(jié)束。
.
(1)
2.2.2 短時(shí)平均過零率
短時(shí)過零表示一幀音頻數(shù)據(jù)信號(hào)輸出波形穿過橫軸(零電平)的次數(shù)。過零對(duì)于連續(xù)的音樂信號(hào)來說,即時(shí)域波形通過時(shí)間軸;而對(duì)于離散信號(hào),相鄰的取樣值的變化符號(hào)稱為過零。過零率就是樣本改變符號(hào)的次數(shù)。
.
(2)
(3)
2.2.3 梅爾倒譜系數(shù)
.
(4)
MFCC系數(shù)的個(gè)數(shù)通常取12~16,文中介紹選取的為12階倒譜系數(shù)。
2.2.4 MFCC差分系數(shù)
標(biāo)準(zhǔn)倒譜MFCC參數(shù)只能用來反映音頻參數(shù)的靜態(tài)特性,通過這些靜態(tài)特征的差分譜,可以用來識(shí)別和描述音樂的一些動(dòng)態(tài)參數(shù)特性。實(shí)驗(yàn)研究的結(jié)果表明:將這些動(dòng)態(tài)特征與靜態(tài)特征結(jié)合起來,才能有效地提高識(shí)別系統(tǒng)的效率與辨識(shí)性能。以下公式可用于計(jì)算差分參數(shù):
(5)
式中,dt為第t個(gè)一階差分;Ct為第t個(gè)倒譜系數(shù);Q為倒譜系數(shù)的階數(shù);K為一階導(dǎo)數(shù)的時(shí)間差,可取1或2。將一階結(jié)果再代入,即可得到二階差分參數(shù)。
為了將幀連續(xù)起來,一般求取當(dāng)前幀與前后各一幀的13個(gè)特征的差值(12個(gè)倒譜特征加1個(gè)能量特征)。
合并MFCC參數(shù)和一、二階差分MFCC參數(shù),去除首尾兩幀,組成一個(gè)新的矢量,共36維,作為一幀音樂信號(hào)參數(shù)。
學(xué)習(xí)矢量量化(Learning Vector Quantization,LVQ)系統(tǒng)規(guī)劃。圖2為本文使用的樂器識(shí)別分類的系統(tǒng)結(jié)構(gòu)圖。
圖2 樂器識(shí)別分類系統(tǒng)結(jié)構(gòu)圖
學(xué)習(xí)矢量量化神經(jīng)網(wǎng)絡(luò)由于具備神經(jīng)網(wǎng)絡(luò)構(gòu)造簡(jiǎn)單、輸入向量不需要根據(jù)需求進(jìn)行歸一化、正交化等長處,因而在模式識(shí)別和優(yōu)化領(lǐng)域被廣泛應(yīng)用。
輸入層36個(gè)節(jié)點(diǎn),銜接36維的單幀音樂信號(hào)參數(shù),隱含層神經(jīng)元的數(shù)目設(shè)置為10,輸出層5個(gè)節(jié)點(diǎn)對(duì)應(yīng)五種民族樂器。
實(shí)驗(yàn)項(xiàng)目主要采用5種民族樂器——箜篌、楊琴、竹笛、二胡、葫蘆絲。每種樂器由1000個(gè)3s的樂器獨(dú)奏樣本組成,從樣本中隨機(jī)抽取3500個(gè)樣本作為神經(jīng)網(wǎng)絡(luò)訓(xùn)練集,剩余的1500個(gè)樣本作為神經(jīng)網(wǎng)絡(luò)測(cè)試集。
訓(xùn)練結(jié)果在圖3中顯示,實(shí)驗(yàn)結(jié)果在表1中顯示。
圖3 訓(xùn)練結(jié)果混淆矩陣
表1 實(shí)驗(yàn)記錄表
從表中可以看出,本系統(tǒng)對(duì)揚(yáng)琴的識(shí)別率最高,達(dá)到97.5%,對(duì)葫蘆絲的識(shí)別率最低,只有54.5%,五種樂器的平均識(shí)別率為74.3%。
出現(xiàn)誤差的原因可能有以下幾種:
1) 選取的音樂文件還不夠多;
2) 樂器的特征規(guī)律把握還不夠準(zhǔn)確;
2) 識(shí)別算法還不夠強(qiáng)。
隨著西方現(xiàn)代樂器識(shí)別分類的逐步完善,我國的傳統(tǒng)民族樂器識(shí)別方法的研究迫在眉睫。一方面隨著年輕人的加入掀開了民族傳統(tǒng)文化熱潮,民族音樂的數(shù)字化也在我國掀起了一股小浪潮。另一方面我們特有的傳統(tǒng)民族樂器也因老人將逝、新人怕苦面臨著失傳,而如何才能精準(zhǔn)迅速地檢索出傳統(tǒng)民樂中的發(fā)聲樂器,己成為傳統(tǒng)民族音樂信息檢索領(lǐng)域我們急需解決的一個(gè)技術(shù)問題。民族樂器識(shí)別可以說不僅是對(duì)音樂信息檢索的一個(gè)重要的應(yīng)用,還對(duì)于保護(hù)和傳承我國少數(shù)民族的傳統(tǒng)、保護(hù)少數(shù)民族的文化遺產(chǎn)也具有重要意義。
本文提取時(shí)域、頻域的音樂特征量,應(yīng)用神經(jīng)網(wǎng)絡(luò)進(jìn)行民族樂器識(shí)別,效果良好,表明本文方法對(duì)于識(shí)別民族樂器具有一定的參考價(jià)值。
由于音樂樣本的不足,特征量提取還不夠準(zhǔn)確,識(shí)別方法還有待不斷改善。