摘 要 音樂作為生活中必不可少的情感表達(dá)和寄托的工具,如何將其進(jìn)行更好的分類,成為研究的熱門話題。本文根據(jù)音樂數(shù)據(jù)本身上下文的相關(guān)性,提出基于雙向長短時(shí)記憶網(wǎng)絡(luò)的音樂情感識(shí)別模型,同時(shí)改善了基于傳統(tǒng)神經(jīng)網(wǎng)絡(luò)的識(shí)別模型因手工提取特征導(dǎo)致識(shí)別率不高的問題。
關(guān)鍵詞 音樂情感識(shí)別;深度學(xué)習(xí);BILSTM
引言
音樂在人們的日常生活中扮演者重要的角色,數(shù)字音樂的快速增長使得音樂信息檢索技術(shù)迅速發(fā)展,音樂情感識(shí)別的研究逐漸成為熱點(diǎn)。
音樂情感識(shí)別研究主要有音樂特征提取和情感識(shí)別模型兩大方向,主要基于純音頻分析[1]、純文本分析[2]和文本音頻相結(jié)合[3]的研究方式。由于音樂的低層次特征很難對(duì)情感有準(zhǔn)確的表達(dá),所以將深度學(xué)習(xí)應(yīng)用到音樂情感識(shí)別,以解決手動(dòng)提取特征識(shí)別率不高的問題。本文采用深度學(xué)習(xí)中的BILSTM構(gòu)建音樂情感識(shí)別模型。
1情感模型
在音樂情感識(shí)別研究中廣泛應(yīng)用的有離散類別情感模型和連續(xù)型情感模型兩個(gè)大類別。離散型情感模型中具有代表性的是Hevner 情感模型[4],連續(xù)型情感模型中具有代表性的是Thayer二維情感表示模型[5]。本文根據(jù)數(shù)據(jù)集的特點(diǎn)和研究的可行性進(jìn)行綜合衡量,采用離散型的情感模型,將情感類別劃分為平靜,快樂,悲傷,憤怒和可怕五類構(gòu)建情感模型。
2BILSTM神經(jīng)網(wǎng)絡(luò)
BILSTM即雙向LSTM。為了解決RNN在訓(xùn)練過程中經(jīng)常出現(xiàn)梯度消失和梯度爆炸,研究人員專門設(shè)計(jì)出LSTM網(wǎng)絡(luò)。由于音頻數(shù)據(jù)的高相關(guān)性,并且音樂情感不僅和它之后的數(shù)據(jù)相關(guān),也和它之前的數(shù)據(jù)相關(guān),而LSTM網(wǎng)絡(luò)結(jié)構(gòu)只能單向性的對(duì)音頻特征進(jìn)行提取,所以本文采用BILSTM神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),雙向LSTM采用正向特征提取和反向特征提取相結(jié)合的方式,對(duì)音頻數(shù)據(jù)進(jìn)行處理,使得提取的特征更加的健壯和全面,提高音樂情感是識(shí)別的準(zhǔn)確率。
3識(shí)別模型
3.1 數(shù)據(jù)集
本文所用到的數(shù)據(jù)來自賴爾森(Ryerson)情感言語和歌曲視聽數(shù)據(jù)庫(RAVDESS),包含1012首歌曲文件,每個(gè)文件都有標(biāo)記好的情感。每個(gè)文件都由模態(tài)、人聲通道、情感、情緒強(qiáng)度、聲明、重復(fù)和演員這7個(gè)標(biāo)識(shí)符唯一命名。
3.2 特征提取
梅爾倒譜系數(shù)特征(MFCC)提取過程為:首先對(duì)音樂信號(hào)進(jìn)行預(yù)加重處理,然后對(duì)其進(jìn)行加窗分幀處理以提取短時(shí)特征。音樂的片段一幀信號(hào)一般在10ms~30ms時(shí)間內(nèi),這是由音樂信號(hào)的短時(shí)平穩(wěn)性特征決定的,用一幀信號(hào)的特征來表征其短時(shí)特征,就是用有限長度的可移動(dòng)窗口對(duì)音樂信號(hào)進(jìn)行截取,常用的窗口包括矩形窗、漢寧窗、漢明窗等,這就是加窗分幀的方法,表達(dá)式如下:
3.3 識(shí)別過程
基于BILSTM的音樂情感識(shí)別模型如圖1 所示。
首先依據(jù)音樂情感模型建立訓(xùn)練集和測試集,對(duì)音樂數(shù)據(jù)先進(jìn)行預(yù)處理,然后特征提取,將訓(xùn)練數(shù)據(jù)的特征作為原始輸入輸入到BILSTM網(wǎng)絡(luò)中,通過多次迭代訓(xùn)練模型,然后將經(jīng)過相同的預(yù)處理和特征提取后的測試數(shù)據(jù),輸入構(gòu)建好的分類模型中,得出分類結(jié)果。
4結(jié)束語
傳統(tǒng)的基于機(jī)器學(xué)習(xí)的音樂情感識(shí)別存在一定的局限性,導(dǎo)致識(shí)別準(zhǔn)確率并不理想。伴隨著機(jī)器學(xué)習(xí)的快速發(fā)展,深度學(xué)習(xí)逐漸進(jìn)入研究者的領(lǐng)域,本文基于深度學(xué)習(xí)的強(qiáng)大的特征提取能力,結(jié)合音頻數(shù)據(jù)高上下文相關(guān)性的特點(diǎn),構(gòu)建了BILSTM音樂情感識(shí)別模型,理論上能獲得更好的識(shí)別準(zhǔn)確率,有一定的研究價(jià)值和意義。
參考文獻(xiàn)
[1] 蔡宸.基于音頻信號(hào)處理的音樂情感分類的研究[D].北京:北京郵電大學(xué),2017.
[2] 王潔,朱貝貝.面向中文歌詞的音樂情感分類方法[J].計(jì)算機(jī)系統(tǒng)應(yīng)用,2019,28(8):24-29.
[3] 陳煒亮.音頻文本混合的歌曲深度情感識(shí)別[D].合肥:合肥工業(yè)大學(xué),2017.
[4] K. Hevner. Experimental studies of the elements of expression in music[J]. American Journal of Psychology,1936,48(2):246-268.
[5] R. Thayer.The biopsychology of mood and arousal[M]. Oxford University Press,1989:71.
作者簡介
商銘娟(1995-),女,河北省人;畢業(yè)院校:北京物資學(xué)院,專業(yè):計(jì)算機(jī)科學(xué)與技術(shù),學(xué)歷:碩士,現(xiàn)就職單位:北京物資學(xué)院,研究方向:計(jì)算機(jī)應(yīng)用技術(shù)。