• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于差分Mel倒譜法的音樂旋律特征提取算法

      2024-11-03 00:00:00周乙軒

      摘 要:由于忽略了基頻序列的動(dòng)態(tài)特性,導(dǎo)致音樂旋律特征提取效果不佳。對(duì)此,提出基于差分Mel倒譜法的音樂旋律特征提取算法。通過對(duì)幀長以及幀移進(jìn)行設(shè)定,實(shí)現(xiàn)音頻信號(hào)分幀處理,并結(jié)合漢明窗函數(shù)對(duì)其進(jìn)行加窗處理。引入Mel倒譜系數(shù),對(duì)音樂旋律的動(dòng)態(tài)特性進(jìn)行表征,實(shí)現(xiàn)基頻提取。將音頻序列轉(zhuǎn)換為一維的音高序列,并針對(duì)序列進(jìn)行分幀操作,從而得到音高向量信息。結(jié)合音高區(qū)間的分布情況統(tǒng)計(jì)結(jié)果,并在其中加入一定的區(qū)分性信息指標(biāo),得到音樂旋律的多維特征。實(shí)驗(yàn)結(jié)果表明,該算法應(yīng)用后,旋律結(jié)構(gòu)相似度指數(shù)較高,具備較為理想的提取效果。

      關(guān)鍵詞:梅爾倒譜系數(shù);音樂旋律;特征提取;音高曲線

      中圖分類號(hào):TP391 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1673-260X(2024)09-0070-05

      在音樂信息檢索(Music Information Retrieval, MIR)領(lǐng)域,旋律特征提取是至關(guān)重要的一環(huán),它關(guān)乎音樂作品的識(shí)別、分類、檢索等應(yīng)用。

      何麗等[1]通過多特征融合技術(shù),將音頻信號(hào)的時(shí)域、頻域和倒譜域特征進(jìn)行融合,以全面捕捉音樂的旋律信息,利用壓縮激勵(lì)模型對(duì)融合后的特征進(jìn)行進(jìn)一步處理,以增強(qiáng)主旋律特征的表示能力。但該方法在處理復(fù)雜多變的音樂風(fēng)格時(shí)可能面臨挑戰(zhàn),因?yàn)槎嗵卣魅诤峡赡軙?huì)導(dǎo)致特征之間的冗余和沖突,從而影響主旋律提取的準(zhǔn)確性。楊汶雯等[2]利用卷積神經(jīng)網(wǎng)絡(luò)(CNN)對(duì)音頻信號(hào)進(jìn)行特征提取,并通過全連接層進(jìn)行分類。但該方法的不足之處在于其對(duì)訓(xùn)練數(shù)據(jù)的需求較大,且容易受到訓(xùn)練數(shù)據(jù)分布不均的影響。Zhang J W[3]利用循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)對(duì)音頻信號(hào)進(jìn)行序列建模,并通過多層感知器(MLP)進(jìn)行分類。但該方法對(duì)于長時(shí)依賴關(guān)系的處理能力有限,可能導(dǎo)致在處理復(fù)雜音樂結(jié)構(gòu)時(shí)表現(xiàn)不佳。Zhang K D[4]利用音頻處理技術(shù)提取音樂的多種特征,并結(jié)合線性分析法對(duì)其進(jìn)行融合處理。但線性分析法在對(duì)復(fù)雜資源進(jìn)行處理時(shí)會(huì)受到一定的限制,從而影響特征提取效果。

      對(duì)此,通過引入差分操作,設(shè)計(jì)基于差分Mel倒譜法的音樂旋律特征提取算法,能夠捕捉到旋律中相鄰幀之間的細(xì)微差異,旨在通過更加精細(xì)的音頻處理技術(shù),揭示旋律中的深層結(jié)構(gòu)和內(nèi)在規(guī)律。

      1 音樂旋律特征提取算法

      音樂旋律特征是指反映音樂中旋律結(jié)構(gòu)和音高信息的特征。以下是一些典型的音樂旋律特征:

      (1)音高:音高是音樂的基本要素之一,可以用數(shù)字表示,如音名或MIDI數(shù)值。

      (2)音符持續(xù)時(shí)間:描述每個(gè)音符的時(shí)間長度,可用音符時(shí)值(如四分音符、八分音符等)表示。

      (3)節(jié)奏性特征:包括節(jié)拍、速度、強(qiáng)弱等,可以通過計(jì)算音符間的時(shí)間間隔、音符的力度(loudness)等獲取。

      (4)旋律輪廓:描述音符的音高變化規(guī)律,如上升、下降、平穩(wěn)等。

      (5)音程:測量相鄰音符之間的音高距離,如半音、全音等。

      (6)旋律輪廓特征:通過計(jì)算音符之間的跳躍關(guān)系、音符位置等來捕捉旋律的輪廓特征。

      (7)音樂模式:描述音樂中重復(fù)出現(xiàn)的旋律或樂句結(jié)構(gòu)。

      (8)轉(zhuǎn)調(diào)特征:表示音樂中的調(diào)性變化,如調(diào)式變換、轉(zhuǎn)調(diào)點(diǎn)等。

      不同的特征對(duì)應(yīng)不同的屬性,需要設(shè)計(jì)不同的提取對(duì)象與提取方法。

      1.1 音樂旋律加窗處理及基頻提取

      音樂旋律中的旋律特征由基礎(chǔ)聲音頻率轉(zhuǎn)換而來,音高曲線是音樂分析中至關(guān)重要的工具,它直觀地展示了音樂旋律中音高隨時(shí)間變化的趨勢。音高曲線的形狀、波動(dòng)幅度和頻率都包含著豐富的信息,可以揭示出旋律的輪廓、音高走勢以及可能的情感表達(dá)。

      通過分析音高曲線,音樂學(xué)家、作曲家或音頻工程師可以捕捉到旋律的關(guān)鍵特征。例如,曲線的陡峭程度可以反映出旋律的起伏變化,而曲線的平滑程度則可能暗示著旋律的流暢性或連貫性。此外,音高曲線的極值點(diǎn)(如高點(diǎn)和低點(diǎn))通常對(duì)應(yīng)著旋律中的關(guān)鍵音符,這些音符在整個(gè)旋律中扮演著重要的角色。

      在特征提取方面,音高曲線可以提供一系列有用的參數(shù),如音高的平均值、中位數(shù)、方差、偏度等統(tǒng)計(jì)量,以及音高之間的時(shí)間間隔、音高變化的速率和方向等動(dòng)態(tài)特征。這些特征可以被用于音樂分類、風(fēng)格識(shí)別、旋律相似性比較等多種應(yīng)用;同時(shí),音高曲線還可以與其他音樂特征(如節(jié)奏、音色、和聲等)相結(jié)合,以提供更全面的音樂分析。例如,結(jié)合音高曲線和節(jié)奏信息,可以分析出旋律的律動(dòng)感和節(jié)奏特點(diǎn);而結(jié)合音高曲線和和聲信息,則可以揭示出旋律的協(xié)和性和和聲色彩。對(duì)此,結(jié)合漢明窗函數(shù)對(duì)其進(jìn)行加窗處理,結(jié)合差分Mel倒譜法,對(duì)基頻進(jìn)行提取,從而得到基頻特征參數(shù)[5,6]。

      考慮到音樂旋律的變化往往是在短時(shí)間內(nèi)發(fā)生的,因此為了捕捉音頻信號(hào)的局部特性,在進(jìn)行加窗處理和分析之前,對(duì)其進(jìn)行分幀處理。分幀處理需要將連續(xù)的音頻信號(hào)劃分為一些列短時(shí)的幀,對(duì)此需要對(duì)幀長以及幀移進(jìn)行處理。幀長和幀移是分幀處理中的兩個(gè)重要參數(shù)[7]。幀長定義了每個(gè)幀所包含的音頻信號(hào)樣本數(shù),而幀移則決定了相鄰幀之間的重疊程度。設(shè)定幀長為40毫秒,幀移為幀長的一半。根據(jù)確定的幀長和幀移,將音頻信號(hào)分割成一系列幀。設(shè)音頻信號(hào)為x(t),其中t表示時(shí)間,幀長為N,幀移為M,則第i幀的起始時(shí)間為ti,結(jié)束時(shí)間為ti+N。則第i幀的音頻信號(hào)表示為x(ti+N)。對(duì)音頻進(jìn)行分幀處理,為了減少幀與幀之間的不連續(xù)性,采用漢明窗函數(shù)W(·)對(duì)其進(jìn)行加窗處理,具體函數(shù)表達(dá)式如下所示。

      其中,n代表幀內(nèi)樣本的索引,α代表分幀連續(xù)參數(shù)。通過對(duì)上述加窗處理后的幀數(shù)據(jù)進(jìn)行余弦變換處理,得到每一幀的倒譜參數(shù)c(n),具體參數(shù)表達(dá)式如下所示。

      其中,S(m)代表音樂旋律信號(hào)的對(duì)數(shù)能量。

      具有復(fù)雜結(jié)構(gòu)的音樂旋律通常會(huì)包含一定的動(dòng)態(tài)特性,對(duì)此,采用Mel倒譜系數(shù),通過模擬人耳的聽覺特性,將聲音信號(hào)的頻譜轉(zhuǎn)化為Mel頻率標(biāo)準(zhǔn)的非線性形式,從而提取出音頻的動(dòng)態(tài)特性,并對(duì)該動(dòng)態(tài)特性進(jìn)行表征,由此得到的基頻提取表達(dá)式如下所示。

      其中,λi代表基頻分辨率參數(shù),k代表倒譜常數(shù),c(n)代表基頻動(dòng)態(tài)線性變換函數(shù)。

      對(duì)幀長以及幀移進(jìn)行設(shè)定,實(shí)現(xiàn)基頻分幀處理,并結(jié)合漢明窗函數(shù)對(duì)其進(jìn)行加窗處理。

      1.2 音高曲線獲取

      音高曲線反映了音樂旋律音高變化的趨勢。通過分析音高曲線,捕捉旋律的輪廓和主要特征,為后續(xù)的特征提取和分類提供依據(jù)。因此,在完成基頻提取之后,有必要提取音樂旋律中的音高曲線。

      作為音高曲線的量化方法,音高向量包含旋律中每個(gè)音符的音高信息,以及它們之間的關(guān)系和變化。通過將連續(xù)的基音值轉(zhuǎn)換為離散的矢量形式,可以更方便地進(jìn)行計(jì)算和分析。

      假設(shè)音樂旋律為MIDI格式,那么該文件下的音頻信號(hào)通常由一段持續(xù)時(shí)間ti的連續(xù)音符值pi所構(gòu)成,將音符值組成一個(gè)集合即為音符序列(p1,t1),…,(pi,ti),而音符的持續(xù)時(shí)間ti也等于分幀總數(shù)Fi。將任意音符pi表示為一維音高序列的形式,這個(gè)序列即為音高曲線,具體表達(dá)式如下所示。

      對(duì)音高序列進(jìn)行分幀處理,得到一組長度相等的音高向量。假設(shè)在音樂旋律基頻中,每段音頻對(duì)應(yīng)的音高曲線為(p1,p2,…,pw),其中pw代表不同的音符值[8-10]。那么通過采用一個(gè)長度為h的時(shí)間窗對(duì)其進(jìn)行分幀處理,得到一個(gè)固定的音高向量,并按照幀移參數(shù)對(duì)窗進(jìn)行移動(dòng),從而得到同一窗內(nèi)的新的音高向量[11]。通過采用上述操作,將音高序列進(jìn)行遍歷操作,直到時(shí)間窗超過了音高曲線的截止時(shí)間,得到音高向量的提取結(jié)果如下所示。

      x=(p1,…,pw+T,pw+T(D-1))(5)

      其中,x代表音高向量的提取結(jié)果,T代表時(shí)間窗的采樣間隔,D代表音高向量維度。

      通過將音頻序列轉(zhuǎn)換為一維的音高序列,并對(duì)序列進(jìn)行分幀操作,得到音高向量信息,從而得到音樂旋律的輪廓以及主要特征。

      1.3 音樂旋律特征提取

      結(jié)合統(tǒng)計(jì)法,對(duì)音高區(qū)間的分布情況進(jìn)行統(tǒng)計(jì),從而獲取音高統(tǒng)計(jì)特征,實(shí)現(xiàn)音樂旋律特征提取[12]。

      對(duì)于一個(gè)特征提取基礎(chǔ)單元S,假設(shè)該單元的長度為m,音高序列為(p1,p2,…,pm),為消除因音域差異帶來的音高波動(dòng)影響,需要對(duì)其進(jìn)行歸一化處理,具體處理公式如下所示。

      其中,pmax和pmin分別代表音高序列中的最大值以及最小值。對(duì)于歸一化后的每個(gè)音高向量,均有一個(gè)對(duì)應(yīng)的區(qū)間統(tǒng)計(jì)數(shù)量ci,將其進(jìn)行匯總,得到不同區(qū)間的音高統(tǒng)計(jì)信息(c1,c2,…,cS)。

      雖然能夠保證提取到的音樂旋律特征具有一定的穩(wěn)定性,但是同時(shí)也會(huì)導(dǎo)致音樂旋律特征失去一定的區(qū)分性,即特征提取結(jié)果具有共通性,無法被準(zhǔn)確區(qū)分[13],具體體現(xiàn)在:

      (1)過度簡化:過于簡化音樂旋律的復(fù)雜性,導(dǎo)致特征過于通用,無法準(zhǔn)確區(qū)分不同的旋律。例如,如果只考慮音頻信號(hào)的基頻(即主旋律的音高),而忽略了其他音符、節(jié)奏和和聲信息,那么提取的特征就可能失去區(qū)分性。

      (2)特征維度不足:如果提取的特征維度不足,即特征數(shù)量過少,導(dǎo)致特征的區(qū)分性不足。因?yàn)椴煌囊魳沸煽赡茉谀承┚S度上具有相似性,但在其他維度上存在差異。如果只考慮少數(shù)幾個(gè)維度,那么這些差異就可能被忽略。

      (3)匹配局限性:不同的特征提取算法有不同的優(yōu)缺點(diǎn)。單一算法在提取某些類型的特征方面更好,但其他類型特征的提取效果較差,與音樂的旋律特征不匹配,失去了可辨別性。

      對(duì)此,為對(duì)上述問題進(jìn)行優(yōu)化,選擇在上述的音高統(tǒng)計(jì)信息提取結(jié)果中加入一定區(qū)分性信息,具體包括音高均值、音高極差以及音高方差這三種指標(biāo),增加特征維度。考慮更多的音樂元素,如節(jié)奏、和聲、音色等,以增加特征的維度。這樣可以更全面地描述音樂旋律的特性,提高特征的區(qū)分性。具體求解表達(dá)式如下所示。

      其中,F(xiàn)sum代表音樂旋律多維特征提取結(jié)果。

      結(jié)合音高區(qū)間的分布情況統(tǒng)計(jì)結(jié)果,并在其中加入一定的區(qū)分性信息指標(biāo),得到音樂旋律的多維特征。

      2 實(shí)驗(yàn)

      所選取的音樂數(shù)據(jù)庫是一個(gè)綜合性的音樂收藏庫,音樂數(shù)據(jù)庫采用關(guān)系型數(shù)據(jù)庫管理系統(tǒng),確保數(shù)據(jù)的穩(wěn)定性和安全性。數(shù)據(jù)庫的核心結(jié)構(gòu)由多個(gè)表組成,每個(gè)表代表音樂庫中的一個(gè)實(shí)體,如“藝術(shù)家”“專輯”“歌曲”等。這些表通過關(guān)系鍵相互連接,形成了完整的數(shù)據(jù)庫結(jié)構(gòu),具體結(jié)構(gòu)如表1所示。

      基于表1,將連續(xù)的模擬音頻信號(hào)轉(zhuǎn)換為離散的數(shù)字信號(hào)。設(shè)定采樣率為44.1kHz,并對(duì)量化位數(shù)進(jìn)行設(shè)定。這決定了每個(gè)采樣點(diǎn)的精度,通常以位(bit)為單位。常見的量化位數(shù)有16位和24位。16位量化通常足以提供高質(zhì)量的音頻,而24位則提供了更高的動(dòng)態(tài)范圍和精度。將量化位數(shù)調(diào)整為24位,使用FFmpeg軟件,讀取原始音頻文件,并將其轉(zhuǎn)換為指定采樣率、量化位數(shù)和聲道數(shù)的數(shù)字音頻數(shù)據(jù)。

      通過讀取音頻文件的元數(shù)據(jù),確保每個(gè)音頻文件的時(shí)間戳保持一致,從而完成音頻對(duì)齊處理。在完成音頻預(yù)處理后,得到部分音頻數(shù)據(jù)波形圖如圖1所示。

      選取了兩組常規(guī)的音樂旋律特征提取算法作為對(duì)比對(duì)象,分別為基于數(shù)據(jù)融合的音樂旋律特征提取算法,以及基于深度學(xué)習(xí)的音樂旋律特征提取算法,具體配置情況如表2所示。

      對(duì)原始數(shù)據(jù)集中的音頻數(shù)據(jù)旋律結(jié)構(gòu)進(jìn)行了記錄,并針對(duì)三種提取結(jié)果中的旋律特征結(jié)構(gòu)進(jìn)行了調(diào)取,從而得到了一份旋律特征結(jié)構(gòu)對(duì)比結(jié)果。音頻特征提取結(jié)果如圖2所示。

      由圖2可知,針對(duì)不同的音頻數(shù)據(jù)進(jìn)行特征提取,本文提出的方法獲得了音高曲線以及離散的音高向量數(shù)據(jù)。

      以不同提取結(jié)果下的旋律結(jié)構(gòu)相似性指數(shù)(SSIM)作為對(duì)比指標(biāo),用于衡量不同方法的提取效果。該指數(shù)的具體計(jì)算公式如下所示。

      其中,wi代表權(quán)重參數(shù),pi代表音符序列,δi代表頻譜參數(shù),s(x,y)代表結(jié)構(gòu)相似度判斷函數(shù)。不同方法下的旋律結(jié)構(gòu)相似性指數(shù)對(duì)比結(jié)果如表3所示。

      由表3可知,在針對(duì)相同的音頻數(shù)據(jù)進(jìn)行特征提取時(shí),不同方法的提取結(jié)果均有所不同。本文提出的方法在特征提取效果方面明顯優(yōu)于其他方法,提取結(jié)果的旋律結(jié)構(gòu)與原音頻的旋律結(jié)構(gòu)具備較高的相似度。

      3 結(jié)束語

      本文設(shè)計(jì)了一種基于差分Mel倒譜法的音樂旋律特征提取算法,通過音樂旋律加窗處理及基頻提取,提取音樂旋律中的音高曲線,結(jié)合統(tǒng)計(jì)法,對(duì)音高區(qū)間的分布情況進(jìn)行統(tǒng)計(jì),從而獲取音高統(tǒng)計(jì)特征,獲得了音高曲線以及離散的音高向量數(shù)據(jù),保證了提取后的旋律結(jié)構(gòu)與原音頻的旋律結(jié)構(gòu)具備較高的相似度。但是該算法在處理不同音樂風(fēng)格和文化背景的音樂時(shí),其泛化能力仍有待提高。為了克服這些局限性,在今后的研究工作中,將進(jìn)一步挖掘旋律特征的深層次信息,提高特征提取的準(zhǔn)確性和魯棒性。

      參考文獻(xiàn):

      〔1〕何麗,劉浩.一種基于多特征融合與壓縮激勵(lì)模型的音樂主旋律提取算法[J].計(jì)算機(jī)應(yīng)用與軟件,2023,40(05):160-166+261.

      〔2〕楊汶雯,石夢(mèng)熒.基于深度學(xué)習(xí)的音樂特征提取及流派分類[J].長江信息通信,2021,34(05):9-11.

      〔3〕ZHANG J W. Music feature extraction and classification algorithm based on deep learning[J]. Scientific Programming, 2021, 2021: 1651560.

      〔4〕ZHANG K D. Music style classification algorithm based on music feature extraction and deep neural network[J]. Wireless Communications and Mobile Computing, 2021, 2021: 9298654.

      〔5〕王昊,劉淵晨,趙萌,等.基于多模態(tài)特征的音樂情感多任務(wù)識(shí)別研究[J].現(xiàn)代情報(bào),2022,42(11):61-75.

      〔6〕張李明,洪蕾.基于雙閾值函數(shù)的音符檢測旋律時(shí)間序列化分析[J].電子技術(shù),2022,51(09):22-25.

      〔7〕常鳳,徐小華,胡忠旭.基于貝葉斯判別法對(duì)音樂特征信號(hào)的分類研究[J].電腦知識(shí)與技術(shù),2022, 18(13):79-81.

      〔8〕王寧,陳晨,陳德運(yùn),等.哼唱檢索中旋律特征的聚類與優(yōu)化方法[J].哈爾濱理工大學(xué)學(xué)報(bào),2022,27(01):61-68.

      〔9〕倪嘉惠,金文清,黃榮,等.基于頂層反饋和聯(lián)合檢測的主旋律提取算法[J].計(jì)算機(jī)應(yīng)用,2021,41(S2):103-107.

      〔10〕任瑞.基于音頻特征的音樂音符智能切分識(shí)別方法[J].信息技術(shù),2021,45(12):31-36.

      〔11〕王力,王鑫,謝凌云.音樂信號(hào)處理的特征分析綜述[J].中國傳媒大學(xué)學(xué)報(bào)(自然科學(xué)版),2021, 28(06):59-72.

      〔12〕張巖,劉哲.基于CQT的樂器獨(dú)奏單旋律的提取[J].沈陽師范大學(xué)學(xué)報(bào)(自然科學(xué)版),2021,39(05):465-469.

      〔13〕牛育謙,楊藝媛.基于諧波結(jié)構(gòu)的民族樂器音色特征提取[J].自動(dòng)化與儀器儀表,2023,43(04):34-38.

      〔14〕余程年,杜夢(mèng)麗,吳其林,等.基于多級(jí)度量學(xué)習(xí)的細(xì)粒度旋律相似判別算法[J].綏化學(xué)院學(xué)報(bào),2023,43(03):147-152.

      承德县| 宜君县| 崇明县| 永城市| 济宁市| 肃宁县| 德令哈市| 定安县| 长汀县| 涿州市| 丰台区| 沙河市| 永靖县| 延吉市| 旌德县| 勃利县| 西畴县| 明光市| 花莲市| 偃师市| 金华市| 新昌县| 罗甸县| 新营市| 吐鲁番市| 光山县| 佛学| 开化县| 海丰县| 新化县| 疏勒县| 怀远县| 汶川县| 河北省| 濉溪县| 肇源县| 新巴尔虎右旗| 蒙山县| 城固县| 若尔盖县| 临沭县|