• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于客觀特征的民族樂器音色分析

      2020-06-29 01:06:10江益靚孫校珩梁曉晶李子晉
      復旦學報(自然科學版) 2020年3期
      關(guān)鍵詞:民族樂器音色音頻

      江益靚,孫校珩,梁曉晶,李子晉,李 偉,3

      (1. 復旦大學 計算機科學技術(shù)學院,上海 201023; 2. 中國音樂學院 音樂學系,北京 100101;3. 復旦大學 上海市智能信息處理重點實驗室,上海 200433)

      1 研究背景

      不同旋律的音色可能具有不同的性格,從而表達不同的感情以及藝術(shù)風格.音色被定義為音高、響度相同條件下,能夠區(qū)分不同聲音的感知特征[1].而在動態(tài)的樂器演奏中,影響人們對于音色感知的因素是多方面的.基于音頻特征,對音色的主觀感知進行分析、建模,這對音色的感知研究和樂器的感知研究都有重要意義,是樂器識別、音樂情感分析、音樂流派分類等音樂信息檢索任務的基礎.

      音色的感知描述較為主觀,其研究需要大量的主觀實驗與對應樂器演奏的音頻.研究大多采用多維尺度(Multidimensional Scaling, MDS)分析的方式,將樂器映射到低維空間中,進而分析樂器的音色[2].文獻[3-5]研究了聲學參數(shù)(起奏時間、譜質(zhì)心、譜通量等)與MDS分析得到的樂器分布的關(guān)系.有關(guān)樂器感知實驗的研究多針對合成或修改(變調(diào))的聲音為主[2-4,6],使用真實樂器的客觀數(shù)據(jù)的研究較少,而實際上合成音色與真實音色有較大區(qū)別.相對于主觀音色感知分析,基于客觀特征的音色分析更加客觀,可以更好地分析和理解音色本質(zhì),對于音色客觀評價體系的建立有重要意義.文獻[7]建立聽覺感知模型,探究了同一樂器響度、音高與音色明亮度的關(guān)系.文獻[8]分析了時域、頻域、倒頻域方面的音色特征.

      民族樂器的音色感知方面的研究存在描述詞選擇較主觀、音頻數(shù)據(jù)樂器種類較單一、數(shù)據(jù)量較少的問題.文獻[9]從音樂信息可視化的角度,研究了多種民族樂器的音色性格.文獻[10]關(guān)注音色感知的單一方面,對中國民族樂器做了一系列主觀評價實驗.文獻[11]建立了比較全面的民族樂器音色的主觀評價數(shù)據(jù)集,并使用客觀音色特征,對篩選出的16個音色描述詞中的4個描述詞進行回歸建模.本文在文獻[11]的民族樂器音色描述詞的主觀打分的基礎上,進一步篩選出合適的描述詞,然后基于客觀特征,對4個音色進行分類分析.根據(jù)實驗現(xiàn)象,本文基于客觀特征進一步分析了音色的影響因素.

      2 方 法

      2.1 音色特征的選擇

      本文參考以往文獻,從時域、頻域以及倒譜域,選擇與音色相關(guān)的特征[8,12].時域特征反映聲音的動態(tài)變化.Helmholtz在1954年指出音色感知與頻譜包絡有關(guān)[12].在各類音色分析實驗中,譜特征也是學者們研究的重點.本文采用譜質(zhì)心、頻譜峰態(tài)、頻譜帶寬、高階譜擬合系數(shù)、頻譜滾降系數(shù)、譜通量、協(xié)噪比作為頻域特征.不同的譜特征表達聲音不同的物理特征,其中: 譜質(zhì)心主要體現(xiàn)了音色的明亮度;頻譜滾降點表明了頻譜包絡開始快速下降的頻率;譜通量為連續(xù)幀之間頻譜的變化等.樂器發(fā)聲的原理與人的發(fā)聲類似,是激勵和“濾波器”卷積的結(jié)果,而音色常被認為與濾波過程有較強的相關(guān)性,因此提取與人耳聽覺特性相關(guān)的13維Mel頻率倒譜系數(shù)(Mel Frequency Cepstrum Coefficient, MFCC)作為特征.實驗中對每幀(50ms)提取上述特征值,取1段音頻內(nèi)的平均值作為該段音頻的特征參數(shù).

      2.2 機器學習模型選擇

      在機器學習模型選擇中,本文選擇了下面幾種算法.

      1) 邏輯回歸算法 建立代價函數(shù),然后通過優(yōu)化方法迭代求解出最優(yōu)的模型參數(shù).方法簡單直觀,適用于解決非線性問題.

      2) 支持向量機(Support Vector Machine, SVM) 通過構(gòu)造核函數(shù),將原始數(shù)據(jù)映射到高維空間中,使得樂器演奏樣本在該空間中線性可分.

      3) K近鄰算法 待分類樣本是其臨近樣本的平均或投票結(jié)果,具有很強的容錯性.

      4) 隨機森林 隨機森林集成了多棵決策樹,通過數(shù)據(jù)隨機選取與特征集隨機選取,進行分類,其最終分類結(jié)果為所有決策樹投票的結(jié)果.

      5) 梯度提升決策樹(Gradient Boosting Decision Tree, GBDT) 在每輪迭代后,通過前項分布算法更新分類器權(quán)值.

      6) Adaboost 在每輪訓練結(jié)束后,Adaboost降低前1輪被正確分類的樣本的權(quán)值,增加前1輪被錯誤分類的樣本權(quán)值,對每個弱分類器的結(jié)果進行加權(quán)表決,提高誤差小的弱分類器的權(quán)值.

      本文使用網(wǎng)格搜索與五折交叉驗證的方式選擇機器學習模型的最佳參數(shù).

      3 實 驗

      3.1 數(shù)據(jù)集

      3.1.1 數(shù)據(jù)集Ⅰ: 民族樂器音色主觀評價數(shù)據(jù)集

      本實驗使用文獻[11]中構(gòu)建的民族樂器音色主觀評價數(shù)據(jù)集.數(shù)據(jù)集包含37種民族樂器的樣本數(shù)據(jù),每種樂器包含1段3~4s的演奏片段以及1段音階.采樣率為44100Hz,采樣位深為16bit.樂器按照類別可以分為拉弦樂器、簧管類吹奏樂器、邊棱類吹奏樂器、彈撥樂器、打擊樂器.文獻[11]從調(diào)查問卷和文獻中查找到329個音色描述詞,通過一系列詞語選擇、相關(guān)性分析、聚類分析等步驟,得到16個樂器音色描述詞,并讓34位具有音樂專業(yè)背景的調(diào)查者聽每種樂器的演奏片段,對聽到的樂器音色在16個描述詞上進行打分(1~9分).

      3.1.2 數(shù)據(jù)集Ⅱ: 民族樂器擴充數(shù)據(jù)集

      由于數(shù)據(jù)集Ⅰ中樣本數(shù)據(jù)量較少,每種樂器僅有1段演奏片段,為研究民族樂器的音色特征,本文對其進行了擴充.首先,本文從視頻網(wǎng)站上收集了37種民族樂器的獨奏音頻,進行去空白、歸一化、剪裁等處理,獲得了3933條長度為5s的樣本數(shù)據(jù).然后,本文在同種樂器的音頻具有相似音色的假設前提下,認為搜集的音頻與數(shù)據(jù)集Ⅰ中相應樂器演奏的音頻具有同樣的主觀打分,并依據(jù)樂器種類對擴充的樣本數(shù)據(jù)進行了標注,得到了帶標簽的擴充樣本數(shù)據(jù)集.

      3.2 實驗一: 樂器描述詞的選擇

      文獻[11]挑選出可以完整描述出整個音色空間的16個描述詞,分別為纖細、明亮、暗淡、尖銳、渾厚、單薄、厚實、清脆、干癟、豐滿、粗糙、純凈、嘶啞、協(xié)和、柔和、混濁.在此基礎上,本實驗依據(jù)37種樂器音頻的主觀音色打分,分析不同描述詞之間的相似性,進一步簡化音樂描述詞.

      3.2.1 多維尺度分析

      首先,本實驗對有效數(shù)據(jù)進行平均,計算出描述詞之間的歐式距離矩陣.然后通過MDS分析將該距離矩陣轉(zhuǎn)換成目標距離并進行降維,將16個描述詞映射到低維空間中,使得低維空間中的距離最大程度地擬合目標距離.空間中描述詞彼此之間的相對距離可反應描述詞的差異程度.本實驗采用應力系數(shù)作為擬合程度的衡量指標,即原始空間與構(gòu)建空間距離差的平方和[13].應力系數(shù)越小,表明擬合的越好,見圖1(a).

      由實驗可看出,維度為2時對應的應力系數(shù)為0.068,維度為3時對應的應力系數(shù)為0.046,達到“good”與“excellent”之間[13].維度更高時,應力系數(shù)的改變不大.此外,對應空間復雜度越高,計算量越大,綜合空間的直觀性,故選擇3維空間對音色描述詞進行MDS分析.MDS分析結(jié)果的可視化見圖1(b).

      圖1 應力系數(shù)的變化與MDS的分析結(jié)果Fig.1 The change of stress coefficient and the analysis results of MDS

      從圖1中可以看出,明亮、清脆以及纖細距離近,渾厚與厚實距離近,表示在感知上有較高的相似度.協(xié)和、純凈與粗糙、嘶啞距離遠,清脆、明亮、纖細與渾厚、暗淡、厚實距離遠,表示在感知上有較大的差異性.

      3.2.2 聚類分析

      由上節(jié)實驗結(jié)果可知,部分詞語距離非常接近,如明亮與纖細,渾厚與厚實,可以進一步簡化.根據(jù)描述詞在感知距離空間中的分布,可以將感知相近的詞語聚類.本實驗使用K-Means聚類算法,獲得描述詞在MDS3維空間中的聚類.K-Means是1種迭代求解的聚類分析算法,簡化后描述詞的個數(shù)就是聚類個數(shù),與聚類中心最近的詞語就是該類的中心描述詞.本實驗使用反映類間協(xié)方差與類內(nèi)協(xié)方差的Calinski-Harabasz(CH)指標來選擇聚類中心個數(shù),該值越大表示類自身越緊密、類之間越分散,即聚類結(jié)果越好.圖2(a)表示CH指標隨聚類個數(shù)的變化情況.

      圖2 CH值的變化情況與聚類分析結(jié)果Fig.2 The change of CH value and the results of cluster analysis

      表1 音色描述詞的選擇Tab.1 The choice of timbre descriptors

      當聚類中心個數(shù)由3到4時,CH指標有1個躍升,之后略下降.當聚類個數(shù)超過8時,CH值逐漸增加,但聚類中心過多,沒有起到簡化的目的.因此,本實驗最終選擇4個聚類中心——即4組描述詞來描述音頻的音色.聚類的可視化效果見圖2(b).本實驗從聚類分析得到的每組音色描述詞中,選擇嘶啞、纖細、純凈、厚實這4個具有代表性且具有區(qū)分度的詞語作為中心描述詞,將16個音色描述詞簡化為4個,如表1所示.

      經(jīng)統(tǒng)計學方法驗證,厚實與纖細負相關(guān)達到顯著性水平(p<0.05).純凈與嘶啞在空間中距離較遠,一定程度上也呈負相關(guān).接下來,根據(jù)文獻[11]中音色描述詞的打分,將聚類描述詞的分數(shù)取平均,得到中心描述詞分數(shù),并規(guī)定得分最高的描述詞為該樂器的主導音色,結(jié)果見表2.

      表2 民族樂器的主導音色Tab.2 Dominant timbre of Chinese musical instruments

      3.3 實驗二: 基于客觀特征構(gòu)建民族樂器的音色分類模型

      本實驗通過提取音頻客觀特征,使用機器學習方法建立民族樂器的音色分類模型.實驗使用數(shù)據(jù)集Ⅱ(民族樂器擴充數(shù)據(jù)集)作為訓練數(shù)據(jù),樂器音色標簽為表2所示的主導音色.首先使用網(wǎng)格搜索法選擇各個分類器的最佳參數(shù),再以音頻片段為單位,使用五折交叉驗證的方法計算出在驗證集上的平均準確率.用具有準確主觀打分的數(shù)據(jù)集Ⅰ(民族樂器音色主觀評價數(shù)據(jù)集)作為測試集.每段音頻以幀為單位提取21維音頻客觀特征,平均、標準化后送入分類器進行訓練.實驗結(jié)果如表3所示.

      表3 民族樂器的音色分類模型的結(jié)果Tab.3 The results of timbre classification model of Chinese musical instruments

      從表3中看出,經(jīng)過參數(shù)調(diào)優(yōu)后的幾個模型中,帶有徑向基核函數(shù)的支持向量機分類模型表現(xiàn)最好,達到了78.38%的準確率與78.59%的F1值,計算出了較理想的分類超平面;邏輯回歸結(jié)果準確率僅達到64.86%,表明音色與特征之間是非線性關(guān)系;同一樂器具有相同音色的假設會引入部分噪聲,對噪聲魯棒性不強的隨機森林表現(xiàn)稍差;而K近鄰算法中,預測樣本的音色為特征空間相近的樣本標簽投票的結(jié)果,具有較好的容錯性.

      表4 SVM的分類結(jié)果Tab.4 Classification results of SVM

      具體到音色,最優(yōu)分類器(即SVM)的分類結(jié)果如表4所示.在訓練數(shù)據(jù)中,標簽為纖細的數(shù)據(jù)量較多,其中不同類型的樂器都出現(xiàn)了標簽為纖細的樣本,如數(shù)據(jù)集I中拉弦類樂器高胡、簧管類吹奏樂器高音笙、彈撥類樂器琵琶、打擊類樂器編鐘.然而事實上,由于樂器類別不同,這些樂器在整體音色感知上是有一定區(qū)別的,這導致纖細類別召回率最高,但精確度較低.其他3類精確度較高,但召回率較低.其中,嘶啞的精確度達到1.00,而召回率僅為0.67.音色類別為嘶啞的樂器多集中在簧管類吹奏樂器上,類型比較集中.另外,標簽為嘶啞的數(shù)據(jù)量較少,且嘶啞聚類中的描述詞間隔也較遠,使用聚類中心詞描述會引入一些偏差,使得召回率變低.具體到樂器類別,最優(yōu)分類器(即SVM)的分類結(jié)果中,拉弦樂器的預測準確率達到85%,邊棱類吹奏樂器準確率達到83.33%.

      實驗二表明: 基于客觀特征構(gòu)建民族樂器的音色分類模型有一定的分類效果,最好情況下達到了78.38%的準確率.由于實驗基于同一樂器擁有相同音色的假設前提,使得標簽中有一些噪聲.訓練出的模型會受到噪聲的影響.針對以上分析的現(xiàn)象,本文從特征出發(fā),對民族樂器音色進行進一步分析.

      3.4 實驗三: 基于客觀特征的民族樂器的音色分析

      在前面的分類實驗中,分類器對不同的音色描述詞進行建模時,表現(xiàn)差異較大.t-SNE(t-distributed Stochastic Neighbor Embedding)是1種用于挖掘高維數(shù)據(jù)的非線性降維算法,它非常適用于高維數(shù)據(jù)的可視化操作.為找到客觀特征與音頻音色之間的相關(guān)性,本實驗將實驗二中提取的音頻片段的客觀特征作為21維向量,通過t-SNE算法將其降維到2維空間,并對數(shù)據(jù)集Ⅱ中的3000多個音頻片段在該特征空間中的位置進行可視化,觀察標簽為不同音色的樣本數(shù)據(jù)在2維平面上的分布,對特征與音色之間的關(guān)系進行進一步分析.樣本特征的可視化結(jié)果如圖3所示.

      圖3 樣本特征的可視化分析Fig.3 Visual analysis of sample features

      首先可以看出,圖3中相同標簽(顏色)的音頻有集聚現(xiàn)象.圖中標簽為纖細(黃色)的音頻,有一部分明顯遠離其他標簽的音頻,另一部分零散地分布在中下部分,和純凈、嘶啞的分布較接近,加之數(shù)據(jù)量較多,出現(xiàn)了召回率高、精確率低的現(xiàn)象.標簽為厚實(綠色)的音頻,在圖中分布較為集中,在K近鄰算法中表現(xiàn)較好.圖中標簽為純凈(藍色)的音頻,整體居于平面中間靠右下的位置,但熵較大.圖中標簽為粗糙(紅色)的音頻分布最為分散,且與其他音頻沒有明顯的分割邊界.針對以上實驗中觀察到的現(xiàn)象,本文進一步分析了音色的影響因素.

      3.4.1 音色與樂器類別相關(guān)性

      同為彈撥類樂器,古琴、古箏與箜篌的主導音色標簽分別為厚實、纖細與純凈.但在圖4中,它們位置接近.這表明同一樂器類別的音頻可能音色相近,例如拉弦類樂器多為纖細,簧管類吹奏樂器多為嘶啞、厚實,彈撥類樂器多為纖細、純凈.這與樂器的結(jié)構(gòu)、材質(zhì)、演奏方式有關(guān).其中也有一些例外,如彈撥類樂器中,革胡與低音革胡聲音厚實,這通常與樂器的演奏音域有關(guān).

      圖4 同一樂器類別不同標簽的音頻分布Fig.4 The distribution of audio of the same instrument categorie with different labels

      另外,由上述實驗觀察到,同一音色標簽的樂器音頻可能分布在特征空間上距離較遠的位置.例如,在圖5中,音色標簽為嘶啞的樂器音頻集中分布在空間的幾個不同區(qū)域,而同一區(qū)域內(nèi)大多是同一種樂器.如高音管在空間的右上方,塤在空間右部,三弦在空間左下部,其中高音管與標簽為纖細的音頻分布較近,塤與標簽為厚重的音頻分布較近,三弦與標簽為純凈的音頻分布較近.這表明即使同樣是嘶啞,在主觀感受上也并不完全相同,而是會受到樂器類別的影響.簡單來講,嘶啞可細分為簧管類吹奏樂器的嘶啞(高音管)、邊棱類吹奏樂器的嘶啞(塤)、彈撥類樂器的嘶啞(三弦)等不同種類.

      圖5 不同樂器類別同一標簽的音頻分布Fig.5 The distribution of audio of the different instruments categories with same label

      其他音色描述詞也有類似結(jié)論.如拉弦類樂器的厚實(革胡)、彈撥類樂器的厚實(古琴)、吹奏類樂器的厚實(低音管)在特征分布空間上也有類間距離較遠、類內(nèi)距離較近的現(xiàn)象.綜上所述,樂器音色與樂器類別有關(guān).同一類別樂器的音色感知相近,不同類別樂器的音色感知差異較大.

      3.4.2 音色的其他影響因素

      通過實驗可以發(fā)現(xiàn),相同樂器的不同音頻片段被模型預測為不同音色的情況普遍存在,這是因為音頻的音色不止取決于演奏的樂器種類,還受到音頻其他性質(zhì)的影響,如音高等.

      表5 不同音高的音頻的預測結(jié)果Tab.5 The prediction results for audio samples with different pitches

      新笛樂器在各個描述詞上的主觀打分較均勻,本實驗選取新笛的音頻進行實驗.首先將按音階演奏的新笛音頻片段按照音高進行分割,使得每段音頻音高基本穩(wěn)定,得到反映18個不同音高的39個樣本數(shù)據(jù).然后使用實驗二中得到的分類器對樣本數(shù)據(jù)的主導音色進行預測,預測結(jié)果如表5所示.

      由表5可知,新笛音色在“純凈”上得分最高,但是從上述實驗結(jié)果可以發(fā)現(xiàn),隨著音高升高,音頻逐漸趨向于被預測為“纖細”.同樣地,本實驗使用了t-SNE算法對包含這39個音頻的樣本數(shù)據(jù)集的特征進行了可視化,并將39個音頻的音高標記在空間中,見圖6.

      圖6 同一樂器不同音高的音頻分布Fig.6 The distribution of audio of the same instrument with different pitches

      可以發(fā)現(xiàn),新笛的音頻片段在空間中的分布并不集中,而是以一定的規(guī)律分散在空間的不同位置.具體而言,音高高于B5的音頻主要分布在標簽為纖細的點(黃色點)附近,而音高低于B5的點則主要分布在標簽為純凈的點(藍色點)附近,與分類器的預測結(jié)果相一致.由此可知,對于1段音頻僅憑其演奏樂器難以斷定其音色,換言之,同一樂器所具有的音色屬性并不單一.因此,通過演奏樂器映射到單一音色的樣本數(shù)據(jù)集具有一定局限性,使用其所訓練的分類器同樣較為局限.此外,通過本實驗也可以發(fā)現(xiàn),實驗二中訓練的分類模型預測結(jié)果與主觀認知基本一致,證明了模型的有效性.

      4 總結(jié)與展望

      本文基于客觀特征對民族樂器音色進行了研究與分析.首先,本文通過音色描述詞的主觀打分,進行了描述詞的分析與聚類選擇,將16個音色描述詞進一步分為具有區(qū)分度的4個音色類別——厚實、纖細、純凈、嘶啞.基于同種類樂器具有相似音色的前提,本文構(gòu)建了民族樂器的音色分類模型,其中支持向量機模型表現(xiàn)最好(精確度為83.48%,召回率為75.95%,F(xiàn)1值為78.59%,準確率為78.38%).根據(jù)實驗中觀察到的現(xiàn)象,本文進一步分析了音色的影響因素,發(fā)現(xiàn)除與樂器種類有關(guān)以外,音色還與樂器類別相關(guān),同一類別樂器的音色大體相近,不同類別樂器即使用同一音色描述詞描述,音色仍可能有較大差異;除此之外,音色還受多重因素影響(如音高),同種類樂器仍可能具有多種音色屬性.

      前文的研究證明,單一的主導音色也許不能完全代表樂器的音色感知特征,對研究過程中發(fā)現(xiàn)的諸多局限性,未來的研究可關(guān)注下面幾個方面: 1) 嘗試多標簽分類或建立連續(xù)的音色空間模型來更精準地對音色建模;2) 影響音色的其他因素,如演奏技法、演奏力度等;3) 由于從互聯(lián)網(wǎng)收集的獨奏片段錄音環(huán)境、錄音設備及后期處理并不統(tǒng)一,可嘗試建立條件統(tǒng)一、質(zhì)量更高的民族樂器的音色數(shù)據(jù)集.

      猜你喜歡
      民族樂器音色音頻
      必須了解的音頻基礎知識 家庭影院入門攻略:音頻認證與推薦標準篇
      基于Daubechies(dbN)的飛行器音頻特征提取
      電子制作(2018年19期)2018-11-14 02:37:08
      擅長營造美好的音色 Marantz SA-10 S1/PM-10 S1
      論長笛演奏的音色變化
      北方音樂(2017年4期)2017-05-04 03:40:10
      音頻分析儀中低失真音頻信號的發(fā)生方法
      電子制作(2017年9期)2017-04-17 03:00:46
      從輝煌到柔美——七彩音色之西方管樂篇
      學與玩(2017年6期)2017-02-16 07:07:16
      Pro Tools音頻剪輯及修正
      人間(2015年8期)2016-01-09 13:12:42
      中國民族樂器(之十五)笙
      音樂生活(2015年3期)2015-12-19 13:24:55
      中國民族樂器(之十四)雷琴
      音樂生活(2015年2期)2015-12-19 13:23:19
      明清時期民族樂器發(fā)展略覽
      诸暨市| 铜陵市| 德保县| 招远市| 连州市| 仲巴县| 石狮市| 嘉峪关市| 沈阳市| 浑源县| 新疆| 区。| 乌兰察布市| 马鞍山市| 萨嘎县| 历史| 安庆市| 英德市| 天峨县| 屯门区| 靖州| 富顺县| 石首市| 绥江县| 合阳县| 文昌市| 高雄市| 杂多县| 昌黎县| 瓮安县| 玛纳斯县| 思南县| 绥芬河市| 大城县| 万山特区| 大埔县| 波密县| 双流县| 手机| 利津县| 定远县|