蔣 偉,張筱藝,劉京宇,錢亞紅,蔣玉暕
(1. 中國傳媒大學 現(xiàn)代演藝技術(shù)北京市重點實驗室,北京 100024; 2. 中國傳媒大學 視聽技術(shù)與智能控制系統(tǒng)文化和旅游部重點實驗室,北京 100024; 3. 中國傳媒大學 信息與通信工程學院,北京 100024)
音樂和圖像是人們認識感受世界的兩種重要媒介,二者單獨作用于人時能讓人產(chǎn)生相應的心理感受.不僅如此,音樂和圖像同時作用于人時會相互影響,例如恐怖片之所以這么恐怖離不開詭異配樂的影響,如果配上歡快的音樂就會大大破壞恐怖的感覺.周海宏[1]以聯(lián)覺為切入點,研究了音樂能表現(xiàn)的對象,得出結(jié)論: 音樂能夠表現(xiàn)視覺對象,也就是說音樂和視覺圖像之間存在一定的關(guān)聯(lián)關(guān)系.也有很多研究者研究了音樂與圖像最重要的特征之一——顏色之間的關(guān)聯(lián).Palmer等[2]采用主觀評價實驗的方法,證明了音樂和顏色之間存在強烈的關(guān)聯(lián)關(guān)系,并認為這種關(guān)聯(lián)關(guān)系是以情緒作為中介的.張聰聰[3]同樣認為音樂和顏色具有以情緒為中介的關(guān)聯(lián)關(guān)系.已經(jīng)有大量研究表明音樂和圖片之間是有關(guān)聯(lián)的,而音色和紋理分別作為音樂和圖片的兩個要素,它們之間是否也存在關(guān)聯(lián)關(guān)系呢?
Langlois等[4]對音樂和紋理之間的關(guān)系進行了研究,認為音樂和紋理之間存在強烈關(guān)聯(lián),并認為音樂和紋理的關(guān)聯(lián)與音樂和顏色的關(guān)聯(lián)不同,不僅與情緒有關(guān),還與其他的因素有關(guān).上述所有關(guān)于音樂和圖片關(guān)聯(lián)的研究都是定性研究,定量研究方面的研究文獻目前還未見報道.同樣也未見文獻具體研究音樂的音色特征和圖片紋理特征之間的關(guān)系.為了進一步研究音色和紋理之間的關(guān)聯(lián)關(guān)系,本文借助主觀評價實驗得到音色感知特征以及音色和紋理之間的匹配關(guān)系數(shù)據(jù),然后用皮爾遜相關(guān)系數(shù)來驗證音色感知特征和紋理之間是否存在關(guān)聯(lián).如果存在關(guān)聯(lián),把音色感知特征值和紋理特征值以及二者間的匹配關(guān)系輸入邏輯回歸、隨機森林、多層感知器神經(jīng)網(wǎng)絡3種算法進行建模,來預測紋理和音色感知特征之間的匹配關(guān)系.
本文使用5維音色感知特征: 明亮-暗淡、干癟-柔和、尖銳-渾厚、粗糙-純凈、嘶啞-協(xié)和,來描述人對音色的感知.這5維音色感知特征來自之前的研究成果,文獻[5]詳細介紹了具體的實驗步驟以及分析過程.為了得到各音色素材的音色感知特征值,本文將進行主觀評價實驗,要求被試對每個音色素材的音色感知特征打分.具體實驗內(nèi)容見第2節(jié).
為了篩選主觀評價實驗用的紋理圖片并對紋理和音色的匹配關(guān)系建模,提取了如下的44維紋理特征.1) 灰度共生矩陣(Gray-Level Co-occurrence Matrix, GLCM)[6]: 提取對比度、同質(zhì)性、相關(guān)性和能量的均值和標準差,共8維.2) 分形維數(shù)(fractal dimension)[7]: 共1維.3) 5階高斯馬爾科夫模型(Gaussian Markov model)紋理特征[8]: 共12維.4) Gabor濾波(Gabor filtering)[9]: Gabor濾波后的均值、慣量和熵,共3維.5) 小波特征(wavelet feature)[10]: 進行2維小波變換提取到2層水平近似分量,1層和2層的水平、垂直、對角近似分量,并對各分量計算均值和標準差,然后對得到的特征向量進行歸一化,共14維特征.6) Tamura紋理特征[11]: 粗細度(coarseness)、對比度(contrast)、方向度(directionality)、線性度(line-likeness)、規(guī)則度(regularity)和粗糙度(roughness),共6維.
分析音色和紋理的相關(guān)性時將用到的Tamura紋理特征是Tamura等[11]在1978年提出的1種基于人類對紋理視覺感知的紋理特征提取方法,主要由以下6個特征組成.1) Coarseness(粗細度——粗還是細): 構(gòu)成紋理圖像的紋理基元的尺寸或者重復次數(shù).2) Contrast(對比度——高對比度還是低對比度): 圖像中灰度級的動態(tài)范圍及邊緣的銳度.3) Directionality(方向度——有方向還是沒方向): 圖像具不具有明顯方向.4) Line-likeness(線性度——線狀的還是斑點狀的): 紋理基元的形狀是線型的還是斑點型的.5) Regularity(規(guī)則度——規(guī)則還是不規(guī)則): 構(gòu)成紋理的基元是否規(guī)則,基元的位置是否規(guī)則.6) Roughness(粗糙度——粗糙還是平滑): 如果觸摸這個紋理,觸覺上感覺更粗糙還是更光滑.
為了進行主觀評價實驗,首先需要得到適合進行主觀評價實驗的紋理圖片.本文使用的紋理圖片由Brodatz紋理庫[12]中的111張紋理圖片篩選得到.具體的篩選過程主要包括: 1) 去掉亮度過亮或過暗的圖片,降低亮度對實驗的影響;2) 去掉攜帶明顯語義信息的圖片,如圖1所示;3) 用剩余圖片的44維紋理特征進行系統(tǒng)聚類(system clustering)[13]和多維尺度(Multidimensional Scaling, MDS)分析[14].
圖1 攜帶語義信息的圖片的示例Fig.1 Examples of images with semantic information
系統(tǒng)聚類[13]也叫層次聚類,數(shù)據(jù)中每個樣本都是初始聚類簇,然后一步步合并距離最近的兩個樣本.本文采用平均距離的方法計算距離,即
(1)
多維尺度分析[14]將樣本放在1個相對低維的l維空間中,并保持任意兩個樣本在l維空間中的距離與原始距離相同,距離一般采用歐氏距離進行計算.假設樣本a和b在l維空間中坐標為Xa=(Xa1,Xa2,…,Xal)和Xb=(Xb1,Xb2,…,Xbl),則兩點間的歐式距離為
(2)
得到的聚類譜系圖和MDS分布圖分別如圖2,圖3所示,根據(jù)得到的結(jié)果進行篩選.篩選時主要基于聚類分析的結(jié)果,盡量保證篩選的圖片覆蓋所有的類別,并在多維尺度圖上分散分布.
圖2 紋理圖片的聚類譜系圖Fig.2 Clustering pedigree chart of texture images
圖3 MDS的分布圖Fig.3 Distribution diagram of MDS
圖3中實心的點即為選中的紋理圖片在空間中的分布位置,可以看出選中的圖片基本覆蓋整個空間,可代表各種類型的紋理圖片.圖4是最終篩選出的18張紋理圖片.
圖4 篩選出的紋理圖片F(xiàn)ig.4 Filtered texture images
篩選得到紋理圖片后,通過主觀評價實驗得到音色和紋理的匹配關(guān)系以及各音色素材的音色感知特征值.因此本文的主觀評價實驗主要包括兩個部分: 第1部分是音色感知特征的標注;第2部分是音色和紋理的關(guān)聯(lián).
為了排除音高、響度等因素對音色感知和匹配的影響,實驗采用72種音色素材,每段素材只包含1種樂器的最常用音區(qū)內(nèi)的音階,因此音階變化不會對音色特征有太大影響.為保證響度均衡,通過響度平衡實驗對素材響度進行歸一化處理.這些音色素材中包含36種中國傳統(tǒng)樂器(如二胡、琵琶等)、12種中國少數(shù)民族樂器(如馬頭琴、葫蘆絲等)以及24種西洋樂器(如鋼琴、小提琴等),基本可代表典型樂器的音色.兩部分實驗的被試是相同的,共32人,其中男生11人,女生21人,年齡在20~30歲之間,都具有一定的聽音經(jīng)驗.
在第1部分音色感知特征標注的實驗中,讓被試對各音色素材的5維音色感知特征按照9級尺度進行評價,得到音色素材的5維音色感知特征值.
第2部分音色和紋理關(guān)聯(lián)的實驗要求被試在聽音色素材的同時,在屏幕上展示的18張紋理圖片中,挑選出3張與所播放音頻音色匹配的紋理圖片和3張不匹配的紋理圖片,從而得到該音色對應的匹配和不匹配的紋理圖片.
2.3.1 數(shù)據(jù)處理
為了驗證音色和紋理之間是否具有相關(guān)性,本文用每種音色的感知特征值與其匹配(或不匹配)的紋理的特征值進行相關(guān)性分析.音色的感知特征值來自于音色感知特征標注的主觀評價實驗,考慮到使用的音色特征是感知特征,因此,使用Tamura紋理特征這一基于心理學提出的紋理特征來進行相關(guān)性分析.
(3)
式中: 上角標Y(N)表示匹配(不匹配).同理,與音色素材m不匹配的紋理的6維平均特征值TCm,N,i(i=1,2,…,6)為
(4)
對主觀評價實驗得到的音色感知特征標注值運用系統(tǒng)范疇法進行處理,得到心理尺度的音色感知特征值,文獻[5]詳細介紹了處理過程.使用心理尺度的音色感知特征值進行相關(guān)性分析和建模.
2.3.2 皮爾遜相關(guān)性分析
圖5是紋理特征值對音色特征值變化的散點圖,橫軸是音色素材m的某個音色特征,縱軸是音色素材m對應紋理的某個平均特征.
圖5 紋理特征值對音色特征值變化的散點圖Fig.5 Scatter diagram of texture eigenvalues changing with timbre eigenvalues
從圖5中可以看出,部分音色特征與紋理特征之間存在比較明顯的關(guān)聯(lián)關(guān)系,并且匹配與不匹配的相關(guān)性是相反的,如與嘶啞-協(xié)和匹配的紋理的粗細度隨著協(xié)和程度的增大而增大,而與嘶啞-協(xié)和不匹配的紋理粗細度隨著協(xié)和程度增大而減小.
進一步用皮爾遜相關(guān)系數(shù)分析音頻的5維音色特征和對應的匹配(不匹配)的6維紋理平均特征值之間的相關(guān)性,結(jié)果如表1所示.
表1 音色特征與紋理特征的相關(guān)系數(shù)Tab.1 Correlation coefficient between timbre and texture features
(續(xù)表)
從表1可以看出,一些紋理特征與音色特征具有較強的相關(guān)性,如: 粗細度與干癟-柔和、粗糙-純凈、嘶啞-協(xié)和,對比度、粗糙度與明亮-暗淡、尖銳-渾厚,相關(guān)系數(shù)的絕對值最高達到0.75.粗細度與明亮-暗淡,方向度與各個音色特征,線性度與尖銳-渾厚,粗糙度與純凈-粗糙之間也存在著不太明顯的相關(guān)關(guān)系.
整體來說,越柔和、純凈、協(xié)和的聲音匹配的紋理基元的大小越大,越暗淡、渾厚的聲音匹配的紋理的對比度越小、粗糙度越小.從以上數(shù)據(jù)來看,音色與紋理之間確實存在較為強烈的關(guān)聯(lián)關(guān)系.
把主觀評價實驗得到的數(shù)據(jù)整理成如表2所示形式,即單個樣本包括某音色素材的音色感知特征值和對應的32名被試選擇為匹配(或不匹配)的紋理圖片的各特征的平均值,計算方法同式(3),(4).匹配標簽是待預測值即模型輸出,音色感知特征和紋理特征是模型輸入.因此本文建模用到的數(shù)據(jù)樣本數(shù)為72(條音頻)×2(匹配/不匹配)=144.
表2 數(shù)據(jù)格式Tab.2 Data format
建模前先對音色感知特征和紋理特征進行歸一化,即
(5)
式中:xi是樣本i的特征值;xmin是特征的最小值;xmax是特征的最大值.
使用音色感知特征和Tamura紋理特征輸入邏輯回歸(Logical Regression, LR)[15]、隨機森林(Random Forest, RF)[16]和多層感知器(Multilayer Perception, MLP)神經(jīng)網(wǎng)絡[17]算法建立音色和紋理的匹配模型.
建模時隨機抽取數(shù)據(jù)集中80%的數(shù)據(jù)作為訓練集,剩下20%作為測試集,用不同的隨機數(shù)訓練并在測試集上進行10次測試,取10次測試集評價指標的平均值進行對比,采用二分類問題常用的評價指標: 精準率(precision)、召回率(recall)和AUC(Area Under Curve)進行評價.
使用音色感知特征和Tamura紋理特征建立的3種匹配模型的結(jié)果如圖6所示.
又對訓練集數(shù)據(jù)進行10折交叉驗證.隨機建模10次并進行交叉驗證,每個算法得到10×10個AUC值,取100個AUC的平均值作為評價指標,結(jié)果如表3所示.
從圖6可以看出,各個模型的精準度都比較理想,邏輯回歸算法的精準度達到0.9.表3中3種算法的10折交叉驗證的AUC的平均值均在0.9以上.綜合圖6和表3的結(jié)果,邏輯回歸算法的建模結(jié)果略好于隨機森林和多層感知器神經(jīng)網(wǎng)絡的.可能是由于紋理和音色感知特征之間的關(guān)系近似于線性關(guān)系,并且本文數(shù)據(jù)量和特征量較少,因此邏輯回歸作為1種更加簡單的線性算法,更適合于本文的數(shù)據(jù).但不論是哪種算法,模型的精準度都在0.708以上,說明使用音色感知特征和紋理特征來判斷二者之間是否匹配是可行的.
圖6 3種匹配模型的評價結(jié)果Fig.6 Evaluation results of three matching models
表3 10折交叉驗證的AUC平均值
Tab.3 Mean AUC of 10 fold cross validation
算法AUC邏輯回歸0.919隨機森林0.916多層感知器神經(jīng)網(wǎng)絡0.812
本文研究了音色感知特征和紋理之間的匹配關(guān)系,并建立了二者的匹配模型,主要有以下幾點貢獻: 通過皮爾遜相關(guān)系數(shù)證明了紋理與音色的關(guān)系中,粗細度與干癟-柔和、純凈-粗糙、嘶啞-協(xié)和,對比度、粗糙度與明亮-暗淡、尖銳-渾厚具有較強的相關(guān)性;機器學習算法預測音色感知特征和紋理特征之間的匹配關(guān)系是可行的,其中邏輯回歸算法建立的模型效果最好,精準率達到了0.9;本研究是音色和紋理的關(guān)聯(lián)關(guān)系的基礎(chǔ)研究,可以為視覺和聽覺感知關(guān)聯(lián)、音樂可視化、圖像可聽化、音樂與燈光的交互、畫面自動配樂、視覺輔助聽音訓練等提供理論支持.