孫夢(mèng)青
【關(guān)鍵詞】樂音 識(shí)別技術(shù) 應(yīng)用 研究
1.相關(guān)概念
樂音(musical tone),發(fā)音物體有規(guī)律地振動(dòng)而產(chǎn)生的具有固定音高的音稱樂音。樂音是音樂中所使用的最主要、最基本的材料,音樂中的旋律、和聲等均由樂音構(gòu)成。從聲學(xué)分析角度,樂音有三個(gè)要素:音調(diào)(音高)、響度(音強(qiáng))、音色,也可以用基頻、振幅和倍頻來表示。
音量,即聲音強(qiáng)弱,跟發(fā)聲體的振幅大小有關(guān)。
音色/ 音品(Tone),由聲音波形的諧波頻率和包絡(luò)決定,包括基頻所產(chǎn)生的基音和各次諧波的微小振動(dòng)產(chǎn)生的泛音。音色通常代表人類對(duì)聲音的感覺特性。泛音的不同決定了音色的不同。
音符(Note),是用來記錄不同長(zhǎng)短的音的進(jìn)行符號(hào),它是樂音的最基本表示單位,是音樂的最基本要素。音樂中的一個(gè)音符,表示在音樂中某一時(shí)刻發(fā)出了什么聲音,以及聲音的持續(xù)長(zhǎng)度。
音符的識(shí)別主要包括音高估計(jì)和時(shí)值估計(jì)。
基頻/ 主頻(Fundamental Frequency),是基音頻率的簡(jiǎn)稱,即物理學(xué)上的本征頻率,通常是指聲音中使得聲音達(dá)到最強(qiáng)的那個(gè)最低頻率?;l決定了聲音的基礎(chǔ)音調(diào)。
時(shí)值(Note Values),指一個(gè)音符持續(xù)的時(shí)間,本質(zhì)上是發(fā)聲體發(fā)生振動(dòng)的持續(xù)時(shí)間。
全音符(Whole Note),是一種音符時(shí)值基準(zhǔn)。確定了一個(gè)全音符時(shí)間長(zhǎng)度,就可以以此為基礎(chǔ),定義其它音符的時(shí)值。
復(fù)調(diào)(polyphony),指由幾個(gè)聲部構(gòu)成的多聲部音樂,即同一時(shí)刻存在多個(gè)旋律同時(shí)發(fā)音,與單聲音樂相對(duì)。
基音檢測(cè)/ 提?。╬itch exaction),即對(duì)基音頻率的估計(jì),采用技術(shù)手段得到聲源體振動(dòng)的基音頻率輪廓圖。
音樂特征識(shí)別。從音高、音色等基本特征,節(jié)奏、旋律等復(fù)雜特征,曲式結(jié)構(gòu)、音樂風(fēng)格等整體特征三個(gè)維度進(jìn)行信息提取和識(shí)別。
音頻信息檢索,是指從音頻資源中找到滿足用戶所需信息的匹配、定位過程。具體實(shí)現(xiàn)的途徑包括基于文本標(biāo)注的檢索和基于內(nèi)容的檢索等。
自動(dòng)音樂標(biāo)注技術(shù),也稱自動(dòng)音樂記譜或樂譜自動(dòng)識(shí)別,廣義上講,指將音樂演奏的聲學(xué)信號(hào)所對(duì)應(yīng)的樂譜信息自動(dòng)翻譯出來,即將音樂數(shù)據(jù)的表示形式從其他形式轉(zhuǎn)換成樂譜形式。自動(dòng)音樂標(biāo)注技術(shù)主要包括音符識(shí)別與音高估計(jì)、節(jié)拍與節(jié)奏識(shí)別、旋律與和聲提取以及多基頻估計(jì)等幾個(gè)方面。
2.樂音識(shí)別技術(shù)的應(yīng)用
樂音識(shí)別領(lǐng)域的相關(guān)技術(shù)蓬勃發(fā)展。業(yè)內(nèi)出現(xiàn)了ISMIR(音樂信息檢索國(guó)際會(huì)議)、ICMC(計(jì)算機(jī)音樂國(guó)際會(huì)議)、CSMT(中國(guó)聲音與音樂技術(shù)會(huì)議)、ICASSP(聲學(xué)、語(yǔ)言、信號(hào)處理國(guó)際會(huì)議)等國(guó)內(nèi)外高水準(zhǔn)學(xué)術(shù)會(huì)議,ComputerMusic Journal、Journal of New Music Research 等期刊持續(xù)發(fā)表高水準(zhǔn)研究成果。技術(shù)的進(jìn)展為樂音識(shí)別的廣泛應(yīng)用提供了技術(shù)。
20 世紀(jì)90 年代以來互聯(lián)網(wǎng)的高速發(fā)展,使得用戶可以接觸到海量的數(shù)字音樂資源。傳統(tǒng)的資源分類和管理依靠文字標(biāo)簽實(shí)現(xiàn)分類,不能滿足用戶基于音樂本身信息檢索和運(yùn)用的旺盛需求。這就為樂音識(shí)別的廣泛應(yīng)用創(chuàng)造了市場(chǎng)條件。
樂音識(shí)別技術(shù)的應(yīng)用領(lǐng)域涉及聲學(xué)、音頻信號(hào)處理、人機(jī)交互、軟件工程、作曲編曲及音樂制作等多個(gè)學(xué)科,體現(xiàn)了多學(xué)科門類交叉融合的特點(diǎn)。
樂音識(shí)別技術(shù)成功的在以下幾個(gè)方向?qū)崿F(xiàn)了工程化應(yīng)用。
2.1 音樂識(shí)別系統(tǒng)(Music Recognition System)。倫敦大學(xué)推進(jìn)的OMRAS 項(xiàng)目衍生出音樂可視化軟件SonicVisualiser,可以實(shí)現(xiàn)音樂的音高、節(jié)奏和音量信息的識(shí)別與提取。中國(guó)科學(xué)院聲學(xué)研究所在該領(lǐng)域也推出了高水準(zhǔn)的專業(yè)平臺(tái)產(chǎn)品。當(dāng)前的音樂識(shí)別系統(tǒng)對(duì)音樂片段開展識(shí)別匹配,計(jì)算Chroma、節(jié)奏直方圖、節(jié)拍、MFCC 峰值等音樂特性,而后與音樂數(shù)據(jù)庫(kù)中記錄進(jìn)行匹配。網(wǎng)易云音樂、ACRCloud 等商業(yè)機(jī)構(gòu)都實(shí)現(xiàn)了基于人聲、音頻的音樂識(shí)別功能,在PC 端和移動(dòng)端實(shí)現(xiàn)高效識(shí)別和與海量音樂聲紋庫(kù)的匹配。
2.2 音樂信息檢索(Music Information Retrieval)。音樂信息檢索包括音樂流派風(fēng)格識(shí)別、音樂情感識(shí)別、作曲家信息識(shí)別、音樂結(jié)構(gòu)分析等。本文僅以音樂流派風(fēng)格識(shí)別為例進(jìn)行介紹。
音樂流派風(fēng)格的識(shí)別起源于20 世紀(jì)90 年代,業(yè)內(nèi)試圖通過音樂專家開展人工篩選,將音樂區(qū)分為不同類型,這就是Music Genome Project(音樂染色體工程)。但是面對(duì)海量音樂數(shù)據(jù),人工分類效果不佳。美國(guó)研究人員試圖通過音樂數(shù)據(jù)的計(jì)算均值、方差、自相關(guān)系數(shù)等參數(shù)的提取,結(jié)合樂音基本特征來進(jìn)行篩選。進(jìn)入21 世紀(jì),G.Tzanetakis 等人開展了基于樂音結(jié)構(gòu)的提取實(shí)驗(yàn),對(duì)歌曲的一小部分隨機(jī)取樣,用于學(xué)習(xí)歌曲的特定特征,然后使用訓(xùn)練好的分類器對(duì)整個(gè)歌曲進(jìn)行分類和分割,借此區(qū)分音樂的流派和風(fēng)格。Lin 等人利用小波和SVM 技術(shù)改進(jìn)的樂音分類方法,對(duì)音頻數(shù)據(jù)進(jìn)行精確分類,將分類誤差從8.1% 降低到3.0% 左右。2017 年,王芳等人針對(duì)音樂流派和中國(guó)傳統(tǒng)樂器識(shí)別分類問題,研究并改進(jìn)了基于深度置信網(wǎng)絡(luò)的音樂流派識(shí)別分類算法, 對(duì)GTZAN 庫(kù)的十大音樂流派進(jìn)行識(shí)別分類的準(zhǔn)確率最高達(dá)75.8%,對(duì)自建中國(guó)傳統(tǒng)樂器音樂庫(kù)的六種樂器進(jìn)行識(shí)別分類的準(zhǔn)確率最高達(dá)99.2%。
2.3 計(jì)算機(jī)音樂生成。計(jì)算機(jī)音樂生成也稱自動(dòng)作曲或算法作曲(Algorithmic Composition),最早始于1957年。Mozer 于1994 年開發(fā)了CONCERT 系統(tǒng), 運(yùn)用人工神經(jīng)網(wǎng)絡(luò)來生成音樂。2009 年,Nierhaus 等人出版專著《Algorithmic composition:paradigms of automatedmusic generation》,介紹算法作曲的數(shù)學(xué)原理和范例。2015 年,Nayebi 等人通過實(shí)驗(yàn)比較了基于字符級(jí)長(zhǎng)短期記憶網(wǎng)絡(luò)(LSTM)和遞歸神經(jīng)網(wǎng)絡(luò)在音樂生成中的效果,最終確認(rèn)了LSTM 算法在計(jì)算機(jī)音樂生成中的優(yōu)勢(shì)。2017 年,王程等人實(shí)現(xiàn)了基于LSTM 網(wǎng)絡(luò)的計(jì)算機(jī)音樂生成方法,并分析了其不同網(wǎng)絡(luò)結(jié)構(gòu)在計(jì)算機(jī)音樂生成的效果,實(shí)現(xiàn)端到端訓(xùn)練。
至此,應(yīng)用領(lǐng)域已經(jīng)可以通過給定的要求讓計(jì)算機(jī)產(chǎn)生相對(duì)完整的樂音旋律,并且對(duì)已有樂音部分進(jìn)行內(nèi)容接續(xù)創(chuàng)作。盡管人們對(duì)其藝術(shù)效果、水平的評(píng)價(jià)各有差異,但是計(jì)算機(jī)音樂生成已經(jīng)具備了初步的生產(chǎn)力和生命力,這一點(diǎn)是毋庸置疑的。
2.4 數(shù)字音頻的版權(quán)保護(hù)。
數(shù)字時(shí)代,音樂產(chǎn)品的市場(chǎng)容量十分巨大。隨之而來的,是盜版下載、未授權(quán)播放、扒流(stream-ripping)等行為給音樂生產(chǎn)方帶來的巨大損失。據(jù)測(cè)算,《Divide》等三張隨意挑選統(tǒng)計(jì)的專輯,在2019 年7 月一個(gè)月內(nèi)被非法下載了超過100 萬(wàn)次,給音樂制作行業(yè)和音樂零售商造成1000萬(wàn)美元的損失。
數(shù)字音頻作品的版權(quán)保護(hù)主要通過魯棒數(shù)字音頻水印(Robust Audio Watermarking,RAW)和音頻指紋技術(shù)(AudioFingerprinting)。常見的頻域魯棒數(shù)字音頻水印是在人類聽覺最敏感的中低頻段內(nèi)嵌入水印,在保證人耳無(wú)法識(shí)別的情況下為機(jī)器識(shí)別和判斷提供便利;音頻指紋則是首先提取音樂文件時(shí)域和頻域的特征信息,通過特定模型獲得指紋,而盜版、翻錄的音頻片段的失真會(huì)造成音頻指紋匹配失敗。
樂音識(shí)別技術(shù)的應(yīng)用,雖然不能完全杜絕盜版等行為的發(fā)生,但是為非法行為的甄別鎖定創(chuàng)造了技術(shù)條件。
3.樂音識(shí)別技術(shù)的應(yīng)用發(fā)展趨勢(shì)
經(jīng)過多年發(fā)展,樂音識(shí)別技術(shù)的發(fā)展體系漸成,日益完備。單音及其要素的識(shí)別提取手段豐富,多音、復(fù)調(diào)識(shí)別運(yùn)用方面不斷取得突破。
樂音識(shí)別技術(shù)的應(yīng)用場(chǎng)景廣泛,其發(fā)展和應(yīng)用出現(xiàn)了“普及化”和“專業(yè)化”兩極并舉的趨勢(shì)。一方面,隨著硬件性能的提升和算法的不斷成熟完善,樂音識(shí)別技術(shù)已經(jīng)開始與移動(dòng)互聯(lián)網(wǎng)絡(luò)與終端結(jié)合,進(jìn)入普通用戶的生活,在聽歌識(shí)曲、哼唱檢索、翻唱檢索、音樂分類及推薦、卡拉OK 應(yīng)用等場(chǎng)景下發(fā)揮了越來越重要的技術(shù)支撐作用。另一方面,在音樂工業(yè)級(jí)的伴奏生成、自動(dòng)配樂、音樂內(nèi)容標(biāo)注、音樂合成及轉(zhuǎn)換、智能作曲、數(shù)字樂器、音樂編輯制作等專業(yè)方面,樂音識(shí)別也發(fā)揮著越來越重要的作用。
在本質(zhì)上,都是由于樂音識(shí)別技術(shù)可以極大的減輕人力認(rèn)知、識(shí)別音樂的成本和難度,從而涌現(xiàn)出巨大的研究?jī)r(jià)值和商業(yè)價(jià)值。相比之下,圍繞樂音識(shí)別技術(shù)及其應(yīng)用的相關(guān)問題,國(guó)內(nèi)研究力量起步較晚,研究工作的連續(xù)性不足,同時(shí)兼具音樂理論基礎(chǔ)和工程技術(shù)能力的團(tuán)隊(duì)不多,藝術(shù)和科技領(lǐng)域的融合有待進(jìn)一步加強(qiáng)。中國(guó)的移動(dòng)互聯(lián)網(wǎng)產(chǎn)業(yè)已經(jīng)走在世界前列,數(shù)字音樂資源幾近極大豐富。如何更好的研究、發(fā)展和運(yùn)用樂音識(shí)別技術(shù),仍然是一個(gè)非常有價(jià)值的問題,值得更多的同志關(guān)注。