黃鐳鄧明
(廣西廣播電視大學教學資源中心 廣西南寧 530023)
基于內(nèi)容的音樂信息提取的研究對象與思路
黃鐳鄧明
(廣西廣播電視大學教學資源中心廣西南寧530023)
基于內(nèi)容的音樂信息提?。–ontent-Based Music Information Retrieval,CBMIR)是屬于信息提?。↖nformation Retrieval)的一個分支,CBMIR從媒體內(nèi)容出發(fā),利用音樂理論、聲學心理學、信號處理技術(shù)和機器學習方法,試圖解決數(shù)字音樂媒體急劇增長背景下的音樂特征分析和語義標定問題。文章通過對CBMIR的研究對象的分析,引出了CBMIR在特征維度、時間維度上的多層次的研究思路,并簡要介紹了目前CBMIR的主流研究內(nèi)容。
內(nèi)容;音樂信息;提?。粰C器學習
基于內(nèi)容的音樂信息提?。–ontent-Based Music Information Retrieva1,簡稱CBMIR) 是為了區(qū)別基于文本標簽的音樂信息提取,屬于信息提取(Information Retrieva1)領(lǐng)域的一個分支。進入21世紀,隨著數(shù)字化多媒體的數(shù)量以爆炸性的速度膨脹,大量未經(jīng)過人工標記的多媒體內(nèi)容,尤其是音頻內(nèi)容被創(chuàng)造出來。因此,基于內(nèi)容的音樂信息提取,就是要解決在音樂元數(shù)據(jù)缺失、錯誤的情況下,利用音樂理論、聲學心理學、信號處理技術(shù)和機器學習方法,自動的分析音頻內(nèi)容,完成音樂的分類、標注、識別等各種信息提取任務(wù)的一門學問。另外一方面,音樂信息提取的任務(wù),還涵蓋了基于文本標簽的推薦系統(tǒng)等應(yīng)用無法完成的工作,比如對樂曲的速度、旋律進行標注,對音樂進行樂譜轉(zhuǎn)寫等,或者是實現(xiàn)一些智能化的音樂交互功能,比如哼唱識別。因此,基于內(nèi)容的音樂信息提取,是一個非常有用的研究領(lǐng)域。
音樂,既作為一個文化概念而存在,同時又是一種復雜的聲學事件,是通過多個層次來進行描述的。一方面,作為一種信號,在低層次上,我們有必要研究和提取其聲學特征;因為音樂包含的文化概念,比如流派、音樂情緒等,屬于較高級別的特征,這些特征是通過低層次聲學特征的結(jié)構(gòu)化來表示的。因此,CBMIR研究的主要對象,音樂的聲學特征及其對應(yīng)的符號表示是屬于先驗知識的一部分,必須加以說明。以下就CBMIR所需要的一部分聲學要素進行概括性介紹。
1.1音樂的聲學特征與符號表示
音高(pitch)
代表音符的頻率特性,與其相關(guān)的有如下幾個概念:
●基頻(fundamenta1 frequency,或f0):決定了基音音高的頻率,樂理上把基于該頻率的振動產(chǎn)生的音也叫做基音(fundamenta1 tone);
●泛音(overtone):高于基頻的任何頻率分量,樂理上指的是這些頻率分量對應(yīng)的樂音;
●和聲(harmony):基頻的整數(shù)倍頻率分量,也稱為諧波分量;
●分音(partia1):樂理上,將基音和泛音按高低次序排列起來,這就是“分音列”。構(gòu)成分音列的各音,叫做“分音”。聲學上就是基頻和全部泛音頻率的總稱。
音色(timbre)
一個較為一般的定義就是,除了音高與與諧波分量的能量構(gòu)成有關(guān)。音色是區(qū)分不同樂聲來源的一個重要特征。不同泛音能量密度的構(gòu)成形成了人腦對于音色的聽覺感知。音色,與其看似簡單的定義相比,其實是非常復雜的一個多維特征,還需要更有效的方法對其建模。對音色的識別有助于我們分辨歌聲與背景音樂(source separation),分辨不同的樂器(instrument detection),以及分辨不同的錄音場景:辨識音樂是來自FM電臺或者是現(xiàn)場音樂會。對于樂器來說,打擊樂器是一個特例,因為類似鼓、镲等樂器發(fā)出的聲音是沒有基頻的,盡管如此,按照其設(shè)計的音域范圍,鼓類樂器也分為低音鼓、中音鼓和高音鼓,因此也有不同的音色。
速度(tempo)
速度一般以單位音符時值的倒數(shù),也就是每分鐘的節(jié)拍數(shù)(BPM)來表示,速度表征一個音樂的演奏速度。速度本來是在樂譜中定義的,用來指導樂手演奏的速度,西方樂譜中一般以意大利語表述,但是并沒有一個準確的度量,只是按照其字面上的意義來理解,例如Andante grazioso本意就是優(yōu)雅的走。
我們可以看到,這些詞匯只是一個感知上的經(jīng)驗性的概念,沒有嚴格的約束。因此一些樂譜會嚴格的寫出單位音符的時值倒數(shù),也就是每分鐘節(jié)拍數(shù)。比如圖1符號就是樂譜的指導速度(annotated tempo):
圖1 樂譜的速度標記示例
這個例子中表示四分之一拍的演奏速度是一分鐘120次,圖1的這個例子中的符號,表達的意思是以四分音符為一拍,每分鐘120拍。那么在這個樂譜中,一個四分音符的時值長度應(yīng)該是1/120分鐘,也就是0.5秒。而我們在速度估計(tempo estimation)任務(wù)中估計的一般是感知速度(perceptua1 tempo),事實上,我們用來測試算法性能的數(shù)據(jù)一般都沒有時間標注,因此,評價任務(wù)結(jié)果的辦法一般還是與專家標注的感知速度進行對比。
節(jié)拍(beat)
節(jié)拍是貫穿整個音樂的等間距的脈沖信號。因此,節(jié)拍是音樂里面的最小時間單位。
節(jié)奏(rhythm)
將長短相同或不同的節(jié)拍,按一定的規(guī)律組織起來叫做“節(jié)奏”。節(jié)奏,描述的是整部作品的整體的節(jié)拍。節(jié)奏、節(jié)拍、速度、拍號這幾個概念密切相關(guān),它們與音符的時值一起,共同描述了音樂的時間特性。節(jié)奏描述了整個作品的節(jié)奏是音樂中最重要的表現(xiàn)手段之一。音樂作品中音高固然重要,但它只有和節(jié)奏結(jié)合起來才能塑造形象,表達情感。對于一段旋律,不考慮它的音高,得到的便是它的節(jié)奏。
和弦(chord)
按照一定度數(shù)關(guān)系排列起來的一組音,稱為和弦。和弦的演奏方法一般是共奏,意即這幾個聲音是同時奏響的,還有一種和弦演奏方法稱為分解和弦,顧名思義就是按照某個順序依次奏響各音。我們要為歌曲配置更優(yōu)美的和弦,使音樂更流暢,這就要用到各種變化和弦。圖2則是披頭士歌曲“Let It Be”里面音樂片段對應(yīng)和弦的一個說明:
圖2 披頭士“Let it be”的前四個小節(jié)樂譜
旋律(melody)
人們習慣上所說的旋律其實指的是曲調(diào)。而旋律則可以指任何有音高與節(jié)奏的樂音序列。旋律是構(gòu)成聲部的基礎(chǔ),只有先構(gòu)成旋律,才能產(chǎn)生聲部(此處的聲部指某旋律在音樂中的位置),從而產(chǎn)生(復合)音響。比如四部和聲中的四個聲部在進行中分別有各自的旋律進行,而某一具有曲調(diào)感的旋律將作為主要旋律聲部(一般為高聲部)出現(xiàn)。主調(diào)音樂的聲部之間是相互依存的,其中只有一個聲部的旋律有曲調(diào)感,所以我們習慣的稱其為“主旋律”。復調(diào)音樂是具有獨立意義的旋律(曲調(diào))相互結(jié)合構(gòu)成的音樂,所有聲部都具有曲調(diào)感。
音樂結(jié)構(gòu)(musicalstructure)
這里音樂結(jié)構(gòu)特征主要是對應(yīng)作曲理論里面的曲式(musica1 form) 的概念,在傳統(tǒng)音樂中曲式結(jié)構(gòu)基本分為一部曲式、二部曲式、奏鳴曲式等。對音樂結(jié)構(gòu)的分析也是音樂信息提取任務(wù)里面的一種,主要是通過音樂分段(music segmentation),分析各部分的音樂相似性,最終得到音樂的機構(gòu)。
音樂理論是一門復雜龐大的學科,而音樂信息提取既需要借助樂理作為其先驗知識,又要與樂理研究在重點上有所區(qū)分。畢竟作為面向用戶的一種應(yīng)用領(lǐng)域,音樂信息提取的任務(wù)并不總是需要借助完備的樂理知識才能順利完成任務(wù)的,就好比一個未經(jīng)過正規(guī)音樂訓練的人仍然能夠歌唱或者欣賞和理解音樂一樣。
1.2數(shù)字音樂的載體
作為可以為計算機所處理的信號,數(shù)字化音樂的載體可以大致分為符號格式(symbo1ic format)和音頻格式(audio format)兩種:目前研究中采用的符號格式一般是MIDI格式,音頻格式主要是基于PCM編碼的wav格式和mp3格式。這些選擇也是由可獲取的音樂媒體資源的數(shù)量來決定。
CBMIR的研究思路,在于將研究對象如何看待。作為信息提取的分支,CBMIR的研究對象是音樂,而同處于信息提取研究范疇的媒體信息例如文本、圖像、視頻和語音與其存在一些相似的地方,都需要借助統(tǒng)計學習、機器學習和數(shù)據(jù)挖掘的相關(guān)技術(shù)處理分類和模式識別問題。但是音樂欣賞,作為一種較為獨立的人類活動,在信息的接收方式和闡釋方法,以及關(guān)注點上,都存在較大的不同。
2.1音樂信息,同與不同
從包含的內(nèi)容來看,音樂本身傳遞的信息是非常難以描述的。文本、圖像和視頻,或者語音信號傳遞的信息都有明確的語義,文本作為自然語言,可以直接為人所理解,被認為是最接近信息的最終符號化表達的一種媒體類型;圖像或視頻,從不同的維度描述了一個場景,或者事件,語音內(nèi)容則是文本的直接反映,這些類型的媒體都有明確的語義傳達。相比較之下,音樂能夠表達的語義是最模糊,最難以描述的。西方古典音樂幾百年的作曲理論詳盡的研究過不同的調(diào)性組合和和聲類型,發(fā)現(xiàn)了音樂的心理學色彩,因此我們可以通過演奏一段“哀傷”的音樂,或者一段“緊張”的音樂,來表達這樣的情緒,標題音樂(musica a programma) 也有這樣的作用,然而這些語義信息是相對來說較為模糊的、抽象的,而大量的音樂,尤其是現(xiàn)代主義作品,是抽象、晦澀的。
從表現(xiàn)形式來看,音樂是一個非常復雜的概念,這個概念比語音信號、圖像更為復雜。首先同樣為聲學信號,音樂信號的來源和構(gòu)成比語音更加復雜多變。因為音樂本身更接近一個文化概念,音樂包含了許多種類,比如爵士樂、古典音樂、流行、搖滾、民族音樂等;音樂既有純?nèi)寺暤?,比如格利高里詠嘆(Gregorian chant)等類型,也有純器樂的如大部分交響樂、室內(nèi)樂,既有單一樂器獨奏的,也有交響樂等多種樂器齊奏的;還有各種電子音樂。此外,即便是同一首作品,甚至同一個人演奏或演唱,音樂上的差別都會很大,更加別提不同的配樂、不同的樂器(種類、品牌的不同帶來的不同聲學特性)、不同的聲學場景、不同的演奏方法(顫音、即興等藝術(shù)加工手段)等等差異導致的聲學復雜性。
由于語音識別任務(wù)的需求主要在于完成語音到文本符號的轉(zhuǎn)換,因此,許多算法和商業(yè)語音識別應(yīng)用往往可以忽略掉許多聲學信息,比如音調(diào)、音色等信息,給語音識別任務(wù)帶來了極大的便利;而音樂信息提取恰恰就是要去刻畫、分析這些聲學特征。
2.2從多維度,多時隙的結(jié)構(gòu)化模型來理解音樂
音色,配器(orchestration),錄制聲場等特征主要是與聲音的聽感有關(guān)系,并屬于短程(short-term)特征——可以通過十幾毫秒內(nèi)的聲音信號來特取獲得。在一些音樂類型里,這種特征變化是微小而漸進的。因此,盡管音樂是一種時間的函數(shù),這幾種特征可以認為是時不變的,可以通過截取小段音樂片段進行分析取得。這種短程特征常用于音樂流派分類任務(wù)(genre c1assification)。
節(jié)奏、旋律與和聲這幾種特征則是由調(diào)、各種聲音事件(音符的起訖、留白、節(jié)拍的強弱變化、樂器或者人聲的加入和退出)在時間軸上組合而成,描述的是一種中程(midd1e-term)的信息。因為不同的文化誕生的音樂具有不同的作曲風格和規(guī)律,因此這種中程特征結(jié)合短程特征,也可以用于流派分類等任務(wù),而一種稱為自動樂譜轉(zhuǎn)寫(auto music transcription) 的音樂信息提取任務(wù)則包含了對上述特征的提取要求[1][2]。
音樂結(jié)構(gòu)特征則是建立在短程特征和中程特征上的結(jié)構(gòu)性表達,并且也具有更寬的時間跨度,屬于一種長程特征。音樂結(jié)構(gòu)或者說曲式的分析是面向?qū)I(yè)人士的應(yīng)用,因為沒有受過音樂專業(yè)訓練的普通聆聽者,缺少對曲式、樂曲風格的理解,通常也不具備主動式聆聽(active 1istening)的情境,也沒有分析曲式的需求。
音樂的特征是具有結(jié)構(gòu)性的,分析音樂,必須在橫向上結(jié)合時間維度上多個層次進行分析,同時在縱向上,需要結(jié)合各種音樂特征完成對音樂的分析。因此可以說CBMIR的研究對象是多維度、多層次的。不同的提取任務(wù)著眼于不同的維度,而近年來有將深度學習(deep 1earning) 和CBMIR相結(jié)合的學者提出的mu1tisca1e-1earning的方法[3],就是試圖同時將多個維度上的信息同時建模。
2.3傳統(tǒng)的CBMIR研究流程以及可能的改進方向
盡管CBMIR領(lǐng)域的應(yīng)用類型非常多樣,傳統(tǒng)的CBMIR方法流程大致可以分為兩步階段:作為流程前端的特征提取階段和作為后端的語義理解階段。通過借助音樂領(lǐng)域知識和復雜的信號處理技巧,手工設(shè)計各種算法如MFCC,Constant-Q將音樂的信號的屬性提取出來,這種通過被提取出來的屬性一般稱為描述元(descriptor) 或者特征(feature)。
這些統(tǒng)計量隨后作為后端模式識別機的輸入,并利用諸如統(tǒng)計學習、機器學習的各種淺結(jié)構(gòu)模型如支持向量機(Support Vector Machine,SVM)貝葉斯網(wǎng)絡(luò)(Bayesian Network)、條件隨機域(Conditiona1 Random Fie1ds) 等進行各種分類和識別任務(wù)。
這種傳統(tǒng)的CBMIR模式具有以下不足之處[4]:
●利用手工設(shè)計出來的尋找音樂特征,是一項對信號處理要求非常高的、繁重的工作。考慮到音樂的高維度特點,加上多信號的卷積增加了信號處理的難度,尋找到針對特定任務(wù)有較好效果的特征并不是一件容易的事情,且當應(yīng)用需求改變的時候,特征也要重新調(diào)整,因此也不具有可持續(xù)性。
●淺結(jié)構(gòu)處理架構(gòu)的采用。淺結(jié)構(gòu)對真實音樂信號的潛在的復雜度的建模顯得力不從心,這個是由于低階模型自身的原因造成的,而長期以來一直采用淺模型的原因主要是算法復雜度和計算開銷上的限制造成的。一方面,設(shè)計有效的深度模型的計算模型的工作一直到有效的深度模型訓練方法的出現(xiàn)才開始獲得長足發(fā)展。而分布式計算理論和計算機硬件的同時發(fā)展也對深度模型的采用起到了相應(yīng)的支撐作用。
●短時分析無法獲取高階信息。盡管音樂的語義特征的結(jié)構(gòu)性是一個普遍共識,但是如何將短時隙上分析得到的特征進行組合來表示更長程的信息,一直以來學術(shù)界進行了不斷嘗試,比如將短時參數(shù)組合成更高維的特征向量的shing1ing方法[5],或者丟棄特征的時間結(jié)構(gòu)特性,將一部分特征看出一族,在該函數(shù)族空間上建模的BoF方法[6],或者更直接的就是借鑒早期語音識別的常用方法,仍只處理短時特征,利用后端的例如最大似然方法(Maximum Like1ihood)將高層語義加入進行分類。以上這些方法各有利弊,也只獲得了有限的應(yīng)用。
針對上述不足,Dixon、Humprey、Die1eman等人提出了利用深度學習網(wǎng)絡(luò)訓練任務(wù)自適應(yīng)的、結(jié)構(gòu)化的音樂信號特征[7][8],通過將特征生成和模式分類結(jié)合成一個整體,改變了傳統(tǒng)的基于內(nèi)容的音樂信息提取的研究模式,代表了未來一種可能的發(fā)展方向。
CBMIR的研究內(nèi)容包含但不僅限于:基于音頻的音樂流派分類(Audio Genre C1assification)、音頻起點檢測(Audio Onset Detection)、基于音頻的演繹版本辨識(Audio Cover Song Identification)、哼唱識別(Query by Singing/Humming)、多基頻估計與跟蹤(Mu1tip1e Fundamenta1 Frequency Estimation&Tracking)、基于音頻的和弦估計(Audio Chord Estimation)、基于音頻的旋律提?。ˋudio Me1ody Extraction)、基于音頻的節(jié)拍跟蹤(Audio Beat Tracking)、基于音頻的音樂相似性與提?。ˋudio Music Simi1arity and Retrieva1)、結(jié)構(gòu)劃分(Structura1 Segmentation)等。以下將就部分任務(wù)進行一些簡要介紹。
3.1基于音頻的音樂流派分類 (Audio GenreClassification)
基于音頻的音樂流派分類,就是通過分析給定的音頻樣本,將音頻所屬的音樂流派進行正確歸類。音樂流派分類可能是音樂信息提取領(lǐng)域得到最廣泛和深度研究的一個子領(lǐng)域。流派分類的難度主要在于音樂流派分類體系本身就是存在一定的交叉性、模糊性和不定性。一般來說,學術(shù)界傾向于將音樂流派看作一個具有樹狀層次結(jié)構(gòu)的體系[9]。
3.2哼唱識別 (QuerybySinging/Humming)
哼唱識別就是試驗者通過麥克風提供一段哼唱旋律,算法能夠根據(jù)該音頻檢索數(shù)據(jù)庫里面的曲目,作為音樂信息提取領(lǐng)域在應(yīng)用領(lǐng)域最早的探索之一,哼唱識別經(jīng)歷了研究的高潮和低潮。一方面的原因在于,這種應(yīng)用有限的應(yīng)用價值,以及使用者在提供哼唱樣本的質(zhì)量上差異過大,造成系統(tǒng)的識別率一直很難達到商業(yè)應(yīng)用的要求[10]。
3.3基于音頻的演繹版本辨識(AudioCover SongIdentification)
基于音頻的演繹版本辨識任務(wù)就是給出一個檢索音頻,要求對比數(shù)據(jù)庫中的曲目,找到該檢索音頻對應(yīng)的曲目的不同演繹版本,本質(zhì)上屬于音樂的相似性檢測問題[11]。由于一首歌曲的不同演繹版本存在各種可能,比如制作、配器、流派、演唱者/演奏者等,因此,如何描述不同演繹版本的相似性,是一個非常重要的問題。
3.4基于音頻的節(jié)拍跟蹤 (AudioBeat Tracking)
基于音頻的節(jié)拍跟蹤就是需要找到樂曲全部節(jié)拍所在的時間點,這個任務(wù)在幾乎大多數(shù)節(jié)奏明顯的流行音樂里面問題都不大,但是對于例如古典浪漫主義鋼琴曲目則仍然是具有挑戰(zhàn)性的任務(wù)。音樂節(jié)拍與人感知到的、可以利用敲擊等方式跟隨的節(jié)奏通常不是一回事,盡管這一點經(jīng)常被混淆。與其相關(guān)的一個任務(wù)就是速度提取,事實上許多算法可以同時完成這兩個任務(wù)。而在線的節(jié)拍跟蹤(on1ine beat tracking)也是該領(lǐng)域的另一個方向。有關(guān)這個領(lǐng)域的一些算法也有相關(guān)的參考文獻[12]?;谝纛l的節(jié)拍跟蹤的算法評測仍然是與手工標注的評測集進行比較,節(jié)拍跟蹤的應(yīng)用場景主要是手勢控制。
近年來,機器學習領(lǐng)域有一個研究方向異軍突起,這就是基于神經(jīng)網(wǎng)絡(luò)理論的方法,統(tǒng)稱為深度學習。深度學習在自然語言理解、圖像識別和語音識別領(lǐng)域取得了廣泛的、巨大的成功,因而近年來也有越來越多的學者將深度學習方法引入到音樂信息提取領(lǐng)域,并取得了部分成果[13][14][15]。
基于音頻的音樂信息提取研究,不但要求研究算法的準確性,召回率,在基于分類和相似性的任務(wù)中,還要研究算法的效率問題。因為基于音頻的數(shù)據(jù)檢索和信息提取是一個較為低效的過程。不但分類和識別算法本身需要處理的是音樂信號,在信號處理方面有一定的計算開銷,在遍歷匹配的時候也會產(chǎn)生巨大的開支,這個問題在商業(yè)應(yīng)用領(lǐng)域變得由為重要。因此,如何建立音頻的特征索引,如何高效的檢索音頻數(shù)據(jù),是CBMIR領(lǐng)域的另一個研究重點[16],由于篇幅所限在此就不再展開了。
[1] M.Piszcza1ski and B.A.Ga11er,“Computer ana1ysis and transcription of performed music:A project report,”Comput Hum,vo1.13,no.3,pp.195-206,Ju1.1979.
[2] A.Dessein,A.Cont,and G.Lemaitre,“ Rea1-timePo1yphonicMusicTranscriptionwith Non-negative Matrix Factorization and Beta-divergence,”in Proceedings of the 11th Internationa1 Society for Music Information Retrieva1 Conference,ISMIR 2010,Utrecht,Nether1ands,August 9-13,2010,2010, pp.489-494.
[3] P.Hame1,S.Lemieux,Y.Bengio,and D. Eck,“Tempora1 Poo1ing and Mu1tisca1e Learning for Automatic Annotation and Ranking of Music Audio,”in Proceedings of the 12th Internationa1 Society for Music Information Retrieva1 Conference,ISMIR 2011,Miami,F1orida,USA,October 24-28,2011,2011,pp.729 -734.
[4]E.J.Humphrey,J.P.Be11o,and Y.LeCun,“Feature Learning And Deep Architectures:New Directions For Music Informatics,”Journa1 of Inte11igent Information Systems,vo1.41,no.3,pp.461-481,Dec. 2013.
[5] M.Casey,C.Rhodes,and M.S1aney,“Ana1ysis of minimum distances in high-dimensiona1 musica1 spaces,” Audio,Speech,and Language Processing,IEEE Transactions on,vo1.16,no.5,pp.1015 -1028,2008.
[6]S.Die1eman,P.Brake1,and B.Schrauwen,“Audio-based Music C1assification with a Pretrained Convo1utiona1 Network,”in 12th Internationa1 Society for Music Information Retrieva1 Conference,Miami (F1orida),USA,2011,pp.669-674.
[7]G.Tzanetakis and P.Cook,“Musica1 genre c1assification of audio signa1s,” Speech and Audio Processing,IEEE transactions on,vo1.10,no.5,pp.293 -302,2002.
[8]Eugene Weinstein,“Query By Humming:A Survey,”2005.
[9] J.Serrà,E.Gómez,and P.Herrera,“Audio Cover Song Identification and Simi1arity:Background,Approaches,Eva1uation,and Beyond,”in Advances in Music Information Retrieva1,Z.W.Ra's and A.A.Wieczorkowska,Eds.Springer Ber1in Heide1berg, 2010,pp.307-332.
[10] M.F.McKinney,D.Moe1ants,M.E. Davies,and A.K1apuri,“Eva1uation of audio beat tracking and music tempo extraction a1gorithms,”Journa1 of New Music Research,vo1.36,no.1,pp.1-16,2007.
[11]H.Lee,P.Pham,Y.Largman,and A.Y. Ng,“Unsupervised Feature Learning For Audio C1assification Using Convo1utiona1 Deep Be1ief Networks,”in Advances in Neura1 Information Processing Systems 22,Y.Bengio,D.Schuurmans,J.D.Lafferty,C.K.I. Wi11iams,and A.Cu1otta,Eds.Curran Associates,Inc., 2009,pp.1096-1104.
[12]F.Eyben,S.B?ck,B.W.Schu11er,and A. Graves,“Universa1 Onset Detection with Bidirectiona1 Long Short-Term Memory Neura1 Networks,”in Proceedings of the 11th Internationa1 Society for Music Information Retrieva1 Conference,ISMIR 2010,Utrecht, Nether1ands,August 9-13,2010,2010,pp.589-594.
[13]S.B?ck and M.Sched1,“Po1yphonic piano note transcription with recurrent neura1 networks,”in 2012 IEEE Internationa1 Conference on Acoustics, Speech and Signa1 Processing,ICASSP 2012,Kyoto, Japan,March 25-30,2012,2012,pp.121-124.
[14]W.Jeon,C.Ma,and Y.M.Cheng,“An Efficient Signa1-Matching Approach to Me1ody Indexing and Search Using Continuous Pitch Contours and Wave1ets,” in Proceedings of the 10th Internationa1 Society for Music Information Retrieva1 Conference,ISMIR 2009,Kobe Internationa1 Conference Center, Kobe,Japan,October 26-30,2009,2009,pp.681-86.
[責任編輯何一輝]
G434
A
1008-7656(2015)04-0080-06
2015-09-23
黃鐳,廣西廣播電視大學教學資源中心助理研究員,碩士,研究方向:遠程信息技術(shù);鄧明,廣西廣播電視大學教育技術(shù)中心助理工程師,研究方向:遠程信息技術(shù)。