喻亞琴(南通航運職業(yè)技術(shù)學院圖書館,江蘇南通226010)
?
音樂數(shù)字圖書館系統(tǒng)架構(gòu)研究
喻亞琴
(南通航運職業(yè)技術(shù)學院圖書館,江蘇南通226010)
[摘要]數(shù)字圖書館作為傳統(tǒng)圖書館在網(wǎng)絡(luò)信息時代的發(fā)展和延伸,從根本上改變了人們獲取、使用信息資源的方式方法。通過一個基本的音樂數(shù)字圖書館軟件系統(tǒng)框架結(jié)構(gòu),介紹了數(shù)字圖書館在音樂領(lǐng)域的應(yīng)用,其中涉及跨通道導(dǎo)航、多模式搜索、基于內(nèi)容的搜索、同步與匹配等技術(shù)。
[關(guān)鍵詞]音樂數(shù)字圖書館系統(tǒng)架構(gòu)多模式檢索基于內(nèi)容的搜索跨通道音樂處理
[分類號]G250.76
隨著信息產(chǎn)業(yè)技術(shù)飛速發(fā)展,信息種類和形式越來越豐富,需要存儲和傳播的信息量也越來越龐大,傳統(tǒng)圖書館機制已經(jīng)無法滿足這些需求。數(shù)字圖書館作為傳統(tǒng)圖書館在信息時代的發(fā)展和延伸,借鑒傳統(tǒng)圖書館的資源組織模式,運用知識分類和精準的檢索手段,將文字、圖像、聲音等數(shù)字化信息通過互聯(lián)網(wǎng)實現(xiàn)信息資源共享,從根本上改變了人們獲取和使用信息資源的方式方法。
多年來,數(shù)字圖書館建設(shè)主要基于純文本文件,包括圖書、期刊、報紙等的數(shù)字化工作。在純文本文件的掃描識別、全文檢索和索引等方面取得了顯著成果。然而,對于音頻、視頻、圖形圖像數(shù)據(jù),特別是需要工具來自動提取語義上有意義的實體,則缺乏相應(yīng)解決方案。
音樂數(shù)字圖書館除了可以記錄和數(shù)字化音樂數(shù)據(jù),關(guān)鍵任務(wù)是音樂在實際應(yīng)用場景中的自動化處理和對音樂數(shù)據(jù)的訪問。為了最大程度地實現(xiàn)自動處理數(shù)字化音樂文件的創(chuàng)建、索引、標注和同步以及管理用戶接口、用戶訪問界面的設(shè)計和開發(fā),筆者現(xiàn)給出一個音樂數(shù)字圖書館軟件系統(tǒng)框架,其中涉及多通道播放、交叉導(dǎo)航以及跨通道和多峰搜索等。
1.1音樂表示
音樂數(shù)字圖書館包含文本數(shù)據(jù)、符號數(shù)據(jù)、視覺資料、音頻數(shù)據(jù)和視聽資料等類型信息資源。各種類型的信息,由于不同的數(shù)據(jù)格式,而給音樂數(shù)據(jù)表示帶來了許多問題。這些數(shù)據(jù)格式取決于特定應(yīng)用程序,根本區(qū)別在于各自的結(jié)構(gòu)和內(nèi)容?,F(xiàn)選取3個廣泛使用的、具有代表性的音樂數(shù)據(jù)格式,分別是樂譜符號格式、純物理音頻格式和MIDI格式。①樂譜符號格式包含了音樂起始時間、音高、音長等信息,進一步涉及力度和節(jié)拍。②純物理音頻格式編碼的波形音頻信號用于光盤語音錄制。③MIDI格式可以認為是兩種數(shù)據(jù)格式的混合,既可以明確表示基于內(nèi)容的信息,如起始音符和音高,也可以隨機動態(tài)處理一些特殊信息的編碼。MIDI音頻數(shù)據(jù)可以即時表示為數(shù)字格式,樂譜符號信息大部分情況下只能是通過OMR掃描獲取的樂譜。
用戶訪問音樂采用最廣泛的是音頻和視覺表示,因此,相應(yīng)的多模式用戶接口得到高度重視。事實證明,設(shè)計這種接口和適當?shù)仡A(yù)處理底層音樂文件的關(guān)鍵是:通過比較,找到基于相同音樂內(nèi)容的各種音樂模式的共同表示。該音樂數(shù)字圖書館框架使用了圖書館界廣泛應(yīng)用的書目記錄功能需求(FRBR)模型來實現(xiàn)各種類型音樂數(shù)據(jù)的共同表示。
1.2現(xiàn)有的音樂數(shù)字圖書館
近年來,現(xiàn)有的音樂數(shù)字圖書館系統(tǒng)在使用過程中大部分被發(fā)現(xiàn)存在以下幾個主要缺點:第一,系統(tǒng)不保持文件的完整性和一系列獨立的圖像文件;第二,同步介紹相關(guān)的音樂文件通常是不可能的;第三,不能一目了然地訪問當前選擇的音樂文件的元數(shù)據(jù),進一步省略了有價值的信息。
除此以外,這些系統(tǒng)還限制了用戶體驗音樂作品的可能性。因為,一段音樂描述在不同的語義層次,針對不同的方式有不同的表示。所以,音樂數(shù)字圖書館系統(tǒng)應(yīng)提供盡可能多的不同表示形式。因此,人們將多通道技術(shù)應(yīng)用到音樂數(shù)字圖書館中,如歐洲數(shù)字圖書館項目。該項目為歐洲各大文化機構(gòu)提供大量的文本、音頻、視頻和圖像文件的在線訪問,同時也收藏了大量音樂文件。
到目前為止,雖然音樂數(shù)字圖書館系統(tǒng)大多數(shù)局限于元數(shù)據(jù)搜索,但可以通過各種各樣的MIR技術(shù)來提高音樂數(shù)字圖書館的系統(tǒng)功能,實現(xiàn)基于內(nèi)容的多通道搜索。IEEE1599標準則提供了將一個音樂作品的所有相關(guān)信息(如樂譜、歌詞、圖像標注等)通過一個單一的XML文件表現(xiàn)的可能,還提供了添加同步信息和MIR模型到XML文件的可能性。
音樂數(shù)字圖書館系統(tǒng)采用存儲與訪問數(shù)字音樂文件相結(jié)合的方式,通過對有效音樂內(nèi)容(如錄音、樂譜、歌詞等)進行數(shù)字拷貝以實現(xiàn)保存,利用先進的MIR技術(shù)進行分析和標注以實現(xiàn)訪問。系統(tǒng)的一個關(guān)鍵任務(wù)是建立基于內(nèi)容的索引,用于搜索如歌詞、樂譜、音頻等的音樂片段;另一個關(guān)鍵任務(wù)是加強同一段音樂所有可用信息文件之間彼此的聯(lián)系。映射和同步技術(shù)用于創(chuàng)建有意義的實體之間樂譜與音頻的同步、歌詞與音頻的同步以及音頻與音頻的同步;通過掃描樂譜和映射音頻提取有意義的實體,實現(xiàn)基于內(nèi)容和跨通道搜索、多通道播放樂曲以及先進的跨通道瀏覽等功能[1]。特別是樂譜與音頻的同步,一方面,用戶能夠直觀地看到當前播放的音頻記錄在樂譜中的表示;另一方面,通過指定樂譜中一個特定的音符可以改變正在播放的音頻記錄的播放位置。歌詞與音頻同步應(yīng)用于卡拉OK程序中,可以讓用戶在錄音聽唱的過程中看到歌詞;另外,可以通過一個特定的歌詞改變音頻記錄的播放位置。音頻與音頻的同步允許用戶在保持音樂實際播放位置的同時在不同錄音資料之間進行切換。
系統(tǒng)所有模塊功能結(jié)構(gòu)描述如圖1所示,由傳統(tǒng)的三層體系結(jié)構(gòu)組成,從左至右分別為表示層、服務(wù)器層和存儲層。存儲層通過離線程序來預(yù)處理各種類型的音樂文件,分析文件、提取特征,實現(xiàn)音頻索引、音頻與樂譜的映射以及音頻與樂譜或歌詞的同步等功能。服務(wù)器層的主要功能是訪問索引結(jié)構(gòu)。表示層通過用戶界面組件來訪問音樂內(nèi)容,同時向用戶提交搜索結(jié)果。查詢引擎用于實現(xiàn)檢索搜索結(jié)果和訪問音樂內(nèi)容的系統(tǒng)交互。表示層和服務(wù)器層之間的通信采用面向服務(wù)的體系結(jié)構(gòu)(SOA)和簡單對象訪問協(xié)議(SOAP)。SOAP是一個用于實現(xiàn)遠程過程調(diào)用和Web服務(wù)的網(wǎng)絡(luò)協(xié)議,使用超文本傳輸協(xié)議(HTTP)來傳遞不同網(wǎng)絡(luò)實體之間的XML信息。服務(wù)器層與存儲層之間的通信采用遠程方法調(diào)用(RMI)的形式。RMI以Java技術(shù)為核心,用于實現(xiàn)網(wǎng)絡(luò)交互。
圖1 音樂數(shù)字圖書館軟件系統(tǒng)架構(gòu)
文件處理模塊功能包括音頻索引、音樂識別和同步以及文件特征提取等。為了在不同格式音樂文檔的數(shù)據(jù)流之間建立跨通道鏈接結(jié)構(gòu),考慮將各種音樂表達轉(zhuǎn)換為一個共同特征表示,實現(xiàn)不同類型數(shù)據(jù)的直接對照。圖2描述了在掃描樂譜和音頻記錄兩種不同形式音樂文檔的數(shù)據(jù)流之間建立“掃描—音頻”連接結(jié)構(gòu)的過程。通過反向文件索引結(jié)構(gòu)對特征提取音頻文件進行進一步處理。音頻索引用于識別掃描樂譜頁面和基于內(nèi)容的音樂檢索。將每個樂譜掃描頁面分配給一個特定的音頻記錄進行樂譜識別,使每個音頻記錄與相應(yīng)的樂譜頁面對應(yīng),建立單曲音頻記錄與樂譜數(shù)據(jù)的通信磁道。最后,使用中間層色度表示法和動態(tài)時間歸整(DTW)表示同步,建立視覺與聽覺的鏈接結(jié)構(gòu),為實現(xiàn)以時間同步演示樂譜和音頻記錄的樂譜查看器奠定基礎(chǔ)。而基于色度的音樂特征已經(jīng)被證明是一個強大的中間層表示。以下討論如何使用信號處理方法從音頻記錄中或者是使用OMR掃描樂譜中獲取這些音樂特征。
圖2 “掃描-音頻”連接結(jié)構(gòu)
3.1中間層特征表示
找到合適的中間層特征表示,讓不同的音樂表現(xiàn)類似,必須滿足幾個關(guān)鍵要求。一方面,這種特征表示必須具有強大的語義轉(zhuǎn)換功能,將各種類型的數(shù)據(jù)簡化為相同的中間層表示。另一方面,具有捕獲音樂中潛在的獨特音樂特征的功能。在同步和匹配的背景下,基于色度的音樂特征已經(jīng)具備了這些要示。這里,采用12個色度與傳統(tǒng)的12個音高相對應(yīng)。在西方音樂中,C的色度通常表示由C,C#,…,B組成的12個音高的屬性。
將音頻記錄的數(shù)字化信號轉(zhuǎn)換為一系列標準的十二維色度向量,每個向量表示其在12個音高中的能量分布[1]?;谛盘柼幚砑夹g(shù),可以使用短時傅立葉分析結(jié)合分箱策略或使用多頻濾波器組技術(shù)得到色度表示。用來表示音頻信號中反映音高、音色、清晰度等參數(shù)變量分布的圖像稱為音頻色譜圖。圖3以貝多芬鋼琴奏鳴曲13號作品第三章為例,圖3(c)顯示從音頻記錄表示中獲取的音頻色譜圖。
圖3 貝多芬鋼琴奏鳴曲13號作品第三章音樂數(shù)據(jù)
從樂譜表示過渡到色度表示的步驟如下:
第一步,使用OMR提取樂譜符號,如音符、譜號、調(diào)號和時間等特征,類似于OCR從文本文件掃描圖像中提取文本內(nèi)容的過程。注意,OMR提取步驟容易出錯,且識別精度在很大程度上取決于輸入圖像數(shù)據(jù)的質(zhì)量以及基礎(chǔ)樂譜的復(fù)雜性。系統(tǒng)考慮使用1b/s色彩深度、600dpi分辨率的高品質(zhì)掃描樂譜。除了樂譜符號,OMR過程也提供空間信息,這允許提取的樂譜符號本地化。
第二步,基于OMR輸出,從音樂符號中提取音樂初始時間、音高、持續(xù)時間等特征,得到一系列標準的十二維色度向量,也稱為掃描色譜圖。滑動掃描色譜圖中當前時間窗口的時間軸,以增加色度區(qū)間對應(yīng)音高的能量。一個時間窗口等于一個色度向量。假定100BPM的恒定節(jié)奏,基于明確的音調(diào)和時間信息,可以根據(jù)相同類型的色度導(dǎo)出色譜圖。類似的方法在將MIDI數(shù)據(jù)表示轉(zhuǎn)換為色度表示的過程中提到,見參考文獻[2]。注意,假定的100BPM選項并不是最重要的,因為不同的節(jié)奏可以在隨后的同步和匹配過程中得到補償。圖3(b)顯示從掃描樂譜表示得到的掃描色譜圖。
掃描樂譜頁面的識別和基于內(nèi)容的音頻檢索依賴于有效的音頻匹配機制。現(xiàn)在,從音頻記錄或音樂掃描樂譜中抽取一段簡短的樂曲片段,以摘錄的形式進行查詢,目標是從音頻數(shù)據(jù)庫中自動檢索所有摘錄對應(yīng)的樂曲。相對于傳統(tǒng)的音樂識別,因為同一個樂曲片段的不同解釋,音頻匹配允許語義隨意變化。參考文獻[3]介紹了基于色度表示的音頻匹配方法。最近研究證明,音樂符號表示產(chǎn)生色度特征,例如上述OMR的獲取過程與音頻色譜圖兼容。因此,色度特征可以用來對音樂文件的音樂符號和音頻記錄執(zhí)行音頻匹配和同步。
3.2音頻索引和匹配
音頻索引和匹配的關(guān)鍵是利用自動文檔分析法減去同一音樂兩種不同類型的數(shù)據(jù)(視覺和聽覺音樂數(shù)據(jù))所對應(yīng)色譜圖相同類型的表示,直接對兩種類型數(shù)據(jù)的特征進行比較。也可以通過使用代碼中描述的語義上有意義的向量來量化色度向量,進一步處理色度特征,實現(xiàn)有效對比。標準文本檢索常用的索引結(jié)構(gòu)是根據(jù)分配的代碼向量,將特征存儲在一些反向索引文件中。
現(xiàn)采用音頻匹配來描述底層引擎中各種音樂檢索和識別任務(wù)?;镜钠ヅ浞椒ㄈ缦拢簩⒋鎯熘忻總€文件轉(zhuǎn)換為一個序列的十二維色度向量。實現(xiàn)過程中,使用一個特征1赫茲的采樣率。將所有色度序列連接成一個色度特征序列(d0,…,dK-1),用來保存文檔范圍。同樣,將給定的查詢音樂片段也轉(zhuǎn)換成一個色度特征序列(q0,…,qL-1)。然后,將這個查詢序列與數(shù)據(jù)庫序列中連續(xù)向量L組成的所有子序列(dk,dk+1,…,dk+L-1),k∈[0: K-L ]相比。這里使用距離測量Δ(k):=1-1∑L-1d,q,括號表示向量內(nèi)Ll=0k+ll積,由此產(chǎn)生的曲線被稱為匹配曲線[1]。注意,△最小值接近于“0”的數(shù)據(jù)庫子序列對應(yīng)于查詢序列,這些子序列將構(gòu)成基于內(nèi)容檢索所需的匹配[1]。因為保存了匹配文件的編號和精確位置,所以每個文檔很容易被恢復(fù)。
到目前為止,還無法對查詢片段與對應(yīng)時間區(qū)域內(nèi)的音頻文件因時差而做出合理的說明。另外,當樂譜表示轉(zhuǎn)換為特征表示時,需要設(shè)定一個可能會偏離對應(yīng)音頻文件的節(jié)奏。處理這樣的節(jié)奏偏差,可以采用恢復(fù)到DTW的后繼變量或者基于不同的采樣率對各種色譜圖進行多重查詢的技術(shù)。特別是后者的技術(shù)支持上述索引結(jié)構(gòu)促進音頻匹配的有效計算。
3.3掃描樂譜的識別和標注
文檔經(jīng)過數(shù)字化處理,保存到數(shù)字圖書館之前需要進行適當?shù)臉俗?。在標注?shù)字化音頻記錄時,必須指定每個記錄的元數(shù)據(jù),如標題、藝術(shù)家或者歌詞等。除了人工標注,可以利用如Gracenote、DE-PARCON等專業(yè)數(shù)據(jù)庫軟件來標注各類元數(shù)據(jù)。而元數(shù)據(jù)的采集并不是一項輕松的任務(wù),因為相對于舊的記錄現(xiàn)有的數(shù)據(jù)庫是不完整的,缺少特定類型要求的元數(shù)據(jù)或者包含錯誤和不一致。這些可通過抽取及合并多個數(shù)據(jù)源來改進。然而,因為有專業(yè)的數(shù)據(jù)提供商提供高質(zhì)量的元數(shù)據(jù),使得我們擁有了足夠數(shù)量和質(zhì)量的元數(shù)據(jù)。
掃描樂譜數(shù)字化后,可以通過掃描儀自動翻頁功能標注每個頁面,以往這個標注過程通常是手工完成的。現(xiàn)在,描述掃描樂譜自動標注的過程如圖4。在掃描樂譜數(shù)字化過程中,假定音頻數(shù)據(jù)庫中包含的所有數(shù)字音頻記錄均已標注。首先,將音頻文件轉(zhuǎn)換為相應(yīng)的音頻色譜圖并建立一個音頻索引結(jié)構(gòu)。其次,將每個掃描頁面的樂譜轉(zhuǎn)換為一個單獨的掃描色譜圖。查詢每個掃描色譜圖,計算音頻文件的頭部匹配。假定每個頁面包含一個單一的音頻文件。將基于掃描樂譜頁面自動標注的元數(shù)據(jù)關(guān)聯(lián)到相應(yīng)的音頻記錄,如圖4。根據(jù)假定,頭部匹配能可靠地識別對應(yīng)的音頻文件。實驗顯示,這特別適用于OMR沒有嚴重誤差的情況。此外,所有段落的頭部匹配由音樂中對應(yīng)頁面的音頻記錄組成,用于檢索和瀏覽應(yīng)用程序。
圖4 掃描樂譜自動標注、匹配過程
可以使用多種策略支持單獨曲目對應(yīng)的樂譜頁面到音頻記錄基于內(nèi)容的比較。首先,從總譜中尋找縮進大的譜表??s進通常表明一個新的樂章或音樂作品的開始,使用此信息,從包含縮進頁創(chuàng)建的掃描色譜圖開始,區(qū)分縮進大的譜表,以說明預(yù)期磁道變化。其次,將樂譜中的標題作為樂章或音樂作品的開始指標。此外,使用合適的算法,一些OMR提取錯誤可以在匹配步驟之前的后續(xù)步驟中被糾正。例如,在鋼琴音樂中,五線譜左手和右手彈出的不同音調(diào)符號可以通過鄰近的五線譜進行糾正。類似的,可以同時使用不同的OMR軟件包從各種OMR提取結(jié)果獲得穩(wěn)定的匹配結(jié)果,改善OMR識別率。
3.4掃描-音頻同步
一旦確定了掃描樂譜頁面和對應(yīng)的音頻記錄,兩種類型音樂表現(xiàn)中語義相關(guān)的音符就自動鏈接。不同的對齊和同步程序提出了自動鏈接數(shù)個類型音樂表現(xiàn)的功能,從而協(xié)調(diào)給定音樂多個相關(guān)信息源。這個過程稱為“掃描-音頻”同步,目的是鏈接給定的樂譜掃描圖像在語義上相對應(yīng)時間音頻記錄的位置。
“掃描-音頻”同步的基本思想是:將給定的掃描樂譜及相應(yīng)的音頻記錄轉(zhuǎn)換為色度特征序列,基于DTW等標準對齊技術(shù),同步生成掃描色譜圖和音頻色譜圖。具體來說,就是建一個成本矩陣,計算每個掃描色譜向量和音頻色譜向量兩兩之間的距離,通過動態(tài)編程(DP)從這個矩陣決定一個最佳成本對齊路徑[1]。為了應(yīng)對全球性調(diào)優(yōu)音頻記錄的變化,執(zhí)行色度循環(huán)轉(zhuǎn)移,通過兩個色度序列的時間對齊矩陣編碼生成路徑。而OMR輸出的空間信息指定了每個掃描色度向量到一個掃描樂譜圖像的相應(yīng)區(qū)域。空間信息與“掃描-音頻”同步相結(jié)合,可以得到掃描圖像與音頻記錄的鏈接結(jié)構(gòu)。
音樂的丟失或重復(fù)等結(jié)構(gòu)性差異將影響“掃描-音頻”同步的質(zhì)量。例如,樂譜可能包含部分不在音頻記錄中的內(nèi)容或者是音頻記錄可能包含額外重復(fù)的不存在或不能識別的樂譜。這種結(jié)構(gòu)性的差異可能是由于OMR錯誤或者源于樂譜沒有嚴格遵守組織要求。局部相似的音樂表現(xiàn)之間的同步問題也值得關(guān)注。例如,音樂作品中的音頻和樂譜表現(xiàn)偏離了音高或者音長,總譜中的琶音、顫音、花音或者其他裝飾音存在歧義等。通常,這類差異在一定的限制條件下對整體同步結(jié)果幾乎沒有影響。然而,節(jié)奏的顯著差異在同步過程中卻可能導(dǎo)致問題出現(xiàn)。此外,對于一個給定的音頻記錄,不能保證其基于特定的樂譜版本是同步的。
4.1多通道音樂表示
現(xiàn)給出多通道音樂表示的核心組件,視圖文檔查看器。文檔查看器允許同步播放當前選定音樂的相關(guān)音樂內(nèi)容,包括音頻記錄、樂譜、歌詞和視頻。確切地說,除了播放音頻記錄,它提供了包括樂譜、歌詞和視頻的3種可視化播放模式。例如,重復(fù)播放音頻記錄,樂譜和歌詞繼續(xù)同步顯示。用戶可以直觀地跟蹤音頻記錄當前播放的旋律或當前傳唱的話語。由于多通道的音樂欣賞方式,文檔查看器可以被作為視頻播放器。此外,還提供先進的用戶交互選項,如導(dǎo)航和查詢優(yōu)化。
文檔查看器分為頂部、中心和底部3個區(qū)域。頂部區(qū)域包含模式選項卡、當前選定音樂的標題以及用于變換影音播放樂譜或者音頻記錄的按鈕。除了聽覺模式以外,用戶還可以通過模式選項卡自由變換用于視聽演示的一段音樂作品的文檔模式。點擊選項卡中樂譜或者封面藝術(shù)圖標,彈出相應(yīng)的菜單列表,列出了與音樂相關(guān)的所有可用的內(nèi)容,用戶可以選擇用于播放的音頻或視頻內(nèi)容。例如,如果一段音樂作品有不同的音頻記錄可用,用戶可以選擇他想聽的具體音頻記錄。通過這項功能,用戶可以在保留音樂實際播放位置的同時切換到不同的音頻記錄,還可以對不同的音頻記錄進行比較。類似的,多個可用的樂譜之間也可以切換。中心區(qū)域顯示各種可視化內(nèi)容,根據(jù)當前選擇的可視化模式,為用戶提供樂譜視圖、歌詞視圖或視頻視圖。底部區(qū)域顯示一個時間軸,允許用戶通過移動滑動按鈕調(diào)整播放位置。時間軸的下方,還有更多的按鈕來控制播放狀態(tài)和播放位置??刂瓢粹o保持不變,標簽變換取決于當前選定的可視化模式。
4.2多通道查詢模式
基于內(nèi)容的查詢到目前為止,有基于歌詞的檢索和基于音頻匹配的樂譜檢索兩種模式,且通過索引技術(shù)可以提高檢索效率。
歌詞檢索允許錄入幾句歌詞作為文本查詢,確定歌詞在音頻記錄中的位置。歌詞文本文檔的位置映射到音頻記錄的相應(yīng)時間段。單詞或者音節(jié)的開始時間都給出明確的音樂背景,反之,這些信息被用于歌詞到音頻記錄的同步。隨后,使用基于反向文件索引技術(shù)的全文檢索和增強的歌詞搜索。搜索的容錯功能允許歌詞查詢出現(xiàn)拼寫錯誤和省略句。
基于樂譜檢索的查詢模式如下:在視覺形態(tài)下,選擇樂譜頁面的一部分作為查詢表述。系統(tǒng)檢索所有在音頻記錄中選定的音樂摘要。利用同步技術(shù),將相關(guān)音頻記錄的片段用于搜索過程,而不是查詢選定的樂譜摘要。從摘要獲取一系列音頻特征,隨后在音頻特征索引的基礎(chǔ)上執(zhí)行基于特征的查詢。由于可以提取音樂片段和音樂潛在的低級別連續(xù)特征,音頻檢索系統(tǒng)針對音質(zhì)、樂器和響度等方面的變化有很好的適應(yīng)性,因此能夠發(fā)現(xiàn)相似的音樂片段。詳細資料見參考文獻[4]。
4.3基于內(nèi)容的多模式檢索和排列
系統(tǒng)接收到提交的查詢包后,立即打開查詢包,并根據(jù)其指定的查詢類型分派適當?shù)牟樵円妗2樵円婊ハ嗒毩?,且每個類型查詢返回一個同類型的匹配列表。每個匹配段列表由文檔ID、匹配段的位置和排序值組成。在基于內(nèi)容的查詢情況下,匹配段通常是文檔的一小部分。然而,由于文檔匹配采用元數(shù)據(jù)描述,所以匹配段的匹配范圍是從文檔的開始到結(jié)束。
由于不同文檔類型(如音頻記錄、樂譜和歌詞文檔)的同步,所有匹配段的邊界可以用時間域表示為開始時間戳和結(jié)束時間戳[1]。因此,隨后的綜合排序和合并中,所有匹配段都是直接進行對比。不同查詢引擎返回的多個結(jié)果列表排序、合并成一個單一的綜合結(jié)果列表。下面采用自底向上的方法來進行說明。
每個查詢引擎返回的結(jié)果列表由文檔ID、匹配段列表ID組成。將這些段列表插入一個哈希表,一個數(shù)據(jù)條目存儲一段樂曲的ID和相關(guān)段列表。對于每個插入的段列表,均有各自的存儲方式。與同一段樂曲相關(guān)的所有段列表集成存儲在一個哈希表數(shù)據(jù)條目中。隨后,為每個包含段列表的哈希表條目執(zhí)行合并。
兩個段列表的合并步驟如下:設(shè)L1:=第i個條目的k段列表為,其中表示起始時間戳、eik表示結(jié)束時間戳、rik表示排序值,且每個段列表對應(yīng)的形態(tài)沒有重疊部分,合并段列表Lk和Ll到綜合列表L。段ski與列表的其他任何段slj,如果沒有時間上的重疊,段sik直接復(fù)制到L列表;否則和slj合并到一個新的段列表),并將新的段列表插入L列表[1]。時間重疊的部分同時反映了產(chǎn)生的點擊數(shù),因此,希望獲得更高的排名。rik,rjl在段列表有時間重疊部分的情況下,為了提升排名,定義排序值為r:=(rik +rjl)?fboost,1≤fboost≤M為全局常量系數(shù)。m個段列表的合并則是不斷進行迭代,直到不存在剩余的段列表。當所有段列表合并成一個單一的綜合列表時,所有段的排序值通過應(yīng)用因子歸化為在區(qū)間[0,1 ]上的最終排序值。只要每個列表Lk的匹配段ik)的開始時間戳bki按升序排序,可以直接執(zhí)行該算法計算線性列表長度的時間復(fù)雜度[1]。
為每段樂曲導(dǎo)入其綜合列表的多模式匹配段和分配的排序值。一段樂曲的整體排序值由其綜合段列表的最大排序值組成。最后,將每段樂曲按各自的排序值降序排序放入一個新的結(jié)果列表。最終的結(jié)果列表中,樂曲匹配的形態(tài)越多分配到的排序值越高,出現(xiàn)在列表中的位置就越靠前;反之,樂曲匹配的形態(tài)越少,出現(xiàn)在列表中的位置就越靠后。
4.4查詢結(jié)果顯示
通常情況下,搜索引擎為用戶直接提供一個由單一文件組成列表項的結(jié)果列表。然而,在音樂領(lǐng)域,一段樂曲有多種不同形態(tài)的文檔類型(如音頻記錄、樂譜、歌詞)表示。
該系統(tǒng)框架中,結(jié)果列表顯示關(guān)于查詢匹配的樂曲片段,文檔查看器提供訪問屬于當前選中樂曲的全部索引內(nèi)容。每段樂曲呈現(xiàn)給用戶的匹配結(jié)果不在文檔層,而是當前查詢包含的一個或多個匹配的文檔表示。用戶查詢匹配屬于同一樂曲的所有文檔概括在一個列表項中。列表項顯示藝術(shù)家名字、樂曲標題、歌詞摘錄以及匹配文檔的數(shù)量。文檔查看器則給出了更詳細的匹配文檔視圖和準確的匹配位置。使用時間軸上的滑動按鈕除了調(diào)整當前的播放位置,還用來顯示用于播放當前選定的多模式內(nèi)容的匹配位置。
4.5查詢優(yōu)化和跨通道導(dǎo)航
在結(jié)果列表中,對于每段樂曲檢索,用戶可以通過快捷菜單選擇“從藝術(shù)家獲得更多作品標題”選項,請求獲得同一位藝術(shù)家更多的作品鏈接。一旦用戶選擇該項,將刷新查詢包,重建一個由藝術(shù)家名字和隨后執(zhí)行的新搜索組成的簡單元數(shù)據(jù)查詢,最終結(jié)果的更新列表顯示數(shù)據(jù)庫中這位藝術(shù)家所有的作品。
用戶可以在視覺內(nèi)容的查詢實例中利用基于內(nèi)容的搜索功能,選擇部分樂譜頁面或歌詞文本作為新的查詢。用戶還可以選擇開始一個基于選定部分的全新搜索或者添加部分查詢到查詢包。部分樂譜可能包含總譜和文本兩種形態(tài),用戶可以選擇同時查詢兩種形態(tài)或者是分開查詢。
沿著文檔查看器底部的時間軸顯示多通道匹配段的內(nèi)容,可以同時用于導(dǎo)航的目的。通過點擊時間軸上的滑動按鈕在相應(yīng)的時間位置開始播放或繼續(xù)播放。此功能允許直接跳轉(zhuǎn)到用戶查詢的匹配段。
本系統(tǒng)架構(gòu)描述了音樂數(shù)字圖書館的系統(tǒng)框架結(jié)構(gòu)和基本功能,滿足了用戶基本需求,但離實際應(yīng)用還存在著很大的差距,未來需要改進的工作是多方面的。例如,系統(tǒng)工作流程的改進、進一步適應(yīng)相關(guān)處理模式和文檔類型、預(yù)處理時間的詳細評估、搜索時間和搜索質(zhì)量以及同步結(jié)果的評審等,都需要在日后的工作中不斷進行完善。
參考文獻:
[1] David,D.C.V.,Michael,C.F.M.·A digital library framework for heterogeneous music collections:from document acqui?sition to cross-modal interaction[J]. Int J Digit Libr,2012 (12):53-71.
[2] Hu,N.,Dannenberg,R.,Tzanetakis,G.·Polyphonic audio matching and alignment for music retrieval[J].Proceeding of the 4th IEEE Workshop on Applications of Signal Process?ing to Audio and Acoustics(WASPAA),2003.
[3] Kurth,F(xiàn).,Muller,M·Efficient index-based audio matching. IEEE Trans[J]. Audio Speech Lang. Process,2008(2):382-395.
[4] Kurth,F(xiàn).·Automated synchronization of scanned sheet music with audio recording[J].Proceeding of the 8th International Conference on Music Information Retrieval(ISMIR),2007 (b):261-266.
喻亞琴女,1981年生。本科學歷,館員。
收稿日期:(2015-06-02;責編:姚雪梅。)