楊媛
(天津音樂學(xué)院圖書館,天津 300171)
知識(shí)圖譜的本質(zhì)是一種結(jié)構(gòu)化的知識(shí)表示形式,在語義網(wǎng)背景下,知識(shí)圖譜可以解釋為由鏈接標(biāo)識(shí)的實(shí)體和本體定義的關(guān)系組成的網(wǎng)絡(luò)[1]。近年來,知識(shí)圖譜技術(shù)被廣泛用于發(fā)現(xiàn)和組織文本知識(shí),對(duì)于聽覺、視覺等非結(jié)構(gòu)化的多模態(tài)數(shù)據(jù)的關(guān)注度則較低[2]。
音樂領(lǐng)域知識(shí)圖譜(以下簡(jiǎn)稱“音樂知識(shí)圖譜”)是以融合音樂領(lǐng)域信息、資源為目的,對(duì)包含在元數(shù)據(jù)、音頻、視頻、圖片和文本中的音樂知識(shí)進(jìn)行抽取,再按照音樂領(lǐng)域本體定義的模型對(duì)其進(jìn)行結(jié)構(gòu)化、語義化的表示。音樂知識(shí)圖譜對(duì)音樂作品、音樂概念、音樂內(nèi)容、音樂人物、音樂資源各層次實(shí)體進(jìn)行關(guān)聯(lián),支持音樂知識(shí)的統(tǒng)一獲取和知識(shí)深度發(fā)現(xiàn)。早期的音樂知識(shí)圖譜較多關(guān)注音樂文本資源的組織,其知識(shí)獲取來源多為音樂元數(shù)據(jù)和音樂文本,基本采用文本知識(shí)圖譜的構(gòu)建方法。隨著音樂信息檢索技術(shù)的成熟,音樂知識(shí)圖譜進(jìn)入快速發(fā)展階段,音樂音頻、樂譜成為音樂知識(shí)圖譜的重要知識(shí)源,雖然音樂知識(shí)圖譜與文本知識(shí)圖譜的主要構(gòu)建步驟基本一致,都需要經(jīng)歷知識(shí)獲取、知識(shí)融合到知識(shí)應(yīng)用的過程,但兩者在數(shù)據(jù)源類型、知識(shí)處理技術(shù)、知識(shí)模型設(shè)計(jì)方面均存在較大差異。
國(guó)際上網(wǎng)絡(luò)音頻語義集成項(xiàng)目(Web Audio Semantic Aggregated in the Browser for Indexation/WASABI)[3]、數(shù)字音樂實(shí)驗(yàn)室項(xiàng)目(The Digital Music Lab/DML)[4]等音樂知識(shí)圖譜構(gòu)建項(xiàng)目已在多模態(tài)、跨表示類型的音樂知識(shí)融合方面取得領(lǐng)先成果,但音樂知識(shí)圖譜研究基本上以個(gè)案研究為主,整體系統(tǒng)性研究十分欠缺。國(guó)內(nèi)圖書情報(bào)領(lǐng)域雖在文本知識(shí)圖譜構(gòu)建方面積累了豐富經(jīng)驗(yàn),在圖像數(shù)據(jù)的語義描述模型[5]及語義化建設(shè)框架研究[6]方面也取得相當(dāng)進(jìn)展,但是對(duì)于音樂領(lǐng)域數(shù)據(jù),特別是音樂內(nèi)容數(shù)據(jù)的處理、融合技術(shù)仍缺乏關(guān)注,數(shù)字基礎(chǔ)設(shè)施支持不足,音樂知識(shí)圖譜的構(gòu)建研究及相關(guān)實(shí)踐未能有效開展。
為此,本文在對(duì)國(guó)外音樂知識(shí)圖譜充分調(diào)研的基礎(chǔ)上,對(duì)音樂知識(shí)圖譜的特征進(jìn)行深入分析,據(jù)此提出音樂知識(shí)圖譜的構(gòu)建框架,并對(duì)其中各環(huán)節(jié)涉及的方法、技術(shù)、資源等進(jìn)行介紹,以期為推動(dòng)我國(guó)音樂知識(shí)圖譜的構(gòu)建提供借鑒,完善多模態(tài)知識(shí)圖譜研究體系,推動(dòng)相關(guān)技術(shù)及實(shí)踐的發(fā)展。
通過對(duì)國(guó)外現(xiàn)有音樂知識(shí)圖譜項(xiàng)目的研究和分析,總結(jié)出音樂知識(shí)圖譜具備以下4個(gè)典型特征。
(1)多模態(tài)特征。模態(tài)是一種生物學(xué)概念,指感官條件下事物發(fā)生或存在的方式[2]。音樂知識(shí)圖譜屬于多模態(tài)知識(shí)圖譜,其數(shù)據(jù)源不僅包括文本和結(jié)構(gòu)化數(shù)據(jù),還包括多種音樂內(nèi)容數(shù)據(jù),如樂譜(圖片)、音樂音頻和樂譜編碼數(shù)據(jù)等。音樂知識(shí)圖譜需要在傳統(tǒng)文本知識(shí)圖譜基礎(chǔ)上,構(gòu)建多種模態(tài)(聽覺、視覺)下的實(shí)體,以及多模態(tài)實(shí)體間的多模語義關(guān)系,完成跨知識(shí)表示的融合。
(2)知識(shí)模型層次豐富。音樂知識(shí)圖譜的知識(shí)模型構(gòu)建,需要滿足資料收藏、音樂創(chuàng)作、音樂研究、音樂欣賞等不同用途的知識(shí)組織需求。模型須具備音樂資源、音樂內(nèi)容結(jié)構(gòu)、音樂理論知識(shí)、資源處理加工、資源存儲(chǔ)、使用權(quán)限等方面信息的描述功能。
(3)跨領(lǐng)域技術(shù)應(yīng)用?;谝魳穬?nèi)容數(shù)據(jù)的知識(shí)自動(dòng)抽取及深度知識(shí)發(fā)現(xiàn)是音樂知識(shí)圖譜研究的重點(diǎn)、難點(diǎn)。為解決這一問題,需要利用音樂信息檢索技術(shù)結(jié)合自然語言處理技術(shù)實(shí)現(xiàn)音樂內(nèi)容數(shù)據(jù)的智能化處理分析。其中就涉及機(jī)器學(xué)習(xí)、數(shù)字信號(hào)處理、數(shù)據(jù)挖掘、音樂光學(xué)識(shí)別等技術(shù)的綜合應(yīng)用。
(4)音樂知識(shí)深度融合。知識(shí)圖譜作為一種新的音樂知識(shí)表示形式,將音樂內(nèi)容、音樂知識(shí)、音樂資源深度融合。它支持不同數(shù)據(jù)源、不同表示類型的音樂實(shí)體的全面獲取,并支持深度隱性知識(shí)的智能發(fā)現(xiàn)。為此,音樂知識(shí)圖譜在公共圖書館、公共網(wǎng)站、商業(yè)網(wǎng)站、教學(xué)科研機(jī)構(gòu)等領(lǐng)域廣泛應(yīng)用。
構(gòu)建音樂知識(shí)圖譜既需要借鑒其他領(lǐng)域知識(shí)圖譜構(gòu)建方法,又要充分考慮音樂知識(shí)圖譜的特征,實(shí)現(xiàn)音樂知識(shí)的深度融合。下面針對(duì)音樂知識(shí)圖譜的特點(diǎn),按照知識(shí)獲取、知識(shí)融合、知識(shí)檢索與推理、可視化展示4個(gè)環(huán)節(jié)對(duì)音樂知識(shí)圖譜的構(gòu)建進(jìn)行設(shè)計(jì)。
本文設(shè)計(jì)構(gòu)建一個(gè)典型的多模態(tài)音樂知識(shí)圖譜,處理信息涵蓋聽覺、視覺、文本,音樂知識(shí)來自音頻、樂譜、唱詞、元數(shù)據(jù)等各類數(shù)據(jù)源,融合知識(shí)類型包括外部描述信息和音樂內(nèi)容信息。它可以支持基于音樂內(nèi)容的知識(shí)檢索和知識(shí)發(fā)現(xiàn),也支持多種媒體形式結(jié)合的可視化展示。
如圖1所示,音樂知識(shí)獲取是圖譜構(gòu)建的第一步,需要獲取音樂知識(shí)系統(tǒng)基礎(chǔ)構(gòu)建元素——音樂知識(shí)。在明確圖譜知識(shí)范圍后,對(duì)數(shù)據(jù)源進(jìn)行選擇、收集,然后對(duì)蘊(yùn)含在各類數(shù)據(jù)源中的音樂知識(shí)進(jìn)行抽取,最后才能獲得覆蓋主題的音樂知識(shí)。音樂知識(shí)融合是圖譜構(gòu)建的第二步,包括本體構(gòu)建、實(shí)體對(duì)齊、實(shí)體鏈接3個(gè)過程。本體構(gòu)建解決的是模型概念層的統(tǒng)一,實(shí)體對(duì)齊解決的是實(shí)例層的統(tǒng)一,兩者結(jié)合可完成不同來源音樂知識(shí)的整合。實(shí)體鏈接則將知識(shí)圖譜中的實(shí)體與外部數(shù)據(jù)源進(jìn)行鏈接,實(shí)現(xiàn)更大范圍的知識(shí)融合。音樂知識(shí)檢索與推理是圖譜構(gòu)建的第三步,它主要解決知識(shí)圖譜應(yīng)用階段音樂知識(shí)發(fā)現(xiàn)和知識(shí)自生成的問題。構(gòu)建過程的最后一步是音樂知識(shí)圖譜可視化,它將不同來源的音樂信息和音樂內(nèi)容分析結(jié)果統(tǒng)一轉(zhuǎn)化為視覺形式進(jìn)行呈現(xiàn)。
圖1 音樂知識(shí)圖譜構(gòu)建框架設(shè)計(jì)圖
知識(shí)獲取是指從多種數(shù)據(jù)源獲取并抽取所需知識(shí)的過程。音樂知識(shí)獲取的基本任務(wù)就是獲取音樂領(lǐng)域知識(shí),建立健全、完善、有效的音樂知識(shí)圖譜,以滿足音樂領(lǐng)域的知識(shí)需求。
2.1.1 數(shù)據(jù)源
知識(shí)獲取的數(shù)據(jù)源通常包括專業(yè)文獻(xiàn)和相關(guān)數(shù)據(jù)庫(kù)、知識(shí)庫(kù)中的數(shù)據(jù)。在構(gòu)建音樂知識(shí)系統(tǒng)時(shí),知識(shí)獲取的主要數(shù)據(jù)源包括音樂文獻(xiàn)(音樂研究文獻(xiàn)、唱詞、劇本),各種表示類型(音頻、視頻、樂譜)的音樂作品,以及數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、網(wǎng)頁(yè)中記錄的音樂信息等。
從數(shù)據(jù)結(jié)構(gòu)分析,存儲(chǔ)在數(shù)據(jù)庫(kù)(SQL Servicer、Oracle、MySQL等)、知識(shí)庫(kù)中的音樂元數(shù)據(jù)和用戶使用數(shù)據(jù)都屬于結(jié)構(gòu)化數(shù)據(jù);CVS、JSON格式的音樂特征數(shù)據(jù)、使用XML語言編碼的樂譜(如MusicXML、MEI格式樂譜)及音樂元數(shù)據(jù)(如DC、MARC元數(shù)據(jù))都屬于半結(jié)構(gòu)化數(shù)據(jù);音樂文本、音頻、視頻和樂譜(圖像形式)均屬于非結(jié)構(gòu)化數(shù)據(jù)。
從對(duì)音樂作品的揭示程度分析,數(shù)據(jù)源可分為音樂元數(shù)據(jù)和音樂內(nèi)容數(shù)據(jù)兩類。音樂元數(shù)據(jù)一般包含音樂資源的描述性信息和音樂知識(shí)信息。音樂元數(shù)據(jù)的獲取渠道極為豐富,圖書館加工的音樂資料館藏信息與商業(yè)音樂領(lǐng)域的音樂出版物信息都是可用的數(shù)據(jù)獲取來源。如RISM可提供樂譜(手稿或印刷)、音樂理論著作、歌劇或音樂劇劇本等各類音樂資源元數(shù)據(jù)[7]。Last.fm[8]可提供681萬多條用戶創(chuàng)造的標(biāo)簽數(shù)據(jù)。標(biāo)簽包括用戶對(duì)50多萬首曲目的描述信息,全面涵蓋音樂情緒、音樂風(fēng)格等屬性的描述詞匯。在知識(shí)抽取環(huán)節(jié),這些數(shù)據(jù)可以有效支持知識(shí)模型的建立,幫助完成音樂特征的自動(dòng)分類識(shí)別。另外,還有綜合知識(shí)庫(kù)(如Wikidata、DBpedia)、音樂專業(yè)知識(shí)庫(kù)(如MusicBrainz)可提供豐富的音樂知識(shí)及音樂資源信息。
構(gòu)建完整的音樂知識(shí)圖譜,還需要從音樂音頻、樂譜、唱詞等音樂內(nèi)容數(shù)據(jù)中獲取內(nèi)容、結(jié)構(gòu)信息。對(duì)于不受版權(quán)限制的音樂內(nèi)容數(shù)據(jù)可以直接從公共領(lǐng)域獲取。如IMSLP國(guó)際樂譜網(wǎng)站,就是一個(gè)重要的國(guó)際音樂資源共享數(shù)據(jù)源。它可以提供公共領(lǐng)域內(nèi)19.5萬首音樂作品的63萬份樂譜(部分包括唱詞)和7.3萬張唱片資源[9]。ELVIS等開源的樂譜編碼數(shù)據(jù)庫(kù),也是高質(zhì)量樂譜及唱詞數(shù)據(jù)的有效獲取渠道。對(duì)于存在版權(quán)限制的音頻數(shù)據(jù),AcousticBrainz[10]、百萬歌曲集(Million Song Dataset/MSD)[11]等特征數(shù)據(jù)集可作為替代數(shù)據(jù)源,反映音樂內(nèi)容特征。對(duì)于受到版權(quán)限制的樂譜,雖然其編輯出版過程存在樂譜編碼文件,但文件并不允許出售或?qū)ν馓峁?。在?shù)據(jù)源缺失情況下,需要先將樂譜中的音符、唱詞信息從視覺形式轉(zhuǎn)換為編碼形式,這樣才能用于音樂知識(shí)抽取。
綜上所述,音樂知識(shí)圖譜的數(shù)據(jù)源選取需要考慮以下因素:①開放性,數(shù)據(jù)是否開放、免費(fèi),以及數(shù)據(jù)使用的版權(quán)限制情況;②可獲取性,數(shù)據(jù)是否易于查詢、檢索,是否提供API、OPAC、OAI-PMH、SPARQL終端等形式的數(shù)據(jù)獲取途徑;③質(zhì)量水平,數(shù)據(jù)內(nèi)容是否滿足知識(shí)圖譜構(gòu)建要求,信息內(nèi)容是否正確可信,并有較高應(yīng)用價(jià)值,數(shù)據(jù)存儲(chǔ)、記錄、組織是否遵照通用標(biāo)準(zhǔn);④完整性,數(shù)據(jù)是否全面充足,能否囊括相對(duì)完整的領(lǐng)域資源信息,并對(duì)特定主題做到全樣本收集。
2.1.2 知識(shí)抽取
知識(shí)抽取是指將數(shù)據(jù)源中蘊(yùn)含的知識(shí),經(jīng)過識(shí)別、理解等手段抽取出來的過程。音樂內(nèi)容數(shù)據(jù)是音樂領(lǐng)域獨(dú)特的知識(shí)抽取對(duì)象。音頻、樂譜、唱詞三類主要的音樂內(nèi)容數(shù)據(jù),分別對(duì)應(yīng)不同的知識(shí)抽取方法。
(1)音頻知識(shí)抽取。音頻知識(shí)抽取是基于音頻的音樂分析過程。這一過程,涉及人工智能、音樂學(xué)、心理聲學(xué)等多個(gè)研究領(lǐng)域,需要數(shù)字信號(hào)處理、機(jī)器學(xué)習(xí)、數(shù)據(jù)挖掘、可視化技術(shù)的共同參與。一般音頻內(nèi)容分析過程包括信號(hào)預(yù)處理、音頻特征提取、音樂內(nèi)容分類推理。音頻信號(hào)預(yù)處理可以減少處理數(shù)據(jù)總量,剔除不相關(guān)信息和干擾信息,增強(qiáng)音頻穩(wěn)健性。音頻特征的提取是一切音樂內(nèi)容分析的基礎(chǔ),它可以從音頻信號(hào)中分析和提取語義豐富的信息,以獲得一個(gè)緊湊的、可由機(jī)器處理的特征表示。從技術(shù)角度分析,對(duì)于音樂內(nèi)容的低水平特征描述包括以下5類:①?gòu)囊纛l數(shù)據(jù)中提取的統(tǒng)計(jì)性、技術(shù)性特征;②音色或音質(zhì)特征;③音調(diào)特征,包括信號(hào)中音高之間的關(guān)系;④與強(qiáng)度相關(guān)特征,如響度;⑤時(shí)間相關(guān)特征,如節(jié)奏、節(jié)拍位置。音頻中提取的參數(shù)、特征是客觀的,它們描述的是獨(dú)立于環(huán)境和感知的音樂物理屬性。為了挖掘音樂表層信息下蘊(yùn)含的深層知識(shí),包括人類對(duì)音樂產(chǎn)生的感知(如悲傷、輕快),音樂專業(yè)概念(如風(fēng)格、體裁、音樂結(jié)構(gòu))等高水平音樂特征,還需要應(yīng)用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)技術(shù)填補(bǔ)表層知識(shí)與深層知識(shí)間的語義鴻溝。對(duì)音樂深層知識(shí)的挖掘,在音樂內(nèi)容分析領(lǐng)域?qū)?yīng)音樂分類任務(wù),包括風(fēng)格分類、情感分類、音樂家識(shí)別、樂器識(shí)別、音樂相似性分析。
(2)樂譜知識(shí)抽取。樂譜知識(shí)抽取是基于符號(hào)的音樂內(nèi)容分析過程,需以樂譜的形式化、結(jié)構(gòu)化編碼為基礎(chǔ)。MIDI、MusicXML、MEI是3種最常見的樂譜編碼。利用jSymbolic、Humdrum toolkit、music21等音樂特征分析工具對(duì)樂譜知識(shí)進(jìn)行處理,可獲得音高、旋律、和弦音程、節(jié)奏、樂器配置、聲部相關(guān)的音樂符號(hào)特征數(shù)據(jù),并以Weka ARFF、CSV、XML、JSON等格式存儲(chǔ)分析結(jié)果。與基于音頻的知識(shí)抽取過程類似,利用符號(hào)特征數(shù)據(jù)和機(jī)器學(xué)習(xí)技術(shù)同樣可以進(jìn)行音樂風(fēng)格分析、匿名作曲家身份分析等深度知識(shí)的獲取。在某些領(lǐng)域,音頻特征數(shù)據(jù)和符號(hào)特征數(shù)據(jù)能以相似的結(jié)構(gòu)化方式表示。例如,在自動(dòng)和弦識(shí)別過程中,可以使用幾乎相同的神經(jīng)網(wǎng)絡(luò)架構(gòu)分析兩類數(shù)據(jù),獲得質(zhì)量相當(dāng)?shù)姆治鼋Y(jié)果[12]。目前,基于音頻的知識(shí)抽取研究更為豐富。但是,樂譜與音頻可以形成信息域互補(bǔ)。相較音頻,樂譜具有以下優(yōu)勢(shì):①特征值穩(wěn)定、準(zhǔn)確,不受演奏、錄音因素影響;②明確的符號(hào)化的音樂表演說明(如演奏樂器、聲部設(shè)置),方便知識(shí)抽??;③基于符號(hào)的分析結(jié)果易于與音樂抽象概念形成映射。
(3)唱詞知識(shí)抽取。唱詞知識(shí)抽取可以參考文本知識(shí)抽取過程,它們同樣需要借助自然語言處理技術(shù),但唱詞知識(shí)抽取還需輔以音頻分析技術(shù)的支持。以唱詞為知識(shí)獲取對(duì)象,能夠完成的知識(shí)抽取任務(wù)包括:①唱詞結(jié)構(gòu)分析(structural segmentation),通過訓(xùn)練卷積神經(jīng)網(wǎng)絡(luò),使其準(zhǔn)確識(shí)別自相似性矩陣編碼中的重復(fù)結(jié)構(gòu),從而預(yù)測(cè)唱詞片段位置,并在音頻對(duì)應(yīng)位置標(biāo)記唱詞的不同段落(副歌、合唱、前奏等);②主題分布檢測(cè),結(jié)合數(shù)據(jù)訓(xùn)練和人工標(biāo)注,獲得基于歌詞的主題判斷模型,然后利用主題模型對(duì)歌詞數(shù)據(jù)進(jìn)行分析,獲得歌曲的主題分布信息;③不健康內(nèi)容識(shí)別,利用基于詞典或卷積神經(jīng)網(wǎng)絡(luò)的方法,判斷歌詞中是否存在敏感詞語或涉及不健康內(nèi)容,對(duì)音樂內(nèi)容自動(dòng)進(jìn)行等級(jí)評(píng)價(jià),方便內(nèi)容傳播平臺(tái)對(duì)使用者進(jìn)行提示或限制;④歌詞摘要提取,基于歌詞與音頻的強(qiáng)相關(guān)性,利用音頻縮率圖(audio thumbnail)技術(shù)找到音樂中的代表性片段,然后結(jié)合圖形分析、主題分析的方法形成歌詞摘要;⑤情緒描述,通過訓(xùn)練情緒識(shí)別模型,對(duì)歌詞表現(xiàn)的情感傾向進(jìn)行判定(積極或消極),甚至對(duì)更明確的情緒進(jìn)行描述(如快樂、憤怒、平靜、恐懼、驚訝等)[13]。
知識(shí)融合就是高層次的知識(shí)組織,能使來自不同知識(shí)源的知識(shí)在同一框架規(guī)范下實(shí)現(xiàn)異構(gòu)數(shù)據(jù)整合,實(shí)現(xiàn)步驟包括本體構(gòu)建、實(shí)體對(duì)齊、實(shí)體鏈接,最終達(dá)到數(shù)據(jù)、信息、方法、經(jīng)驗(yàn)以及思想的融合,形成高質(zhì)量的知識(shí)圖譜。
2.2.1 本體構(gòu)建
本體構(gòu)建是音樂知識(shí)融合的關(guān)鍵步驟,需要完成對(duì)音樂領(lǐng)域知識(shí)的抽象建模和結(jié)構(gòu)化定義。目前,音樂知識(shí)圖譜涉及的知識(shí)信息可以分為三大類:音樂資源或作品的描述性信息、音樂事件信息、音樂內(nèi)容記錄與分析信息。前兩類信息普遍存在于文本知識(shí)圖譜中,而第三類信息需要通過對(duì)音樂內(nèi)容數(shù)據(jù)分析后獲取,是多模態(tài)知識(shí)圖譜的重要信息類型,也是基于語義的音樂分析系統(tǒng)的必要信息支持。音樂知識(shí)圖譜應(yīng)根據(jù)自身包含的信息范圍,選擇復(fù)用本體或擴(kuò)展定義新本體。
對(duì)于前兩類信息的描述組織,可以選擇復(fù)用Music Ontology本體。因?yàn)樗且粋€(gè)結(jié)構(gòu)合理、信息描述范圍全面的音樂領(lǐng)域通用本體,支持從音樂作品、音樂內(nèi)容表達(dá)、音樂載體表現(xiàn)、音樂單件4個(gè)層次對(duì)音樂作品進(jìn)行描述[14]。并且,它還支持覆蓋音樂創(chuàng)作流程和音樂出版過程的事件描述,包括演出、作曲、錄制、轉(zhuǎn)錄、改編等。針對(duì)第三類信息,雖然Music Ontology沒有定義具體的類及屬性,但它提供了擴(kuò)展框架。知識(shí)圖譜可以根據(jù)自身需求進(jìn)行擴(kuò)展定義。例如,音頻信號(hào)分析類本體Multitrack Ontology[15]、Segment Ontology[16]就是在Music Ontology的mo:Signal類下進(jìn)行的擴(kuò)展。
2.2.2 實(shí)體對(duì)齊
實(shí)體對(duì)齊就是將不同數(shù)據(jù)源中的實(shí)體,對(duì)應(yīng)到它們共同指向的同一實(shí)體的過程。音樂領(lǐng)域知識(shí)融合的一項(xiàng)重要任務(wù)就是完成音樂家、音樂作品、樂器等核心實(shí)體的實(shí)體對(duì)齊。
(1)基于字符串相似度的實(shí)體對(duì)齊?;谧址嗨贫鹊膶?shí)體對(duì)齊,就是將與實(shí)體相關(guān)的字符串形式的文本或元數(shù)據(jù)進(jìn)行相似度分析,然后基于此判斷實(shí)體是否指向相同。在多數(shù)情況下,音樂知識(shí)圖譜集成獲取的實(shí)體名稱和實(shí)體描述存在歧義,涉及的作品名、藝術(shù)家信息沒有統(tǒng)一表述形式或標(biāo)識(shí)符。如元數(shù)據(jù)中經(jīng)常出現(xiàn)的作曲家“巴赫”,它可以指代J.S.巴赫、C.P.E.巴赫,或者其他任何“巴赫”。而且,音樂作品的多版本現(xiàn)象極為普遍,不同的樂譜版本、演奏配器、演出場(chǎng)次、翻錄或轉(zhuǎn)錄等因素都能產(chǎn)生不同的音頻版本,也會(huì)對(duì)應(yīng)產(chǎn)生多種語言和語法表述方式的題名。為此,在自動(dòng)實(shí)體對(duì)齊的過程中,僅憑借字符串相似度進(jìn)行的音樂作品、音樂家的實(shí)體對(duì)齊難度極大,需要利用所有可獲取的信息進(jìn)行推理,然后再輔以人工(用戶或知識(shí)工程師)參與的審查和糾正過程。
(2)基于音頻指紋的實(shí)體對(duì)齊。除了基于文本、元數(shù)據(jù)的實(shí)體對(duì)齊,還可以利用音頻指紋(audio fingerprints)識(shí)別技術(shù),進(jìn)行基于音頻特征的音樂實(shí)體(音樂作品或演出版本)對(duì)齊。音頻指紋提取是一種基于音頻信號(hào)的特征提取,它是具有高密度性和唯一性的音頻特征表示。在音頻注釋缺失或不準(zhǔn)確的情況下,通過提取的指紋可以快速與既有的音樂指紋庫(kù)記錄進(jìn)行匹配,然后查詢獲得音頻對(duì)應(yīng)標(biāo)識(shí)和相關(guān)信息,并補(bǔ)充到知識(shí)庫(kù)中。目前,AcoustID是一個(gè)成熟的開源音頻識(shí)別方案。它由客戶端的音頻指紋生成器和大型分布式音頻指紋數(shù)據(jù)庫(kù)組成。指紋庫(kù)包括6 000余萬條音頻標(biāo)識(shí)和7 000余萬條音頻指紋數(shù)據(jù),可提供音頻指紋搜索和比對(duì)服務(wù)[17]。2012年,AcoustID被MusicBrainz引用,通過AcoustID的音頻指紋匹配,可以完成與MusicBrainz的實(shí)體對(duì)齊。
2.2.3 實(shí)體鏈接
本體構(gòu)建和實(shí)體對(duì)齊完成了知識(shí)圖譜的內(nèi)部知識(shí)融合,而實(shí)體鏈接是將歧義實(shí)體鏈接到外部權(quán)威知識(shí)庫(kù)中,實(shí)現(xiàn)知識(shí)圖譜與外部數(shù)據(jù)源的知識(shí)融合。關(guān)聯(lián)開放數(shù)據(jù)云(LOD)定義的五星標(biāo)準(zhǔn)中將知識(shí)圖譜與其他開放知識(shí)庫(kù)產(chǎn)生的鏈接數(shù)據(jù)量作為評(píng)價(jià)數(shù)據(jù)集質(zhì)量的重要標(biāo)準(zhǔn)。DBpedia作為跨領(lǐng)域綜合知識(shí)庫(kù),其在知識(shí)圖譜的相互關(guān)聯(lián)中起到樞紐作用。在音樂知識(shí)圖譜構(gòu)建中,DBpedia中的音樂家、音樂作品、樂器、音樂概念(如音樂風(fēng)格、音樂體裁)等實(shí)體經(jīng)常被選為實(shí)體鏈接對(duì)象。LinkedBrainz[18]知識(shí)圖譜因包含豐富的音樂作品、音樂家、唱片、單曲等音樂相關(guān)實(shí)體,是構(gòu)建音樂研究的知識(shí)圖譜首選的實(shí)體鏈接對(duì)象。通過與其建立鏈接,還可擴(kuò)展檢索到AcousticBrainz提供的音頻特征分析數(shù)據(jù),包括音高、節(jié)奏、音色等信息。最后,作為專門的地理信息知識(shí)圖譜GeoNames,音樂知識(shí)圖譜中常出現(xiàn)的音樂演出地點(diǎn)、音樂家出生地等地理位置實(shí)體也通常選擇與其鏈接。
在音樂知識(shí)圖譜中,音樂知識(shí)檢索可利用SPARQL語言構(gòu)建查詢語句直接實(shí)現(xiàn),還可通過自然語言形式和基于范例的知識(shí)檢索方式實(shí)現(xiàn)。其中,基于音樂范例的相關(guān)性、相似性檢索是音樂領(lǐng)域獨(dú)特的知識(shí)發(fā)現(xiàn)方式,屬于基于音樂內(nèi)容的檢索。這種檢索方式要求知識(shí)圖譜對(duì)音樂內(nèi)容數(shù)據(jù)作深度語義處理。對(duì)于音頻數(shù)據(jù),需要利用音頻特征提取技術(shù)獲得內(nèi)容特征數(shù)據(jù),再依照音頻分析類本體對(duì)其進(jìn)行組織、存儲(chǔ)。對(duì)于樂譜編碼數(shù)據(jù),要依照樂譜相關(guān)本體對(duì)其進(jìn)行RDF轉(zhuǎn)換或語義標(biāo)注。通過不同表示類型的音樂知識(shí)在構(gòu)建過程中深度融合,就能實(shí)現(xiàn)范例與目標(biāo)實(shí)體的跨資源類型的檢索發(fā)現(xiàn)。例如,對(duì)音頻范例進(jìn)行特征分析后,就能發(fā)現(xiàn)具有相同或相似特征值的目標(biāo)實(shí)體,該實(shí)體可以是音頻或樂譜。音樂知識(shí)推理是在已有的音樂實(shí)體關(guān)系中推斷出實(shí)體間的新關(guān)系或者實(shí)體的新屬性??梢酝ㄟ^定義SWRL規(guī)則集的方法,對(duì)樂器、和聲、旋律等條件進(jìn)行組合、限定,然后實(shí)現(xiàn)音樂風(fēng)格等屬性的自動(dòng)推理判斷??梢?,音樂知識(shí)圖譜解決了音樂信息多領(lǐng)域傳播和載體形態(tài)多樣的問題,實(shí)現(xiàn)了機(jī)器可理解的音樂內(nèi)容的統(tǒng)一表達(dá),擴(kuò)大了音樂知識(shí)發(fā)現(xiàn)的范圍。
知識(shí)圖譜的可視化研究包括對(duì)圖譜不同類型信息的可視表達(dá),還有新關(guān)系的推斷及對(duì)潛在模式或問題進(jìn)行發(fā)現(xiàn)的可視分析[19]。對(duì)于音樂知識(shí)圖譜中的音樂元數(shù)據(jù)類信息可視化表達(dá),可選用節(jié)點(diǎn)鏈接圖,實(shí)現(xiàn)實(shí)體及實(shí)體間關(guān)系的直接視覺呈現(xiàn)。對(duì)圖譜中的音樂內(nèi)容類信息的可視化,因其涉及實(shí)體(如音符、音高、音調(diào))較為抽象,直接的可視表達(dá)不具有實(shí)用性。因此,知識(shí)圖譜需要根據(jù)信息類型定制可視分析工具。為了靈活滿足用戶對(duì)音樂內(nèi)容分析需求,知識(shí)圖譜采用基于查詢的可視分析技術(shù),根據(jù)查詢結(jié)果的信息類型和內(nèi)部結(jié)構(gòu)驅(qū)動(dòng)可視化生成,結(jié)合信息過濾技術(shù),以交互形式實(shí)現(xiàn)視覺表示優(yōu)化。如在音樂知識(shí)圖譜(DML)的用戶端可視化界面[20],用戶可以輸入檢索詞、選擇數(shù)據(jù)集、設(shè)定屬性值范圍,之后獲得音高、音調(diào)、節(jié)拍的直方圖分析結(jié)果反饋。雖然定制視覺化工具缺乏通用性,但能幫助用戶避免SPARQL查詢的復(fù)雜性,提高用戶適用度。值得注意的是,音樂知識(shí)圖譜可視化需要更豐富的多媒體內(nèi)容,圖像(如專輯封面、樂譜)、音頻的靈活嵌入是音樂知識(shí)圖譜可視化方向未來研究與應(yīng)用的重要趨勢(shì)。
作為多模態(tài)知識(shí)圖譜的典型應(yīng)用,音樂知識(shí)圖譜借助音樂信息檢索、人工智能、大數(shù)據(jù)等技術(shù),創(chuàng)新地實(shí)現(xiàn)了音樂內(nèi)容層面的知識(shí)組織與融合,可以幫助圖書館提升音樂信息的提煉和加工能力,實(shí)現(xiàn)音樂資源的組織升級(jí)和音樂知識(shí)表示升級(jí);可以為音樂研究學(xué)者提供良好的音樂知識(shí)發(fā)現(xiàn)、音樂內(nèi)容分析和音樂知識(shí)信息可視化平臺(tái),極大促進(jìn)音樂領(lǐng)域研究環(huán)境的提升;還能促進(jìn)商業(yè)音樂領(lǐng)域海量音樂信息有效組織,通過智能問答和音樂推薦功能實(shí)現(xiàn)巨大商業(yè)價(jià)值。目前,音樂知識(shí)圖譜正成為音樂領(lǐng)域知識(shí)智能應(yīng)用的高效解決方案,并在公共服務(wù)、學(xué)術(shù)研究和商業(yè)領(lǐng)域得到重視和發(fā)展。
不過,我國(guó)的音樂知識(shí)圖譜建設(shè)還處于初創(chuàng)探索階段,要想全面啟動(dòng)音樂知識(shí)圖譜的建設(shè),還需要在技術(shù)、資源和方法上進(jìn)行完善。技術(shù)方面,由于音樂內(nèi)容數(shù)據(jù)是音樂知識(shí)圖譜獨(dú)特的數(shù)據(jù)源類型,對(duì)此類數(shù)據(jù)的處理,就形成了較為復(fù)雜且獨(dú)立的技術(shù)應(yīng)用體系。但目前針對(duì)內(nèi)容數(shù)據(jù)的知識(shí)抽取、多模態(tài)實(shí)體對(duì)齊、基于音樂內(nèi)容的檢索發(fā)現(xiàn)、與多媒體結(jié)合的可視化展示、適應(yīng)音樂知識(shí)環(huán)境的深度知識(shí)分析推理等技術(shù)仍存在諸多困難。要解決這些問題,需要加強(qiáng)不同領(lǐng)域技術(shù)的綜合應(yīng)用,并且不斷加快相關(guān)技術(shù)的提升研究。資源方面,由于多模態(tài)知識(shí)圖譜的研究難度大,所以可用來支持圖譜建設(shè)的資源與工具相對(duì)較少。此外,在中文研究環(huán)境下,用于實(shí)體鏈接的權(quán)威知識(shí)圖譜、用于音樂資源組織的本體、用于音樂知識(shí)抽取和實(shí)體對(duì)齊的工具都相對(duì)缺乏。因此,應(yīng)認(rèn)真分析中文音樂知識(shí)圖譜發(fā)展所需的資源及研究環(huán)境,盡力彌補(bǔ)缺失條件。在建設(shè)方法上,我國(guó)應(yīng)借鑒國(guó)外成功經(jīng)驗(yàn),契合學(xué)科融合的研究模式,打造多元化研究團(tuán)隊(duì),積極發(fā)揮圖書情報(bào)領(lǐng)域在資源建設(shè)、知識(shí)組織和知識(shí)服務(wù)方面的優(yōu)勢(shì)。最后,隨著我國(guó)對(duì)知識(shí)組織的語義化、智能化研究的不斷加深,我國(guó)音樂知識(shí)圖譜建設(shè)工作必將迎來重大發(fā)展。