文/袁莉萍 房雨林
旋律搜索開辟音樂海洋新航道
文/袁莉萍 房雨林
利用旋律主題搜索導(dǎo)航是一個(gè)全新的搜索方式,它主要基于旋律特征和旋律的主要片斷對音樂內(nèi)容進(jìn)行檢索,在大規(guī)模的音樂數(shù)據(jù)庫中找到想要的音樂資源。
旋律主題聯(lián)想(Melody Theme Associate)的音樂搜索引擎主要是針對網(wǎng)絡(luò)上的音樂教學(xué)資源及音樂研究單位而研制的一個(gè)搜索引擎(Search Engine),它旨在為從事音樂研究、音樂教學(xué)、師生、藝術(shù)從業(yè)人員及社區(qū)民眾在網(wǎng)絡(luò)的海洋中進(jìn)行資源的導(dǎo)航。它的目的是引導(dǎo)專業(yè)的用戶通過搜索引擎有效地檢索網(wǎng)絡(luò)音樂信息資源。
在對音樂教學(xué)多媒體資源引擎構(gòu)想和設(shè)計(jì)的考慮過程中,首先對目前網(wǎng)上流行的幾個(gè)知名搜索引擎的主要功能進(jìn)行比較。WebCralwer是第一個(gè)全文搜索引擎,利用元搜索引擎的原理將模糊的、附加的搜索條件來智能優(yōu)化用戶的搜索結(jié)果。AltaVista是第一個(gè)支持自然語言搜索的搜索引擎,是一個(gè)能運(yùn)用邏輯運(yùn)算符實(shí)現(xiàn)高級搜索語法的搜索引擎。Google在網(wǎng)頁排序、動態(tài)摘要、網(wǎng)頁快照、多文檔格式支持等方面頗具優(yōu)勢,它在集成搜索、多語言支持、用戶界面等功能上獨(dú)具匠心。Baidu雖然只能提供中文搜索,但是相關(guān)搜索詞、錯(cuò)別字糾正提示、Flash搜索、信息快遞搜索等方面進(jìn)入一個(gè)嶄新的階段。
以上的幾個(gè)引擎各具特色,它們最具精華的共同點(diǎn)就是注重關(guān)鍵詞檢索,重視鏈接的文字描述和鏈接的質(zhì)量,重視描述(Description),以及超文本匹配分析。因此,搜索的功能具有廣泛性,而音樂教學(xué)多媒體資源搜索引擎具有明顯的針對性,特別是利用旋律主題檢索技術(shù)求得網(wǎng)上搜索音樂教學(xué)資源的準(zhǔn)確性。
音樂教學(xué)資源搜索引擎的構(gòu)想是基于旋律主題聯(lián)想的思考。網(wǎng)上有很多搜索引擎并沒有了解到音樂教學(xué)機(jī)構(gòu)和研究機(jī)構(gòu)的真實(shí)需求,它們在設(shè)計(jì)的設(shè)想上通過一些簡單的辦法和“捷徑”快速達(dá)到“優(yōu)化”的效果,這種做法主要考慮到的是商業(yè)上的效益,而且有關(guān)于音樂方面的關(guān)鍵詞也不夠?qū)I(yè),不利于專業(yè)人士的搜索。而音樂教學(xué)資源搜索引擎在設(shè)計(jì)上一方面從關(guān)鍵詞基本要素入手進(jìn)行優(yōu)化,建立音樂方面的專業(yè)關(guān)鍵詞庫;另一方面進(jìn)行音頻檢索的優(yōu)化,建立音樂主題音頻庫,以簡譜的形式為搜索語言,以阿拉伯?dāng)?shù)字為表達(dá)方式,主要在音頻的檢索上做一個(gè)新的突破。
搜索引擎構(gòu)想的目標(biāo)
搜索引擎的目的是要為用戶獲取信息和服務(wù)提供方便。而音樂搜索引擎的目標(biāo)是針對網(wǎng)絡(luò)上的音樂信息資源實(shí)施深層次的挖掘研究,力求搜尋有利于音樂學(xué)術(shù)研究的核心信息源,為專業(yè)用戶不斷提供有價(jià)值的學(xué)術(shù)信息,提高音樂學(xué)科的研究人員和師生搜尋信息的準(zhǔn)確率。它的最終目標(biāo)是要用專業(yè)的網(wǎng)站結(jié)構(gòu)設(shè)計(jì)和高質(zhì)量的內(nèi)容為專業(yè)用戶群體進(jìn)行服務(wù)。
圖2 旋律主題引擎的工作模式
音樂信息資源搜索引擎優(yōu)化既要遵守引擎內(nèi)部的基本要素:網(wǎng)站結(jié)構(gòu)、網(wǎng)站內(nèi)容、網(wǎng)站功能和網(wǎng)站服務(wù),與此同時(shí)要在搜索的手段上進(jìn)行創(chuàng)新。引擎的優(yōu)化立足點(diǎn)將表現(xiàn)在創(chuàng)建獨(dú)具特色的音樂學(xué)科各專業(yè)的關(guān)鍵詞索引數(shù)據(jù)庫,以及以音樂為標(biāo)識的簡譜旋律主題數(shù)據(jù)庫,通過實(shí)現(xiàn)對聲音的檢索將音樂多媒體數(shù)據(jù)庫中的音頻、視頻、超文本等非格式化結(jié)構(gòu)復(fù)雜的信息進(jìn)行定點(diǎn)搜索。
搜索引擎主要功能特征
音樂教學(xué)資源在制作過程當(dāng)中,采用多媒體信息技術(shù)和Web技術(shù),網(wǎng)絡(luò)上有關(guān)音樂資源多以圖像、音頻、視頻等多媒體數(shù)據(jù)為載體,如何有效地按照多媒體數(shù)據(jù)的特性準(zhǔn)確獲取搜索信息已逐漸成為顯學(xué),由此產(chǎn)生基于內(nèi)容的多媒體信息存取技術(shù)。音樂教學(xué)資源搜索引擎的功能就是基于內(nèi)容的多媒體信息檢索而產(chǎn)生,它吸納傳統(tǒng)數(shù)據(jù)庫系統(tǒng)中信息以離散的形式(如字符、數(shù)字等)存儲在關(guān)系數(shù)據(jù)庫或W W W動態(tài)數(shù)據(jù)庫中,以音樂專業(yè)術(shù)語和音樂主題旋律檢索語言(Structured Query Language,SQL)對音樂旋律或超鏈接進(jìn)行搜索,它的突出特點(diǎn)是建立獨(dú)有的音樂旋律數(shù)據(jù)庫,利用音樂鍵盤和計(jì)算機(jī)鍵盤為搜索工具,實(shí)現(xiàn)彈奏式檢索。
引擎中的特色數(shù)據(jù)庫
與許多引擎一樣,音樂多媒體資源引擎也是由多個(gè)數(shù)據(jù)庫組成。音樂教學(xué)資源庫、音樂主題數(shù)據(jù)庫、音頻索引數(shù)據(jù)庫、知識信息庫四個(gè)專業(yè)數(shù)據(jù)庫體現(xiàn)該引擎的主要特色。音樂教學(xué)資源庫是集多媒體資源(圖像、音頻、視頻、流媒體)形成音樂教學(xué)的精品課程、教學(xué)改課程、網(wǎng)絡(luò)課程等優(yōu)秀資源為一體的數(shù)據(jù)庫。音樂主題數(shù)據(jù)庫是采用音樂的主旋律以數(shù)字字符為內(nèi)容,以數(shù)字為代表形式的關(guān)鍵詞數(shù)據(jù)庫。例如:《雨打巴蕉。音樂特征數(shù)據(jù)庫創(chuàng)建音樂專業(yè)術(shù)語的數(shù)據(jù)表單,保證數(shù)據(jù)表的唯一性,根據(jù)獨(dú)有的特征,預(yù)處理自動提取的內(nèi)容特征,加速表和表之間的連接。知識信息庫音樂教育領(lǐng)域的知識信息和通用知識信息,其中知識表達(dá)可以更換,以適應(yīng)不同領(lǐng)域的信息要求。
總體結(jié)構(gòu)及工作原理
數(shù)據(jù)庫存儲:這個(gè)階段的主要工作是音樂教學(xué)資源庫、音樂主題數(shù)據(jù)庫、音樂特征數(shù)據(jù)庫、知識信息庫和相關(guān)文件的維護(hù)。在圖2中,首先Robot到指定的站點(diǎn)上將旋律主題和可能相關(guān)的音樂信息下載,通過音樂教學(xué)資源庫和音樂主題數(shù)據(jù)庫進(jìn)行特征識別和抽取模塊中的音樂,信息處理模塊的主要功能是去除頁面中的無關(guān)信息,并對音樂信息做一些預(yù)處理,抽取出與旋律主題相關(guān)的描述信息,并生成相應(yīng)的特征文件系統(tǒng),根據(jù)知識庫在特征文件中抽取出關(guān)鍵詞,對關(guān)鍵詞進(jìn)行分析、聚類和分類,建立同義、相似、上下位等關(guān)系,并建立索引數(shù)據(jù)庫,供系統(tǒng)進(jìn)行檢索。下文就對其中的四個(gè)關(guān)鍵部分作詳細(xì)描述:
1. 旋律(簡譜)數(shù)據(jù)庫:旋律又稱曲調(diào),它是按照一定的高低、長短和強(qiáng)弱關(guān)系而組成的音樂線條。在數(shù)據(jù)庫中,它是以阿拉伯?dāng)?shù)字為表達(dá)方式的七個(gè)音符組成,在數(shù)據(jù)庫制作的過程中,根據(jù)音樂的特點(diǎn)一般截取音樂主題的前四個(gè)小節(jié)作為音頻媒體信息中的特征。
2. 知識信息庫:采用人工建立、系統(tǒng)自動建立、系統(tǒng)基于日志將搜索出的音樂有關(guān)信息加入到索引庫中。這里所說的知識庫在很大程度上就是指電子詞庫和詞庫,不同的是它還體現(xiàn)詞間關(guān)系。此間關(guān)系分為同義、相關(guān)、上下位關(guān)系,通過知識庫將這些關(guān)系組織在一起,就可以用來計(jì)算關(guān)鍵詞之間的距離。比如:某一音樂的關(guān)鍵詞是“歌劇”,通過它們之間的上下關(guān)系可以計(jì)算出與“歌劇”距離最為接近的是戲劇音樂、音樂劇等。
3. 音樂特征庫:多媒體信息檢索平臺中的搜索引擎可以把用戶檢索接口獲得的用戶提問標(biāo)識與多媒體特征庫中的檢索標(biāo)識進(jìn)行相似性匹配,并對匹配結(jié)果進(jìn)行排序,按照檢索算法,將滿足用戶信息需求的多媒體信息返回客戶機(jī),輸出檢索結(jié)果。
4. 檢索式處理:檢索服務(wù)器(客戶機(jī)端)建立在Java apples上,主要功能是接受用戶提供的檢索式,并構(gòu)建出符合系統(tǒng)需要的檢索表達(dá)式。檢索表達(dá)式經(jīng)過Hnp server送到檢索服務(wù)器(服務(wù)器端),檢索服務(wù)器再根據(jù)檢索結(jié)果的多少來調(diào)整檢索表達(dá)式的范圍,最后將結(jié)果包裝成HTML格式返回給用戶。
音樂信息的Web獲取模式
音樂的旋律搜索是音樂學(xué)科與計(jì)算機(jī)學(xué)科交叉而研制出的一個(gè)成果。引擎采用J2EE應(yīng)用程序、Applet、Java Servlet和Java Server Pages(JSP)、JDBC數(shù)據(jù)庫等技術(shù)的組合。而音樂的旋律由一系列能反映該音樂主題的音符組成,能夠充分顯示音樂的內(nèi)容特征。在一段旋律中,各個(gè)音符以一種含義豐富的形式連接在一起。它基本的音高符號在五線旋律譜中用C、D、E、F、G、A、B七個(gè)字母命名,在簡譜中對應(yīng)的是1、2、3、4、5、6、7。而在搜索當(dāng)中,我們就利用7個(gè)簡譜來作為搜索的條件來實(shí)現(xiàn)對旋律主題的檢索。例如:中國曲目《花燈舞》的搜索流程如下:
1. 客戶端發(fā)送請求到服務(wù)器端。
2. 服務(wù)器將請求信息發(fā)送到Servlet。
3. Servlet生成響應(yīng)內(nèi)容并將其傳給服務(wù)器。響應(yīng)內(nèi)容動態(tài)生成,通常取決于客戶端的請求。
4. 服務(wù)器將響應(yīng)返回給客戶端。
利用旋律主題搜索導(dǎo)航是一個(gè)全新的搜索方式,它主要基于旋律特征和旋律的主要片斷對音樂內(nèi)容進(jìn)行檢索,在大規(guī)模的音樂數(shù)據(jù)庫中找到想要的音樂資源。這種新型的搜索方式,可快速準(zhǔn)確地找到用戶所要查找的音樂資源,這對于在互聯(lián)網(wǎng)上實(shí)現(xiàn)音樂內(nèi)容的檢索(CMR: Content Music Retrieval)有重大的現(xiàn)實(shí)意義。這一課題的實(shí)現(xiàn),將為大規(guī)模Melody 系統(tǒng)走向?qū)嵱没峁╆P(guān)鍵性技術(shù)。
[1] 邱哲,符滔滔.開發(fā)自己的搜索引擎Lucene2.0+Heritrix[M].北京:人民郵電出版社: 2007: 9.
[2] 李 蕾,等.中文搜索引擎概念檢索初探[J].計(jì)算機(jī)工程與應(yīng)用:2000:1.
[3] 鐘哲輝.基于計(jì)算機(jī)網(wǎng)絡(luò)的信息檢索[M].北京:電子工業(yè)出版社: 2007:125.
[4] 張晶.基于Web的音樂哼唱檢索關(guān)鍵技術(shù)研究[D].西安:西北大學(xué):中國優(yōu)秀碩士學(xué)位論文全文數(shù)據(jù)庫:2008:7.
廣東省計(jì)算機(jī)網(wǎng)絡(luò)重點(diǎn)實(shí)驗(yàn)室華南理工大學(xué)開放基金項(xiàng)目CCNL 2008704
(作者單位為星海音樂學(xué)院)