馬向東
(哈爾濱理工大學(xué)榮成學(xué)院圖書館,山東榮成264300)
一種形式與內(nèi)容相結(jié)合的多媒體分類方法研究與實(shí)現(xiàn)
馬向東
(哈爾濱理工大學(xué)榮成學(xué)院圖書館,山東榮成264300)
側(cè)重多媒體資源分類標(biāo)引方面的探討,分析了當(dāng)前多媒體分類、檢索技術(shù)研究狀況及實(shí)施難度,給出一種可以更充分反映出多媒體新學(xué)科與傳統(tǒng)學(xué)科之間的聯(lián)系、注重多媒體資源的主題內(nèi)容與中圖法分類的關(guān)聯(lián),同時(shí)也兼顧多媒體的外在形式的分類方法。
多媒體;著錄;分類
自20世紀(jì)90年代開始,出現(xiàn)了一種先進(jìn)的超文本檢索——WWW。超文本是一種信息的組織方法,它把包括文字、圖像、音頻、視頻等各種不定長(zhǎng)的基本信息單元存放在各個(gè)結(jié)點(diǎn)上,通過復(fù)雜的鏈路聯(lián)系在一起,得以檢索出內(nèi)容更廣泛的各種信息。這種包含聽覺、視覺等多種元素的圖文并茂、聲像并舉的各種媒體的總和產(chǎn)生了多媒體概念[1]。多媒體在圖書館現(xiàn)代化建設(shè)中越來越顯示出它的巨大作用。因此,如何能夠更有效地組織起多媒體文件與檢索特征詞特別是分類法之間的內(nèi)在關(guān)聯(lián),以方便廣大讀者檢索利用,成為當(dāng)前圖書館及計(jì)算機(jī)學(xué)術(shù)界的重要課題。
(一)傳統(tǒng)非紙本資源的著錄標(biāo)引分類狀況及其局限
傳統(tǒng)圖書館經(jīng)歷電子化時(shí)代后也收藏了很多非紙本資源,包括音像資料、縮微資料、機(jī)讀資料等,因其類型繁多、內(nèi)容復(fù)雜,根據(jù)不同標(biāo)準(zhǔn)有多種不同的劃分結(jié)果[2]。這些語音資料、圖像資料或其綜合體給我們的傳統(tǒng)圖書分類方法造成了一定的麻煩。現(xiàn)在各高校圖書館的傳統(tǒng)非紙本資源的著錄標(biāo)引有多種方法,但都有其共同特點(diǎn):一是都采用CNMARC/USMARC格式,需要專業(yè)圖書著錄人員錄入;二是都依賴于紙本圖書數(shù)據(jù)庫(kù)發(fā)布及檢索,難于體現(xiàn)多媒體標(biāo)識(shí)的特殊性;三是字段煩瑣,人工著錄的工作量很大。缺點(diǎn)也是顯而易見的,它很難包含網(wǎng)絡(luò)獲得的種類繁多的多媒體資源,不能充分直觀地反映多媒體資源的特征與類型,在分類標(biāo)引上也單一化,組織及檢索存在較大的難度。
目前,Internet網(wǎng)上的多媒體資源分類方法多種多樣,有根據(jù)音視頻的藝術(shù)形式、創(chuàng)作題材或壓縮方式來進(jìn)行分類的,如將電影資源分為紀(jì)錄片、言情片、戰(zhàn)爭(zhēng)片、恐怖片、災(zāi)難片,喜劇片等;有將音頻資源分為MIDI、MP3等的。這些分類方法也有明顯缺陷,經(jīng)?;ハ喟踔链嬖诿?。如只從電影資源方面看,在紀(jì)錄片中也存在戰(zhàn)爭(zhēng)題材或表示自然或人為災(zāi)難的。而且無法反映多媒體資源的多樣性,但也可以作為借鑒參考。
(二)當(dāng)前多媒體資源的分類、檢索技術(shù)研究狀況及實(shí)施難度
當(dāng)前,在多媒體資源分類、檢索方面的前端研究課題有兩個(gè)方向:一是基于元數(shù)據(jù)的多媒體信息分類檢索,代表是DublinCore元素;二是基于內(nèi)容的多媒體信息分類檢索,代表是MPEG7標(biāo)準(zhǔn)接口。這兩種分類檢索技術(shù)的側(cè)重點(diǎn)不同,前者的主要目的是方便電子文獻(xiàn)的著錄;后者主要是對(duì)多媒體內(nèi)容描述的步驟定義一系列的方法和工具,起到檢索標(biāo)準(zhǔn)接口、方便計(jì)算機(jī)自動(dòng)分類檢索的目的[3]。
與MARC相比,Dublin Core有結(jié)構(gòu)簡(jiǎn)單、字段較少等優(yōu)點(diǎn),但也有一定缺陷,即在大型數(shù)據(jù)庫(kù)建設(shè)中,通過限定詞進(jìn)行數(shù)據(jù)標(biāo)引以加以區(qū)分,容易造成非經(jīng)過特殊培訓(xùn)的專業(yè)人員不易掌握的缺陷。區(qū)分過粗就影響數(shù)據(jù)的使用效率,區(qū)分過細(xì)又著錄復(fù)雜,形同MARK著錄方式。但是,隨著對(duì)DC的研究發(fā)展,從圖書館的電子文獻(xiàn)組織分類方面來說,DC還將是一個(gè)發(fā)展方向,應(yīng)用前景不容置疑[4]。
MPEG7是MPEG(運(yùn)動(dòng)圖像專家組)的新一代多媒體標(biāo)準(zhǔn)。因?yàn)镸PEG-7標(biāo)準(zhǔn)本身不提供對(duì)描述特征的自動(dòng)提取機(jī)制,現(xiàn)在還沒有一個(gè)真正與之配合的科學(xué)實(shí)用的檢索系統(tǒng)出現(xiàn),還只處于研究階段,是多媒體檢索界的重大課題。
通過對(duì)以上兩種多媒體分類檢索前沿技術(shù)發(fā)展的概括,我們可以發(fā)現(xiàn)在大多數(shù)圖書館的現(xiàn)有軟硬件環(huán)境下,這兩種方式都存在要求過高、很難實(shí)現(xiàn)的共同特點(diǎn)。
針對(duì)高校圖書館的具體現(xiàn)狀和軟硬件現(xiàn)有配置,在不需增添設(shè)備、不需另行研究開發(fā)高端技術(shù)、不需增加大量勞動(dòng)量的基礎(chǔ)上,因地制宜地建設(shè)一個(gè)結(jié)合本館實(shí)際的多媒體資源數(shù)據(jù)庫(kù)及方便快捷的檢索系統(tǒng),應(yīng)該是我們當(dāng)前的主要實(shí)現(xiàn)目標(biāo)。綜合大量研究實(shí)踐,筆者認(rèn)為應(yīng)該側(cè)重以下三個(gè)方面。
1.充分利用現(xiàn)有資源及技術(shù)。現(xiàn)有資源包括平時(shí)上網(wǎng)瀏覽積累的多媒體素材、開設(shè)某專題特意尋找的多媒體資料、經(jīng)過數(shù)字化轉(zhuǎn)換的本館傳統(tǒng)電子介質(zhì)資源等?,F(xiàn)有技術(shù)則指本館原有網(wǎng)絡(luò)設(shè)備軟硬件、網(wǎng)絡(luò)常用多媒體壓縮處理及轉(zhuǎn)換軟件、具有普適性的網(wǎng)絡(luò)數(shù)據(jù)庫(kù)技術(shù)、網(wǎng)絡(luò)多媒體傳輸技術(shù)等。
2.在多媒體分類標(biāo)引方面,堅(jiān)持分類標(biāo)準(zhǔn),兼顧多樣。采用國(guó)內(nèi)最通用的中國(guó)圖書館分類法第四版作為分類標(biāo)準(zhǔn),具有科學(xué)性、連續(xù)性、前瞻性、預(yù)見性的特點(diǎn)。同時(shí),為了充分反映多媒體新學(xué)科與傳統(tǒng)學(xué)科的聯(lián)系,要注重多媒體資源的主題內(nèi)容與中圖法各類的關(guān)聯(lián),也要兼顧多媒體的外在形式,創(chuàng)建出一種同時(shí)具備兩種分類標(biāo)準(zhǔn)的分類檢索方式。
3.在多媒體數(shù)據(jù)庫(kù)及檢索方面,設(shè)計(jì)一個(gè)不直接依賴于MARC字段式著錄方式的簡(jiǎn)單明了的錄入窗口程序有其必要性,而且使其成為能夠脫離圖書館廣泛應(yīng)用的基于CNMARC/USMARC的紙本圖書數(shù)據(jù)庫(kù)的自動(dòng)化系統(tǒng),采用單獨(dú)特殊的數(shù)據(jù)庫(kù),利用現(xiàn)有的圖書館數(shù)字化平臺(tái)建設(shè)一個(gè)多媒體數(shù)據(jù)庫(kù)檢索系統(tǒng)。
通過對(duì)幾種當(dāng)前多媒體資源的分類、檢索技術(shù)研究狀況比較研究,筆者認(rèn)為,在現(xiàn)階段來說,還是目前仍廣泛應(yīng)用于圖書館方面的基于文本的多媒體信息檢索最直接、最簡(jiǎn)單、最實(shí)用。為了盡量避免它的缺陷,借鑒DC元數(shù)據(jù)的結(jié)構(gòu)簡(jiǎn)單、字段少的發(fā)展方向,應(yīng)采用以最少最必要的字段來揭示盡可能多的多媒體內(nèi)容特征的方法進(jìn)行著錄。
而在分類方面,針對(duì)圖書館應(yīng)用的特點(diǎn),采用國(guó)內(nèi)最通用的“中圖法”對(duì)圖片、音頻、視頻進(jìn)行分類標(biāo)引有其必要性。再結(jié)合互聯(lián)網(wǎng)上普遍采用的對(duì)多媒體文件的類別劃分,得出內(nèi)容與形式相結(jié)合的分類方法。因此,可以同時(shí)采用兩種分類并存并互為補(bǔ)充的方式進(jìn)行分類標(biāo)引,分別為按形式分類和按內(nèi)容分類。以按內(nèi)容分類為主,體現(xiàn)多媒體源文件的題材內(nèi)涵;以形式分類為輔,體現(xiàn)多媒體文件的表像區(qū)別。
例如,在形式分類上為軍事題材的故事片,因其表現(xiàn)的是二次世界大戰(zhàn)的歷史,在內(nèi)容分類上就將分在歷史類。推而廣之,這樣就能很好地解決科技類多媒體文獻(xiàn)的分類標(biāo)引,如一部描寫環(huán)境生態(tài)保護(hù)方面的記錄片,按形式分類為藝術(shù)類的記錄片,按內(nèi)容分類即為環(huán)境保護(hù)類。再舉一個(gè)圖像的例子。一張毛澤東在1949年開國(guó)大典上的照片,在形式上將歸到藝術(shù)大類的新聞攝影小類當(dāng)中,而從內(nèi)容上分類則是馬列主義毛澤東思想大類中的毛澤東生平小類。
這樣同時(shí)保留兩種分類方法,讓讀者可以根據(jù)自己的需要,除了利用題名、關(guān)鍵詞等檢索方法外,還可以通過不同的兩種分類類別檢索到自己所需的多媒體資源。
例如,在視頻及音頻庫(kù)著錄字段方面,“名稱”、“關(guān)鍵詞”、“主題詞”、“簡(jiǎn)介”、“作者”、“來源”、“大小”、“出版日期”等為必備字段。而圖像庫(kù)字段與音視頻庫(kù)略有不同,要增加“圖像屬性”、“DPI”、“尺寸”三個(gè)字段,以突出圖像方面的特殊屬性。在此基礎(chǔ)上,在所有多媒體資源的著錄字段中添加“按內(nèi)容分類”與“按形式分類”兩個(gè)新字段,利用不同的樹型結(jié)構(gòu)或檢索提示展示中圖法類別,能夠極大方便讀者檢索利用。
因?yàn)橐纛l、視頻、圖像等媒體類型有著不同的區(qū)別,可以采用分別建立不同的數(shù)據(jù)庫(kù)的方法建立多個(gè)不同結(jié)構(gòu)模板的數(shù)據(jù)庫(kù),然后采用統(tǒng)一的跨庫(kù)檢索(即同一服務(wù)器上的不同數(shù)據(jù)庫(kù)組織在一起檢索)技術(shù)來實(shí)現(xiàn)多媒體數(shù)據(jù)庫(kù)的統(tǒng)一檢索,從而實(shí)現(xiàn)構(gòu)建包含不同多媒體文件的整體性多媒體網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。比如,在一個(gè)多媒體建設(shè)平臺(tái)上分別建立音頻庫(kù)、視頻庫(kù)、圖像庫(kù),然后在三種不同的數(shù)據(jù)庫(kù)的基礎(chǔ)上建立跨庫(kù)統(tǒng)一檢索界面,讀者可以通過傳統(tǒng)的題名、關(guān)鍵詞、著者等檢索途徑進(jìn)行檢索。同時(shí),統(tǒng)一采用中圖法分類導(dǎo)航,并設(shè)定為“按內(nèi)容分類”、“按形式分類”兩種分類方式,以便更快速更全面地展示出各種媒體庫(kù)的相關(guān)資源信息。
因?yàn)槎鄶?shù)圖書館都已購(gòu)買或自建了數(shù)字圖書館建設(shè)平臺(tái),所以,只要將其稍加變化或二次開發(fā)就可實(shí)現(xiàn)這種按形式分類與按內(nèi)容分類的不同分類方法并存互為補(bǔ)充的分類檢索方式。
在信息化的網(wǎng)絡(luò)時(shí)代,多媒體技術(shù)在高校圖書館工作中已經(jīng)處于越來越重要的地位。為了節(jié)省人力物力,在不侵犯著作版權(quán)的前提下,應(yīng)該充分利用現(xiàn)有的網(wǎng)絡(luò)資源及網(wǎng)絡(luò)技術(shù)優(yōu)勢(shì)來打造自己的多媒體資源數(shù)據(jù)庫(kù)及檢索平臺(tái),同時(shí)研究出最充分反映多媒體形式與內(nèi)容本質(zhì)特征的分類標(biāo)引方法。這樣才能因陋就簡(jiǎn)、因地制宜地建設(shè)好具有自己本校特色的多媒體網(wǎng)絡(luò)數(shù)據(jù)庫(kù)。同時(shí),要放眼未來,注意可以擴(kuò)展升級(jí)到尖端新技術(shù)方面的兼容性,為將來移植到如Dublin Core標(biāo)準(zhǔn)的新型數(shù)據(jù)庫(kù)打好基礎(chǔ)。
[1]范建鳳.多媒體技術(shù)與圖書館信息服務(wù)[J].現(xiàn)代情報(bào),2002,(6):142-145.
[2]劉新周.非書資料管理研究[J].農(nóng)業(yè)網(wǎng)絡(luò)信息,2007,(4):74-76.
[3]杜明輝.MPEG-7的現(xiàn)狀和發(fā)展[J].山西電子技術(shù),2005,(3):42-44.
[4]周建清.MARC與DC元數(shù)據(jù)對(duì)比研究[J].中國(guó)科技信息,2006,(8):7-8.
【責(zé)任編輯 安 琪】
G255.72
A
1673-291X(2016)23-0142-02
2016-09-10
馬向東(1966-),男,河南溫縣人,圖書館員,從事信息存儲(chǔ)與信息檢索研究。