張偉民
(廣東金融學(xué)院圖書館,廣東 廣州 510520)
移動(dòng)互聯(lián)網(wǎng)技術(shù)的進(jìn)步催生了各類新媒體工具,其以互聯(lián)網(wǎng)和移動(dòng)通訊為依托,具有極快的傳播速度和即時(shí)社交等功能,很容易產(chǎn)生集聚效應(yīng)。網(wǎng)絡(luò)新媒體層出不窮,報(bào)刊、電視等傳統(tǒng)媒體也依然具備優(yōu)勢(shì),新舊媒體的交互與影響,形成了復(fù)雜的泛媒體環(huán)境,使得信息的形成傳播機(jī)制更為復(fù)雜。在這樣的環(huán)境下,數(shù)字圖書館的發(fā)展不再是擁有多樣化媒體內(nèi)容,而是將音頻、視頻等多種信息格式進(jìn)行高效處理,并通過互聯(lián)網(wǎng)傳遞給用戶,滿足他們隨時(shí)隨地獲取信息的需求。面對(duì)泛媒體環(huán)境下海量的數(shù)字化信息,如何拓展用戶信息資源獲取渠道,提高信息檢索效率,是數(shù)字圖書館需要考慮的問題。尤其是泛媒體信息異構(gòu)分布,語義關(guān)系復(fù)雜多變,僅僅依靠傳統(tǒng)的數(shù)據(jù)庫和元數(shù)據(jù)檢索方式,檢索出來的跨媒體資源往往關(guān)聯(lián)度差,很難滿足用戶的專業(yè)化需求。因此,要求數(shù)字圖書館建立適應(yīng)泛媒體特點(diǎn)的語義檢索模型,實(shí)現(xiàn)對(duì)跨媒體數(shù)據(jù)的采集與動(dòng)態(tài)分析,從語義層面尋找不同模態(tài)信息的關(guān)聯(lián),為用戶帶來更為優(yōu)質(zhì)的檢索體驗(yàn)。
跨媒體語義檢索是在多種媒體形態(tài)基礎(chǔ)上,結(jié)合不同媒體的特點(diǎn),從語義層面對(duì)相同或相關(guān)的信息進(jìn)行處理,實(shí)現(xiàn)數(shù)字化資源的精準(zhǔn)檢索與高效存儲(chǔ)。泛媒體環(huán)境下的跨媒體語義檢索,屬于符合知識(shí)認(rèn)知的語義檢索方法,對(duì)于數(shù)字圖書館的發(fā)展具有重要意義。
不同媒體形態(tài)數(shù)字化資源的異構(gòu)與動(dòng)態(tài)性,一直是困擾數(shù)字圖書館的難題[1]。近年來基于內(nèi)容的多媒體檢索技術(shù),雖然為數(shù)字圖書館跨媒體檢索提供了便利,實(shí)現(xiàn)了不同模態(tài)資源的同步采集,但是在實(shí)際應(yīng)用過程中,這種檢索方法無法兼顧泛媒體信息的特征,無法揭示不同信息資源之間的關(guān)聯(lián),這就難以滿足對(duì)數(shù)字化資源的深層次服務(wù)需求??缑襟w語義檢索充分考慮多模態(tài)信息的語義關(guān)聯(lián),從知識(shí)認(rèn)知的角度,分析不同類型資源的語義聯(lián)系,讓多種模態(tài)的信息資源能夠被綜合利用。它不僅突破了數(shù)字圖書館傳統(tǒng)的數(shù)字化資源采集范圍,提升了資源采集力度,也有助于構(gòu)建更為系統(tǒng)的數(shù)字化資源體系[2]。
目前國內(nèi)很多圖書館依然以文本檢索為主,即便建立了跨媒體檢索系統(tǒng),也僅僅是輔助檢索工具,無法處理多樣化的數(shù)據(jù),無法滿足泛媒體環(huán)境下用戶對(duì)多模態(tài)信息資源的需求。而跨媒體語義檢索的應(yīng)用,依托先進(jìn)的語義信息組織技術(shù),挖掘不同模態(tài)信息存在的內(nèi)在關(guān)聯(lián),促進(jìn)語義信息高效組織,推動(dòng)數(shù)字化資源整合,以統(tǒng)一的信息管理方式降低檢索成本,提高了數(shù)字圖書館的服務(wù)效率。跨媒體語義檢索將不同于媒體類型的數(shù)字化資源,如圖像、文本、視頻等,通過統(tǒng)一的資源整合服務(wù)平臺(tái),避免了根據(jù)不同媒體類型分別檢索導(dǎo)致的資源浪費(fèi),也提升了數(shù)字圖書館的資源利用率。
數(shù)字圖書館跨媒體語義檢索的應(yīng)用,不僅解決了多模態(tài)信息資源的統(tǒng)一檢索問題,也可以提供統(tǒng)一的信息檢索入口,讓用戶依托移動(dòng)智能設(shè)備,就可以隨時(shí)隨地檢索海量信息,豐富了檢索體驗(yàn)?;诳缑襟w語義檢索的一站式平臺(tái),避免了用戶在檢索不同類型數(shù)字化資源過程中,由于登陸不同的網(wǎng)站,采用不同的搜索引擎導(dǎo)致的時(shí)間浪費(fèi),節(jié)省了檢索成本,提高了數(shù)字資源檢索效率[3]。同時(shí)基于語義的信息檢索方式,能夠?qū)崿F(xiàn)對(duì)跨媒體資源的迅速采集與高效整合,從中發(fā)現(xiàn)不同資源的內(nèi)在關(guān)聯(lián),并在對(duì)比分析基礎(chǔ)上,反饋給用戶所需的信息,強(qiáng)化用戶對(duì)檢索結(jié)果的認(rèn)知??缑襟w語義檢索也可以從用戶感知角度,提供更多檢索示例,方便其找到更多與需求相關(guān)的信息資源,從而獲得更多的選擇自由。
跨媒體語義檢索實(shí)現(xiàn)了對(duì)不同模態(tài)信息的特征識(shí)別、提取與融合,實(shí)現(xiàn)不同媒體的跨越式檢索與信息歸類,從語義層面消除用戶理解上的障礙。根據(jù)信息的不同模態(tài),以下主要介紹圖片、音頻、視頻等常見的語義檢索技術(shù)。
數(shù)字圖書館對(duì)圖片中語義信息的提取,是從先驗(yàn)知識(shí)的角度,將視覺特征映射至語義層面。檢索系統(tǒng)可以借助機(jī)器學(xué)習(xí)的方式,生成與圖片信息檢索相關(guān)的語義規(guī)則,或者借助遺傳算法、神經(jīng)網(wǎng)絡(luò)等人工智能方法,對(duì)圖片中的語義信息進(jìn)行提取處理,進(jìn)而提升跨媒體圖片信息檢索的精準(zhǔn)度。具體操作過程中,首先要從視覺層面提取圖片的紋理、顏色、形態(tài)等特征,并從語義層面進(jìn)行描述。其次,針對(duì)圖片中包含的具體對(duì)象,分析不同對(duì)象之間的語義關(guān)系并進(jìn)行描述。此外,根據(jù)語義描述結(jié)果分析檢索對(duì)象的空間、場景關(guān)系,對(duì)于其中涉及的語義要素進(jìn)行合并,根據(jù)對(duì)應(yīng)的語義規(guī)則組合形成圖片表達(dá)的意義。
音頻語義檢索涉及對(duì)音頻內(nèi)容的分類,具體而言就是根據(jù)不同音頻的聲學(xué)特征,分析不同音頻之間的語義關(guān)系,采用音頻分類算法計(jì)算不同對(duì)象之間的語義距離,如利用決策樹、神經(jīng)網(wǎng)絡(luò)等計(jì)算模型,進(jìn)而提取其中的語義信息。一般可以從聲學(xué)特征、物理特征、語義特征三個(gè)層面,對(duì)音頻中蘊(yùn)含的內(nèi)容進(jìn)行提取[4]。其中物理特征包括編碼方式、采樣頻率等原始數(shù)據(jù),這是泛媒體信息的基本存在形式,在檢索過程中可以直接瀏覽、調(diào)用,并輕松提取其中的物理數(shù)據(jù)。聲學(xué)特征數(shù)據(jù)是從感官層面,表達(dá)用戶對(duì)音頻的感知情況,可以直接通過檢索的方式識(shí)別不同音頻的特征。而語義特征則是從語義層面,對(duì)音頻內(nèi)容、對(duì)象與關(guān)系進(jìn)行描述和綜合分析,進(jìn)而獲得其中蘊(yùn)含的隱性知識(shí)。
泛媒體時(shí)代視頻內(nèi)容日益豐富,對(duì)跨媒體視頻資源進(jìn)行語義檢索,是通過符合人類思維的語義描述方式,對(duì)這些視頻內(nèi)容進(jìn)行分析、過濾與檢索,并將其中的語義信息以直觀的方式展示給用戶。一般而言,在語義檢索過程中需要過濾視頻中的常規(guī)特征,如形態(tài)、顏色、紋理等基本特征信息。然后從高層語義角度對(duì)其他信息進(jìn)行處理,從而提高檢索的精準(zhǔn)性。用戶可以肉眼的方式獲取這些信息,因此并不需要二次處理[5]。對(duì)于比較重要的特征信息,則將其轉(zhuǎn)化至語義空間,通過語義規(guī)則推理、語義注釋、統(tǒng)計(jì)學(xué)習(xí)等方法,提取視頻資源中蘊(yùn)含的多樣化語義信息,并通過語義信息組織技術(shù)進(jìn)行整合應(yīng)用,為用戶提供更有針對(duì)性的服務(wù)。
泛媒體環(huán)境下數(shù)字圖書館本身擁有海量數(shù)字化資源,這些資源存在復(fù)雜的內(nèi)在關(guān)聯(lián),有助于強(qiáng)化跨媒體檢索的語義理解能力,提升跨媒體語義檢索的精準(zhǔn)化水平??傮w來看,數(shù)字圖書館跨媒體語義檢索的基本流程,涉及資源采集、特征提取、語義描述、本體構(gòu)建等多個(gè)環(huán)節(jié),如圖1。
圖1 數(shù)字圖書館跨媒體語義檢索的基本流程
數(shù)字圖書館在跨媒體語義檢索過程中,可以引入智能化代理技術(shù),自動(dòng)發(fā)現(xiàn)、捕獲與采集不同網(wǎng)站中的數(shù)字化資源,或者自動(dòng)對(duì)泛媒體資源進(jìn)行識(shí)別與存儲(chǔ),提高數(shù)字化資源采集效率。同時(shí)依托圖書館資源分類標(biāo)準(zhǔn),對(duì)這些采集獲取的數(shù)字化資源進(jìn)行整合處理,過濾不必要的內(nèi)容,并存儲(chǔ)于多媒體資源數(shù)據(jù)庫中。泛媒體環(huán)境下數(shù)字化資源是動(dòng)態(tài)變化的,用戶對(duì)檢索服務(wù)的需求也在發(fā)生變化[6]。數(shù)字圖書館不僅需要做好數(shù)據(jù)采集工作,也需要根據(jù)用戶需求變化,根據(jù)泛媒體資源的結(jié)構(gòu)特征與變化趨勢(shì),及時(shí)做好館藏?cái)?shù)據(jù)庫的更新維護(hù)工作。尤其是安排專業(yè)技術(shù)人員,對(duì)多媒體資源進(jìn)行定期檢查、更新,促進(jìn)數(shù)據(jù)庫結(jié)構(gòu)優(yōu)化。
數(shù)字圖書館在采集大量泛媒體信息資源后,需要借助語義分析技術(shù),對(duì)這些信息資源進(jìn)行統(tǒng)計(jì),做好不同類型資源的語義分析、識(shí)別與注釋工作,從中抽取有價(jià)值的概念,通過對(duì)比分析發(fā)現(xiàn)不同信息之間隱含的關(guān)系,將其揭示出來并納入語義數(shù)據(jù)庫中。在實(shí)施過程中,一方面需要參考本體庫中的對(duì)應(yīng)信息,建立泛媒體信息資源的語義關(guān)聯(lián)樹,依托機(jī)器學(xué)習(xí)或深度學(xué)習(xí)技術(shù),采用逐層分析的方式,去挖掘信息資源之間的語義關(guān)聯(lián),獲得更多有深度的內(nèi)容;另一方面,要借助本體推理技術(shù),促進(jìn)底層特征向語義層面映射,通過特征提取消除語義鴻溝,保障語義檢索的統(tǒng)一性和精準(zhǔn)度。
數(shù)字圖書館跨媒體語義檢索的核心階段,就是構(gòu)建跨媒體本體。這是因?yàn)榉好襟w數(shù)據(jù)資源類型多樣,結(jié)構(gòu)多變,從中可以提取多種信息維度,不同信息之間復(fù)雜的聯(lián)系,很容易導(dǎo)致語義的重復(fù),增加語義檢索的難度。這就需要通過本體構(gòu)建的方式,根據(jù)語義特征提取與語義相關(guān)聯(lián)的結(jié)果,消除數(shù)據(jù)表達(dá)中的維度重復(fù)問題,保障數(shù)據(jù)處理的標(biāo)準(zhǔn)統(tǒng)一[7]。而本體庫也是語義關(guān)聯(lián)的重要參照,有助于底層特征向語義空間轉(zhuǎn)化,進(jìn)而優(yōu)化語義數(shù)據(jù)庫。在此基礎(chǔ)上,數(shù)字圖書館可以利用深度學(xué)習(xí)技術(shù),促進(jìn)跨媒體信息資源整合和語義轉(zhuǎn)化,通過可視化的方式形成全局視圖,方便用戶根據(jù)自身需求,自動(dòng)登錄檢索頁面獲取所需的語義信息,并將最終結(jié)果以可視化的方式反饋至用戶終端。
數(shù)字圖書館跨媒體語義檢索是泛媒體環(huán)境下的必然發(fā)展趨勢(shì),也是符合用戶習(xí)慣的全新發(fā)展方向。為了減少跨媒體語義檢索中的障礙,充分發(fā)揮其服務(wù)優(yōu)勢(shì),數(shù)字圖書館可以構(gòu)建融合語義信息組織、跨媒體檢索、數(shù)據(jù)挖掘等技術(shù),包含擴(kuò)展查詢、語義檢索等功能模塊的結(jié)構(gòu)模型,保障圖書館檢索系統(tǒng)的性能(如圖2)。
圖2 數(shù)字圖書館跨媒體語義檢索模型
拓展查詢模塊的主要功能是根據(jù)用戶提供的檢索關(guān)鍵詞,依托語義索引、語義推理和檢索引擎,對(duì)用戶所需資源進(jìn)行拓展檢索,形成相關(guān)度高的概念集合[8]。然后對(duì)檢索關(guān)鍵詞進(jìn)行概念拓展,擴(kuò)大關(guān)鍵詞的范圍,以此作為新的查詢條件,然后將其傳遞給語義檢索模塊。在拓展查詢過程中,數(shù)字圖書館檢索系統(tǒng)會(huì)依據(jù)參考本體庫,調(diào)取其中的分類方法和敘詞表,并將查詢結(jié)果填充至領(lǐng)域本體庫中。語義索引是根據(jù)語義索引存儲(chǔ)表中的相關(guān)概念,迅速定位本體庫中的具體概念,給出領(lǐng)域本體與語義之間的對(duì)應(yīng)關(guān)系,可以幫助分析用戶需求,為拓展查詢提供依據(jù)。檢索引擎則是將關(guān)鍵詞傳輸至本體庫中,將經(jīng)過概念化的關(guān)鍵詞,與本體庫中的概念進(jìn)行對(duì)比,以遍歷的方式尋找其相關(guān)概念,以拓展的方式形成語義關(guān)系網(wǎng),形成經(jīng)過語義拓展的概念集。
語義檢索模塊接收經(jīng)過拓展查詢的概念集合后,可以根據(jù)用戶需求,開展泛媒體信息資源采集與處理工作,并從館藏?cái)?shù)據(jù)庫中迅速調(diào)取相關(guān)信息,在數(shù)據(jù)資源歸類基礎(chǔ)上進(jìn)行信息匹配,然后將檢索結(jié)果反饋給用戶。語義檢索階段需要做好多媒體資源的歸類整理工作,無論是文本、圖片還是視頻資源,都可以通過建立多模態(tài)信息索引庫的方式,在不同媒體之間搭建橋梁,以多模態(tài)信息交叉索引的方式,將多種形態(tài)特征的信息資源,轉(zhuǎn)換至統(tǒng)一的語義空間,并對(duì)不同模態(tài)的資源進(jìn)行語義描述,方便系統(tǒng)進(jìn)行資源歸并與深度挖掘。數(shù)字圖書館可以借助神經(jīng)網(wǎng)絡(luò),獲取檢索對(duì)象的全局特征,通過語義映射實(shí)現(xiàn)對(duì)文本、音頻等多媒體資源的關(guān)聯(lián)檢索,并采用語義相似度計(jì)算的方法,實(shí)現(xiàn)不同模態(tài)信息資源的語義匹配。
數(shù)字圖書館跨媒體語義檢索模型的構(gòu)建,不僅需要做好拓展查詢與語義檢索,也需要建立語義標(biāo)注轉(zhuǎn)換機(jī)制。這是因?yàn)榉好襟w信息資源規(guī)模大,在檢索過程中的語義標(biāo)注工作量大,可以通過建立統(tǒng)計(jì)模型的方式,設(shè)置對(duì)應(yīng)的訓(xùn)練數(shù)據(jù)集,實(shí)現(xiàn)對(duì)多媒體信息資源的自動(dòng)語義標(biāo)注,提高檢索系統(tǒng)運(yùn)行效率。要想實(shí)現(xiàn)這一目標(biāo),需要數(shù)字圖書館引入大量訓(xùn)練數(shù)據(jù)集,根據(jù)泛媒體資源的語義分布情況,設(shè)置對(duì)應(yīng)的統(tǒng)計(jì)決策模型,并做好對(duì)應(yīng)模型的訓(xùn)練工作,提高語義標(biāo)準(zhǔn)的準(zhǔn)確率。同時(shí)數(shù)字圖書館可以借鑒機(jī)器學(xué)習(xí)中的語義轉(zhuǎn)換機(jī)制,采用對(duì)語義標(biāo)注過程進(jìn)行跟蹤的方式,在語義標(biāo)注后迅速實(shí)現(xiàn)信息傳遞,并將未經(jīng)標(biāo)注的信息傳輸至訓(xùn)練集中,結(jié)合先驗(yàn)方法減少語義標(biāo)注模型的工作量,降低語義標(biāo)注的復(fù)雜度。
當(dāng)前我國數(shù)字圖書館的建設(shè)如火如荼,其中信息檢索系統(tǒng)的引入與應(yīng)用是關(guān)鍵內(nèi)容。泛媒體環(huán)境下跨媒體語義檢索模型的構(gòu)建,可以建立不同媒體之間的關(guān)聯(lián)檢索機(jī)制,從語義層面發(fā)現(xiàn)不同資源的內(nèi)在聯(lián)系,解決復(fù)雜維度數(shù)據(jù)的跨媒體檢索問題,提升數(shù)字圖書館跨媒體檢索效率。目前跨媒體語義檢索的應(yīng)用還處于初始階段,部分技術(shù)與方法還不成熟,如何發(fā)揮其在數(shù)字圖書館中的作用還有待深入研究。