吳鑫宇
(廣西民族大學(xué)管理學(xué)院,廣西 南寧 530006)
近年來,微信成為人們?nèi)粘I顪贤ㄅc娛樂不可或缺的軟件。據(jù)騰訊網(wǎng)發(fā)布的2021年第一季度財(cái)報(bào)顯示,截至2021年3月21日,微信以及Wechat的合并月活躍賬戶數(shù)已達(dá)到了1241.6萬人,同比去年增長了3.3%[1],并且,越來越多的人開始使用微信公眾號進(jìn)行閱讀或接受服務(wù)。微信公眾平臺所具有的泛在化的服務(wù)模式、多媒體信息推送與豐富的平臺功能,成為“互聯(lián)網(wǎng)+”時代圖書館開展服務(wù)的重要陣地[2]。使用微信進(jìn)行圖書館服務(wù)解決了圖書館傳統(tǒng)線下交流的滯后性弊端,為用戶提供了可以自由交流的平臺,用戶可以自由地在平臺上進(jìn)行提問、回答、瀏覽等活動,同時還有效滿足了其即時交流的需求[3]。隨著國內(nèi)微信公眾號的使用人數(shù)越來越多,國內(nèi)許多圖書館紛紛開設(shè)自己的公眾號為讀者服務(wù),常見的服務(wù)功能包括座位預(yù)定、館藏查詢、在線閱讀,等等。同時,由于人們生活節(jié)奏的不斷加快,不少讀者為了節(jié)約時間,會選擇通過使用微信公眾號先選擇好自己所需的圖書,并查詢該圖書的在庫情況,再到圖書館借閱或借出圖書,這樣一來讀者可以最大程度地利用自己的碎片時間獲取圖書信息資源,省時省力。
但目前微信公眾號內(nèi)的館藏互聯(lián)情況卻不甚理想,許多圖書館公眾號內(nèi)的館藏信息像一個個隔海相望的孤島,其相似推薦功能無法很好地給讀者提供服務(wù),不便于讀者利用。由于在微信公眾號中,語義關(guān)聯(lián)越強(qiáng)、信息組織越緊密的超文本越能實(shí)現(xiàn)關(guān)鍵信息的高效提取,滿足話語受眾需求,從而使圖書館獲得更多的話語權(quán)[4]。因此,使用語義關(guān)聯(lián)來進(jìn)行圖書館公眾號的館藏互聯(lián)研究相當(dāng)有必要。
經(jīng)查詢中國國家圖書館、武漢大學(xué)圖書館、廣西壯族自治區(qū)圖書館與廣西民族大學(xué)圖書館等圖書館的公眾號后發(fā)現(xiàn),這些圖書館公眾號內(nèi)館藏書籍的關(guān)聯(lián)性并不理想。例如在網(wǎng)頁端的中國國家圖書館網(wǎng)站上搜索某一本書并進(jìn)入該書籍的詳細(xì)信息界面,書籍信息的側(cè)方會出現(xiàn)與該書籍關(guān)聯(lián)度較高的相似書籍推薦,這便是圖書館網(wǎng)頁的相關(guān)推薦功能,其目的是深化館藏的利用而對讀者提供的服務(wù)。利用這項(xiàng)服務(wù),讀者可以在線上查閱與這本書相關(guān)的其他書籍,就像在線下圖書館查看一個書架上某本書的相鄰有關(guān)書籍一樣。但是,在各個圖書館微信公眾號中,它們的相關(guān)推薦的功能卻不甚理想,且書籍、文獻(xiàn)之間的關(guān)聯(lián)度較弱。例如廣西民族大學(xué)圖書館微信公眾號中的相關(guān)推薦功能會時常出現(xiàn)關(guān)聯(lián)錯誤的情況:在廣西民族大學(xué)圖書館微信公眾號內(nèi)使用檢索詞“閱讀推廣”進(jìn)行檢索,選中第一篇文獻(xiàn),出現(xiàn)的相關(guān)推薦書目推薦第1本是一本童話故事,剩下3本是古籍,這些書籍跟文獻(xiàn)與閱讀推廣是毫無關(guān)聯(lián)的。而中國國家圖書館的微信公眾號甚至沒有相關(guān)推薦的功能,點(diǎn)入查詢的某本書的相關(guān)內(nèi)容內(nèi)只有書籍的在庫情況信息。經(jīng)查詢中國許多著名公共圖書館與高校圖書館的微信公眾號后發(fā)現(xiàn),這些圖書館的一些服務(wù),如書籍在庫查詢、座位預(yù)定、閱讀推廣等,往往做得很好,但在相似書籍推薦這方面卻不盡理想。隨著人們生活節(jié)奏的加快,讀者不一定能夠經(jīng)常前往圖書館查詢某一類的書籍,而讀者自己的信息需求可能會因?yàn)閭€人信息素養(yǎng)的不足而無法表達(dá)出來,這時候,圖書館在其公眾號提供基于語義關(guān)聯(lián)的相關(guān)推薦功能是非常有必要的。
圖書館的資源可以通過語義關(guān)聯(lián)的技術(shù)將館內(nèi)的館藏根據(jù)語義關(guān)聯(lián)度的高低聯(lián)系在一起,以實(shí)現(xiàn)館藏的優(yōu)化利用。讀者在線上查詢某本圖書時,可以通過圖書館的語義關(guān)聯(lián)技術(shù)很快查詢到與之關(guān)聯(lián)的其他圖書,使讀者對圖書館的使用更加方便。圖書館所應(yīng)用的語義關(guān)聯(lián)主要體現(xiàn)在名詞上,即名詞性語義關(guān)聯(lián),其主要表現(xiàn)于名詞的詞義表達(dá)。一般使用義素分析法對表述名詞進(jìn)行義素分析,并找出能反映其特征的義素,義素可以是原語或概念。形式上,一個名詞可以表述為:名詞→[C]+d+m+[f]+Cp。C是有關(guān)該名詞的語義場信息,C由兩部分組成:場名和場類,即C→〈場名〉+〈場類〉。f則是該名詞所表概念的組成,即其外延,由原語式概念組成。C,f主要是為了反映概念間的聯(lián)系性,C表示同一語義場內(nèi)各概念間的關(guān)系,f反映下位概念。d,m是實(shí)際性的東西,是在義素分析基礎(chǔ)上對該名詞概念的特征描述,d是定義性特征相對于概念中“屬”的東西,m則是描述特征相對于同一語義場內(nèi)的名詞。Cp為該名詞的格潛力序列,體詞可以充當(dāng)許多格角色,將它所起的格角色全部列出,并按習(xí)慣用法置入有序表中,稱之為格潛力序列[5]。并且,可以通過語義關(guān)聯(lián)度對正文語義進(jìn)行檢索,語義關(guān)聯(lián)度是對每篇文獻(xiàn)或資料抽取幾個“關(guān)鍵字”,以便在一定程度上用這個“關(guān)鍵字”的集合來近似地表示原文的語義,實(shí)現(xiàn)在一定程度上的關(guān)聯(lián)。它可作為檢索的條件,或可作為分類的依據(jù)[6]。由于在元數(shù)據(jù)標(biāo)引語言的文檔樹中,某個節(jié)點(diǎn)與其祖先節(jié)點(diǎn)都能匹配關(guān)鍵詞,因此在進(jìn)行予語義相似度計(jì)算時,節(jié)點(diǎn)應(yīng)能直接匹配關(guān)鍵詞[8],使得每一個節(jié)點(diǎn)都能與自己擁有相同關(guān)鍵詞的節(jié)點(diǎn)進(jìn)行關(guān)聯(lián),以實(shí)現(xiàn)圖書館公眾號內(nèi)的館藏互聯(lián)。
因此,作者基于語義關(guān)聯(lián)對圖書館微信公眾號的相似推薦功能進(jìn)行研究,從元數(shù)據(jù)標(biāo)注層、語義解釋層、語義存儲層與實(shí)際應(yīng)用層進(jìn)行設(shè)計(jì),形成研究模型,以優(yōu)化圖書館的館藏利用,提升圖書館的服務(wù)。
由于受到軟件功能方面的限制,微信公眾號無法存儲大量的數(shù)據(jù),因此在圖書館公眾號中的許多有關(guān)資源利用的功能都需要先訪問圖書館的數(shù)據(jù)庫,數(shù)據(jù)庫返回信息后再向用戶提供服務(wù)。所以,圖書館在進(jìn)行數(shù)據(jù)庫設(shè)計(jì)時,需要一個統(tǒng)一的標(biāo)引語言進(jìn)行標(biāo)引,以達(dá)到各個應(yīng)用層都能識別而不會出現(xiàn)無法識別或者識別出亂碼的情況。常見的符合自身資源特征的元數(shù)據(jù)標(biāo)準(zhǔn)有都柏林核心集(DC)、機(jī)器可讀目錄(MARC)與可擴(kuò)展標(biāo)記語言(XML),等等,并在統(tǒng)一的RDF框架(資源描述框架)中描述出來。資源描述框架是20世紀(jì)90年代末萬維網(wǎng)聯(lián)盟推出的一項(xiàng)標(biāo)準(zhǔn)框架,其初衷是為了描述網(wǎng)絡(luò)上的資源,如某個網(wǎng)站上的網(wǎng)頁的發(fā)布時間、作者、點(diǎn)擊數(shù),等等。在網(wǎng)絡(luò)資源的定義泛化后,RDF描述的對象也開始被無限擴(kuò)大,現(xiàn)在所有網(wǎng)絡(luò)上的數(shù)據(jù)都能夠被RDF描述了[8]。由于RDF有很好的描述性,可以描述網(wǎng)絡(luò)上幾乎所有的數(shù)據(jù),因此,圖書館利用RDF框架,可以將館內(nèi)的館藏資源系統(tǒng)、全面地描述出來。所以在進(jìn)行模型設(shè)計(jì)時,圖書館應(yīng)當(dāng)使用統(tǒng)一的RDF框架進(jìn)行描述,為關(guān)聯(lián)推薦的方案提供實(shí)現(xiàn)機(jī)制。個別示例如下:
如元數(shù)據(jù)描述的作者類別屬性值為“A”,則可以表述為:
如若某論文作者為馬費(fèi)成,則元數(shù)據(jù)描述的作者屬性值為“馬費(fèi)成”,可以表述為:
本文對圖書館語義解釋層面的設(shè)計(jì)分為2種形式混合的標(biāo)引方式,其中一種是機(jī)器標(biāo)引,另一種是手工標(biāo)注。首先,應(yīng)對圖書館數(shù)據(jù)庫內(nèi)的書籍與文獻(xiàn)進(jìn)行機(jī)器自動語義提取與采集,在經(jīng)過技術(shù)館員設(shè)定各個標(biāo)準(zhǔn)后,由計(jì)算機(jī)自行判斷資源的類型與資源的各個屬性值,之后機(jī)器再自適應(yīng)地鏈接到相應(yīng)的語義標(biāo)注機(jī),語義標(biāo)注機(jī)根據(jù)不同的館藏類型選擇合適的語義進(jìn)行標(biāo)注,最后在服務(wù)器上存儲標(biāo)注的語義內(nèi)容。由于機(jī)器標(biāo)注已經(jīng)能夠?qū)⒋蟛糠逐^藏準(zhǔn)確標(biāo)注,所以先進(jìn)行機(jī)器標(biāo)注的原因是機(jī)器標(biāo)注可以最大程度地減輕館員的工作負(fù)擔(dān),減少館員的工作壓力。但目前機(jī)器標(biāo)注還具有一定的局限性,對于部分機(jī)器無法準(zhǔn)確識別并標(biāo)注的館藏,則需要館員進(jìn)行手工標(biāo)注。這要求館員先對比書商給出的書籍標(biāo)注與機(jī)器標(biāo)引后的結(jié)果,再根據(jù)自己的知識與經(jīng)驗(yàn),對該部分館藏進(jìn)行深入標(biāo)注。同時,館員將標(biāo)注后的館藏文獻(xiàn)反饋到系統(tǒng)中。同時,這也是一個機(jī)器學(xué)習(xí)的過程,待語料庫內(nèi)的預(yù)料資源足夠豐富,機(jī)器學(xué)習(xí)成熟到一定的階段,機(jī)器標(biāo)注的準(zhǔn)確性將達(dá)到一個很高的水平。在這種情況下,圖書館員將只需要進(jìn)行小部分的手工標(biāo)注甚至不需要進(jìn)行手工標(biāo)注。
值得說明的是,一篇文獻(xiàn)的語義元數(shù)據(jù)并不能僅僅通過文獻(xiàn)的名稱信息或者關(guān)鍵詞信息進(jìn)行簡單地標(biāo)注,還需要對文獻(xiàn)的本身內(nèi)容進(jìn)行深入的知識挖掘。例如:查詢羅貫中寫的《三國演義》可以關(guān)聯(lián)到陳壽所著的《三國志》,這是因?yàn)檫@兩本古籍名稱都有“三國”二字,程序可以將具有相同書名關(guān)鍵字的館藏聯(lián)系到一起,供讀者在進(jìn)行館藏選讀時做輔助參考。但是,如果用戶搜索孫臏所著的《三十六計(jì)》,則難以關(guān)聯(lián)到孫武所寫的《孫子兵法》,或是諸葛亮所著的《兵法二十四篇》。從書籍的屬性上來說,這3本書都是兵法書,理應(yīng)互相關(guān)聯(lián)。因此,對語義元數(shù)據(jù)的知識化深度標(biāo)引是十分必要的。
在知識層面建立語義關(guān)聯(lián)需要對圖書館的館藏語料庫進(jìn)行深度挖掘與統(tǒng)計(jì),找尋在不同資源的語義內(nèi)容并分析其共現(xiàn)頻次,一些機(jī)器難以標(biāo)引的內(nèi)容需要館員進(jìn)行手工標(biāo)注并對機(jī)器進(jìn)行訓(xùn)練,以達(dá)到最終實(shí)現(xiàn)機(jī)器完全自動標(biāo)引的目的。
例如,根據(jù)國家的新文科建設(shè)及“十四五”開局的部署規(guī)劃,圖書館應(yīng)及時轉(zhuǎn)變自身陳舊的“數(shù)字化轉(zhuǎn)型”認(rèn)知觀念,明晰新時期圖書館數(shù)字化轉(zhuǎn)型的內(nèi)涵與要求,積極響應(yīng)國家的號召,以實(shí)現(xiàn)新時期的圖書館數(shù)字化轉(zhuǎn)型[9]。目前,國內(nèi)已經(jīng)有許多圖書館人注意到了數(shù)字化轉(zhuǎn)型的重要性并展開研究。在下載率很高的新文獻(xiàn)中,由于篇名與關(guān)鍵詞中都未出現(xiàn)“數(shù)字化轉(zhuǎn)型”的字眼,《新冠疫情下美國大學(xué)圖書館館藏圖書的在線訪問——受控?cái)?shù)字借閱》[10]這篇文章卻難以直觀地反映出該文章是關(guān)于圖書館數(shù)字化轉(zhuǎn)型的論文。按照現(xiàn)有的相關(guān)書目推薦系統(tǒng),該文獻(xiàn)難以與其他數(shù)字化轉(zhuǎn)型主題的館藏相互關(guān)聯(lián),當(dāng)用戶在查詢有關(guān)“數(shù)字化轉(zhuǎn)型”文獻(xiàn)時,該文獻(xiàn)容易成為漏網(wǎng)之魚,最終造成用戶的信息需求得不到很好的滿足。通過去除該文獻(xiàn)中的虛詞以及無意義的實(shí)詞后,對該文獻(xiàn)進(jìn)行深度標(biāo)引以及語義分析可以發(fā)現(xiàn),該文獻(xiàn)詞頻較高的關(guān)鍵詞如圖1所示。可以看出圖書館、數(shù)字化、數(shù)字、轉(zhuǎn)型都為該文獻(xiàn)的高頻詞,即使文獻(xiàn)的名稱與關(guān)鍵字中都未出現(xiàn)“數(shù)字化轉(zhuǎn)型”等字眼,通過深度標(biāo)引及語義分析后,該文獻(xiàn)依舊可以被識別出其關(guān)鍵信息,并加上“數(shù)字化轉(zhuǎn)型”的標(biāo)引。因此,在深度標(biāo)引后,該文獻(xiàn)便可以與其他數(shù)字化轉(zhuǎn)型的論文相互關(guān)聯(lián)。
圖1 詞頻分析圖
同理,也可以對《三十六計(jì)》《孫子兵法》與《兵法二十四篇》進(jìn)行深度知識標(biāo)引,將文獻(xiàn)類型標(biāo)引為標(biāo)記語言的<古籍><兵法>等,以實(shí)現(xiàn)并加強(qiáng)書籍之間的互相關(guān)聯(lián)。
語義存儲層指的是將語義解釋層標(biāo)注后的文獻(xiàn)信息以規(guī)定的格式儲存到圖書館的數(shù)據(jù)庫中,供實(shí)際應(yīng)用層進(jìn)行訪問。圖書館一般使用通用的XML語言對館藏的元數(shù)據(jù)進(jìn)行標(biāo)引,因此本文以XML語言為例對儲存層面的設(shè)計(jì)進(jìn)行舉例說明。需要說明的是,一個能夠良好運(yùn)行的系統(tǒng)需要統(tǒng)一的語言進(jìn)行編寫,否則運(yùn)行時系統(tǒng)會出現(xiàn)許多麻煩。因此,語義存儲層必須從頭到尾都使用同一種標(biāo)引語言來進(jìn)行編寫,否則在進(jìn)行統(tǒng)一存儲后會出現(xiàn)館藏信息無法識別的情況,進(jìn)一步導(dǎo)致用戶的體驗(yàn)降低,讀者的信息需求得不到滿足等缺陷產(chǎn)生。并且在整個系統(tǒng)完成后,其修改的過程也比較煩瑣,如果是用了好幾種不同的標(biāo)引語言進(jìn)行編寫,則需要技術(shù)館員花費(fèi)大量的精力修改不一致的編寫語言,甚至?xí)霈F(xiàn)整個語義存儲層都要重新編寫的情況,費(fèi)時費(fèi)力。
使用XML語言進(jìn)行編寫的示例如下:
圖書館公眾號的實(shí)際應(yīng)用層指的是用戶在使用圖書館公眾號時直接使用的界面。與其他界面不同,用戶可以直接看到實(shí)際應(yīng)用層的設(shè)計(jì)部分,因此,該部分設(shè)計(jì)的好壞能夠直接影響到讀者的用戶體驗(yàn)。圖書館公眾號的界面需做到簡潔、有序,且欄目的設(shè)置要清晰、明確。在注重內(nèi)容的同時,還要加大力度做好編輯美化工作[11]。在設(shè)計(jì)圖書館公眾號的書目詳細(xì)資料界面時,應(yīng)設(shè)計(jì)得得體、美觀。由于受手機(jī)屏幕為長方形的限制,將相關(guān)推薦的分欄如主機(jī)端一般放在館藏信息的右側(cè)將會使館藏信息變得過長,影響界面美觀及閱讀體驗(yàn)。因此,相關(guān)推薦分欄應(yīng)放在詳細(xì)書目信息的下方。資料界面應(yīng)當(dāng)設(shè)計(jì)簡潔,不宜過于復(fù)雜,相關(guān)的館藏推薦應(yīng)控制在8個以內(nèi),可以以語義關(guān)聯(lián)度的高低排列出現(xiàn),也可以根據(jù)圖書館各自的考量自行安排。出于美觀的考慮,相關(guān)推薦設(shè)計(jì)的數(shù)量不宜為單數(shù)。相關(guān)推薦處可以使用查詢語句對圖書館的數(shù)據(jù)庫進(jìn)行訪問,再由數(shù)據(jù)庫發(fā)回信息反饋給讀者,如:
SELECT
各圖書館還可以根據(jù)自己的理解對關(guān)聯(lián)信息語義元數(shù)據(jù)進(jìn)行不同的加權(quán),使得相關(guān)推薦的書目更加合理,如
整個模型的設(shè)計(jì)結(jié)構(gòu)為先將館藏資源通過機(jī)器標(biāo)引或人工標(biāo)引,再通過深度的知識挖掘與語義關(guān)聯(lián)分析進(jìn)行解釋,最終進(jìn)入語義存儲層,以上是圖書館數(shù)據(jù)庫層面的部分。接下來存儲層根據(jù)應(yīng)用層發(fā)出訪問要求返回?cái)?shù)據(jù),最終將信息傳遞給用戶??傮w模型設(shè)計(jì)圖如圖2所示。
圖2 館藏互聯(lián)模型圖
目前國內(nèi)圖書館的微信公眾號使用人數(shù)越來越多,越來越多的讀者開始使用公眾號接受圖書館的服務(wù)。在“互聯(lián)網(wǎng)+”的環(huán)境下,年輕人大部分時間都是用手機(jī)和電腦進(jìn)行閱讀,用手機(jī)在微信群里閱讀朋友圈的分享信息鏈接,瀏覽新聞等成了休閑閱讀最常見的方式[12]。因此,圖書館的公眾號建設(shè)變得愈發(fā)重要。然而,圖書館公眾號內(nèi)的館藏信息存在著館藏關(guān)聯(lián)性弱的問題,當(dāng)用戶在搜索某一個類型的文獻(xiàn)時,單個館藏難以或無法關(guān)聯(lián)到其他相似的文獻(xiàn)。這種情況的出現(xiàn)不利于館藏的合理利用,也使得圖書館未能向用戶提供細(xì)致、便捷的服務(wù)。因此,圖書館可以通過對語義的挖掘來將相似館藏連接起來,在讀者搜索文獻(xiàn)時能夠輔助讀者找到自己最想要的文獻(xiàn)。本文基于語義關(guān)聯(lián)建立了一個針對微信公眾號的館藏互聯(lián)模型,從元數(shù)據(jù)標(biāo)注層、語義解釋層、語義存儲層與實(shí)際應(yīng)用層進(jìn)行設(shè)計(jì),圖書館公眾號可以向統(tǒng)一標(biāo)引語言的圖書館數(shù)據(jù)庫發(fā)送請求信息,待信息返回后將關(guān)聯(lián)的館藏信息呈現(xiàn)給讀者,最終實(shí)現(xiàn)優(yōu)化館藏資源的利用與更好地為圖書館用戶服務(wù)的目的。