李曉旭
(濱州市圖書館,山東 濱州 256600)
互聯(lián)網(wǎng)技術(shù)的廣泛應(yīng)用,在給用戶獲取信息帶來便利的同時(shí),也使得用戶的信息行為軌跡更容易被獲取。借助大數(shù)據(jù)、數(shù)據(jù)挖掘等技術(shù),對(duì)用戶數(shù)據(jù)進(jìn)行采集分析,是深入分析用戶需求、跟蹤掌握用戶動(dòng)態(tài)變化的有效方法。對(duì)于轉(zhuǎn)型發(fā)展中的數(shù)字圖書館而言,借助用戶數(shù)據(jù)與資源分析,利用智能化技術(shù)創(chuàng)新閱讀推廣方式,強(qiáng)化對(duì)用戶需求的感知度,將更好地提升圖書館服務(wù)價(jià)值。但隨著數(shù)字圖書館存儲(chǔ)資源的迅速增多,尤其是數(shù)字化信息的迅速增長(zhǎng),不僅對(duì)圖書館數(shù)據(jù)處理能力提出考驗(yàn),也增加了用戶獲取感興趣資源的難度。圖書館要提高海量資源的處理效率,將適宜的閱讀內(nèi)容推送給用戶,實(shí)現(xiàn)資源推薦與用戶需求的匹配,還需要探索建立閱讀推薦模型,進(jìn)而保障數(shù)據(jù)處理與推送的可靠性。而用戶畫像作為當(dāng)今研究的熱點(diǎn)之一,是將抽象的用戶數(shù)據(jù)轉(zhuǎn)化為具象實(shí)體的技術(shù),為圖書館預(yù)測(cè)用戶需求,實(shí)現(xiàn)精準(zhǔn)信息推薦提供了新思路。筆者認(rèn)為,將用戶畫像與智能推薦技術(shù)引入數(shù)字圖書館服務(wù)中,可有效掌握用戶多樣化的需求,建立智能閱讀推薦模式,以便更好地提升閱讀推薦服務(wù)效益。
數(shù)字圖書館與傳統(tǒng)圖書館的區(qū)別,就在于其能夠突破時(shí)空限制,拓展資源存儲(chǔ)空間,讓用戶足不出戶就可以輕松獲得即時(shí)信息。數(shù)字圖書館通過各種方式將閱讀資源推薦給用戶,并引導(dǎo)他們合理利用,就是閱讀推薦[1]。在移動(dòng)互聯(lián)網(wǎng)環(huán)境下,數(shù)字化資源不斷豐富,數(shù)字圖書館存儲(chǔ)的資源更加多樣,能夠提供的服務(wù)內(nèi)容也逐漸增多,如基于客戶端、官網(wǎng)、微信等,向特定用戶推薦閱讀資源。數(shù)字圖書館閱讀推薦屬于主動(dòng)服務(wù),不需要用戶自行檢索,系統(tǒng)就可以直接將閱讀資源推送至用戶終端,通過智能代理方式減少信息冗余,提高服務(wù)水平,是當(dāng)下流行的圖書館服務(wù)新模式。
圖書館用戶來自各行各業(yè),專業(yè)背景、工作經(jīng)歷與閱讀需求均有很多的差別,這就需要對(duì)用戶進(jìn)行合理分類,將具有相同愛好的用戶聚集起來,方便閱讀資源的推送。網(wǎng)絡(luò)環(huán)境下信息來源增多,圖書館用戶更加希望獲得個(gè)性化內(nèi)容,希望接收到的推薦內(nèi)容具有真實(shí)性、權(quán)威性、可靠性。同時(shí)相較于傳統(tǒng)的短信服務(wù)方式,基于移動(dòng)APP的信息推送更受用戶青睞,也成為圖書館開展移動(dòng)閱讀服務(wù)的新方式[2]。此外,并非所有用戶都希望經(jīng)常接收?qǐng)D書館的推薦內(nèi)容,過多的信息推送反而會(huì)招致反感,這也提醒數(shù)字圖書館要考慮推送頻率問題。
用戶畫像是以大量用戶真實(shí)數(shù)據(jù)設(shè)計(jì)的目標(biāo)用戶模型,是以多種方式獲得用戶特征信息,將抽象的用戶數(shù)據(jù)具象化的方法?;ヂ?lián)網(wǎng)環(huán)境下每時(shí)每刻都在產(chǎn)生用戶數(shù)據(jù),采用數(shù)據(jù)挖掘、關(guān)聯(lián)分析等技術(shù),對(duì)用戶標(biāo)簽進(jìn)行描述與抽取,從行為習(xí)慣、社會(huì)屬性等角度勾勒用戶畫像,本身也是給用戶“貼標(biāo)簽”的過程。用戶畫像技術(shù)的應(yīng)用,可以將用戶的行為、特征與需求關(guān)聯(lián)起來,讓服務(wù)者將焦點(diǎn)放在目標(biāo)用戶的動(dòng)機(jī)上,進(jìn)而設(shè)計(jì)更有針對(duì)性的服務(wù)產(chǎn)品。用戶畫像在數(shù)字圖書館中的應(yīng)用,將幫助館員挖掘潛在用戶,掌握用戶偏好,結(jié)合不同群體的特點(diǎn)定制合理的資源,實(shí)現(xiàn)精準(zhǔn)化信息推送。
推薦算法是建立推薦模型的基礎(chǔ),是數(shù)字圖書館保障閱讀推薦可靠性、決定用戶體驗(yàn)的重要方法。隨著科學(xué)技術(shù)的進(jìn)步,推薦算法的種類增多,成為實(shí)現(xiàn)個(gè)性化信息推送的關(guān)鍵,目前圖書館常用的推薦算法包括基于知識(shí)的推薦、基于內(nèi)容的推薦、協(xié)同過濾推薦等。
數(shù)字圖書館引入基于知識(shí)的推薦算法,實(shí)質(zhì)上是通過分析特定應(yīng)用場(chǎng)景,對(duì)目標(biāo)群體的特征進(jìn)行提取,建立能夠描述整個(gè)推薦場(chǎng)景,涵蓋目標(biāo)對(duì)象、關(guān)聯(lián)規(guī)則與對(duì)應(yīng)關(guān)系的知識(shí)領(lǐng)域?;谥R(shí)的推薦強(qiáng)調(diào)深入分析服務(wù)項(xiàng)目的特點(diǎn),并非依賴用戶行為數(shù)據(jù)捕獲與計(jì)算分析,而是一種信息過濾機(jī)制,是引導(dǎo)用戶主動(dòng)發(fā)現(xiàn)候選項(xiàng)中潛在的感興趣內(nèi)容,然后將這些內(nèi)容主動(dòng)推送至用戶終端的個(gè)性化方法。該算法包括基于約束規(guī)則和基于實(shí)體推薦兩類,均需要引導(dǎo)目標(biāo)群體發(fā)現(xiàn)需求,然后根據(jù)需求設(shè)計(jì)推送方案[3]。若系統(tǒng)在一定時(shí)間內(nèi)不能給出解決方案,則用戶可以修改或提出新請(qǐng)求,并由系統(tǒng)再次進(jìn)行計(jì)算處理。
數(shù)字圖書館根據(jù)服務(wù)系統(tǒng)中既有的用戶數(shù)據(jù),找到與目標(biāo)用戶行為偏好對(duì)應(yīng)的閱讀資源,并主動(dòng)推送給用戶的方式,就是基于內(nèi)容的推薦。這項(xiàng)技術(shù)是對(duì)信息過濾技術(shù)的拓展,涉及信息提取、過濾、文本處理等過程,以對(duì)服務(wù)項(xiàng)目的針對(duì)性分析制定推薦方案,不需要用戶參與服務(wù)項(xiàng)目評(píng)價(jià)?;趦?nèi)容的推薦融入了信息檢索技術(shù),在具體的服務(wù)場(chǎng)景中,數(shù)字圖書館選擇的推薦項(xiàng)目,一般具有可以描述的屬性,方便進(jìn)行特征提取、相似度計(jì)算與關(guān)聯(lián)分析。然后根據(jù)既往用戶對(duì)項(xiàng)目的興趣偏好,將感興趣的用戶提取出來,建立目標(biāo)用戶的興趣模型,再通過該模型開展用戶興趣學(xué)習(xí),以為不同的目標(biāo)群體推送個(gè)性化的內(nèi)容[4]。
協(xié)同過濾算法的應(yīng)用較為廣泛,是利用集體智慧處理問題的方法[5]。協(xié)同過濾算法的應(yīng)用分為離線過濾與在線協(xié)同兩部分,其中離線過濾是去除與目標(biāo)用戶無(wú)關(guān)的信息,在線協(xié)同是結(jié)合用戶興趣模型實(shí)現(xiàn)主動(dòng)推薦。數(shù)字圖書館利用協(xié)同過濾算法,可以找出興趣愛好、價(jià)值觀知識(shí)水平相近的用戶,即根據(jù)不同用戶的相似性與差異性,將偏好相似的用戶分為一類,以用戶聚類的方式實(shí)現(xiàn)主動(dòng)推送服務(wù)。在大數(shù)據(jù)密集型系統(tǒng)中,僅依靠既往用戶數(shù)據(jù)進(jìn)行分析,很難保障最終的推薦效果。為此可以采用基于模型的信息推薦方法,在用戶數(shù)據(jù)挖掘和機(jī)器學(xué)習(xí)基礎(chǔ)上,借助混合搜索算法、貝葉斯分類算法等實(shí)現(xiàn)用戶聚類,然后推送該群體感興趣的內(nèi)容。
數(shù)字圖書館要保障閱讀推薦效果,筆者認(rèn)為首先要建立用戶畫像,深入分析具有相似需求的群體,由系統(tǒng)調(diào)取合適的信息,借助智能推薦算法、智能代理等技術(shù),提供有針對(duì)性的服務(wù)內(nèi)容,由此設(shè)計(jì)的智能閱讀推薦模式如圖1所示。
圖1 數(shù)字圖書館基于用戶畫像的智能閱讀推薦模式
數(shù)字圖書館用戶需求是動(dòng)態(tài)變化的,智能閱讀推薦模型的設(shè)計(jì),需要結(jié)合每個(gè)用戶的特征,建立對(duì)應(yīng)的用戶畫像。用戶畫像層包括用戶基本信息、行為數(shù)據(jù)、標(biāo)簽體系等。建立用戶畫像是動(dòng)態(tài)采集信息,逐步分析數(shù)據(jù)與完善模型的過程,目的在于精確掌握用戶特點(diǎn),為每個(gè)用戶貼上特有的標(biāo)簽[6]。圖書館員首先要采集系統(tǒng)中的用戶基本信息,包括姓名、年齡、職業(yè)、學(xué)科背景等,然后對(duì)用戶的瀏覽歷史、閱讀資源類型等數(shù)據(jù)進(jìn)行采集,通過數(shù)據(jù)分類、關(guān)聯(lián)等處理,了解用戶的資源檢索利用偏好,以及不同用戶之間的交互關(guān)系,勾勒出用戶畫像。此外,該層要設(shè)計(jì)靜態(tài)與動(dòng)態(tài)相結(jié)合的信息采集方式,實(shí)現(xiàn)對(duì)用戶信息的全程跟蹤,并將所有信息納入用戶數(shù)據(jù)庫(kù)。
數(shù)字圖書館結(jié)合用戶畫像模型,深入分析用戶的個(gè)性化需求,要利用數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)等技術(shù),然后從館藏資源庫(kù)、專業(yè)數(shù)據(jù)庫(kù)與網(wǎng)絡(luò)平臺(tái)中調(diào)取資源,篩選、匹配符合用戶需求的閱讀資源。在這個(gè)過程中智能代理發(fā)揮著重要作用,這是一種能夠自動(dòng)感知、學(xué)習(xí)與推理,基于知識(shí)庫(kù)訓(xùn)練主動(dòng)表現(xiàn)出目標(biāo)驅(qū)動(dòng)行為,自行選擇合適的時(shí)機(jī)提供服務(wù)的技術(shù)。智能代理是閱讀推薦系統(tǒng)體現(xiàn)智能化的關(guān)鍵,能夠?qū)崿F(xiàn)動(dòng)態(tài)的信息推送[7]。數(shù)字圖書館借助智能代理技術(shù),可以主動(dòng)跟蹤用戶數(shù)據(jù),分析不同群體的潛在需求,建立用戶需求的動(dòng)態(tài)模型,并從館藏資源與網(wǎng)絡(luò)資源中通過迅速篩選、過濾、分析、匹配,將個(gè)性化閱讀內(nèi)容推送至用戶終端。智能代理采用與其他實(shí)體交互信息的方式,以學(xué)習(xí)經(jīng)驗(yàn)與知識(shí)為依據(jù),保障閱讀推薦的連續(xù)性與準(zhǔn)確性,讓每個(gè)用戶擁有定制服務(wù)內(nèi)容,基本模式如圖2所示。
圖2 數(shù)字圖書館閱讀推薦服務(wù)的智能代理模式
應(yīng)用層提供了多種形式的系統(tǒng)對(duì)外接口,方便用戶接受、檢索和查閱推送信息。在獲取用戶請(qǐng)求后,智能代理模塊將主動(dòng)檢索匹配資源,并傳輸至應(yīng)用層形成推薦清單。數(shù)字圖書館對(duì)應(yīng)用層的功能設(shè)計(jì),要做到簡(jiǎn)單、易用、操作性強(qiáng),保障資源分類的合理性,服務(wù)界面的清晰性,便于用戶自行選擇。除了為用戶推薦閱讀內(nèi)容外,還需要記錄用戶的瀏覽、下載、檢索等數(shù)據(jù),并反饋至智能代理系統(tǒng)進(jìn)行深層分析[8]。數(shù)字圖書館可以借助網(wǎng)頁(yè)、移動(dòng)APP、短信等方式傳遞信息,推送豐富的服務(wù)內(nèi)容,如最新書目清單、館內(nèi)活動(dòng)通知等,設(shè)計(jì)用戶評(píng)論、薦讀設(shè)置等模塊,便于用戶在線發(fā)表評(píng)論,分享經(jīng)驗(yàn),也便于用戶對(duì)感興趣的內(nèi)容、資源類型、接受頻率進(jìn)行修改,滿足他們的動(dòng)態(tài)需求。
結(jié)合上述模式,數(shù)字圖書館提供智能閱讀推薦服務(wù),需要經(jīng)歷數(shù)據(jù)采集、資源匹配、個(gè)性化推薦3個(gè)階段,每個(gè)階段都需要采用適宜的技術(shù)、方法和手段,切實(shí)滿足用戶的個(gè)性化閱讀需求。
在初始階段,數(shù)字圖書館需借助智能閱讀推薦系統(tǒng),實(shí)現(xiàn)對(duì)用戶特征信息的采集,對(duì)用戶個(gè)體、用戶群體、社會(huì)活動(dòng)進(jìn)行監(jiān)測(cè),從微觀與宏觀角度獲得用戶終端的場(chǎng)景信息。具體采集內(nèi)容包括3個(gè)方面:一是以定時(shí)遍歷的方式,在圖書館服務(wù)系統(tǒng)的空閑時(shí)段,對(duì)內(nèi)網(wǎng)中的用戶注冊(cè)信息、圖書借閱情況等靜態(tài)數(shù)據(jù)進(jìn)行采集,從中提取讀者的特征信息;二是借助網(wǎng)絡(luò)爬蟲、網(wǎng)頁(yè)抓取等技術(shù),從圖書館官網(wǎng)、社交論壇等處,不定時(shí)采集用戶數(shù)據(jù),發(fā)現(xiàn)不同群體關(guān)注的熱點(diǎn)內(nèi)容;三是在圖書館服務(wù)系統(tǒng)更新時(shí),主動(dòng)對(duì)智能閱讀推薦模型進(jìn)行更新,并同步更新用戶數(shù)據(jù)庫(kù)。然后對(duì)用戶數(shù)據(jù)進(jìn)行梳理、分析,將多個(gè)異構(gòu)數(shù)據(jù)源關(guān)聯(lián)起來,建立可用的信息結(jié)構(gòu),將零散的數(shù)據(jù)連綴成用戶場(chǎng)景信息,為智能推薦提供依據(jù)。
智能閱讀推薦是以用戶畫像為基礎(chǔ),確保用戶需求與閱讀資源有效匹配的過程。在這個(gè)過程中,數(shù)字圖書館首先要進(jìn)行讀者群體聚類,根據(jù)用戶信息采集結(jié)果,從讀者年齡、專業(yè)背景、閱讀偏好等角度,做好用戶需求分類,并結(jié)合多方采集的用戶詳細(xì)信息,對(duì)用戶需求細(xì)節(jié)進(jìn)行勾勒。然后向數(shù)據(jù)庫(kù)管理模塊提出匹配請(qǐng)求,自動(dòng)檢索符合條件的資源,將異構(gòu)數(shù)據(jù)處理結(jié)果變?yōu)橥扑]數(shù)據(jù)集。智能推薦模型也可以根據(jù)活躍度較高的群體需求,主動(dòng)將匹配度高的閱讀資源檢索出來,或借助隱語(yǔ)義模型、協(xié)同過濾算法等,調(diào)取與用戶需求匹配度高的資源。當(dāng)某個(gè)用戶產(chǎn)生閱讀需求后,系統(tǒng)會(huì)根據(jù)采集信息建立臨時(shí)的用戶場(chǎng)景視圖,主動(dòng)實(shí)現(xiàn)數(shù)據(jù)庫(kù)信息與用戶需求的匹配,提高對(duì)用戶需求的響應(yīng)效率。
智能推薦模型在獲得用戶需求匹配數(shù)據(jù)集后,采用推薦式發(fā)布的方式,滿足特定群體的需求。當(dāng)用戶登錄數(shù)字圖書館后,該模型會(huì)自動(dòng)以滾動(dòng)播放、信息彈窗等方式,在線為他們推送感興趣的內(nèi)容。若用戶未進(jìn)入圖書館系統(tǒng),則采用短信、新媒體平臺(tái)、電子郵件推薦等方式。數(shù)字圖書館的閱讀推薦,可采用本體概念來描述讀者的特征,將需求相似的用戶聚合起來,為他們推薦個(gè)性化內(nèi)容。物聯(lián)網(wǎng)、射頻識(shí)別等技術(shù)的應(yīng)用,讓數(shù)字圖書館可以隨時(shí)采集、感知用戶信息,以后臺(tái)分析的方式判斷用戶閱讀偏好,為不同的群體標(biāo)注對(duì)應(yīng)的標(biāo)簽,由推薦系統(tǒng)實(shí)時(shí)提供移動(dòng)閱讀服務(wù)。例如,武漢大學(xué)圖書館建立“移動(dòng)圖書館”,根據(jù)用戶需求在線推送新書清單、優(yōu)質(zhì)書評(píng)等內(nèi)容,讀者只需登錄手機(jī)客戶端,就可以享受個(gè)性化推薦內(nèi)容。沈陽(yáng)工業(yè)大學(xué)設(shè)計(jì)基于用戶畫像的圖書推薦APP,根據(jù)用戶的閱讀習(xí)慣進(jìn)行數(shù)據(jù)挖掘,為他們推薦有價(jià)值的書籍。
隨著信息技術(shù)的進(jìn)步,數(shù)字圖書館得以不斷普及與完善,存儲(chǔ)的閱讀資源日益豐富,為廣大用戶獲取信息提供了便利。然而要想滿足用戶的個(gè)性化需求,數(shù)字圖書館必須準(zhǔn)確把握用戶特點(diǎn),主動(dòng)推送用戶感興趣的內(nèi)容。數(shù)字圖書館有必要引入用戶畫像,確立科學(xué)的目標(biāo)與規(guī)劃,建立智能閱讀推薦模型,結(jié)合多種推薦算法與智能技術(shù),全方位提取用戶特征信息,掌握用戶需求動(dòng)態(tài)變化,提高閱讀推薦的資源匹配精準(zhǔn)度。