肖詩伯等
摘要:為幫助科研用戶解決在海量文獻(xiàn)檢索中遇到的信息過載等問題,該文從用戶使用文獻(xiàn)的行為出發(fā),運(yùn)用大數(shù)據(jù)分析中隨機(jī)游走的二分圖算法分析處理,通過協(xié)同過濾的方式預(yù)測用戶未來的文獻(xiàn)需求。評(píng)價(jià)指標(biāo)顯示本模型準(zhǔn)確率為72.4%、覆蓋率為14.6%、召回率為69.1%。能較好完成對(duì)文獻(xiàn)的預(yù)測,實(shí)現(xiàn)對(duì)用戶的個(gè)性化推薦,主動(dòng)改善用戶的文獻(xiàn)檢索環(huán)境。
關(guān)鍵詞:二分圖;隨機(jī)游走;大數(shù)據(jù);個(gè)性化;文獻(xiàn);推薦系統(tǒng)
中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2015)02-0008-03
Abstrac: This paper for helps researcher solve the information overload problems in vast literature search. From the user's literature use behavior, use the Random-Walk bipartite graph theory of big data analysis to analysis and processing, Through collaborative filtering approach to predict user future literature needs. Evaluating indicator shows the model: Precision rate of 72.4%,Coverage rate of 14.6%,Recall rate of 69.1%. It can be better to complete the predict for literature, to realize the individuation recommendation for user, initiative to improve the user's literature retrieval environment.
Key words: bipartite graph; random walk; big data; individuation; literature; recommendation system
隨著“中國創(chuàng)造”的不斷提升和發(fā)展,科研工作中各學(xué)科的融合性和精細(xì)度越來越受到重視,海量的科研學(xué)術(shù)文獻(xiàn)也日益涌現(xiàn)。然而,科研用戶的文獻(xiàn)檢索方法仍多采用關(guān)鍵字檢索,而簡單同質(zhì)的關(guān)鍵字檢索:一方面不能充分表達(dá)用戶的科研特色、側(cè)重點(diǎn)及知識(shí)需求;另一方面檢索結(jié)果過多而發(fā)生信息過載現(xiàn)象,造成用戶花費(fèi)大量時(shí)間篩選無關(guān)文獻(xiàn)。同時(shí)通過期刊分類導(dǎo)航獲得的文獻(xiàn)也有科學(xué)局限性,無法很好服務(wù)于融合多學(xué)科的科研工程。
隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)、web2.0等技術(shù)的出現(xiàn)與成熟,可通過人工智能的方式解決此類問題[1,2]。本文運(yùn)用二分圖模型算法,分析用戶的文獻(xiàn)使用行為特征、個(gè)人屬性和文獻(xiàn)特征。一方面通過用戶之間的行為相似度,分析用戶興趣,預(yù)測用戶真實(shí)及潛在需求的文獻(xiàn)需求并向其主動(dòng)推薦,以幫助用戶面對(duì)海量文獻(xiàn)資源不易找到適合自身需求文獻(xiàn)的信息現(xiàn)象;另一方面挖掘每篇文獻(xiàn)的知識(shí)價(jià)值,將適合的文獻(xiàn)推薦給適合的用戶,而不僅僅推薦新、熱方向的學(xué)術(shù)文獻(xiàn),解決因海量文獻(xiàn)所產(chǎn)生的長尾效應(yīng)(The Long Tail)。
1 研究思路
將用戶對(duì)文獻(xiàn)的使用行為(如:下載、閱讀),視為用戶對(duì)具體某文獻(xiàn)的興趣和知識(shí)需求。在多用戶使用文獻(xiàn)的行為中,行為相似性越高,表明其行為和知識(shí)需求越相似。通過對(duì)行為相似度分析,發(fā)現(xiàn)用戶還未產(chǎn)生行為而有知識(shí)需求的文獻(xiàn),這類文獻(xiàn)或是用戶當(dāng)前研究點(diǎn)中需要的知識(shí),也或是下一步研究領(lǐng)域中的潛在需求知識(shí)。最終將滿足用戶個(gè)性化需求的文獻(xiàn)主動(dòng)推薦給用戶。讓用戶從知識(shí)圈、興趣圈的角度獲取文獻(xiàn),這屬于大數(shù)據(jù)分析中以協(xié)同過濾方式對(duì)海量“用戶-文獻(xiàn)”行為進(jìn)行分析的方法。
本文運(yùn)用大數(shù)據(jù)分析技術(shù)中的二分圖模型算法[3],來分析“用戶-文獻(xiàn)”之間的概率相關(guān)性。這是用頂點(diǎn)和邊來表示概率分布的技術(shù)。將用戶與文獻(xiàn)2變量之間的關(guān)系獨(dú)立編碼在“圖”中表示,使概率分布的表達(dá)表示成因子乘積的形式。其優(yōu)點(diǎn)是可以更好的捕獲隨機(jī)變量間的關(guān)系。應(yīng)用方法為:將用戶使用行為轉(zhuǎn)換為一系列無向二元組表達(dá),單個(gè)二元組用V(u,l)表示用戶閱讀過文獻(xiàn)l,閱讀行為通過“邊”e(u,l)來連接?!坝脩?文獻(xiàn)”二分圖模型如下圖1示例:
其中un為具體用戶頂點(diǎn),ln為具體文獻(xiàn)頂點(diǎn)。Vu為用戶頂點(diǎn)集合,Vl為文獻(xiàn)頂點(diǎn)集合。e為通過使用行為連接用戶與文獻(xiàn)的邊。用戶u1與l2、l3相連,表示該用戶對(duì)這2篇文獻(xiàn)產(chǎn)生過使用行為。文獻(xiàn)l2與u1、u2、u3相連,表示該文獻(xiàn)被這3名用戶使用過。
3個(gè)性化推薦方法
為在二分圖模型上分析用戶文獻(xiàn)使用行為,實(shí)現(xiàn)個(gè)性化推薦。首先將用戶u的文獻(xiàn)推薦任務(wù)轉(zhuǎn)換為:度量與用戶頂點(diǎn)u沒有“邊”相連的文獻(xiàn)頂點(diǎn)l與用戶u的相關(guān)性。對(duì)相關(guān)性的計(jì)算采用一種概率系數(shù)的方式[4]。然后將用戶u對(duì)所有文獻(xiàn)的相關(guān)概率進(jìn)行排序,概率系數(shù)越高表示用戶u選擇某文獻(xiàn)l的可能性越大。最后取概率最高的前30篇文獻(xiàn)作為推薦列表向用戶展示,來實(shí)現(xiàn)用戶個(gè)性化文獻(xiàn)推薦。
影響用戶與未產(chǎn)生行為的文獻(xiàn)之間相關(guān)概率的因素有:1從用戶頂點(diǎn)到文獻(xiàn)頂點(diǎn)間“邊”的數(shù)量;2用戶頂點(diǎn)與文獻(xiàn)頂點(diǎn)間“邊”的長度;3同類2頂點(diǎn)之間“邊”經(jīng)過的異類頂點(diǎn)數(shù)。
具有較高相關(guān)概率的2頂點(diǎn)的特征有:12頂點(diǎn)之間的“邊”長度較短;22頂點(diǎn)之間“邊”的路徑較多;32頂點(diǎn)之間的“邊”未經(jīng)過較大Out-Degree(出度)的頂點(diǎn)。
3.1數(shù)據(jù)準(zhǔn)備
將“用戶-文獻(xiàn)”行為數(shù)據(jù)集按行為產(chǎn)生的時(shí)間軸分為8份。先產(chǎn)生行為的7份作訓(xùn)練樣本,用來計(jì)算用戶對(duì)未行為文獻(xiàn)的相關(guān)性。最后1份作測試樣本,與訓(xùn)練樣本計(jì)算出的文獻(xiàn)作對(duì)比驗(yàn)證,以評(píng)價(jià)算法的計(jì)算準(zhǔn)確性。通過創(chuàng)建Numpy運(yùn)算符和科學(xué)計(jì)算包以調(diào)用函數(shù)。采用二分圖模型中基于隨機(jī)游走的Personalrank算法來計(jì)算“圖”中2頂點(diǎn)之間的相關(guān)概率[5]。初始化各頂點(diǎn)的初始概率值:用戶u頂點(diǎn)的初始游走概率α=1,文獻(xiàn)頂點(diǎn)的初始訪問概率β=0,定義“邊”的權(quán)重為1,然后運(yùn)用迭代公式處理。
3.2算法實(shí)施
第一步,運(yùn)用隨機(jī)游走的路徑選擇方式,從用戶un頂點(diǎn)開始,在“用戶-文獻(xiàn)”二分圖中隨機(jī)選擇“邊”e游走到下一個(gè)頂點(diǎn)[6]。到達(dá)一個(gè)頂點(diǎn)后,首先計(jì)算概率α=1-d判斷是否繼續(xù)游走。若繼續(xù)游走:則又按照隨機(jī)路徑選擇的方式,在當(dāng)前頂點(diǎn)上選擇一條“邊”e向下一個(gè)頂點(diǎn)游走,到達(dá)后繼續(xù)計(jì)算概率α重復(fù)下去。若計(jì)算出的概率α為停止:則回到用戶un頂點(diǎn),重新進(jìn)行下一輪游走。針對(duì)某用戶un經(jīng)過這樣多次隨機(jī)游走后,將每篇文獻(xiàn)頂點(diǎn)的被訪問到的概率迭代到一起,就能獲得一個(gè)收斂的穩(wěn)定值。通過對(duì)文獻(xiàn)訪問概率排序,提取概率最高的30篇用戶un未產(chǎn)生行為的文獻(xiàn),就能預(yù)測到與某用戶高度相關(guān)的、有需求文獻(xiàn)。
4.2實(shí)驗(yàn)結(jié)果
本實(shí)驗(yàn)采用CiteULike提供的數(shù)據(jù)集,該數(shù)據(jù)集含有1800多用戶對(duì)1.2萬篇文獻(xiàn)的行為數(shù)據(jù),其中包含“用戶-文獻(xiàn)”無向圖數(shù)據(jù)6萬多條。未人為去除噪音數(shù)據(jù),計(jì)算結(jié)果能體現(xiàn)真實(shí)行為情況。對(duì)計(jì)算模型匯總的隨機(jī)游走參數(shù)α,在多次測試計(jì)算中對(duì)比認(rèn)為取0.87為最佳。
將本文構(gòu)建的計(jì)算模型對(duì)訓(xùn)練樣本進(jìn)行計(jì)算,得出的推薦列表通過評(píng)價(jià)公式驗(yàn)證,其結(jié)果如下表1所示:
通過與理想狀態(tài)下的樸素貝葉斯、K-NN算法比較,本模型的準(zhǔn)確率和召回率差異不是太大,能較好實(shí)現(xiàn)對(duì)用戶行為的分析和預(yù)測。覆蓋率為14.6%說明計(jì)算模型能較好挖掘長尾文獻(xiàn)。通過實(shí)驗(yàn),發(fā)現(xiàn)數(shù)據(jù)維度的向量大小與時(shí)間、空間復(fù)雜度有很大關(guān)系。
5總結(jié)
本文針對(duì)海量學(xué)術(shù)文獻(xiàn)的檢索過程中,科研用戶常遇到信息過載等現(xiàn)象而無法較好獲取適合自身需求的文獻(xiàn)的問題。結(jié)合當(dāng)前大數(shù)據(jù)、機(jī)器學(xué)習(xí)技術(shù)中的二分圖模型算法,分析多用戶對(duì)文獻(xiàn)的使用行為,發(fā)現(xiàn)用戶未來的文獻(xiàn)需求。實(shí)驗(yàn)結(jié)果反映算法能較好完成預(yù)測質(zhì)量,達(dá)到向用戶推薦文獻(xiàn)的要求。能幫助用戶解決信息過載問題,發(fā)掘相對(duì)較低流行度文獻(xiàn),體現(xiàn)科研內(nèi)容價(jià)值。下一步研究中:一方面,可通過增加文獻(xiàn)內(nèi)容特征,提高計(jì)算準(zhǔn)確率;另一方面,可運(yùn)用基于位置敏感的LSH(哈希函數(shù))來降低運(yùn)算的空間、時(shí)間復(fù)雜度。
參考文獻(xiàn):
[1] 王國霞,劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用,2012,48(7):66-76.
[2] 肖詩伯,楊玉梅,蘭鷹,等.基于多標(biāo)簽屬性的學(xué)術(shù)文獻(xiàn)推薦研究[J].情報(bào)探索,2015,(04):8-10.
[3] 張宏毅,王立威,陳瑜希, 等.概率圖模型研究進(jìn)展綜述[J].軟件學(xué)報(bào),2013,(11):2476-2497.
[4] 劉建偉,黎海恩,羅雄麟, 等.概率圖模型表示理論[J].計(jì)算機(jī)科學(xué),2014,41(9):1-17.
[5] 原福永,蔡紅蕾. 一種在信任網(wǎng)絡(luò)中隨機(jī)游走的推薦算法[J].現(xiàn)代圖書情報(bào)技術(shù),2014,30(10):70-75.
[6] 趙悅. 概率圖模型學(xué)習(xí)理論及其應(yīng)用[M].北京:清華大學(xué)出版社,2012:52-61
[7] 劉建國,周濤,郭強(qiáng), 等. 個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué),2009,6(3):1-10.