基于用戶行為的學(xué)術(shù)文獻(xiàn)個(gè)性化推薦研究

2015-06-24 11:15肖詩伯等

電腦知識(shí)與技術(shù) 2015年2期

肖詩伯等

摘要：為幫助科研用戶解決在海量文獻(xiàn)檢索中遇到的信息過載等問題，該文從用戶使用文獻(xiàn)的行為出發(fā)，運(yùn)用大數(shù)據(jù)分析中隨機(jī)游走的二分圖算法分析處理，通過協(xié)同過濾的方式預(yù)測用戶未來的文獻(xiàn)需求。評(píng)價(jià)指標(biāo)顯示本模型準(zhǔn)確率為72.4%、覆蓋率為14.6%、召回率為69.1%。能較好完成對(duì)文獻(xiàn)的預(yù)測，實(shí)現(xiàn)對(duì)用戶的個(gè)性化推薦，主動(dòng)改善用戶的文獻(xiàn)檢索環(huán)境。

關(guān)鍵詞：二分圖；隨機(jī)游走；大數(shù)據(jù)；個(gè)性化；文獻(xiàn)；推薦系統(tǒng)

中圖分類號(hào)：TP311 文獻(xiàn)標(biāo)識(shí)碼：A 文章編號(hào)：1009-3044（2015）02-0008-03

Abstrac： This paper for helps researcher solve the information overload problems in vast literature search. From the user's literature use behavior， use the Random-Walk bipartite graph theory of big data analysis to analysis and processing， Through collaborative filtering approach to predict user future literature needs. Evaluating indicator shows the model： Precision rate of 72.4%，Coverage rate of 14.6%，Recall rate of 69.1%. It can be better to complete the predict for literature， to realize the individuation recommendation for user， initiative to improve the user's literature retrieval environment.

Key words： bipartite graph； random walk； big data； individuation； literature； recommendation system

隨著“中國創(chuàng)造”的不斷提升和發(fā)展，科研工作中各學(xué)科的融合性和精細(xì)度越來越受到重視，海量的科研學(xué)術(shù)文獻(xiàn)也日益涌現(xiàn)。然而，科研用戶的文獻(xiàn)檢索方法仍多采用關(guān)鍵字檢索，而簡單同質(zhì)的關(guān)鍵字檢索：一方面不能充分表達(dá)用戶的科研特色、側(cè)重點(diǎn)及知識(shí)需求；另一方面檢索結(jié)果過多而發(fā)生信息過載現(xiàn)象，造成用戶花費(fèi)大量時(shí)間篩選無關(guān)文獻(xiàn)。同時(shí)通過期刊分類導(dǎo)航獲得的文獻(xiàn)也有科學(xué)局限性，無法很好服務(wù)于融合多學(xué)科的科研工程。

隨著大數(shù)據(jù)、機(jī)器學(xué)習(xí)、web2.0等技術(shù)的出現(xiàn)與成熟，可通過人工智能的方式解決此類問題[1，2]。本文運(yùn)用二分圖模型算法，分析用戶的文獻(xiàn)使用行為特征、個(gè)人屬性和文獻(xiàn)特征。一方面通過用戶之間的行為相似度，分析用戶興趣，預(yù)測用戶真實(shí)及潛在需求的文獻(xiàn)需求并向其主動(dòng)推薦，以幫助用戶面對(duì)海量文獻(xiàn)資源不易找到適合自身需求文獻(xiàn)的信息現(xiàn)象；另一方面挖掘每篇文獻(xiàn)的知識(shí)價(jià)值，將適合的文獻(xiàn)推薦給適合的用戶，而不僅僅推薦新、熱方向的學(xué)術(shù)文獻(xiàn)，解決因海量文獻(xiàn)所產(chǎn)生的長尾效應(yīng)（The Long Tail）。

1 研究思路

將用戶對(duì)文獻(xiàn)的使用行為（如：下載、閱讀），視為用戶對(duì)具體某文獻(xiàn)的興趣和知識(shí)需求。在多用戶使用文獻(xiàn)的行為中，行為相似性越高，表明其行為和知識(shí)需求越相似。通過對(duì)行為相似度分析，發(fā)現(xiàn)用戶還未產(chǎn)生行為而有知識(shí)需求的文獻(xiàn)，這類文獻(xiàn)或是用戶當(dāng)前研究點(diǎn)中需要的知識(shí)，也或是下一步研究領(lǐng)域中的潛在需求知識(shí)。最終將滿足用戶個(gè)性化需求的文獻(xiàn)主動(dòng)推薦給用戶。讓用戶從知識(shí)圈、興趣圈的角度獲取文獻(xiàn)，這屬于大數(shù)據(jù)分析中以協(xié)同過濾方式對(duì)海量“用戶-文獻(xiàn)”行為進(jìn)行分析的方法。

本文運(yùn)用大數(shù)據(jù)分析技術(shù)中的二分圖模型算法[3]，來分析“用戶-文獻(xiàn)”之間的概率相關(guān)性。這是用頂點(diǎn)和邊來表示概率分布的技術(shù)。將用戶與文獻(xiàn)2變量之間的關(guān)系獨(dú)立編碼在“圖”中表示，使概率分布的表達(dá)表示成因子乘積的形式。其優(yōu)點(diǎn)是可以更好的捕獲隨機(jī)變量間的關(guān)系。應(yīng)用方法為：將用戶使用行為轉(zhuǎn)換為一系列無向二元組表達(dá)，單個(gè)二元組用V（u，l）表示用戶閱讀過文獻(xiàn)l，閱讀行為通過“邊”e（u，l）來連接?！坝脩?文獻(xiàn)”二分圖模型如下圖1示例：

其中un為具體用戶頂點(diǎn)，ln為具體文獻(xiàn)頂點(diǎn)。Vu為用戶頂點(diǎn)集合，Vl為文獻(xiàn)頂點(diǎn)集合。e為通過使用行為連接用戶與文獻(xiàn)的邊。用戶u1與l2、l3相連，表示該用戶對(duì)這2篇文獻(xiàn)產(chǎn)生過使用行為。文獻(xiàn)l2與u1、u2、u3相連，表示該文獻(xiàn)被這3名用戶使用過。

3個(gè)性化推薦方法

為在二分圖模型上分析用戶文獻(xiàn)使用行為，實(shí)現(xiàn)個(gè)性化推薦。首先將用戶u的文獻(xiàn)推薦任務(wù)轉(zhuǎn)換為：度量與用戶頂點(diǎn)u沒有“邊”相連的文獻(xiàn)頂點(diǎn)l與用戶u的相關(guān)性。對(duì)相關(guān)性的計(jì)算采用一種概率系數(shù)的方式[4]。然后將用戶u對(duì)所有文獻(xiàn)的相關(guān)概率進(jìn)行排序，概率系數(shù)越高表示用戶u選擇某文獻(xiàn)l的可能性越大。最后取概率最高的前30篇文獻(xiàn)作為推薦列表向用戶展示，來實(shí)現(xiàn)用戶個(gè)性化文獻(xiàn)推薦。

影響用戶與未產(chǎn)生行為的文獻(xiàn)之間相關(guān)概率的因素有：1從用戶頂點(diǎn)到文獻(xiàn)頂點(diǎn)間“邊”的數(shù)量；2用戶頂點(diǎn)與文獻(xiàn)頂點(diǎn)間“邊”的長度；3同類2頂點(diǎn)之間“邊”經(jīng)過的異類頂點(diǎn)數(shù)。

具有較高相關(guān)概率的2頂點(diǎn)的特征有：12頂點(diǎn)之間的“邊”長度較短；22頂點(diǎn)之間“邊”的路徑較多；32頂點(diǎn)之間的“邊”未經(jīng)過較大Out-Degree（出度）的頂點(diǎn)。

3.1數(shù)據(jù)準(zhǔn)備

將“用戶-文獻(xiàn)”行為數(shù)據(jù)集按行為產(chǎn)生的時(shí)間軸分為8份。先產(chǎn)生行為的7份作訓(xùn)練樣本，用來計(jì)算用戶對(duì)未行為文獻(xiàn)的相關(guān)性。最后1份作測試樣本，與訓(xùn)練樣本計(jì)算出的文獻(xiàn)作對(duì)比驗(yàn)證，以評(píng)價(jià)算法的計(jì)算準(zhǔn)確性。通過創(chuàng)建Numpy運(yùn)算符和科學(xué)計(jì)算包以調(diào)用函數(shù)。采用二分圖模型中基于隨機(jī)游走的Personalrank算法來計(jì)算“圖”中2頂點(diǎn)之間的相關(guān)概率[5]。初始化各頂點(diǎn)的初始概率值：用戶u頂點(diǎn)的初始游走概率α=1，文獻(xiàn)頂點(diǎn)的初始訪問概率β=0，定義“邊”的權(quán)重為1，然后運(yùn)用迭代公式處理。

3.2算法實(shí)施

第一步，運(yùn)用隨機(jī)游走的路徑選擇方式，從用戶un頂點(diǎn)開始，在“用戶-文獻(xiàn)”二分圖中隨機(jī)選擇“邊”e游走到下一個(gè)頂點(diǎn)[6]。到達(dá)一個(gè)頂點(diǎn)后，首先計(jì)算概率α=1-d判斷是否繼續(xù)游走。若繼續(xù)游走：則又按照隨機(jī)路徑選擇的方式，在當(dāng)前頂點(diǎn)上選擇一條“邊”e向下一個(gè)頂點(diǎn)游走，到達(dá)后繼續(xù)計(jì)算概率α重復(fù)下去。若計(jì)算出的概率α為停止：則回到用戶un頂點(diǎn)，重新進(jìn)行下一輪游走。針對(duì)某用戶un經(jīng)過這樣多次隨機(jī)游走后，將每篇文獻(xiàn)頂點(diǎn)的被訪問到的概率迭代到一起，就能獲得一個(gè)收斂的穩(wěn)定值。通過對(duì)文獻(xiàn)訪問概率排序，提取概率最高的30篇用戶un未產(chǎn)生行為的文獻(xiàn)，就能預(yù)測到與某用戶高度相關(guān)的、有需求文獻(xiàn)。

4.2實(shí)驗(yàn)結(jié)果

本實(shí)驗(yàn)采用CiteULike提供的數(shù)據(jù)集，該數(shù)據(jù)集含有1800多用戶對(duì)1.2萬篇文獻(xiàn)的行為數(shù)據(jù)，其中包含“用戶-文獻(xiàn)”無向圖數(shù)據(jù)6萬多條。未人為去除噪音數(shù)據(jù)，計(jì)算結(jié)果能體現(xiàn)真實(shí)行為情況。對(duì)計(jì)算模型匯總的隨機(jī)游走參數(shù)α，在多次測試計(jì)算中對(duì)比認(rèn)為取0.87為最佳。

將本文構(gòu)建的計(jì)算模型對(duì)訓(xùn)練樣本進(jìn)行計(jì)算，得出的推薦列表通過評(píng)價(jià)公式驗(yàn)證，其結(jié)果如下表1所示：

通過與理想狀態(tài)下的樸素貝葉斯、K-NN算法比較，本模型的準(zhǔn)確率和召回率差異不是太大，能較好實(shí)現(xiàn)對(duì)用戶行為的分析和預(yù)測。覆蓋率為14.6%說明計(jì)算模型能較好挖掘長尾文獻(xiàn)。通過實(shí)驗(yàn)，發(fā)現(xiàn)數(shù)據(jù)維度的向量大小與時(shí)間、空間復(fù)雜度有很大關(guān)系。

5總結(jié)

本文針對(duì)海量學(xué)術(shù)文獻(xiàn)的檢索過程中，科研用戶常遇到信息過載等現(xiàn)象而無法較好獲取適合自身需求的文獻(xiàn)的問題。結(jié)合當(dāng)前大數(shù)據(jù)、機(jī)器學(xué)習(xí)技術(shù)中的二分圖模型算法，分析多用戶對(duì)文獻(xiàn)的使用行為，發(fā)現(xiàn)用戶未來的文獻(xiàn)需求。實(shí)驗(yàn)結(jié)果反映算法能較好完成預(yù)測質(zhì)量，達(dá)到向用戶推薦文獻(xiàn)的要求。能幫助用戶解決信息過載問題，發(fā)掘相對(duì)較低流行度文獻(xiàn)，體現(xiàn)科研內(nèi)容價(jià)值。下一步研究中：一方面，可通過增加文獻(xiàn)內(nèi)容特征，提高計(jì)算準(zhǔn)確率；另一方面，可運(yùn)用基于位置敏感的LSH（哈希函數(shù)）來降低運(yùn)算的空間、時(shí)間復(fù)雜度。

參考文獻(xiàn)：

[1] 王國霞，劉賀平.個(gè)性化推薦系統(tǒng)綜述[J].計(jì)算機(jī)工程與應(yīng)用，2012，48（7）：66-76.

[2] 肖詩伯，楊玉梅，蘭鷹，等.基于多標(biāo)簽屬性的學(xué)術(shù)文獻(xiàn)推薦研究[J].情報(bào)探索，2015，（04）：8-10.

[3] 張宏毅，王立威，陳瑜希，等.概率圖模型研究進(jìn)展綜述[J].軟件學(xué)報(bào)，2013，（11）：2476-2497.

[4] 劉建偉，黎海恩，羅雄麟，等.概率圖模型表示理論[J].計(jì)算機(jī)科學(xué)，2014，41（9）：1-17.

[5] 原福永，蔡紅蕾. 一種在信任網(wǎng)絡(luò)中隨機(jī)游走的推薦算法[J].現(xiàn)代圖書情報(bào)技術(shù)，2014，30（10）：70-75.

[6] 趙悅. 概率圖模型學(xué)習(xí)理論及其應(yīng)用[M].北京：清華大學(xué)出版社，2012：52-61

[7] 劉建國，周濤，郭強(qiáng)，等. 個(gè)性化推薦系統(tǒng)評(píng)價(jià)方法綜述[J].復(fù)雜系統(tǒng)與復(fù)雜性科學(xué)，2009，6（3）：1-10.

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

基于用戶行為的學(xué)術(shù)文獻(xiàn)個(gè)性化推薦研究