• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于用戶興趣的文獻個性化推薦研究

      2019-10-15 02:21關(guān)菲李曉靜
      軟件導刊 2019年8期
      關(guān)鍵詞:個性化推薦

      關(guān)菲 李曉靜

      摘 要:針對當前文獻推薦中個性化程度不高等問題,提出一種對用戶行為重新分配權(quán)重的度量算法。運用用戶行為數(shù)據(jù)按照時間順序重新分配權(quán)重,突出近期用戶興趣構(gòu)建用戶興趣模型。通過LDA主題分布、關(guān)鍵詞分布等方法構(gòu)建學術(shù)資源模型,實現(xiàn)兩模型間匹配,完成推薦。通過實驗驗證,該算法準確性達到80%,比傳統(tǒng)等權(quán)重算法提高近20%,召回率與F值分別提升了7%和5%。研究表明,基于時間因素的用戶興趣度量算法相較于傳統(tǒng)等權(quán)重算法具有更高的準確性,未來可進一步優(yōu)化用戶興趣度量以實現(xiàn)精準推薦服務(wù)。

      關(guān)鍵詞:精準推薦;學術(shù)資源;用戶興趣;個性化推薦

      DOI:10. 11907/rjdk. 191868 開放科學(資源服務(wù))標識碼(OSID):

      中圖分類號:TP391文獻標識碼:A 文章編號:1672-7800(2019)008-0170-04

      Personalized Recommendation of Literature Based on User Interest

      GUAN Fei,LI Xiao-jing

      (School of Mathematics and Statistics, Hebei University of Economics and Trade, Shijiazhuang 050061,China)

      Abstract: To solve the problem of low degree of personalization in current literature recommendation, a measurement algorithm for reallocating weights to user behaviors is proposed. The paper uses the user behavior data to redistribute the weight according to the time sequence, and highlights the recent user interest to build the user interest model. Through LDA topic distribution, keyword distribution and other methods to build academic resource model, the two models were matched and the recommendation was completed. The experimental results show that the accuracy of the algorithm reaches 80%, which is nearly 20% higher than the traditional equal weight algorithm. The recall rate and F value are increased by 7% and 5% respectively. The user interest measurement algorithm based on time factor has higher accuracy than the traditional equal weight algorithm. In the future, the user interest measurement can be further optimized to provide ideas for optimizing accurate recommendation services.

      Key Words:accurate recommendation; academic resources; user interest; personalized? recommendation

      基金項目:河北省自然科學基金青年項目(F2017207010)

      作者簡介:關(guān)菲(1985-),女,博士,河北經(jīng)貿(mào)大學數(shù)學與統(tǒng)計學學院副教授、碩士生導師,研究方向為模糊對策與決策、數(shù)據(jù)挖掘;李曉靜(1994-),女,河北經(jīng)貿(mào)大學數(shù)學與統(tǒng)計學學院碩士研究生,研究方向為大數(shù)據(jù)分析。

      0 引言

      數(shù)字驅(qū)動時代,人們生活方式已完成從手動自給自足到科技信息化的過渡,知識擴張和科技發(fā)展為社會的現(xiàn)代化進程提供了助力?,F(xiàn)代化主要指以現(xiàn)代工業(yè)、科技革命為推動力,由傳統(tǒng)社會向現(xiàn)代社會轉(zhuǎn)化的歷史過程,涵蓋了生活便捷、信息豐富等多方面。現(xiàn)今人們的社交也不限于面對面的交流,更多的是應(yīng)用電子軟件進行網(wǎng)上會話、網(wǎng)上購物等方式。傳統(tǒng)學習方式也發(fā)生變化,人們可以利用網(wǎng)絡(luò)搜索自己感興趣的知識進行學習,方便快捷、省時省力。當前,網(wǎng)絡(luò)技術(shù)支持每一個擁有通訊設(shè)備的人完成各種網(wǎng)上操作,無形中會有各種使用痕跡留存網(wǎng)站。研究者可以根據(jù)這些代表之前網(wǎng)絡(luò)行為的歷史數(shù)據(jù)總結(jié)用戶偏好,預(yù)測下一步行為傾向,在實施搜索之前給予推薦,達到智能個性化推薦效果。數(shù)據(jù)是一種信息資源,網(wǎng)上數(shù)據(jù)繁多,用戶行為呈現(xiàn)指數(shù)級增長,如何對其合理利用是實現(xiàn)精準推薦的重點和難點。

      目前,學者利用的推薦方法有協(xié)同過濾、基于內(nèi)容推薦和基于知識推薦等,但大多個性化推薦服務(wù)都存在個性化程度不高、推薦準確度較低等問題,不能很好地度量用戶興趣。相關(guān)研究大多從推薦算法設(shè)計和興趣模型構(gòu)建兩方面著手。黃珊珊[1]利用改進的LDA主題模型對微博短文本和粉絲微博內(nèi)容進行分析,豐富用戶興趣、拓寬推薦內(nèi)容,但并未考慮用戶興趣轉(zhuǎn)移問題;徐吉等[2]基于協(xié)同過濾算法,構(gòu)建興趣遷徙模型和用戶信任度模型,提升推薦準確性;林耀進等[3]提出基于用戶群體推薦算法,增強推薦系統(tǒng)穩(wěn)定性;劉珊珊[4]采用混合協(xié)同過濾方法完成用戶感興趣數(shù)據(jù)篩選,從而實現(xiàn)個性化推薦;朱雨晗[5]建立長短期用戶興趣標簽,運用最近鄰獲取動態(tài)興趣進行推薦,但時期分配上只有長短兩個時期,還不夠充分;陳佳艷[6]提出同伴推薦方法,將個性化推薦思想融入在線學習平臺的學習資源個性化推薦;Haifang Wang等[7]將用戶各類數(shù)據(jù)深度融合,考慮數(shù)據(jù)間邏輯關(guān)系,提高了推薦準確性;Tian Qiu等[8]從用戶活躍度方面入手構(gòu)建用戶興趣模型;劉超慧等[9]構(gòu)建用戶—學術(shù)資源評價模型,應(yīng)用基于資源的協(xié)同過濾算法完成推薦。通過資源模型構(gòu)建可以更好地度量學術(shù)資源內(nèi)容,是目前比較受歡迎的一種方式;Divyaa等[10]提出一種基于偏好相似度得分的社交網(wǎng)絡(luò)子圖的聚類細化算法,提升了推薦準確度;姜書浩等[11]依據(jù)用戶歷史偏好和項目類別專家評分采用后過濾技術(shù)生成多樣化推薦列表;劉電霆、吳麗娜[12]在LDA主題模型基礎(chǔ)上,綜合社會網(wǎng)絡(luò)結(jié)構(gòu)、用戶間信任關(guān)系和社會影響力,打破了推薦結(jié)果模式化;高元[13]基于Hadoop平臺海量學術(shù)資源分詞、TF*IDF相關(guān)參數(shù)提取以及分類模型訓練,解決了傳統(tǒng)單機模式處理海量文本數(shù)據(jù)時效率低的問題。在解決冷啟動問題、尋找最優(yōu)解方面,梁仕威等[14]結(jié)合表示學習模型與基于矩陣分解的協(xié)同過濾算法,解決了傳統(tǒng)新聞推薦的冷啟動問題;Lei Liu等[15]創(chuàng)建了一個混合教材學習平臺,并將其應(yīng)用于各階段教學;翟域等[16]基于知識狀態(tài)生成待學習知識點向量,設(shè)計迭代算法找到最佳匹配。本文以精準推薦為目標,結(jié)合已有算法,運用用戶的歷史行為數(shù)據(jù),考慮到時間因素下用戶興趣轉(zhuǎn)移的影響,創(chuàng)新性地提出運用用戶行為數(shù)據(jù)按照多個時間順序重新分配權(quán)重的算法,構(gòu)建用戶興趣模型并與學術(shù)資源模型進行匹配,以提高推薦效果。

      1 學術(shù)資源模型

      當前,研究者多利用網(wǎng)絡(luò)資源實現(xiàn)學習時間碎片化充分利用[17],而這些學術(shù)資源中研究論文的參考文獻大多需要具備權(quán)威性。知網(wǎng)提供各種文獻檢索、閱讀等服務(wù),為我國學者廣泛使用,而知網(wǎng)海量論文中的主題、關(guān)鍵詞篩選功能無疑為人們搜索學習資源提供了便利[18]。論文中的摘要作為論文的精華部分,涵蓋了研究領(lǐng)域、運用方法和結(jié)論展示,能夠使學者快速把握文章主旨,節(jié)約時間和精力。爬取論文摘要進行分析不僅能夠節(jié)省研究者的精力還能防止文章中的片面信息對提取文章主題造成負面影響。

      精準推薦的重點在于準確把握用戶需求[19],將其與資源特征進行匹配,從而完成推薦,其中資源特征提取和向量化顯得尤為重要。資源特征提取不當不僅不能很好地表達學術(shù)資源本身的研究背景,難以運用算法和研究結(jié)論,還會造成匹配不當致使資源推送不當,呈現(xiàn)客戶不滿意度上升甚至客戶流失等嚴重后果[20]。資源特征提取一般運用提取特征詞分布的TF-IDF方法,該方法是利用詞頻計算每篇文檔的特征詞及其權(quán)重。

      [TF-IDF=詞頻(TF)*逆向文件頻率(log(1IDF))]

      但是傳統(tǒng)TF-IDF方法難以把握詞語在文章中的順序差異,無法準確表達不同主題下相同詞語的不同含義。而LDA主題模型可以準確得到文章包含主題及每個主題下的關(guān)鍵詞和權(quán)重,有利于解決上述問題,本文選取LDA算法完成學術(shù)資源的文本向量化。LDA算法是運用概率知識進行求解。

      [p(w|d)=p(w|t)*p(t|d)]

      其中,w代表詞語,t代表主題,d代表文檔,則p(w|d)為文檔d中詞語w的分布概率,p(w|t)為主題t下詞語w的分布概率,p(t|d)為文檔d中主題t的分布概率。通過分詞系統(tǒng)后統(tǒng)計詞頻,上式左側(cè)可以較容易得到,進而通過矩陣分解得到右側(cè),這部分涉及較多數(shù)學知識,不再深入分析。通過Python編程代碼可以較便利得到每篇文檔的主題分布T和主題下的詞分布W,則文檔d可用關(guān)鍵詞w與權(quán)重表達:

      [W=(λ1w1,λ2w2,?,λ10w10)]

      為達到文本向量化的目的,每篇文檔選取主題數(shù)為1,主題下的關(guān)鍵詞數(shù)量取前10,以便減少數(shù)據(jù)稀疏性。

      2 用戶興趣模型與精準推薦

      用戶興趣偏好度量是在資源模型基礎(chǔ)上進行推薦的核心部分[21-22],一般從大量用戶數(shù)據(jù)中選取用戶行為數(shù)據(jù)表征用戶偏好。準確把握用戶偏好有利于增加推薦準確度,本文根據(jù)用戶歷史下載數(shù)據(jù)判斷其偏好傾向,下載行為通常說明用戶對該主題感興趣。但是用戶歷史行為數(shù)據(jù)并沒有考慮用戶興趣轉(zhuǎn)移因素,隨著時間的推移,用戶的興趣很可能發(fā)生變化,近期內(nèi)的用戶行為數(shù)據(jù)更能夠表述用戶的偏好傾向。因而本文在運用歷史數(shù)據(jù)時考慮時間因素下用戶偏好轉(zhuǎn)移,在學術(shù)資源模型基礎(chǔ)上構(gòu)建用戶興趣模型時為不同時間段設(shè)置不同權(quán)重代替偏好傾向度,有:

      [M=(u1M1,u2M2,?,unMn)]

      其中,M代表用戶偏好,[Mi(1in)]為用戶歷史數(shù)據(jù)向量,i為時間因素,權(quán)重系數(shù)有[1u1u2?un0],隨著時間的接近其更能夠影響偏好傾向,具體權(quán)重大小由實驗比較得出,且[u1+u2+?+un=1]。

      與此對應(yīng),排除用戶行為時間因素,設(shè)置等權(quán)重用戶興趣模型作為對照組,有:

      [M'=(uM1',uM2',?,uMn')]

      其中,[u=1/n],即不考慮時間因素影響,認為用戶歷史行為數(shù)據(jù)有相同的權(quán)重系數(shù)。

      在學術(shù)資源模型和用戶興趣模型基礎(chǔ)上,可以進行每篇文檔與用戶興趣向量的相似度計算。鑒于學術(shù)資源和興趣模型的向量化數(shù)字表示已經(jīng)完成,本次選用相似度算法為余弦相似。

      [cos(W,M)=i=1N(Wi*Mi)i=1N(Wi2)*i=1N(Mi2)]

      選取相似度較高的Top-N進行推薦。

      3 實驗分析

      實驗數(shù)據(jù)來源于中國知網(wǎng),選取推薦系統(tǒng)領(lǐng)域的所有核心期刊論文共2 759篇,爬取論文題目、摘要信息構(gòu)建學術(shù)資源模型。在LDA建模中選擇主題—特征詞的前十進行文本主題識別和向量化。運用Python代碼進行運算,設(shè)置主題數(shù)為1,表征主題的關(guān)鍵詞截取前十,得到部分主題—特征詞分布如表1所示。

      表1 部分主題詞和關(guān)鍵詞

      在構(gòu)建用戶興趣模型的系數(shù)選擇上,選取不同取值進行實驗,本次設(shè)置了系數(shù)范圍分別為[u1∈(0,0.1),u2∈(u1,][0.2),u3∈(u2,0.3),u4∈(u3,0.4),u5∈(u4,0.5)]滿足時間因素下系數(shù)遞增,即權(quán)重分配不同,通過多次迭代選擇推薦準確度較大的系數(shù):[u1=0.048,u2=0.095,u3=0.143,u4=0.238,][u5=0.476],實驗過程部分數(shù)據(jù)如表2所示。

      表2 系數(shù)效果比較

      系數(shù)確定后,用戶興趣模型就建立完成,進而計算學術(shù)資源模型中每一篇論文與用戶興趣模型的相似度,取相似度值較高的N篇論文進行推薦,在推薦后匹配用戶數(shù)據(jù),進而確定評價指標數(shù)值。

      判斷考慮時間因素下用戶興趣轉(zhuǎn)移采用不同權(quán)重的算法與不考慮時間因素下用戶興趣轉(zhuǎn)移平均算法的指標為準確率P、召回率R和調(diào)和平均值F,以期較準確地評價用戶推薦效果。3個指標運算公式如下:

      [P=推薦中用戶喜歡的文獻個數(shù)推薦的文獻總個數(shù)]

      [R=推薦中用戶喜愛文獻個數(shù)用戶在學術(shù)庫中喜愛的總個數(shù)]

      [F=2*P*RP+R]

      通過運算,得到實驗結(jié)果如圖1-圖3所示。

      圖1 不同推薦個數(shù)下準確度比較(P值)

      圖2 不同推薦個數(shù)下召回率比較(R值)

      圖3 不同推薦個數(shù)下F值比較

      實驗結(jié)果顯示,當推薦個數(shù)依次從5增加到15時,兩種方法的準確度、召回率和F-measure值都依次上升。但是考慮時間因素下的用戶興趣轉(zhuǎn)移算法在準確率和召回率上都要優(yōu)于不考慮興趣轉(zhuǎn)移的平均權(quán)重算法,雖然初始時的F指標不是很高,但隨著推薦個數(shù)的增加,本文提出算法的F值也很快超過對照組算法的取值。當推薦個數(shù)相同時,本文時間因素下用戶歷史行為不同權(quán)重的各項指標均優(yōu)于平均權(quán)重算法,可見考慮用戶興趣轉(zhuǎn)移因素使得推薦效果更佳。

      4 結(jié)語

      推薦系統(tǒng)利用用戶以往網(wǎng)絡(luò)痕跡數(shù)據(jù),為用戶提供主動式服務(wù),節(jié)省用戶的時間和精力,也進一步促進網(wǎng)絡(luò)資源的智能化發(fā)展。本文基于用戶歷史行為數(shù)據(jù),考慮到基于時間因素用戶興趣轉(zhuǎn)移的影響,從而提出權(quán)重重新非均等分配算法。運用LDA提取文獻主題、關(guān)鍵詞及權(quán)重,達到文本向量化進而建立學術(shù)資源模型;運用用戶歷史行為數(shù)據(jù),根據(jù)實驗得出時間影響下的不同權(quán)重系數(shù)分配從而得出用戶興趣模型。采用余弦相似度算法計算兩模型相似度進行推薦匹配,與不考慮時間因素下用戶興趣轉(zhuǎn)移的均等權(quán)重用戶興趣模型算法相比,本文提出的算法無論在推薦準確率、召回率還是隨著推薦個數(shù)增加的F值上效果均更佳。但本研究仍存在一定缺陷:運用LDA模型提取文獻主題,在實驗階段選取了推薦領(lǐng)域?qū)R恢黝}數(shù)據(jù),雖然能夠反映文獻背景、算法和結(jié)論的不同,但選用不同領(lǐng)域文獻能夠自動識別文章主題,推薦效果會更佳,也更符合人們?nèi)粘K阉髁晳T;僅利用用戶下載行為數(shù)據(jù),而更大范圍的用戶點擊、分享等行為數(shù)據(jù)的綜合運用可以更好地度量用戶興趣,這也是下一步研究方向。

      參考文獻:

      [1] 黃珊珊. 基于LDA的微博個性化新聞推薦方法研究[D]. 武漢:武漢郵電科學研究院,2019.

      [2] 徐吉,李小波,許浩. 基于用戶信任的協(xié)同推薦算法研究與分析[J]. 數(shù)據(jù)通信,2019(2):29-34.

      [3] 林耀進,胡學鋼,李慧宗. 基于用戶群體影響的協(xié)同過濾推薦算法[J]. 情報學報,2013,32(3):299-305.

      [4] 劉珊珊. 大數(shù)據(jù)中基于混合協(xié)同過濾的動態(tài)用戶個性化推薦[J]. 軟件工程,2019,22(3):16-19.

      [5] 朱雨晗. 基于用戶興趣標簽的混合推薦方法[J]. 電子制作,2018(22):42-44.

      [6] 陳佳艷. 基于學習行為特征的學習資源個性化推薦研究[D]. 南京:南京郵電大學,2018.

      [7] WANG H F,WANG Z J,HU S H,et al. DUSKG: a fine-grained knowledge graph for effective personalized service recommendation[J]. Future Generation Computer Systems,2019,100(11):600-617.

      [8] QIU T, WAN C,WANG X F,et al. User interest dynamics on personalized recommendation[J].? Physica A: Statistical Mechanics and its Applications,2019,525.

      [9] 劉超慧,李宇根,陶浩武,等. 基于用戶-圖書資源特征的圖書資源推薦技術(shù)研究[J]. 電子世界,2019(8):86-87.

      [10] DIVYAA L R,NARGIS P. Towards generating scalable personalized recommendations: integrating social trust, social bias, and geo-spatial clustering[J]. Decision Support Systems,2019,122:113066.

      [11] 姜書浩,張立毅,張志鑫. 基于個性化的多樣性優(yōu)化推薦算法[J]. 天津大學學報:自然科學與工程技術(shù)版,2018,51(10):1042-1049.

      [12] 劉電霆,吳麗娜. 社會網(wǎng)絡(luò)中基于信任的LDA主題模型領(lǐng)域?qū)<彝扑][J]. 廣西師范大學學報:自然科學版,2018,36(4):51-58.

      [13] 高元. 面向個性化推薦的海量學術(shù)資源分類研究[D]. 寧波:寧波大學,2017.

      [14] 梁仕威,張晨蕊,曹雷,等. 基于協(xié)同表示學習的個性化新聞推薦[J]. 中文信息學報,2018,32(11):72-78.

      [15] LIU L,VERNICA R,HASSAN T,et al. Using text mining for personalization and recommendation for an enriched hybrid learning experience[J]. Computational Intelligence,2019,35(2):1-3.

      [16] 翟域,徐朦,黃斌. 基于知識狀態(tài)的個性化學習資源推薦方法[J]. 吉首大學學報:自然科學版,2019(3):23-27.

      [17] 劉揚超. 大學生碎片化學習的現(xiàn)狀調(diào)查研究[D]. 呼和浩特:內(nèi)蒙古師范大學,2018.

      [18] 涂佳琪,楊新涯,王彥力. 中國知網(wǎng)CNKI歷史與發(fā)展研究[J/OL]. 圖書館論壇:1-12[2019-06-26]. http://kns.cnki.net/kcms/detail/44.1306.G2.20190619.0848.002.html.

      [19] 丁夢曉,畢強,許鵬程,等. 基于用戶興趣度量的知識發(fā)現(xiàn)服務(wù)精準推薦[J]. 圖書情報工作,2019,63(3):21-29.

      [20] 劉偉,劉柏嵩,王洋洋. 海量學術(shù)資源個性化推薦綜述[J]. 計算機工程與應(yīng)用,2018,54(3):30-39.

      [21] 王剛,郭雪梅. 融合用戶行為分析和興趣序列相似性的個性化推薦方法研究[J/OL]. 情報理論與實踐:1-11[2019-06-26]. http://kns.cnki.net/kcms/detail/11.1762.G3.20190417.1553.006.html.

      [22] 黃宏程,陸衛(wèi)金,胡敏,等. 用戶興趣相似性度量的關(guān)系預(yù)測算法[J]. 計算機科學與探索,2017,11(7):1068-1079.

      (責任編輯:孫 娟)

      猜你喜歡
      個性化推薦
      基于遠程教育的個性化知識服務(wù)研究
      新田县| 西林县| 长武县| 屏山县| 平湖市| 福贡县| 明光市| 长垣县| 子长县| 黄大仙区| 年辖:市辖区| 武邑县| 苍南县| 长沙县| 中牟县| 河东区| 大城县| 资中县| 延寿县| 霍邱县| 漳州市| 泗洪县| 崇阳县| 黄山市| 建宁县| 哈密市| 漳州市| 平顺县| 荣成市| 吉隆县| 德化县| 拜城县| 雷波县| 内江市| 宁波市| 孟州市| 略阳县| 浦县| 鹿泉市| 保靖县| 吴堡县|