• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合Word2vec與時(shí)間因素的館藏學(xué)術(shù)論文推薦算法*

      2019-05-05 01:17:20陳長(zhǎng)華李小濤鄒小筑葉志鋒
      圖書館論壇 2019年5期
      關(guān)鍵詞:列表研究者排序

      陳長(zhǎng)華,李小濤,鄒小筑,葉志鋒

      0 引言

      推薦服務(wù)是圖書館將傳統(tǒng)被動(dòng)服務(wù)轉(zhuǎn)變?yōu)橹鲃?dòng)服務(wù)的重要途徑。根據(jù)邱均平[1]、李民[2]等的調(diào)查結(jié)果,94.9%的“985 工程”高校圖書館和63%的“211 工程”高校圖書館均為用戶提供個(gè)性化推薦服務(wù),然而在服務(wù)過程中還普遍存在著讀者的需求調(diào)查不足和資源推薦服務(wù)針對(duì)性欠缺等問題。為提高圖書館資源推薦服務(wù)的質(zhì)量,國(guó)內(nèi)外學(xué)者對(duì)多種文獻(xiàn)推薦算法進(jìn)行了深入探索。

      (1)基于內(nèi)容關(guān)聯(lián)的推薦算法研究。Sugiyama等[3]將研究者發(fā)表論文的引文和參考文獻(xiàn)信息融合進(jìn)學(xué)術(shù)論文推薦算法,大大提高了論文推薦的準(zhǔn)確率。李樹青等[4]提出了基于關(guān)鍵詞鏈接網(wǎng)絡(luò)分析方法的醫(yī)學(xué)文獻(xiàn)推薦服務(wù);何勝等[5]提出一種以文獻(xiàn)“混合關(guān)聯(lián)”為主要內(nèi)容的圖書館文獻(xiàn)推薦方案及實(shí)現(xiàn)算法;陳海華等[6]發(fā)現(xiàn)以往的引文推薦研究并未考慮用戶偏好的動(dòng)態(tài)變化性及研究領(lǐng)域的綜合性,在用戶研究和實(shí)際應(yīng)用方面仍有所欠缺。

      (2)基于協(xié)同過濾的推薦算法研究。協(xié)同過濾(CF)僅通過用戶項(xiàng)目評(píng)級(jí)矩陣來預(yù)測(cè)未知的偏好,并基于鄰域的方法使用相似的用戶或查詢項(xiàng)來實(shí)現(xiàn)預(yù)測(cè)功能?;趨f(xié)同過濾模型的方法[7]是指通過建立矩陣分解模型來進(jìn)行論文推薦。Lee 等[8-9]利用用戶-項(xiàng)目舉證的低秩特性,提出了基于低秩矩陣分解的論文推薦方法,該算法能根據(jù)有限的信息進(jìn)行精確的推薦。

      (3)混合推薦算法研究。每種獨(dú)立的推薦算法都存在自身的缺陷,在實(shí)際的推薦系統(tǒng)中可將各種推薦算法結(jié)合使用形成混合推薦算法,以提高推薦精度和覆蓋率。Jannach 等[10]提出了協(xié)同過濾和基于內(nèi)容方法相結(jié)合的算法。Koren 等[11]提出,可將評(píng)分信息和用戶、項(xiàng)目信息有效結(jié)合起來以獲得更精確的推薦。Matsatsinis 等[12]率先將決策論引入學(xué)術(shù)論文推薦算法,該算法根據(jù)多目標(biāo)決策方法,將待推薦的學(xué)術(shù)論文按研究者的喜好進(jìn)行排序。Lee 等[13]提出了一種基于稀疏矩陣補(bǔ)全SMC(Sparse Matrix Completion)的學(xué)術(shù)論文推薦算法,該算法采用簡(jiǎn)單的“詞袋BoW(Bag of Words)”模型對(duì)用戶和論文進(jìn)行建模。

      為了提高圖書館文獻(xiàn)個(gè)性化推薦的效率,提高圖書館館藏資源的利用率和用戶滿意度,本文在前人研究的基礎(chǔ)上,提出了一個(gè)面向?qū)W術(shù)研究人員的學(xué)術(shù)論文推薦算法。該算法能根據(jù)研究人員以往發(fā)表的論文,自動(dòng)檢測(cè)研究人員感興趣的研究課題,并按照文章的相似性推薦相關(guān)文章。該算法能大大節(jié)省搜索文章的時(shí)間并減少錯(cuò)過相關(guān)文章的機(jī)會(huì),提高科研人員的工作效率。

      圖1 學(xué)術(shù)論文推薦算法具體步驟

      1 方法描述

      學(xué)術(shù)論文推薦是基于研究者發(fā)表的論文進(jìn)行文獻(xiàn)推薦,即基于內(nèi)容的推薦方法。在待推薦文獻(xiàn)列表中尋找與用戶所發(fā)表論文特征高度相似的文獻(xiàn),經(jīng)過加權(quán)距離度量排序后進(jìn)行推薦。圖1顯示了本學(xué)術(shù)論文推薦算法的具體步驟。

      首先,收集研究者的論文數(shù)據(jù)并對(duì)其進(jìn)行預(yù)處理。本研究收集的信息包含每篇論文的標(biāo)題、關(guān)鍵詞和出版時(shí)間。其次,利用上述信息,結(jié)合Word2vec 方法將論文轉(zhuǎn)化為多維向量空間中的向量特征表示。在后續(xù)推薦過程中,同樣將待推薦論文進(jìn)行特征提取,轉(zhuǎn)化為多維向量。然后,采用類似K-近鄰(KNN)的方法,計(jì)算待推薦論文與推薦對(duì)象發(fā)表論文間的空間距離。最后,根據(jù)空間距離計(jì)算結(jié)果為研究者推薦其最感興趣的論文。

      為了優(yōu)化推薦準(zhǔn)確率,本文采用了基于加權(quán)距離的相似度度量算法,即在計(jì)算距離時(shí)引入論文時(shí)間相關(guān)權(quán)重,論文發(fā)表時(shí)間越近,對(duì)應(yīng)的權(quán)重越大。整個(gè)建模及相似度計(jì)算流程見圖2。

      圖2 文獻(xiàn)建模及相似度計(jì)算流程

      1.1 數(shù)據(jù)模型

      為了計(jì)算文獻(xiàn)間的相似性,需要進(jìn)行文獻(xiàn)建模。獲取文獻(xiàn)“標(biāo)題”,“關(guān)鍵詞”及“摘要”部分等文檔元數(shù)據(jù)相關(guān)信息后,需要對(duì)元數(shù)據(jù)進(jìn)行向量化表示。因?yàn)槲臋n內(nèi)容較長(zhǎng),所以采用Word2vec 技術(shù)對(duì)文獻(xiàn)進(jìn)行建模。

      (1)英文分詞。首先將論文中的“標(biāo)題”“關(guān)鍵詞”“摘要”部分提取出來,并將其進(jìn)行分詞處理以獲得由單詞組成的列表。英文分詞的過程大致分為兩步:一是拆分單詞;二是排除停用詞。英文分詞的技術(shù)較為成熟,本文直接應(yīng)用Stanford Tokenizer 英文分詞系統(tǒng)[14]。由于學(xué)術(shù)論文的特殊性,其“標(biāo)題”“關(guān)鍵詞”及“摘要”部分可能會(huì)出現(xiàn)一些組合詞及自創(chuàng)縮寫詞等,這些詞在語料庫中并不存在。因此,需要對(duì)上述單詞列表進(jìn)行逐個(gè)檢查,以剔除在語料庫中不存在的單詞。通過上述處理即可將文獻(xiàn)[15]轉(zhuǎn)化為單詞列表{w1,w2,…,wn}的形式。

      (2)關(guān)鍵詞提取。針對(duì)文獻(xiàn)“摘要”部分分詞后獲得的單詞列表中存在大量冗余信息的情況,需要對(duì)“摘要”部分的單詞列表進(jìn)一步處理,即關(guān)鍵詞的提取。自然語言處理領(lǐng)域有多種關(guān)鍵詞提取方法,其中TF-IDF 算法[16]被廣泛采用。本文中,TF(Term Frequency)表示某單詞wi在“摘要單詞列表”中出現(xiàn)的詞頻。IDF(Inverse Document Frequency)表示單詞區(qū)分文檔的能力,即反文檔頻率。單詞wi的反文檔頻率越大,表明該單詞的重要性越高。具體地,單詞wi的TF 和IDF 值計(jì)算方法分別如公式(1)和(2)所示。

      公式(1)中Ti為單詞wi在列表中出現(xiàn)的總次數(shù),M表示單詞列表中的單詞總數(shù);公式(2)中D表示總的單詞列表數(shù),為包含單詞wi的列表數(shù)。

      (3)Word2vec 建模。Word2vec 是計(jì)算預(yù)測(cè)模型。早在2013年,Google 就提出可根據(jù)給定的語料庫訓(xùn)練模型,快速有效地將自然語言中的文字詞語處理為特定的向量,進(jìn)而利用向量空間上的相似度來表示文本語義上的相似度。相較于傳統(tǒng)的自然語言編碼方式,如One-Hot Encoder等,Word2vec 模型有效地解決了編碼矩陣過于稀疏和維數(shù)災(zāi)難問題,使其能夠高效地應(yīng)用于大型語料上,并且對(duì)文本語義具有更深層次的表達(dá),能夠高效地求解文本語義的相似性。Word2vec模型包含兩種形式:一種是“連續(xù)字袋”模型(CBOW),這種模型是從原始語句上下文單詞中預(yù)測(cè)目標(biāo)字詞,輸入是目標(biāo)字詞周圍n個(gè)單詞的詞向量之和,輸出為目標(biāo)單詞的詞向量。另一種是“Skip-Gram”模型,與CBOW模型相反,它是根據(jù)單詞預(yù)測(cè)原始語句上下文的單詞,輸入為單詞本身,輸出為周圍n個(gè)單詞的詞向量。本文采用的是CBOW 模型。對(duì)CBOW 模型,結(jié)合文獻(xiàn)[17]的定義可知其優(yōu)化函數(shù)表達(dá)式為:

      其中,wt為目標(biāo)單詞,wcontext為周圍單詞。為求解p(wt│wcontext),采用Hierarchical Softmax優(yōu)化方法。這種方法用霍夫曼(Huffman)樹的輸出取代了原始模型的softmax 輸出,能將N 分類問題轉(zhuǎn)化為log(N)次二分類問題,提高計(jì)算效率。

      訓(xùn)練基于Hierarchical Softmax 優(yōu)化方法的CBOW 模型的步驟之一是獲得單詞的霍夫曼編碼,利用上一步的TF 方法獲取語料庫中單詞的詞頻來構(gòu)建霍夫曼樹。構(gòu)建規(guī)則見圖3。

      圖3 霍夫曼樹構(gòu)建流程

      從單詞表中選擇詞頻最低的兩個(gè)單詞wi,wj。創(chuàng)建一個(gè)中間節(jié)點(diǎn)nt,其左右子樹分別為選擇的兩個(gè)單詞wi,wj。其中,概率較大的單詞位于左子樹,另一單詞位于右子樹。節(jié)點(diǎn)自身的概率為兩個(gè)子樹的概率之和,所包含的中間向量表示為θt。從單詞表中把選中的兩個(gè)單詞刪除,將新節(jié)點(diǎn)nt加入單詞表。重復(fù)上述三步操作直至單詞表長(zhǎng)度為1,將剩下節(jié)點(diǎn)作為霍夫曼樹的根節(jié)點(diǎn)。顯然,霍夫曼樹的葉子結(jié)點(diǎn)對(duì)應(yīng)著所有單詞,而非葉節(jié)點(diǎn)對(duì)應(yīng)著中間向量。事實(shí)上,每一個(gè)非葉節(jié)點(diǎn)都是一個(gè)基于邏輯回歸的二分類器,它將給定的輸入向量分為正負(fù)兩類。對(duì)于某一輸入X,根據(jù)邏輯回歸[18]可知,其被分類為正類的概率為:

      其中,θ 為分類器所包含的中間向量。在霍夫曼樹中,將每一左子樹的分支記錄為“1”,代表著該節(jié)點(diǎn)分類器輸出為正類;右子樹的分支記錄為“0”,代表著該節(jié)點(diǎn)分類器輸出為負(fù)類。遍歷上述霍夫曼樹,可獲得各單詞的霍夫曼編碼,該編碼記錄著單詞wt由根結(jié)點(diǎn)到對(duì)應(yīng)葉子結(jié)點(diǎn)的路徑lwt。由路徑lwt可以獲得經(jīng)過的分類器的數(shù)量nw t,以及各分類器對(duì)于某一輸入得到的正確分其中,i 表示第i個(gè)分類器。從而,p(wt│wcontext)可求解為:

      其中,

      1.2 文獻(xiàn)推薦

      本文提出的推薦算法基于兩個(gè)假設(shè):(1)用戶的研究興趣可以從他們發(fā)表過的論文中進(jìn)行反映,因此假設(shè)用戶對(duì)他們發(fā)表的論文是絕對(duì)感興趣的。同時(shí),算法也將采用用戶發(fā)表的論文對(duì)用戶進(jìn)行建模。(2)在許多情況下,研究者的研究方向會(huì)隨著時(shí)間的推移而變化,因此,假設(shè)研究者的興趣也隨著時(shí)間而發(fā)生變化。可以自然地認(rèn)為,作者最近發(fā)表的論文將有更高的概率是正在進(jìn)行的研究課題。

      本文提出文獻(xiàn)出版時(shí)間權(quán)重衰減方法,將時(shí)間權(quán)重度量引入論文相似度計(jì)算中。算法直接應(yīng)用了如下的思想:

      首先,將候選文檔進(jìn)行聚類,計(jì)算用戶的論文和所有候選論文之間的相似性,這些相似度值被認(rèn)為是每個(gè)候選的得分。通過這一步驟,所有候選論文歸為目標(biāo)研究者發(fā)表的最相似的論文一篇。

      其次,使用簡(jiǎn)單的k-均值(K-Means)聚類[16]。在聚類完成之后,根據(jù)候選論文與其聚類中心之間的距離計(jì)算兩篇文獻(xiàn)之間的相似度S (xi,yi)。在計(jì)算距離得分的過程中,引入時(shí)間權(quán)重w(x(t))的概念。例如,在待推薦論文集中某篇論文與作者5年前發(fā)表的一篇論文很相似,兩篇論文在特征空間中距離較近。但由于時(shí)間權(quán)重的存在,算法將不會(huì)把這篇論文作為首選,因?yàn)樽髡呖赡軐?duì)其5年前的研究已經(jīng)不感興趣。如圖4所示,黑色圓圈代表在特征空間中的一個(gè)聚類中心,即作者已發(fā)表的論文。連接到聚類中心的小圓圈是它的群集的成員,即待推薦論文。使用加權(quán)距離度量作為計(jì)算得分,本文選擇得分最高的K篇論文推薦給目標(biāo)用戶。

      圖4 加權(quán)距離計(jì)算示意圖

      假設(shè)作者U發(fā)表了兩篇論文X=(x1,x2),同時(shí)待推薦論文集Y中存在N篇論文Y=(y1,y2,…,yN)。首先,分別以(x1,x2)為聚類中心,采用k-均值聚類算法將待推薦論文集分為兩類,其中,Y1中任何一篇論文到x1的距離,都要比其到x2的距離要大。本文將計(jì)算待推薦論文集中所有論文與作者已發(fā)表論文間的相似度。相似度計(jì)算公式為:

      x(t)表示作者論文的x發(fā)表時(shí)間,w(x(t))為其對(duì)應(yīng)的權(quán)重:

      其中tc為當(dāng)前年份,△t為時(shí)間間隔,作用為將作者的論文分類為近期發(fā)表文獻(xiàn)和非近期發(fā)表文獻(xiàn),α 為距離權(quán)重。根據(jù)本文2.2 節(jié)參數(shù)分析的實(shí)驗(yàn),將△t的值設(shè)為2,α 的值設(shè)為0.8,可以取得最佳的實(shí)驗(yàn)結(jié)果。從公式(9)中可以看出,由于作者不僅對(duì)與自己發(fā)表過的論文相似的文獻(xiàn)感興趣,對(duì)與自己近期研究相似的論文更感興趣,因此算法將作者近兩年內(nèi)發(fā)表的論文賦予較高的權(quán)重。

      2 實(shí)驗(yàn)分析

      為驗(yàn)證本算法在學(xué)術(shù)論文推薦上的可行性與推薦性能,本文采用Python 語言及gensim 自然語言處理框架,對(duì)提出的推薦算法進(jìn)行實(shí)踐開展驗(yàn)證研究。由于本文僅針對(duì)英文文獻(xiàn)進(jìn)行推薦研究,因此對(duì)于語料庫數(shù)據(jù),使用了英文維基百科語料庫。該語料庫文件大約14GB,包含了所有英文維基百科的文章。

      2.1 數(shù)據(jù)來源

      本文針對(duì)研究人員進(jìn)行用戶研究。分別對(duì)來自4個(gè)不同領(lǐng)域內(nèi)的125 名研究者進(jìn)行了實(shí)驗(yàn)研究,采用125 名研究者對(duì)應(yīng)發(fā)表的所有論文進(jìn)行用戶建模。數(shù)據(jù)分為兩部分:研究者發(fā)表論文集、待推薦論文集。研究者發(fā)表論文集來自南京航空航天大學(xué)圖書館論文數(shù)據(jù)庫125 位該校教師發(fā)表的論文集合,共3180 條數(shù)據(jù)。待推薦論文集根據(jù)125 位教師所屬的4個(gè)學(xué)科進(jìn)行統(tǒng)計(jì),在Web of Science 核心合集中檢索2013年6月 30日年至 2018年 6月30日被引頻次在前100000 名內(nèi)的文章列表,共40 萬條數(shù)據(jù)。表1是待推薦論文數(shù)據(jù)集的相關(guān)信息。

      表1 待推薦論文集數(shù)據(jù)

      2.2 參數(shù)分析

      推薦算法中,距離權(quán)重α 用于調(diào)節(jié)論文出版時(shí)間在論文相似度計(jì)算中所占的權(quán)重比例,△t為權(quán)重劃分的時(shí)間間隔,兩者是論文中的關(guān)鍵參數(shù)。當(dāng)距離權(quán)重α 和時(shí)間間隔△t設(shè)置為不同的值時(shí),論文間相似度的值也有所不同。為了分析參數(shù)對(duì)算法的影響,本文針對(duì)不同距離權(quán)重參數(shù)w(x(t))和時(shí)間間隔△t對(duì)應(yīng)的推薦準(zhǔn)確率進(jìn)行統(tǒng)計(jì)。時(shí)間間隔△t分別取{1,2,3,4}。每次參數(shù)的變化即產(chǎn)生不同的推薦列表,為獲取實(shí)驗(yàn)數(shù)據(jù)進(jìn)行統(tǒng)計(jì),在每一次參數(shù)變化過程中,為所有125 名教師測(cè)試者產(chǎn)生對(duì)應(yīng)的推薦列表。其中,推薦列表的長(zhǎng)度為K。測(cè)試者瀏覽該推薦列表并對(duì)其進(jìn)行標(biāo)記。如果該推薦文獻(xiàn)與自己近期研究相關(guān),則標(biāo)記為“感興趣”;反之,則標(biāo)記為“不感興趣”。該參數(shù)下推薦的準(zhǔn)確率Precision 可通過“感興趣”文獻(xiàn)N與所有推薦文獻(xiàn)(即文獻(xiàn)推薦列表長(zhǎng)度K)的比值得到。具體如下:

      推薦準(zhǔn)確率隨參數(shù)變化的統(tǒng)計(jì)結(jié)果如圖5所示,其中文獻(xiàn)推薦列表長(zhǎng)度K取為40。

      圖5給出參數(shù)△t和α 不同的情況下,模型推薦準(zhǔn)確率呈現(xiàn)的不同值。當(dāng)△t為0 時(shí),算法將研究者所有發(fā)表文獻(xiàn)均歸類為非近期發(fā)表文獻(xiàn),并沒有正確地對(duì)文獻(xiàn)按時(shí)間進(jìn)行分類,故推薦準(zhǔn)確率較低。隨著△t 增大,算法正確區(qū)分了近期文獻(xiàn)與非近期文獻(xiàn),從而將近期文獻(xiàn)的相似度計(jì)算權(quán)重w 提高,挑選出與研究者近期研究最相關(guān)的推薦文獻(xiàn)。其中,△t 取2 時(shí),推薦準(zhǔn)確率Precision 達(dá)到最佳。由圖5也可以看出,隨著α 的增加,近期文獻(xiàn)在文獻(xiàn)相似性度量中的權(quán)重逐漸增大,使得推薦列表中與研究者近期研究相關(guān)的文獻(xiàn)占比增加,故推薦的準(zhǔn)確率也隨之提升。

      圖5 參數(shù)△t與α分析

      2.3 算法性能評(píng)估

      本小節(jié)衡量算法的分類準(zhǔn)確度,將推薦任務(wù)視作分類問題,從多個(gè)領(lǐng)域?qū)φ撐姆诸悺>唧w來說,當(dāng)算法從待推薦論文集中找出推薦論文時(shí),要統(tǒng)計(jì)到底有多少被推薦論文來自研究者自己的領(lǐng)域。其中,與研究者領(lǐng)域相同的論文在全部被推薦論文的比例,即為分類精度。首先為來自4個(gè)領(lǐng)域125 名研究者分別按相似度生成推薦列表,推薦列表中包含論文索引及其對(duì)應(yīng)的相似度。在不同領(lǐng)域中,分別從推薦列表中取相似度最高的前100篇論文進(jìn)行精度分析,結(jié)果如表2所示??偟膩碚f,本文推薦算法從正確的領(lǐng)域推薦論文的平均準(zhǔn)確率為90%。

      表2 分類精度

      2.4 算法比較

      本算法用于將新發(fā)表的英文文獻(xiàn)推薦給相關(guān)研究者。經(jīng)過調(diào)研,選擇文獻(xiàn)[13]中的算法進(jìn)行對(duì)比實(shí)驗(yàn)。文獻(xiàn)[13]提出了一種基于稀疏矩陣補(bǔ)全SMC(Sparse Matrix Completion)的學(xué)術(shù)論文推薦算法。該算法采用簡(jiǎn)單的“詞袋BoW(Bag of Words)”模型對(duì)用戶和論文進(jìn)行建模。為了進(jìn)一步證明引入時(shí)間權(quán)重的有效性,本文還增加了將帶時(shí)間權(quán)重和不帶時(shí)間權(quán)重的推薦結(jié)果的對(duì)比。對(duì)比結(jié)果如圖6所示。相比于文獻(xiàn)[13]所使用的方法,在推薦準(zhǔn)確率上來講,本文提出的方法表現(xiàn)更為突出。文獻(xiàn)[13]所采用的簡(jiǎn)單“詞袋”模型并未考慮詞義間的相似度關(guān)系,且在度量文獻(xiàn)間相似性時(shí),未考慮文獻(xiàn)發(fā)表時(shí)間這一重要因素。從圖6可知,隨著topK(推薦列表)長(zhǎng)度的增加,本文算法與文獻(xiàn)[13]算法在推薦準(zhǔn)確率上的差異在逐漸減小。原因是topK長(zhǎng)度的增加減弱了時(shí)間權(quán)重對(duì)用戶舊文獻(xiàn)在相似度計(jì)算上的抑制,因此與用戶過去發(fā)表的論文相關(guān)的論文也出現(xiàn)在推薦列表里??梢韵胂?,當(dāng)K的取值等于整個(gè)待推薦文獻(xiàn)集的大小時(shí),兩個(gè)算法的推薦準(zhǔn)確率將歸于一致。從圖6中也能看出,在Word2vec建模的基礎(chǔ)上引入時(shí)間權(quán)重后,算法整體的推薦準(zhǔn)確率也得到了提升。

      圖6 算法比較

      為了驗(yàn)證本文提出的加權(quán)距離度量較傳統(tǒng)方法在文獻(xiàn)相似度衡量中具有更好的表現(xiàn),本文從排序準(zhǔn)確度角度衡量算法的推薦效果,即衡量算法推薦排序與用戶真實(shí)排序間的差異。該差異值越小,表明算法在文獻(xiàn)相似度的計(jì)算上越準(zhǔn)確。具體地,對(duì)四個(gè)不同領(lǐng)域內(nèi)的每位研究者,從待推薦論文集中選擇不同時(shí)間發(fā)表的20篇與其相關(guān)的文獻(xiàn),首先讓研究者對(duì)20篇論文按與其相關(guān)程度進(jìn)行排序,作為真實(shí)數(shù)據(jù)R;隨后,算法根據(jù)20篇論文與研究者自身發(fā)表論文間的相似度大小,對(duì)論文進(jìn)行重新排序,得到算法推薦排序數(shù)據(jù)R'。那么,算法排序差異度定義為:

      其中,N 為推薦列表中的論文數(shù),本文中N為20。ri和分別為論文i在真實(shí)排序R 及算法推薦排序R'中的排名。對(duì)比統(tǒng)計(jì)結(jié)果如圖7所示。在對(duì)四個(gè)領(lǐng)域內(nèi)研究者推薦列表的排序上,本文算法較文獻(xiàn)[13]均取得了更低的排序差異度。即本文算法給出的推薦排序較文獻(xiàn)[13],更為貼近研究者給出的真實(shí)排序,充分驗(yàn)證了本文算法在度量文獻(xiàn)相似度上的有效性。

      圖7 排序差異度對(duì)比

      3 結(jié)語

      學(xué)術(shù)論文推薦算法的核心思想是利用Word2vec對(duì)研究者的論文和待推薦論文集進(jìn)行建模,以此對(duì)文本語義的相似性進(jìn)行更有效的表達(dá)。同時(shí),在計(jì)算文獻(xiàn)相似度的過程中,考慮研究者的研究興趣會(huì)隨著時(shí)間變化的特點(diǎn),引入時(shí)間權(quán)重的概念,更精確地尋找出研究者最感興趣的文獻(xiàn)。從實(shí)驗(yàn)結(jié)果來看,本文提出的算法在分類精度、推薦準(zhǔn)確率及排序差異度上較傳統(tǒng)方法均取得更優(yōu)異的效果,更好滿足了研究者的需求。另外,本文提出的算法還可以進(jìn)一步擴(kuò)展,在計(jì)算文獻(xiàn)相似度的過程中不僅考慮時(shí)間變化這一個(gè)因素,還可以加入其它因素,如文獻(xiàn)的影響因子等,以幫助研究者找到更優(yōu)質(zhì)的文獻(xiàn),從而進(jìn)一步提高算法的論文推薦性能。

      猜你喜歡
      列表研究者排序
      巧用列表來推理
      排序不等式
      高等教育中的學(xué)生成為研究者及其啟示
      學(xué)習(xí)運(yùn)用列表法
      擴(kuò)列吧
      恐怖排序
      研究者稱,經(jīng)CRISPR技術(shù)編輯過的雙胞胎已出生??茖W(xué)將如何回應(yīng)?
      英語文摘(2019年2期)2019-03-30 01:48:40
      節(jié)日排序
      研究者調(diào)查數(shù)據(jù)統(tǒng)計(jì)
      中華手工(2018年6期)2018-07-17 10:37:42
      刻舟求劍
      兒童繪本(2018年5期)2018-04-12 16:45:32
      深圳市| 冀州市| 迭部县| 金川县| 宜春市| 黑龙江省| 壤塘县| 桂阳县| 刚察县| 西乌珠穆沁旗| 和政县| 奎屯市| 哈密市| 临潭县| 靖江市| 白河县| 南京市| 楚雄市| 灵山县| 都兰县| 武鸣县| 桐柏县| 宁都县| 彭水| 来宾市| 东兰县| 霍州市| 丹阳市| 阳新县| 巴彦县| 余庆县| 大方县| 南召县| 抚远县| 洛宁县| 安阳县| 西藏| 宁津县| 叙永县| 方城县| 兖州市|