熊回香 唐明月 葉佳鑫等
關(guān)鍵詞: 異質(zhì)信息網(wǎng)絡(luò); 學術(shù)信息推薦; Node2vec; 語義相似度
DOI:10.3969 / j.issn.1008-0821.2023.05.003
〔中圖分類號〕G252.6 〔文獻標識碼〕A 〔文章編號〕1008-0821 (2023) 05-0023-12
隨著計算機的發(fā)展, 以及Web2 0 時代的到來,互聯(lián)網(wǎng)絡(luò)用戶逐漸從信息接受者轉(zhuǎn)變?yōu)樾畔⒅圃煺吆蛡鞑フ摺?jù)CNNIC 發(fā)布的第50 次《中國互聯(lián)網(wǎng)絡(luò)發(fā)展狀況統(tǒng)計報告》顯示, 截至2022 年6 月,中國網(wǎng)民數(shù)量已達10 51 億, 互聯(lián)網(wǎng)普及率已達74.4%[1] 。在Web2.0 模式下, 用戶可以自由、便捷地分享自己的各種觀點, 用戶信息產(chǎn)出的門檻變低, 網(wǎng)絡(luò)信息量因此大幅增長, 導(dǎo)致用戶在面對大量信息時無法從中快速準確地獲取自身所需信息,對信息的使用效率反而降低[2] 。學術(shù)信息亦是如此, 隨著學術(shù)研究者以及研究成果的不斷增多, 學術(shù)資源的爆炸式增長給學術(shù)研究者帶來了更大的壓力, 面對龐大的學術(shù)信息資源, 學術(shù)研究者難以從中找到與其相關(guān)的學術(shù)資源。個性化推薦是能夠有效處理信息超載問題的方法之一, 學術(shù)信息的個性化推薦也逐漸得到了學者的廣泛關(guān)注。
若要實現(xiàn)準確的學術(shù)信息個性化推薦, 首先就需要能夠準確地描述學者興趣特征。目前, 國內(nèi)外關(guān)于學者興趣特征表示主要包括基于向量[3-5] 、基于主題模型[6-7] 和基于網(wǎng)絡(luò)結(jié)構(gòu)[8-10] 3 種興趣特征表示方法。其中, 基于網(wǎng)絡(luò)結(jié)構(gòu)的興趣特征表示主要是通過網(wǎng)絡(luò)中的節(jié)點來描述用戶的興趣特征, 如用戶—電影網(wǎng)絡(luò)、學者—關(guān)鍵詞網(wǎng)絡(luò)等, 該類網(wǎng)絡(luò)包含了非常豐富的結(jié)構(gòu)和語義關(guān)系, 而學術(shù)信息包含了作者、單位、文獻、期刊等多種實體, 基于學術(shù)網(wǎng)絡(luò)結(jié)構(gòu)的學者興趣表征方法在一定程度上有助于解決信息推薦過程中論文低產(chǎn)量學者的數(shù)據(jù)“稀疏性” 問題。鑒于此, 本文基于現(xiàn)有的網(wǎng)絡(luò)表示學習方法, 將文獻時間因子與文獻語義關(guān)系融入學者—文獻異質(zhì)信息網(wǎng)絡(luò)中進行學術(shù)信息推薦研究。
1相關(guān)研究
目前, 國內(nèi)外關(guān)于學者興趣特征挖掘研究主要從基于向量、基于主題模型和基于網(wǎng)絡(luò)結(jié)構(gòu)3 個方面進行學術(shù)用戶建模, 從而挖掘?qū)W術(shù)用戶的興趣特征?;谙蛄磕P偷膶W者興趣特征表示是用一系列特征詞向量來代表學者的興趣, Guan P 等[11] 使用標題、關(guān)鍵詞、摘要和引用等數(shù)據(jù), 利用TF-IDF對文獻進行建模, 最后利用不同權(quán)值的主題詞向量進行用戶興趣表示; 耿立校等[12] 使用TF-IDF 技術(shù)和Word2vec 技術(shù)提取文獻特征和用戶興趣中權(quán)重較大的前N 個特征詞向量, 根據(jù)特征詞向量和權(quán)重來計算文獻和用戶的匹配度, 從而實現(xiàn)文獻推薦。在以主題建模為基礎(chǔ)的興趣挖掘方面, Malho?tra R 等[13] 基于LDA 主題模型, 依據(jù)相似作者的興趣以及作者自身的長期和短期興趣, 并利用LSA方法計算興趣的語義相似度, 從而將高相似度的主題推薦給作者, 該研究表明此種類型的融合提高了主題預(yù)測的準確性; 尹麗玲等[14] 從資源類型、學科分布、關(guān)鍵詞分布和LDA 主題分布4 個特征,整合學術(shù)資源興趣值和質(zhì)量值作為推薦值, 以實現(xiàn)優(yōu)質(zhì)推薦?;诰W(wǎng)絡(luò)結(jié)構(gòu)的興趣特征表示是通過網(wǎng)絡(luò)中的節(jié)點來描述用戶興趣特征, 網(wǎng)絡(luò)特征學習已成為網(wǎng)絡(luò)分析中的重要任務(wù)。網(wǎng)絡(luò)表示學習[15] 旨在從網(wǎng)絡(luò)中學習一系列低維向量, 如網(wǎng)絡(luò)節(jié)點、邊、子圖等, 從而在分類、鏈路預(yù)測、信息推薦等下游任務(wù)中用于特征表示。Perozzi B 等[16] 首次將深度學習與網(wǎng)絡(luò)分析相結(jié)合并提出了DeepWalk 算法,該算法利用隨機游走的方式來對網(wǎng)絡(luò)進行序列化,以及將Word2vec 引入算法中實現(xiàn)節(jié)點特征表示;Node2vec[17] 則是在DeepWalk 算法的基礎(chǔ)上對序列采集策略進行優(yōu)化, 引入有偏參數(shù)來引導(dǎo)漫步的下一個節(jié)點, 該過程包含廣度優(yōu)先與深度優(yōu)先兩種采樣策略, 提高了游走生成路徑的質(zhì)量; Meta?path2Vec[18] 算法是基于元路徑來控制隨機游走的過程, 在此過程中保留了異質(zhì)網(wǎng)絡(luò)中的結(jié)構(gòu)和節(jié)點語義關(guān)系。在現(xiàn)有研究中, 不少學者利用網(wǎng)絡(luò)表示學習進行學術(shù)信息推薦研究, 如朱祥等[19] 將學科異構(gòu)知識網(wǎng)絡(luò)應(yīng)用于作者—文獻的相關(guān)性研究中,利用元路徑理論和DPRel 相關(guān)性算法構(gòu)建作者—文獻相關(guān)性矩陣, 最終依據(jù)該相關(guān)性得到文獻推薦列表; Li Y 等[20] 綜合考慮論文、地點、作者、術(shù)語和用戶以及這些實體之間的關(guān)系, 在這些元路徑上應(yīng)用隨機游動來測量候選論文對目標用戶的推薦分數(shù), 提出基于異構(gòu)網(wǎng)絡(luò)的論文推薦方法, 依據(jù)用戶的歷史偏好實現(xiàn)有效的論文推薦; 張金柱等[21]則以學者合著網(wǎng)絡(luò)為基礎(chǔ), 利用LINE 方法進行網(wǎng)絡(luò)表示學習, 最終通過計算向量相似度來進行科研合作預(yù)測。
綜上所述, 雖然目前學術(shù)界對于學術(shù)信息推薦的研究已有較大進展, 但仍存在以下問題亟待解決: 首先, 現(xiàn)有學術(shù)信息推薦大多只針對學者靜態(tài)興趣, 以學者動態(tài)興趣為基礎(chǔ)的學術(shù)信息推薦研究較少, 但在現(xiàn)實情況中, 學者的研究興趣往往具有階段性的特點, 因為隨著時代不斷發(fā)展, 科學研究需求也會相應(yīng)發(fā)生變化, 學者往往會根據(jù)時代背景與研究需求進行一系列研究, 所以捕捉學者動態(tài)興趣特征更有利于提高學術(shù)信息的推薦質(zhì)量, 從而為學者提供更好的信息服務(wù); 其次, 從方法的選擇來看, 現(xiàn)有針對學者的學術(shù)信息推薦研究主要利用單一的節(jié)點類型來構(gòu)建網(wǎng)絡(luò), 無法推薦多粒度的學術(shù)信息?;诋愘|(zhì)網(wǎng)絡(luò)的網(wǎng)絡(luò)表示學習不僅能極大程度地保留圖結(jié)構(gòu)數(shù)據(jù)節(jié)點的結(jié)構(gòu)和語義信息, 還能在一定程度上解決數(shù)據(jù)稀疏問題, 從而提升對少產(chǎn)量作者的推薦效果。然而, 現(xiàn)有應(yīng)用于學術(shù)信息推薦的網(wǎng)絡(luò)表示學習主要依賴于網(wǎng)絡(luò)結(jié)構(gòu)信息, 而未考慮節(jié)點的外部語義信息?;诖?, 本文提出了融合加權(quán)異質(zhì)網(wǎng)絡(luò)與網(wǎng)絡(luò)表示學習的學術(shù)信息推薦模型, 以實現(xiàn)有效的學術(shù)信息推薦。
2基于加權(quán)異質(zhì)信息網(wǎng)絡(luò)的學術(shù)信息推薦模型構(gòu)建
該模型綜合考慮了文獻節(jié)點的時間特征與語義特征來構(gòu)建加權(quán)異質(zhì)網(wǎng)絡(luò), 其中時間特征體現(xiàn)了學者興趣的動態(tài)性, 而語義特征則利用了文獻節(jié)點的摘要語義信息幫助建立文獻節(jié)點關(guān)系, 從而可以更好地挖掘潛在的推薦項目。通過該異質(zhì)網(wǎng)絡(luò)節(jié)點表示學習, 最終完成了包括學者和文獻在內(nèi)的學術(shù)信息資源推薦。本文構(gòu)建的學術(shù)信息推薦模型如圖1所示, 該模型包含了數(shù)據(jù)采集與數(shù)據(jù)預(yù)處理、異質(zhì)網(wǎng)絡(luò)構(gòu)建、網(wǎng)絡(luò)關(guān)系加權(quán)、節(jié)點向量生成以及推薦模塊五大模塊。首先, 構(gòu)建了包含學者以及文獻的異質(zhì)信息網(wǎng)絡(luò); 其次, 根據(jù)文獻發(fā)表時間計算時間因子加權(quán)來反映用戶動態(tài)興趣, 同時利用文獻摘要文本的相似度來進行文獻之間的語義加權(quán); 第三,在該加權(quán)異質(zhì)信息網(wǎng)絡(luò)上進行節(jié)點學習, 得到每個節(jié)點的向量表示; 最后, 進行余弦相似度計算得到節(jié)點間的相似度, 并以此作為最終推薦值, 從而得到推薦結(jié)果。
2.1異質(zhì)網(wǎng)絡(luò)構(gòu)建
本研究定義的異質(zhì)社交網(wǎng)絡(luò)包含兩種類型的節(jié)點: 學者S(Scholar)和文獻L(Literature), 實體之間包含兩種類型的關(guān)系, 即邊: SL(學者與文獻的關(guān)系)、LL(文獻與文獻之間的關(guān)系)。若文獻L 由學者S 參與撰寫, 則學者S 與文獻L 存在SL 關(guān)系;若文獻L 與文獻L 具有較高的相似度, 則文獻L與文獻L 之間存在LL 關(guān)系, 得到如圖2 所示的異質(zhì)網(wǎng)絡(luò)圖。
2.2網(wǎng)絡(luò)關(guān)系加權(quán)
近期發(fā)表的內(nèi)容比早期發(fā)表的內(nèi)容更能體現(xiàn)學者目前的研究興趣, 其對于推薦任務(wù)起到了更為重要的作用。所以本文將用戶發(fā)表時間引入推薦算法中, 通過給近期文獻賦予更高的時間權(quán)重, 以得到不同時間段的時間權(quán)重, 從而更好地表示用戶興趣主題。設(shè)共有M 位學者, 學者i(0<i≤M)發(fā)表文獻數(shù)量為Ni, 時間權(quán)重函數(shù)[22] 如式(1) 所示:
其中, A、B 代表文本的TF-IDF 向量, 設(shè)向量長度為n, ai(0<i≤n)與bi(0<i≤n)代表向量A與B 中的元素。
將構(gòu)建的異質(zhì)信息網(wǎng)絡(luò)進行邊加權(quán)后, 得到了一個包含時間特征與語義特征的加權(quán)異質(zhì)信息網(wǎng)絡(luò), 如圖3 所示。其中S 代表學者節(jié)點, L代表文獻節(jié)點, 二者的節(jié)點集合表示為G, wij代表節(jié)點i(i∈G)與節(jié)點j(j∈G)之間的邊權(quán)值。
2.3節(jié)點向量生成
節(jié)點表示學習的特征質(zhì)量由采樣序列的質(zhì)量決定, 本文采用文獻[17]中的有偏隨機游走對異質(zhì)網(wǎng)絡(luò)中的節(jié)點進行采樣, 具體采樣過程如下:
τij=eγ(t0 -tn) (1)
其中, τij(0<i≤M, 0<j≤Ni)是從文獻發(fā)表時間的角度用來衡量文獻j 對學者i 興趣偏好的影響程度參數(shù), γ 為時間衰減因子, t0為學者i 的文獻j的發(fā)表時間, tn為學者i 最近的研究發(fā)表時間。由公式可以看出, 當文獻發(fā)表時間與最近一次發(fā)表時間越近, 時間權(quán)重系數(shù)越大, 反之越小。
為了將語義信息融入異質(zhì)圖中, 本文將學術(shù)文獻與學術(shù)文獻之間的相似性作為異質(zhì)圖中文獻節(jié)點與文獻節(jié)點之間的權(quán)重值, 主要過程為計算數(shù)據(jù)集內(nèi)所有文獻摘要的相似度, 為了避免摘要中的通用詞匯對語義加權(quán)造成影響, 將TF-IDF 的閾值設(shè)置為0.1, 若文獻與文獻之間的TF-IDF 相似度小于0.1, 則表明文獻節(jié)點之間語義相似度低, 文獻和文獻之間不存在LL 關(guān)系。在文本相似度的度量中, 本文使用TF-IDF 進行文本向量表示, TF-IDF是一種統(tǒng)計方法, 用于評價一個單詞在一個語料庫中的重要性。單詞的重要程度與其出現(xiàn)在文本中的頻次成正比, 但也與其在語料文檔中出現(xiàn)的次數(shù)是反比的關(guān)系, 計算方法如式(2) 所示。在得到文本TF-IDF 向量后, 利用余弦值代表文本之間的相似度, 如式(3) 所示。
對網(wǎng)絡(luò)G中的每一個節(jié)點進行采樣, 捕捉每個節(jié)點的網(wǎng)絡(luò)結(jié)構(gòu)特征。給定最初始的節(jié)點c0(c0∈G), 其中G 的數(shù)量為m+z, 設(shè)置游走的步長為l,讓ci表示隨機游走中的第i(0≤i≤m +z)個節(jié)點,則在給定的節(jié)點ci-1中, 下一節(jié)點ci被訪問的可能性如式(4) 所示。
對于如何針對所得的節(jié)點序列進行學習, 在本研究中, 將概率隨機游走得到的序列類比作語料庫中的句子, 序列中的節(jié)點類比作句子中的單詞, 游走序列中節(jié)點共現(xiàn)的情況類似于詞匯的共現(xiàn)情況。使用基于Skip -gram 模型學習節(jié)點的嵌入表示,Skip-gram 是一種嵌入詞語的方法, 通過學習到的節(jié)點表示, 可以計算每個節(jié)點之間的相似性。Skipgram的原理為序列中的中心節(jié)點與周圍的節(jié)點共同出現(xiàn)的概率更大。設(shè)中心節(jié)點wc在詞典中的索引為c, 上下文詞wo索引為o, Skip-gram 訓練過程中存在兩個大小為V ×n 的矩陣, 分別為上下文矩陣與中心詞矩陣, 其中V 表示詞庫大小, n 表示訓練出來詞向量的維度, 每個詞都被表示成作為序列中的中心節(jié)點時的向量v 存放在中心詞矩陣中與作為上下節(jié)點的向量c 存放在上下文矩陣中, 給定中心節(jié)點得到上下節(jié)點的條件概率, 如式(6) 所示, 其中i 為節(jié)點在詞典中的索引, vi是它為中心節(jié)點時的表示向量, ui為它是上下節(jié)點時的表示向量。
最終獲得所有節(jié)點嵌入表示, 即節(jié)點向量表示, 如圖5所示。
2.4學術(shù)信息推薦
在進行網(wǎng)絡(luò)表示學習的過程中, 本文將序列中的節(jié)點類比作句子中的單詞, 在進行推薦值計算的過程中, 同樣利用空間向量模型的思想來進行節(jié)點相似度計算。向量空間模型(VSM)是Salton G[23]在1970年提出的一種文本代數(shù)模型, 在向量空間中以空間相似性來表達語義相似, 最常用的是余弦相似性。在獲得所有節(jié)點嵌入表示后, 通過計算節(jié)點向量之間的余弦相似性來獲取學術(shù)信息的推薦值, 節(jié)點pi和pj的相似度計算如式(7) 所示。
3實證及結(jié)果分析
3.1數(shù)據(jù)采集與預(yù)處理
3.1.1數(shù)據(jù)采集
本文主要使用Python 的工具包Selenium, 并結(jié)合CNKI 的導(dǎo)出文獻功能來進行數(shù)據(jù)采集, CNKI自定義的導(dǎo)出文獻字段有文獻標題、作者、單位、關(guān)鍵詞、摘要、發(fā)表時間。以華中師范大學的研究學者“熊回香” 為初始學者, 獲得該學者在CNKI收錄的所有文獻信息, 再以其合作學者為查找條件, 獲得其合作學者在CNKI 上被收錄的文獻信息, 以此反復(fù)3輪, 最終得到學者1077位, 學術(shù)文獻1831篇。去除初始數(shù)據(jù)中重復(fù)的文獻632篇后, 得到保留文獻1199篇, 如表1所示。
3.1.2數(shù)據(jù)預(yù)處理
首先對學位論文、教學相關(guān)論文和會議紀要,如“情報學與情報工作發(fā)展論壇(2017)隆重召開并凝聚形成《南京共識》” “在‘第七屆科學計量學與大學評價國際研討會 上的致辭”“2021 ‘數(shù)據(jù)分析與應(yīng)急情報 系列學術(shù)活動紀要” 等文獻進行刪除, 只保留與學者研究有關(guān)的文獻, 最終得到實證文獻1199篇, 并對其進行編號。然后, 將學者—文獻—合作學者的關(guān)系統(tǒng)一處理為學者—文獻關(guān)系, 并將日期保留至年份。同時, 為了方便下一步文獻摘要的向量空間模型計算, 在數(shù)據(jù)預(yù)處理階段也對文獻摘要進行分詞、去除停用詞等操作,本文主要使用Python 工具包Jieba 的精確分詞模式進行分詞, 最終得到的數(shù)據(jù)結(jié)果如表2所示。
3.2異質(zhì)網(wǎng)絡(luò)構(gòu)建與加權(quán)
3.2.1異質(zhì)網(wǎng)絡(luò)構(gòu)建
將表2中的學者節(jié)點S與文獻節(jié)點L進行整理, 得到如表3所示的邊列表, 該表可作為后續(xù)關(guān)系加權(quán)的初始表格。
3.2.2時間因子加權(quán)
式(1) 中的時間衰減因子γ 是計算時間權(quán)重時的重要參數(shù), 它是衡量時間差對時間權(quán)重的影響程度, 在式中有著重要的作用。根據(jù)經(jīng)驗將γ 值設(shè)定為{0.1,0.2,0.3,0.4,0.5,0.6,0.7,0.8,0.9,1},本文采用數(shù)據(jù)離散度的指標———方差, 來進行時間因子γ 的分析。以文獻發(fā)表年份{2011,2012,2013……2021,2022}為例, 得到不同γ 值下的該組數(shù)據(jù)離散程度, 如圖6 所示。當離散程度越大, 隨機游走概率越大, 即偏向性越強, 也就代表著游走的節(jié)點更能表征學者當前興趣, 所以最終選擇γ =0. 4進行后續(xù)實證研究。
利用式(1) 中的時間加權(quán)函數(shù), 結(jié)合表2 中的學者、文獻與發(fā)表時間可計算出每位學者—文獻的時間權(quán)重, 如表4 所示。
3.2.3文獻語義關(guān)系加權(quán)
語義加權(quán)主要關(guān)注文獻摘要與文獻摘要之間的語義相似度, 該相似度即代表文獻—文獻之間的權(quán)重。將上一節(jié)中進行分詞后的摘要作為語料庫, 得到每個詞的TF-IDF值, 然后抽取出每個文本的TFIDF向量, 再利用式(3) 計算得到每一篇文獻與語料庫中文獻的余弦相似度, 得到最終的文獻—文獻相似度結(jié)果, 如表5 所示。
將學者—文獻的時間權(quán)重與文獻—文獻的語義加權(quán)添加在異質(zhì)信息網(wǎng)絡(luò)中, 得到如下包含邊權(quán)值的邊列表, 如表6 所示, 該表數(shù)據(jù)作為隨機游走的基礎(chǔ)數(shù)據(jù)。
3.3節(jié)點向量生成
由于在數(shù)據(jù)采集階段, 主要收集了以“熊回香”學者為初始節(jié)點的數(shù)據(jù), 從學者—文獻—學者, 進行了3 輪采集, 最長的節(jié)點數(shù)為9, 所以本文將隨機游走的游走長度設(shè)置為10, 即walk_length=10。在進行游走的過程中采用偏深度優(yōu)先的游走來生成序列, 即q<1、p>max(q,1), 經(jīng)過參數(shù)測試, 令q =0.5、p =1.1。最終, 進行概率隨機游走所得到的元路徑節(jié)點序列如表7 所示。
以第一次游走生成的節(jié)點序列為例, [‘李陽,‘1025,‘721, ‘1014, ‘徐健, ‘722,‘1021,‘1139, ‘王賢文,‘1140], 節(jié)點序列為學者節(jié)點“李陽”, 學術(shù)文獻節(jié)點1025, 再游走到其高相似度文獻“應(yīng)急專家發(fā)現(xiàn)路徑融合模型探究”, 到“應(yīng)急知識庫系統(tǒng)構(gòu)建的關(guān)鍵問題與模塊劃分研究”, …, 概率游走到學者王賢文, 最終到達文獻節(jié)點“全文引文分析視角下的造假論文學術(shù)影響研究”。通過對游走路徑1 進行分析可以發(fā)現(xiàn), 第5 個節(jié)點是從文獻1014 游走到學者徐健, 文獻1014 與721 主題上雖然都是應(yīng)急決策,但是1014 的主題包含知識庫系統(tǒng)構(gòu)建, 從1014 到學者節(jié)點“徐建” 產(chǎn)生了一定的偏差。從上述可以發(fā)現(xiàn), 路徑長度大于3 之后, 其所反映的關(guān)聯(lián)關(guān)系較弱, 所以本文在后續(xù)進行節(jié)點采樣的過程中將這一特點納入考慮范圍。
序列生成之后, 將生成的序列當作句子輸入Skip-gram 進行訓練集采集與模型訓練。為了簡化損失函數(shù)的計算過程, 本文將采用負采樣的方式進行訓練集采集。根據(jù)上述對游走路徑的分析示例,在進行訓練采樣時將采樣窗口確定為3。經(jīng)過Skipgram訓練后, 可得到每一個節(jié)點的向量表示, 如表8所示。
3.4學術(shù)信息推薦
在本節(jié)中, 以“熊回香” 學者為推薦目標進行學術(shù)信息推薦, 將推薦目標節(jié)點向量作為輸入值, 經(jīng)過式(7) 的向量相似度計算, 可得到目標節(jié)點與所有節(jié)點之間的相似度, 然后將相似度高的節(jié)點根據(jù)文獻、學者兩種類別進行分類, 并從中剔除與目標學者直接相關(guān)聯(lián)的文獻以及已合作的學者。在推薦結(jié)果展示的過程中, 本文將推薦學者的發(fā)表文獻關(guān)鍵詞與CNKI 中的關(guān)注領(lǐng)域作為該名學者的關(guān)鍵詞, 即表8 中的關(guān)鍵詞字段, 同時以發(fā)表文獻的關(guān)鍵詞作為表9中的關(guān)鍵詞字段, 以便進行后續(xù)的結(jié)果分析。由于學者與文獻之間數(shù)量的差異, 推薦了學者相似度前8名, 如表9所示; 學術(shù)文獻相似度前10名, 如表10所示。
3.5推薦結(jié)果分析
根據(jù)表9的推薦學者與表10推薦的相關(guān)論文,可以發(fā)現(xiàn)本模型取得了良好的推薦結(jié)果。通過檢索目標學者單位的官方網(wǎng)站介紹與其所發(fā)表文章可知, 目標學者熊回香近期研究主要圍繞其課題項目“融合知識圖譜和深度學習的在線學術(shù)資源挖據(jù)與推薦研究” 開展。而從表9 中可以發(fā)現(xiàn), 本模型所推薦的學者許鑫、范濤、王賢文、張寶隆、鄧三鴻的關(guān)注領(lǐng)域有知識圖譜、自然語言處理以及數(shù)據(jù)挖掘與深度學習領(lǐng)域, 而推薦學者許鑫、王賢文、鄧衛(wèi)華、楊建林、劉友華均在個性化推薦、用戶興趣與用戶畫像領(lǐng)域有所涉及。從整體上看, 推薦模型所推薦的學者與本文目標學者熊回香的現(xiàn)研究方向相同或相似。從表10 可知, 為目標學者推薦的文獻有較強的針對性, 時間維度上價值較高, 目標學者的現(xiàn)研究方向大多與“個性化推薦” 有關(guān),而推薦文獻均與信息推薦有著較大的關(guān)聯(lián)。
為了評價模型的有效性, 本文選取準確率(P)、召回率(R)與F 值(F)來評估推薦模型效果, 評價指標公式如式(8) ~式(10)所示。
其中, K 表示推薦列表長度, 將推薦成功的資源數(shù)量記作Nrl, 推薦資源中符合推薦興趣的資源數(shù)量記作Nl 。由于本文是基于網(wǎng)絡(luò)表示學習的推薦改進模型, 故選取基于網(wǎng)絡(luò)表示學習[21] 的推薦模型進行對比。以CNKI 的作者關(guān)注領(lǐng)域代表作者的興趣特征詞, 若目標學者與推薦學者之間的特征詞向量相似度大于0.25, 則說明推薦成功。以目標學者近兩年發(fā)表文獻關(guān)鍵詞作為作者最新興趣特征, 若目標學者最新研究與推薦文獻之間的相似度大于0.25, 則說明推薦成功。本文從資源列表中隨機選?。常皸l推薦資源, 以30條推薦資源中推薦值排名前15條作為推薦列表, 以此來判斷推薦效果, 結(jié)果如表11 所示。由表11 可知, 本文模型推薦效果優(yōu)于基于未加權(quán)的網(wǎng)絡(luò)表示學習推薦模型。
綜上所述, 本研究提出的推薦方法中推薦學者與目標學者的研究方向高度匹配, 推薦模型推薦的學術(shù)文獻與目標學者近期研究興趣相近, 目標學者可以從推薦文獻中得到啟發(fā), 迅速找到與自己研究方向相近的研究主題。本研究提出的推薦模型輸出的結(jié)果符合目標學者的科研興趣需求, 通過推薦潛在的同方向的研究學者和研究文獻, 可以為研究者提供更加廣闊的視野來開展研究。
4結(jié)語
本文提出了一種結(jié)合時間與語義加權(quán)的異質(zhì)網(wǎng)絡(luò)推薦方法, 該方法既考慮了學者的動態(tài)興趣, 又考慮了文獻之間的語義關(guān)系, 很大程度上緩解了推薦過程中的數(shù)據(jù)稀疏問題。在構(gòu)建異質(zhì)網(wǎng)絡(luò)的過程中, 針對文獻節(jié)點, 利用文本向量空間模型與余弦相似度計算得到文獻之間的語義相似度, 將該相似度作為異質(zhì)網(wǎng)絡(luò)中的邊權(quán)重, 最終構(gòu)建了包含語義的異質(zhì)網(wǎng)絡(luò), 從而在此異質(zhì)網(wǎng)絡(luò)上進行學術(shù)信息推薦。通過采集在線學術(shù)平臺信息的相關(guān)數(shù)據(jù), 對本文提出的推薦方法進行實證研究, 驗證結(jié)果表明了該推薦方法的有效性。該推薦方法的意義在于, 在對學者進行信息推薦的過程中, 首先, 考慮了學者的動態(tài)興趣, 為學者推薦其當前最感興趣的內(nèi)容;其次, 利用到文獻節(jié)點的文本語義信息, 加強了學術(shù)—文獻異質(zhì)網(wǎng)絡(luò)中節(jié)點表示的強度和效果, 提高了信息推薦的精準度; 最后, 由于異質(zhì)網(wǎng)絡(luò)存在多種節(jié)點類型, 在推薦過程中可為學者推薦學者以及文獻兩類學術(shù)信息。但本文仍存在一定的局限性,由于實證研究部分只使用了學者所發(fā)表的中文文獻, 并未涉及學者所發(fā)表的外文文獻, 一定程度上降低了推薦的準確度, 未來研究可考慮加入學者已發(fā)表的外文文獻, 增加異質(zhì)網(wǎng)絡(luò)的豐富性, 從而提供更為豐富的推薦內(nèi)容。