• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法

      2022-09-16 01:19:50祝婷
      情報(bào)工程 2022年3期
      關(guān)鍵詞:相似性向量學(xué)術(shù)

      祝婷

      西安工業(yè)大學(xué)圖書館 西安 710021

      引言

      學(xué)術(shù)文獻(xiàn)作為學(xué)者在科學(xué)研究過程中必不可少的知識(shí)源,對(duì)于輔助學(xué)術(shù)研究具有重要意義。然而隨著互聯(lián)網(wǎng)與科學(xué)技術(shù)的快速發(fā)展,學(xué)術(shù)科研領(lǐng)域中的文獻(xiàn)數(shù)量與日俱增,一方面,面對(duì)海量的學(xué)術(shù)文獻(xiàn),學(xué)者很難從中獲取自己所需的文獻(xiàn);另一方面,部分學(xué)術(shù)文獻(xiàn)被淹沒,沒有展現(xiàn)給學(xué)者的機(jī)會(huì),造成了資源浪費(fèi)的現(xiàn)象。在這種場(chǎng)景下,如何快速有效的幫助學(xué)者獲取自己感興趣的文獻(xiàn)已成為目前廣泛關(guān)注的研究課題。而學(xué)術(shù)文獻(xiàn)推薦方法可以緩解這種“信息過載”問題,它是從海量的學(xué)術(shù)文獻(xiàn)中挖掘?qū)W者可能感興趣的文獻(xiàn),然后展現(xiàn)給學(xué)者,進(jìn)而實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)個(gè)性化推薦的過程。

      常見的文獻(xiàn)推薦方法有基于內(nèi)容的文獻(xiàn)推薦,基于協(xié)同過濾的文獻(xiàn)推薦以及混合文獻(xiàn)推薦。基于內(nèi)容的文獻(xiàn)推薦是指分別獲取用戶興趣和文獻(xiàn)內(nèi)容的向量空間模型,通過匹配兩者的相似度,向用戶推薦相似度較高的文獻(xiàn)。陳長華等[1]利用Word2Vec 方法對(duì)論文進(jìn)行向量化表示,同時(shí)引入論文發(fā)表時(shí)間權(quán)重計(jì)算論文間相似性進(jìn)行推薦。耿立校等[2]使用余弦值r與匹配度值Sim 相結(jié)合的方法對(duì)傳統(tǒng)的基于內(nèi)容的推薦進(jìn)行改進(jìn)?;趦?nèi)容的推薦方法具備較強(qiáng)的直觀性和可解釋性,但是該方法只能推薦與用戶歷史閱讀文獻(xiàn)相似的文獻(xiàn),缺乏多樣性,并且沒有考慮用戶對(duì)文獻(xiàn)的評(píng)價(jià)等信息?;趨f(xié)同過濾的文獻(xiàn)推薦是目前應(yīng)用最為廣泛且成功的推薦方法,它是通過計(jì)算用戶之間的相似性獲取近鄰用戶,將近鄰用戶感興趣的文獻(xiàn)推薦給目標(biāo)用戶。陳浩[3]在計(jì)算用戶相似性時(shí)融合了用戶點(diǎn)擊和搜索詞的相似度,進(jìn)一步改進(jìn)了基于用戶的協(xié)同過濾方法。顧明星等[4]對(duì)用戶屬性進(jìn)行聚類,然后將時(shí)間因素引入至評(píng)分相似性中,同時(shí)將新人誤差引入至信任關(guān)系中計(jì)算用戶相似性,提出了一種改進(jìn)的協(xié)同過濾推薦。基于協(xié)同過濾的文獻(xiàn)推薦可以在一定程度上緩解基于內(nèi)容推薦的單一性,但是該方法仍舊存在一些問題,例如稀疏性和冷啟動(dòng)問題。為了彌補(bǔ)上述兩種推薦方法的缺點(diǎn)同時(shí)結(jié)合其優(yōu)點(diǎn),進(jìn)而形成了混合推薦方法。王妍等[5]將基于內(nèi)容的推薦和協(xié)同過濾推薦相結(jié)合,提出了一種混合論文推薦方法,有效的解決了冷啟動(dòng)問題。王永貴等[6]針對(duì)基于內(nèi)容的推薦和協(xié)同過濾算法中存在的問題,提出了一種融合內(nèi)容與協(xié)同矩陣分解技術(shù)的混合推薦方法?;旌贤扑]算法框架較為復(fù)雜,且推薦效果受單一推薦方法選擇的影響。

      綜上所述,以上方法分別從不同角度對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行了推薦,并產(chǎn)生了良好的推薦效果,但是忽略了文獻(xiàn)間引用關(guān)系在推薦過程中的重要性,進(jìn)而影響推薦的準(zhǔn)確性。在學(xué)術(shù)文獻(xiàn)推薦過程中,最直接的方法是對(duì)文獻(xiàn)的文本信息進(jìn)行挖掘從而進(jìn)行推薦,文本信息包含長文本內(nèi)容和短文本標(biāo)簽。內(nèi)容信息是以非結(jié)構(gòu)化的長文本形式描述文獻(xiàn)的內(nèi)容,如文獻(xiàn)的摘要、正文等,具有直觀性、具體性等特點(diǎn)。標(biāo)簽信息是以結(jié)構(gòu)化的短文本形式描述文獻(xiàn)的特征,可以準(zhǔn)確的反映用戶的喜好,具有規(guī)范化、易處理等特點(diǎn)。但是僅僅使用文本信息的推薦方法仍具有局限性,如信息單一,未考慮文獻(xiàn)間的交互關(guān)系等。除了文獻(xiàn)自身的文本信息外,從文獻(xiàn)間的引用關(guān)系圖中可以挖掘更深層次的語義信息,但是由于爆炸式增長的文獻(xiàn)數(shù)量使得引用關(guān)系圖中的節(jié)點(diǎn)和邊往往非常龐大,進(jìn)而導(dǎo)致文獻(xiàn)向量表示出現(xiàn)高維稀疏的問題,網(wǎng)絡(luò)表示學(xué)習(xí)方法可以將復(fù)雜網(wǎng)絡(luò)圖中的節(jié)點(diǎn)表示為低維稠密的向量表示,同時(shí)保留原有的網(wǎng)絡(luò)結(jié)構(gòu)。因此,本文提出一種融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法,分別從文獻(xiàn)引用網(wǎng)絡(luò)、長文本內(nèi)容和短文本標(biāo)簽這三個(gè)方面對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行特征表示,在此基礎(chǔ)上計(jì)算文獻(xiàn)間的綜合相似性,進(jìn)而提高學(xué)術(shù)文獻(xiàn)推薦的質(zhì)量。

      1 相關(guān)工作

      1.1 網(wǎng)絡(luò)表示學(xué)習(xí)

      在互聯(lián)網(wǎng)時(shí)代,爆炸式增長的信息資源之間構(gòu)成了復(fù)雜的信息網(wǎng)絡(luò),如何將復(fù)雜信息網(wǎng)絡(luò)進(jìn)行準(zhǔn)確的網(wǎng)絡(luò)表示是目前科學(xué)研究的重要過程。網(wǎng)絡(luò)表示學(xué)習(xí)(Network Representation Learning, NRL),又稱網(wǎng)絡(luò)嵌入(Network Embedding, NE)或者圖嵌入(Graph Embedding,GE),它可以將復(fù)雜信息網(wǎng)絡(luò)中的節(jié)點(diǎn)表示為低維、稠密、實(shí)值的向量表示[7],從而解決傳統(tǒng)的網(wǎng)絡(luò)表示使用稀疏高維的向量需要花費(fèi)大量計(jì)算空間和運(yùn)行時(shí)間的問題。

      網(wǎng)絡(luò)表示學(xué)習(xí)方法一般分為基于矩陣分解的方法、基于隨機(jī)游走的方法以及基于深度神經(jīng)網(wǎng)絡(luò)的方法[8]?;诰仃嚪纸獾姆椒ㄊ轻槍?duì)高維的原始矩陣進(jìn)行特征值分解、奇異值分解等操作獲取節(jié)點(diǎn)的低維向量表示。由于該方法的時(shí)間復(fù)雜度和空間復(fù)雜度較高,在大規(guī)模的數(shù)據(jù)應(yīng)用上并不理想?;陔S機(jī)游走的方法思想來源于Word2vec[9-10]模型,它將節(jié)點(diǎn)類比為單詞,隨機(jī)序列類比為句子,進(jìn)而獲取網(wǎng)絡(luò)嵌入,代表性的算法有DeepWalk[11]、LINE[12](Largescale Information Network Embedding)、Node-2vec[13]等。DeepWalk 使用網(wǎng)絡(luò)中節(jié)點(diǎn)間的共現(xiàn)關(guān)系來學(xué)習(xí)節(jié)點(diǎn)的向量表示,首先采用隨機(jī)游走算法獲取網(wǎng)絡(luò)中的節(jié)點(diǎn)序列,這些節(jié)點(diǎn)序列可以看作自然語言處理中的語句,節(jié)點(diǎn)序列中的節(jié)點(diǎn)可以看作自然語言處理中的單詞。其次通過Word2vec 中的Skip-Gram 模型對(duì)隨機(jī)游走中的節(jié)點(diǎn)進(jìn)行概率建模,最大化隨機(jī)游走序列的似然概率。最后使用隨機(jī)梯度下降法獲取節(jié)點(diǎn)的向量表示。該方法避免了鄰接矩陣需要將所有信息存儲(chǔ)在內(nèi)存而影響到計(jì)算效率的問題。其中隨機(jī)游走策略采用的是一種可重復(fù)訪問已訪問節(jié)點(diǎn)的深度優(yōu)先遍歷算法(Depth First Search, DFS)。LINE 是一種基于節(jié)點(diǎn)與鄰居間關(guān)系的大規(guī)模信息網(wǎng)絡(luò)表示學(xué)習(xí)算法,通過結(jié)合一階相似性和二階相似性來保存網(wǎng)絡(luò)結(jié)構(gòu)信息,獲取節(jié)點(diǎn)嵌入。其中一階相似性是指節(jié)點(diǎn)與直接相連的相鄰節(jié)點(diǎn)間的相似性,由于一階相似性不能代表節(jié)點(diǎn)的全局網(wǎng)絡(luò)結(jié)構(gòu),因此引入具有共同鄰居節(jié)點(diǎn)的節(jié)點(diǎn)間的相似性,即二階相似性,通過最小化一階和二階相似的損失函數(shù)獲取網(wǎng)絡(luò)中節(jié)點(diǎn)的向量表示。該方法采用了廣度優(yōu)先遍歷算法(Breadth First Search,BFS)的思想。Node2vec 對(duì)DeepWalk 進(jìn)行了改進(jìn),同時(shí)考慮了廣度優(yōu)先遍歷算法和深度優(yōu)先遍歷算法,形成了有偏的隨機(jī)游走,按照廣度優(yōu)先遍歷算法進(jìn)行游走趨向于節(jié)點(diǎn)周圍采樣序列,按照深度優(yōu)先遍歷算法進(jìn)行游走趨向于朝更遠(yuǎn)方向采樣序列。因此將兩者結(jié)合可以獲得反應(yīng)網(wǎng)絡(luò)全局信息及局部信息的節(jié)點(diǎn)序列,然后使用Skip-Gram模型輸出節(jié)點(diǎn)的向量表示,同時(shí)保證了網(wǎng)絡(luò)的同質(zhì)性與結(jié)構(gòu)性。基于深度神經(jīng)網(wǎng)絡(luò)的方法是利用深層神經(jīng)網(wǎng)絡(luò)模型對(duì)網(wǎng)絡(luò)中節(jié)點(diǎn)的非線性結(jié)構(gòu)進(jìn)行建模,進(jìn)而獲取網(wǎng)絡(luò)節(jié)點(diǎn)表示。以上網(wǎng)絡(luò)表示學(xué)習(xí)方法在復(fù)雜網(wǎng)絡(luò)上的成功應(yīng)用,對(duì)于學(xué)術(shù)文獻(xiàn)推薦具有重要啟示作用。

      1.2 文本向量化表示模型

      文本向量化表示是將自然語言轉(zhuǎn)化為實(shí)數(shù)向量,即計(jì)算機(jī)可以處理的格式。常見的文本向量表示模型有詞袋模型(bag of words)、Word2vec 和Doc2vec 等。詞袋模型僅考慮了詞頻,忽略了語序和語法信息,且易造成詞向量的稀疏性和高維性。Word2vec 的基本思想是使用上下文詞語預(yù)測(cè)當(dāng)前詞語或者使用當(dāng)前詞語預(yù)測(cè)上下文詞語,分別對(duì)應(yīng)Word2vec 中的CBOW 和Skip-gram 模型,使用Word2vec 進(jìn)行文本向量表示是在Word2vec 模型生成詞向量的基礎(chǔ)上,對(duì)文本包含的詞向量進(jìn)行加權(quán)平均等操作,該方法可以有效解決稀疏問題和維度災(zāi)難,但是同樣忽略了語序信息。Doc2vec 是Le等[14]于2014 年在Word2vec 的基礎(chǔ)上提出來的,區(qū)別在于增加了一個(gè)與詞向量維數(shù)相同的段落向量,該模型包含PV-DM(Distributed Memory version of Paragraph Vector)和PV-DBOW(Distributed Bag of Words version of Paragraph Vector)。PV-DM 模型與Word2vec 中的CBOW 模型相對(duì)應(yīng),是通過上下文的詞向量和段落向量來預(yù)測(cè)目標(biāo)詞語,PV-DBOW 模型與Word2vec中的Skip-gram 模型相對(duì)應(yīng),是以段落向量作為輸入,輸出其段落中詞向量的概況分布。與Word2vec 相比,Doc2vec 不僅考慮了語序信息,而且可以直接將文本向量化,訓(xùn)練過程方便簡(jiǎn)單。以上文本向量化本質(zhì)上是一種靜態(tài)表示方法,不能表達(dá)自然語言中的一詞多義,也不能獲取全局文本語義信息。針對(duì)上述問題,Devlin等[15]提出了BERT 模型,該模型以Transformer編碼器為主要框架,通過大量通用語料庫對(duì)預(yù)訓(xùn)練獲取通用語義信息,并針對(duì)專業(yè)語料庫進(jìn)行微調(diào),進(jìn)而更好的實(shí)現(xiàn)文本特征表示。

      2 研究思路與方法

      本文首先根據(jù)學(xué)術(shù)文獻(xiàn)庫中的引用關(guān)系構(gòu)建學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò),使用網(wǎng)絡(luò)表示學(xué)習(xí)模型Node2vec 獲取學(xué)術(shù)文獻(xiàn)的向量表示,同時(shí)利用Bert 模型獲取學(xué)術(shù)文獻(xiàn)的向量表示。其次對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)與Bert 模型生成的向量進(jìn)行一次特征融合,采用余弦相似性算法分別獲取特征融合后向量及基于標(biāo)簽對(duì)應(yīng)的學(xué)術(shù)文獻(xiàn)相似度矩陣,并對(duì)其進(jìn)行二次相似度矩陣融合,獲取文獻(xiàn)綜合相似度矩陣。最后在文獻(xiàn)綜合相似度矩陣的基礎(chǔ)上,根據(jù)其相似性大小實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)推薦。整個(gè)推薦流程如圖1 所示。

      圖1 融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦流程圖

      2.1 基于網(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)向量表示

      在學(xué)術(shù)文獻(xiàn)庫中,文獻(xiàn)并不是單獨(dú)存在,一篇文獻(xiàn)通常包含多個(gè)引文文獻(xiàn),這些引文文獻(xiàn)與該文獻(xiàn)在研究內(nèi)容上有著密切的關(guān)系,而引文文獻(xiàn)也有下一層的引文文獻(xiàn),這樣層層關(guān)聯(lián)便組成了引文網(wǎng)絡(luò)。網(wǎng)絡(luò)表示學(xué)習(xí)方法可以將引文網(wǎng)絡(luò)中的節(jié)點(diǎn)通過非線性模型轉(zhuǎn)化為更高層次的低維稠密的文獻(xiàn)向量表示,主要分為以下兩個(gè)步驟:

      (1)構(gòu)建學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)

      學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)反映了文獻(xiàn)間的引 用 關(guān) 系, 可 將 其 表 示 為G=(D,E),其中D 表示頂點(diǎn)集合,即學(xué)術(shù)文獻(xiàn)集合D={d1,d2,d3,d4,d5,…},集合中每一個(gè)頂點(diǎn)di對(duì)應(yīng)不同的文獻(xiàn);E 表示邊集合,即文獻(xiàn)間的引用關(guān)系集合E={e12,e13,e23,e24,e25,…},集合中每一條邊eij表示文獻(xiàn)di和文獻(xiàn)dj存在引用關(guān)系。若一篇文獻(xiàn)的引文列表中包含另一篇文獻(xiàn),則兩者構(gòu)成一條邊,通過上述規(guī)則可構(gòu)建學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)。

      (2)基于網(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)向量表示

      基于學(xué)術(shù)文獻(xiàn)引用關(guān)系構(gòu)建的學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò),通過對(duì)比DeepWalk、LINE 以及Node-2vec 等網(wǎng)絡(luò)表示學(xué)習(xí)模型。本文選擇Node2vec對(duì)文獻(xiàn)引用網(wǎng)絡(luò)進(jìn)行訓(xùn)練,以文獻(xiàn)引用網(wǎng)絡(luò)作為輸入,通過調(diào)整相關(guān)參數(shù),獲取每個(gè)文獻(xiàn)對(duì)應(yīng)的低維向量表示。

      Node2vec 是在DeepWalk 網(wǎng)絡(luò)表示學(xué)習(xí)模型的基礎(chǔ)上,綜合廣度優(yōu)先搜索和深度優(yōu)先搜索思想,通過引入?yún)?shù)p、q 進(jìn)行有偏的隨機(jī)游走,獲取隨機(jī)游走序列,實(shí)現(xiàn)通過廣度優(yōu)先搜索獲取文獻(xiàn)在數(shù)據(jù)集的微觀局部信息以及深度優(yōu)先搜索獲取文獻(xiàn)在數(shù)據(jù)集的宏觀全局信息。

      如圖2[13]所示,根據(jù)Node2vec 網(wǎng)絡(luò)表示學(xué)習(xí)模型,若游走路徑為(t,v),定義p 為游走至前一文獻(xiàn)鄰居的概率,則p 越大,已游走過的文獻(xiàn)被再次游走到的概率越低;定義q 為游走至前一文獻(xiàn)非鄰居的概率,則當(dāng)q>1 時(shí),隨機(jī)游走將局限于文獻(xiàn)t 附近,反之當(dāng)q<1 時(shí),隨機(jī)游走將遠(yuǎn)離文獻(xiàn)t;定義d 為從文獻(xiàn)t 到文獻(xiàn)x 的最短路徑,則按照Node2vec 游走思想,從文獻(xiàn)t 到文獻(xiàn)x 的概率計(jì)算方法如公式1[13]所示:

      圖2 Node2vec 算法游走示意圖

      基于上述算法獲取隨機(jī)游走序列,選用Skip-gram 模型對(duì)游走序列建模,實(shí)現(xiàn)隨機(jī)游走似然概率最大化,利用隨機(jī)梯度下降方法獲取文獻(xiàn)的向量表示。

      2.2 基于內(nèi)容的學(xué)術(shù)文獻(xiàn)向量表示

      文獻(xiàn)內(nèi)容是個(gè)性化推薦過程中需要關(guān)注的重點(diǎn)文本信息,如文獻(xiàn)的標(biāo)題、摘要等。因此,通過文獻(xiàn)內(nèi)容獲取特征向量表示,然后在此基礎(chǔ)上進(jìn)行相似性計(jì)算是實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)推薦的重要環(huán)節(jié)?;趦?nèi)容的學(xué)術(shù)文獻(xiàn)向量表示主要分為以下兩個(gè)步驟:

      (1)數(shù)據(jù)預(yù)處理。主要包括分句、分詞和去停用詞,對(duì)學(xué)術(shù)文獻(xiàn)庫中的文獻(xiàn)進(jìn)行預(yù)處理的主要目的是生成結(jié)構(gòu)化的文本數(shù)據(jù),并且去除無意義的詞語,這些是對(duì)文獻(xiàn)進(jìn)行特征提取和表示的基礎(chǔ)。對(duì)于由m 個(gè)文獻(xiàn)組成的文獻(xiàn)數(shù)據(jù)集合D={d1,d2,d3,…,dm},首先將文獻(xiàn)的題目和摘要進(jìn)行合并,選取Stanford Tokenizer 英文分詞系統(tǒng)將合并后的文本切分為單獨(dú)且具有語義的詞,其次剔除沒有實(shí)際含義的詞,如介詞、語氣詞等,最后將所有文獻(xiàn)轉(zhuǎn)化為這些詞的集合di={w1,w2,w3,…,wn}。

      (2)學(xué)術(shù)文獻(xiàn)向量化表示。Bert 模型以多層Transformer 編碼器為主要框架,基于其注意力機(jī)制獲取詞的表征信息,該表征信息包含了該詞本身語義和該詞與文本其他詞的關(guān)系,進(jìn)而獲得該詞的上下文語義信息。另外,Bert 模型利用掩蔽語言模型(Masked Language Model,MLM)和下一句預(yù)測(cè)(Next Sentence Prediction, NSP)技術(shù)進(jìn)行預(yù)訓(xùn)練,并針對(duì)具體任務(wù)進(jìn)行微調(diào),從而獲得較好的特征提取和分類表現(xiàn)。對(duì)于學(xué)術(shù)文獻(xiàn)推薦領(lǐng)域,由于文獻(xiàn)標(biāo)題、摘要等信息從整體上實(shí)現(xiàn)了對(duì)文獻(xiàn)的描述,因此計(jì)算文獻(xiàn)標(biāo)題、摘要等文獻(xiàn)內(nèi)容的特征向量有助于實(shí)現(xiàn)文獻(xiàn)推薦。本文數(shù)據(jù)集為英文數(shù)據(jù)集,且不區(qū)分大小寫,故選用BERT-Base-Uncased 生成學(xué)術(shù)文獻(xiàn)向量表示。

      2.3 基于標(biāo)簽的學(xué)術(shù)文獻(xiàn)相似性計(jì)算

      除了文獻(xiàn)中以長文本形式存在的文獻(xiàn)內(nèi)容外,標(biāo)簽也是描述一篇學(xué)術(shù)文獻(xiàn)的重要信息,它以不同粒度反應(yīng)了文獻(xiàn)的主題特征,同時(shí)也包含了文獻(xiàn)中可能未提及的重要關(guān)鍵詞或詞組,是學(xué)術(shù)文獻(xiàn)推薦方法中重要的數(shù)據(jù)源之一,被廣泛應(yīng)用于推薦系統(tǒng)中。標(biāo)簽數(shù)據(jù)一方面可以規(guī)范且直觀的揭示文獻(xiàn)的特征,另一方面具備易抽取性和語義性,因此將標(biāo)簽作為學(xué)術(shù)文獻(xiàn)的特征表示來計(jì)算其相似性,對(duì)于提高學(xué)術(shù)文獻(xiàn)推薦的準(zhǔn)確性具有重要意義。

      由于標(biāo)簽通常是由簡(jiǎn)短的詞語或詞組組成,不需要像處理長文本那樣進(jìn)行語義分析。因此本章節(jié)選擇Jaccard 系數(shù)即文獻(xiàn)對(duì)應(yīng)標(biāo)簽集合間的共現(xiàn)關(guān)系來計(jì)算文獻(xiàn)間的相似性,設(shè)定文獻(xiàn)d1由m 個(gè)標(biāo)簽組成,文獻(xiàn)d2由n 個(gè)標(biāo)簽組成,文獻(xiàn)d1和文獻(xiàn)d2的標(biāo)簽集合分別表示為Tagd1={a1, a2, …, am}和Tagd2={b1, b2, …, bn}。在此基礎(chǔ)上獲取基于標(biāo)簽的文獻(xiàn)相似度矩陣,其中文獻(xiàn)di和文獻(xiàn)dj間相似性計(jì)算方法如公式2 所示:

      2.4 融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦

      通過上述方法獲取兩種學(xué)術(shù)文獻(xiàn)向量表示與基于標(biāo)簽的學(xué)術(shù)文獻(xiàn)相似度矩陣后,如何融合這些信息成為學(xué)術(shù)文獻(xiàn)推薦的關(guān)鍵?;诰W(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)向量體現(xiàn)了文獻(xiàn)引用網(wǎng)絡(luò)結(jié)構(gòu)中的語義信息,基于內(nèi)容的學(xué)術(shù)文獻(xiàn)向量體現(xiàn)了文獻(xiàn)描述的內(nèi)容信息,將兩者進(jìn)行特征融合可以充分挖掘文本信息,同時(shí)保留文獻(xiàn)間的引用關(guān)系。因此本文首先使用向量拼接的方法對(duì)基于網(wǎng)絡(luò)表示學(xué)習(xí)及內(nèi)容的學(xué)術(shù)文獻(xiàn)向量進(jìn)行一次特征融合,然后計(jì)算特征融合后向量的學(xué)術(shù)文獻(xiàn)相似度矩陣,常用的相似性算法包含余弦相似性算法、Jaccard 系數(shù)與歐氏距離相似度等。本文選擇余弦相似性算法獲取文獻(xiàn)相似度矩陣,其中文獻(xiàn)di和文獻(xiàn)dj間相似性計(jì)算方法如公式3 所示,其中k 代表文獻(xiàn)向量的維數(shù)。

      基于網(wǎng)絡(luò)表示學(xué)習(xí)及Bert 模型的學(xué)術(shù)文獻(xiàn)向量進(jìn)行特征融合,并計(jì)算出相似度矩陣后,考慮到不同方法計(jì)算出的相似度矩陣代表了不同的意義,其重要程度不同。因此,本文將基于特征融合的學(xué)術(shù)文獻(xiàn)相似度矩陣與基于標(biāo)簽的學(xué)術(shù)文獻(xiàn)相似度矩陣以一定的權(quán)值加權(quán)求和獲取文獻(xiàn)的綜合相似度矩陣,其中文獻(xiàn)di和文獻(xiàn)dj間綜合相似性計(jì)算方法如公式4 所示。

      在獲取文獻(xiàn)的綜合相似度矩陣后,接下來將待推薦的文獻(xiàn)與用戶喜好或已發(fā)表文獻(xiàn)進(jìn)行匹配,按照相似性大小對(duì)其排序,最終選取相似性最高的Top-N 個(gè)文獻(xiàn)推薦給用戶。

      3 實(shí)驗(yàn)設(shè)計(jì)與評(píng)價(jià)

      3.1 數(shù)據(jù)集

      本文選擇CiteUlike 數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)源,該數(shù)據(jù)集是由施普林格出版社 (Springer)提供的免費(fèi)的在線科研平臺(tái),科研人員可以在該平臺(tái)上發(fā)現(xiàn)、存儲(chǔ)、組織和管理學(xué)術(shù)文獻(xiàn)等,最終形成個(gè)人文獻(xiàn)庫,數(shù)據(jù)集的具體內(nèi)容信息及統(tǒng)計(jì)數(shù)據(jù)如表1、表2 所示。為了保證實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)確性,并將其轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的數(shù)據(jù),需要對(duì)其進(jìn)行預(yù)處理操作,具體步驟如表3 所示。

      表1 CiteUlike 數(shù)據(jù)集

      表2 CiteUlike 數(shù)據(jù)集統(tǒng)計(jì)

      表3 數(shù)據(jù)預(yù)處理

      3.2 對(duì)比實(shí)驗(yàn)

      為了客觀分析融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法的效果,本文選擇以下模型產(chǎn)生的推薦方法作為對(duì)比實(shí)驗(yàn)進(jìn)行評(píng)價(jià)。

      (1)DeepWalk:在文獻(xiàn)引用網(wǎng)絡(luò)中,采用隨機(jī)游走算法獲取網(wǎng)絡(luò)中的節(jié)點(diǎn)序列,通過Skip-Gram 模型學(xué)習(xí)節(jié)點(diǎn)的向量表示。

      (2)Line:利用一階相似性和二階相似性來保存網(wǎng)絡(luò)結(jié)構(gòu)信息,學(xué)習(xí)節(jié)點(diǎn)的向量表示。

      (3)Node2vec:對(duì)DeepWalk 隨機(jī)游走的方式進(jìn)行改進(jìn),綜合考慮基于深度優(yōu)先搜索和廣度優(yōu)先搜索的隨機(jī)游走策略,進(jìn)而獲取節(jié)點(diǎn)的網(wǎng)絡(luò)嵌入表示。

      (4)Tag:使用Jaccard 系數(shù)即文獻(xiàn)對(duì)應(yīng)標(biāo)簽集合間的共現(xiàn)關(guān)系來計(jì)算文獻(xiàn)間的相似性。

      (5)Bert:使用Bert 模型中BERT-Base-Uncased 版本對(duì)文獻(xiàn)內(nèi)容進(jìn)行向量表示。

      在以上模型的基礎(chǔ)上,獲取文獻(xiàn)相似度矩陣,將與目標(biāo)文獻(xiàn)相似的前N 個(gè)文獻(xiàn)推薦給用戶。

      3.3 評(píng)價(jià)標(biāo)準(zhǔn)

      為了評(píng)價(jià)融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦的效果,本文選擇準(zhǔn)確率(Precision)、召回率(Recall)和F-measure 值作為評(píng)價(jià)標(biāo)準(zhǔn)。

      (1)Precision

      準(zhǔn)確率可以衡量推薦文獻(xiàn)的精準(zhǔn)性,它是指在推薦列表中用戶真實(shí)喜好的文獻(xiàn)所占的比例,計(jì)算方法如公式5 所示,針對(duì)所有用戶推薦的準(zhǔn)確率求平均值可以獲取整體準(zhǔn)確率。

      其中,R(u)為給用戶u 推薦的文獻(xiàn)集合,T(u)為測(cè)試集中用戶u 喜好的文獻(xiàn)集合。

      (2)Recall

      召回率可以衡量推薦文獻(xiàn)的全面性,它是指用戶真實(shí)喜好的文獻(xiàn)被推薦的概率,即推薦列表中用戶真實(shí)喜好的文獻(xiàn)與測(cè)試集中用戶所有喜歡的文獻(xiàn)比例,計(jì)算方法如公式6 所示,針對(duì)所有用戶推薦的召回率求平均值可以獲取整體召回率。

      (3)F-measure

      隨著準(zhǔn)確率的增加,而召回率會(huì)減小,兩者是相互矛盾又統(tǒng)一的指標(biāo)。F-measure 值綜合考慮了兩者,對(duì)準(zhǔn)確率和召回率進(jìn)行加權(quán)調(diào)和平均,可以綜合體現(xiàn)推薦結(jié)果的準(zhǔn)確性和全面性,計(jì)算方法如公式7 所示。

      3.4 實(shí)驗(yàn)結(jié)果與討論

      3.4.1 實(shí)驗(yàn)分析

      在學(xué)術(shù)文獻(xiàn)推薦的過程中,由于針對(duì)每篇目標(biāo)文獻(xiàn)的推薦個(gè)數(shù)n、綜合相似性權(quán)值α 以及不同融合方式對(duì)推薦結(jié)果有著重要影響。因此本節(jié)將討論n 和α 這兩個(gè)參數(shù)在不同數(shù)值設(shè)置下以及不同融合方式對(duì)實(shí)驗(yàn)的影響。

      (1)推薦個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

      為了分析推薦個(gè)數(shù)對(duì)學(xué)術(shù)文獻(xiàn)推薦效果的影響,在保持其他參數(shù)不變的情況下,分別設(shè)置推薦個(gè)數(shù)為120、140、160、180、200,計(jì)算 對(duì) 應(yīng) 的Precision、Recall 和F-measure 值,實(shí)驗(yàn)結(jié)果如圖3—圖5 所示。從圖3—圖5 可以看出,總體上,隨著推薦個(gè)數(shù)的增加,大部分推薦方法的Precision 值呈略微下降趨勢(shì),Recall 及F-measure 值呈上升趨勢(shì)。這是因?yàn)殡S著推薦文獻(xiàn)數(shù)的增多,排名靠后的文獻(xiàn)與用戶的偏好相差較大,但是可以提升推薦文獻(xiàn)的全面性。當(dāng)推薦個(gè)數(shù)分別等于120、140、160、180、200 時(shí),本文推薦方法的Precision、Recall 和F-measure 值均高于其他對(duì)比方法;當(dāng)推薦個(gè)數(shù)等于120 時(shí),各方法的Precision 達(dá)到最大值,但是與其他推薦個(gè)數(shù)對(duì)應(yīng)的Precision 值差別不大;當(dāng)推薦個(gè)數(shù)等于200 時(shí),Recall 和F-measure 值達(dá)到最大值,與其他推薦個(gè)數(shù)對(duì)應(yīng)的Recall 和F-measure 值差別較大,同時(shí)考慮到F-measure 值可以綜合體現(xiàn)推薦結(jié)果的準(zhǔn)確性和全面性,因此本文選取n=200 為最優(yōu)推薦個(gè)數(shù)。

      圖3 不同推薦個(gè)數(shù)下各推薦方法的準(zhǔn)確率對(duì)比

      圖4 不同推薦個(gè)數(shù)下各推薦方法的召回率對(duì)比

      圖5 不同推薦個(gè)數(shù)下各推薦方法的F-measure 對(duì)比

      (2)綜合相似性權(quán)重對(duì)實(shí)驗(yàn)結(jié)果的影響

      針對(duì)本文提出的推薦方法,在計(jì)算綜合相似度矩陣時(shí),為了分析網(wǎng)絡(luò)表示學(xué)習(xí)、文本內(nèi)容、標(biāo)簽這三個(gè)角度對(duì)應(yīng)的相似度權(quán)重分配對(duì)推薦結(jié)果的影響,在保持其他參數(shù)不變的情況下,分別設(shè)置α 值為0、0.2、0.4、0.6、0.8、1,計(jì)算對(duì)應(yīng)的Precision、Recall 和F-measure 值,實(shí)驗(yàn)結(jié)果如圖6 所示。從圖6 可以看出,隨著α 值的上升,Precision、Recall 和F-measure 值均呈現(xiàn)先上升后下降的變化趨勢(shì);當(dāng)α=0 或1時(shí),表示未對(duì)相似度矩陣進(jìn)行融合,Precision、Recall 和F-measure 值達(dá)到最低和次低,說明將文獻(xiàn)引用關(guān)系、文本內(nèi)容和標(biāo)簽進(jìn)行融合可以提高推薦的效果;當(dāng)α=0.4 時(shí),本文推薦方法取得最優(yōu)值,因此本文選取α=0.4 為最優(yōu)權(quán)值。

      圖6 不同權(quán)值下本文推薦方法的準(zhǔn)確率、召回率及F-measure 對(duì)比

      (3)不同融合方式對(duì)實(shí)驗(yàn)結(jié)果的影響

      為了進(jìn)一步分析文獻(xiàn)引用關(guān)系與文本信息融合過程中,不同融合方式對(duì)文獻(xiàn)推薦效果的影響,本文分別計(jì)算以下兩種融合方法對(duì)應(yīng)的Precision、Recall 和F-measure 值,結(jié)果如圖7所示。

      ①特征與相似度融合。將node2vec 與bert模型生成的文獻(xiàn)特征向量拼接獲取融合后的特征向量,計(jì)算其相似度矩陣,然后與基于標(biāo)簽的文獻(xiàn)相似度矩陣進(jìn)行加權(quán)二次融合。

      ②相似度融合。將node2vec、tag 與bert 模型對(duì)應(yīng)的三種文獻(xiàn)相似度矩陣以一定的權(quán)值加權(quán)求和獲取文獻(xiàn)的綜合相似度矩陣。

      通過圖7 可以看出,特征與相似度融合方法對(duì)應(yīng)的Precision、Recall 和F-measure 值較高,因此本文選擇先進(jìn)行特征融合、后進(jìn)行相似度融合的方法進(jìn)行學(xué)術(shù)文獻(xiàn)推薦。

      圖7 不同融合方式下準(zhǔn)確率、召回率及F-measure 對(duì)比

      3.4.2 實(shí)驗(yàn)結(jié)果

      根據(jù)上述實(shí)驗(yàn)分析,本文最終選取推薦個(gè)數(shù)n=200,綜合相似性權(quán)重α=0.4,以及特征與相似度融合方法進(jìn)行實(shí)驗(yàn),得到本文推薦方法與對(duì)比方法對(duì)應(yīng)的Precision、Recall、F-measure以及相比對(duì)比方法本文推薦方法的提升率,實(shí)驗(yàn)結(jié)果如表4 所示。從表4 可以看出,本文推薦 方 法 的Precision、Recall 和F-measure 均 高于其他5 種對(duì)比方法,且平均提升率分別為31.05%、28.51%和29.70%,說明本文提出的融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法具有更好的推薦效果。除此之外,在網(wǎng)絡(luò)表示學(xué)習(xí)的推薦方法中,基于Node2vec 的方法優(yōu)于基于DeepWalk、Line 的方法,這是因?yàn)镹ode2vec 綜合考慮了廣度優(yōu)先遍歷算法和深度優(yōu)先遍歷算法,可以同時(shí)保證文獻(xiàn)在數(shù)據(jù)集上的局部信息和全局信息。在基于本文信息的推薦方法中,基于Bert 的方法優(yōu)于基于Tag 的方法,說明使用Bert 對(duì)標(biāo)題摘要進(jìn)行特征提取比文獻(xiàn)的標(biāo)簽更能準(zhǔn)確表示文獻(xiàn)內(nèi)容信息。綜上所述,本文使用Node2vec、Bert 模型、Tag 從文獻(xiàn)間的引用關(guān)系、內(nèi)容信息和標(biāo)簽三個(gè)角度進(jìn)行融合,進(jìn)而實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)推薦,對(duì)于提高推薦方法的質(zhì)量具備一定的優(yōu)勢(shì)。

      表4 本文方法與對(duì)比方法推薦結(jié)果對(duì)比

      4 結(jié)語

      針對(duì)傳統(tǒng)的學(xué)術(shù)文獻(xiàn)推薦忽略了文獻(xiàn)間引用關(guān)系的重要性,以及文獻(xiàn)向量表示維數(shù)過大進(jìn)而影響推薦效果的問題,本文提出了融合文獻(xiàn)引用網(wǎng)絡(luò)、長文本內(nèi)容和短文本標(biāo)簽的學(xué)術(shù)文獻(xiàn)推薦方法。首先,分別利用Node2vec、Bert 模型生成文獻(xiàn)向量表示,并對(duì)其進(jìn)行特征融合,計(jì)算特征融合和標(biāo)簽對(duì)應(yīng)的文獻(xiàn)相似度矩陣;其次,加權(quán)兩種文獻(xiàn)相似度矩陣獲取文獻(xiàn)綜合相似度矩陣,根據(jù)與目標(biāo)文獻(xiàn)的相似性大小實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)推薦;最后,在CiteUlike數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證,結(jié)果表明本文方法在Precision、Recall 和F-measure 上均有一定的提升,驗(yàn)證了網(wǎng)絡(luò)表示學(xué)習(xí)融入至基于文本信息的推薦方法中的有效性。由于本文僅在單一數(shù)據(jù)集上進(jìn)行了驗(yàn)證,因此具有一定局限性。除了文獻(xiàn)間引用關(guān)系外,用戶間的社交關(guān)系、文獻(xiàn)包含的多種特征信息以及用戶與文獻(xiàn)間的評(píng)分關(guān)系也是學(xué)術(shù)文獻(xiàn)推薦過程中需要關(guān)注的重點(diǎn)信息,如何將這些信息引入至文獻(xiàn)引用關(guān)系網(wǎng)絡(luò)中進(jìn)行推薦將是本文下一步的研究重點(diǎn)。

      猜你喜歡
      相似性向量學(xué)術(shù)
      一類上三角算子矩陣的相似性與酉相似性
      向量的分解
      聚焦“向量與三角”創(chuàng)新題
      淺析當(dāng)代中西方繪畫的相似性
      如何理解“Curator”:一個(gè)由翻譯引發(fā)的學(xué)術(shù)思考
      中國博物館(2019年2期)2019-12-07 05:40:44
      對(duì)學(xué)術(shù)造假重拳出擊
      商周刊(2019年2期)2019-02-20 01:14:22
      低滲透黏土中氯離子彌散作用離心模擬相似性
      向量垂直在解析幾何中的應(yīng)用
      向量五種“變身” 玩轉(zhuǎn)圓錐曲線
      學(xué)術(shù)
      保亭| 公安县| 曲水县| 灵寿县| 雷山县| 博湖县| 平谷区| 龙门县| 旺苍县| 山东省| 平泉县| 陕西省| 抚松县| 桂林市| 依安县| 横山县| 兰溪市| 玛多县| 佛冈县| 响水县| 兴隆县| 淄博市| 缙云县| 合水县| 屯昌县| 株洲县| 抚州市| 托里县| 增城市| 大兴区| 海城市| 色达县| 普兰店市| 邛崃市| 呼图壁县| 夏邑县| 永寿县| 铁岭市| 武邑县| 永年县| 嘉义市|