融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法

2022-09-16 01:19:50祝婷

情報(bào)工程 2022年3期

祝婷

西安工業(yè)大學(xué)圖書館西安 710021

引言

學(xué)術(shù)文獻(xiàn)作為學(xué)者在科學(xué)研究過程中必不可少的知識(shí)源，對(duì)于輔助學(xué)術(shù)研究具有重要意義。然而隨著互聯(lián)網(wǎng)與科學(xué)技術(shù)的快速發(fā)展，學(xué)術(shù)科研領(lǐng)域中的文獻(xiàn)數(shù)量與日俱增，一方面，面對(duì)海量的學(xué)術(shù)文獻(xiàn)，學(xué)者很難從中獲取自己所需的文獻(xiàn)；另一方面，部分學(xué)術(shù)文獻(xiàn)被淹沒，沒有展現(xiàn)給學(xué)者的機(jī)會(huì)，造成了資源浪費(fèi)的現(xiàn)象。在這種場(chǎng)景下，如何快速有效的幫助學(xué)者獲取自己感興趣的文獻(xiàn)已成為目前廣泛關(guān)注的研究課題。而學(xué)術(shù)文獻(xiàn)推薦方法可以緩解這種“信息過載”問題，它是從海量的學(xué)術(shù)文獻(xiàn)中挖掘?qū)W者可能感興趣的文獻(xiàn)，然后展現(xiàn)給學(xué)者，進(jìn)而實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)個(gè)性化推薦的過程。

常見的文獻(xiàn)推薦方法有基于內(nèi)容的文獻(xiàn)推薦，基于協(xié)同過濾的文獻(xiàn)推薦以及混合文獻(xiàn)推薦。基于內(nèi)容的文獻(xiàn)推薦是指分別獲取用戶興趣和文獻(xiàn)內(nèi)容的向量空間模型，通過匹配兩者的相似度，向用戶推薦相似度較高的文獻(xiàn)。陳長華等[1]利用Word2Vec 方法對(duì)論文進(jìn)行向量化表示，同時(shí)引入論文發(fā)表時(shí)間權(quán)重計(jì)算論文間相似性進(jìn)行推薦。耿立校等[2]使用余弦值r與匹配度值Sim 相結(jié)合的方法對(duì)傳統(tǒng)的基于內(nèi)容的推薦進(jìn)行改進(jìn)?；趦?nèi)容的推薦方法具備較強(qiáng)的直觀性和可解釋性，但是該方法只能推薦與用戶歷史閱讀文獻(xiàn)相似的文獻(xiàn)，缺乏多樣性，并且沒有考慮用戶對(duì)文獻(xiàn)的評(píng)價(jià)等信息?；趨f(xié)同過濾的文獻(xiàn)推薦是目前應(yīng)用最為廣泛且成功的推薦方法，它是通過計(jì)算用戶之間的相似性獲取近鄰用戶，將近鄰用戶感興趣的文獻(xiàn)推薦給目標(biāo)用戶。陳浩[3]在計(jì)算用戶相似性時(shí)融合了用戶點(diǎn)擊和搜索詞的相似度，進(jìn)一步改進(jìn)了基于用戶的協(xié)同過濾方法。顧明星等[4]對(duì)用戶屬性進(jìn)行聚類，然后將時(shí)間因素引入至評(píng)分相似性中，同時(shí)將新人誤差引入至信任關(guān)系中計(jì)算用戶相似性，提出了一種改進(jìn)的協(xié)同過濾推薦。基于協(xié)同過濾的文獻(xiàn)推薦可以在一定程度上緩解基于內(nèi)容推薦的單一性，但是該方法仍舊存在一些問題，例如稀疏性和冷啟動(dòng)問題。為了彌補(bǔ)上述兩種推薦方法的缺點(diǎn)同時(shí)結(jié)合其優(yōu)點(diǎn)，進(jìn)而形成了混合推薦方法。王妍等[5]將基于內(nèi)容的推薦和協(xié)同過濾推薦相結(jié)合，提出了一種混合論文推薦方法，有效的解決了冷啟動(dòng)問題。王永貴等[6]針對(duì)基于內(nèi)容的推薦和協(xié)同過濾算法中存在的問題，提出了一種融合內(nèi)容與協(xié)同矩陣分解技術(shù)的混合推薦方法?；旌贤扑]算法框架較為復(fù)雜，且推薦效果受單一推薦方法選擇的影響。

綜上所述，以上方法分別從不同角度對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行了推薦，并產(chǎn)生了良好的推薦效果，但是忽略了文獻(xiàn)間引用關(guān)系在推薦過程中的重要性，進(jìn)而影響推薦的準(zhǔn)確性。在學(xué)術(shù)文獻(xiàn)推薦過程中，最直接的方法是對(duì)文獻(xiàn)的文本信息進(jìn)行挖掘從而進(jìn)行推薦，文本信息包含長文本內(nèi)容和短文本標(biāo)簽。內(nèi)容信息是以非結(jié)構(gòu)化的長文本形式描述文獻(xiàn)的內(nèi)容，如文獻(xiàn)的摘要、正文等，具有直觀性、具體性等特點(diǎn)。標(biāo)簽信息是以結(jié)構(gòu)化的短文本形式描述文獻(xiàn)的特征，可以準(zhǔn)確的反映用戶的喜好，具有規(guī)范化、易處理等特點(diǎn)。但是僅僅使用文本信息的推薦方法仍具有局限性，如信息單一，未考慮文獻(xiàn)間的交互關(guān)系等。除了文獻(xiàn)自身的文本信息外，從文獻(xiàn)間的引用關(guān)系圖中可以挖掘更深層次的語義信息，但是由于爆炸式增長的文獻(xiàn)數(shù)量使得引用關(guān)系圖中的節(jié)點(diǎn)和邊往往非常龐大，進(jìn)而導(dǎo)致文獻(xiàn)向量表示出現(xiàn)高維稀疏的問題，網(wǎng)絡(luò)表示學(xué)習(xí)方法可以將復(fù)雜網(wǎng)絡(luò)圖中的節(jié)點(diǎn)表示為低維稠密的向量表示，同時(shí)保留原有的網(wǎng)絡(luò)結(jié)構(gòu)。因此，本文提出一種融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法，分別從文獻(xiàn)引用網(wǎng)絡(luò)、長文本內(nèi)容和短文本標(biāo)簽這三個(gè)方面對(duì)學(xué)術(shù)文獻(xiàn)進(jìn)行特征表示，在此基礎(chǔ)上計(jì)算文獻(xiàn)間的綜合相似性，進(jìn)而提高學(xué)術(shù)文獻(xiàn)推薦的質(zhì)量。

1 相關(guān)工作

1.1 網(wǎng)絡(luò)表示學(xué)習(xí)

在互聯(lián)網(wǎng)時(shí)代，爆炸式增長的信息資源之間構(gòu)成了復(fù)雜的信息網(wǎng)絡(luò)，如何將復(fù)雜信息網(wǎng)絡(luò)進(jìn)行準(zhǔn)確的網(wǎng)絡(luò)表示是目前科學(xué)研究的重要過程。網(wǎng)絡(luò)表示學(xué)習(xí)（Network Representation Learning, NRL），又稱網(wǎng)絡(luò)嵌入（Network Embedding, NE）或者圖嵌入（Graph Embedding,GE），它可以將復(fù)雜信息網(wǎng)絡(luò)中的節(jié)點(diǎn)表示為低維、稠密、實(shí)值的向量表示[7]，從而解決傳統(tǒng)的網(wǎng)絡(luò)表示使用稀疏高維的向量需要花費(fèi)大量計(jì)算空間和運(yùn)行時(shí)間的問題。

網(wǎng)絡(luò)表示學(xué)習(xí)方法一般分為基于矩陣分解的方法、基于隨機(jī)游走的方法以及基于深度神經(jīng)網(wǎng)絡(luò)的方法[8]?；诰仃嚪纸獾姆椒ㄊ轻槍?duì)高維的原始矩陣進(jìn)行特征值分解、奇異值分解等操作獲取節(jié)點(diǎn)的低維向量表示。由于該方法的時(shí)間復(fù)雜度和空間復(fù)雜度較高，在大規(guī)模的數(shù)據(jù)應(yīng)用上并不理想?；陔S機(jī)游走的方法思想來源于Word2vec[9-10]模型，它將節(jié)點(diǎn)類比為單詞，隨機(jī)序列類比為句子，進(jìn)而獲取網(wǎng)絡(luò)嵌入，代表性的算法有DeepWalk[11]、LINE[12]（Largescale Information Network Embedding）、Node-2vec[13]等。DeepWalk 使用網(wǎng)絡(luò)中節(jié)點(diǎn)間的共現(xiàn)關(guān)系來學(xué)習(xí)節(jié)點(diǎn)的向量表示，首先采用隨機(jī)游走算法獲取網(wǎng)絡(luò)中的節(jié)點(diǎn)序列，這些節(jié)點(diǎn)序列可以看作自然語言處理中的語句，節(jié)點(diǎn)序列中的節(jié)點(diǎn)可以看作自然語言處理中的單詞。其次通過Word2vec 中的Skip-Gram 模型對(duì)隨機(jī)游走中的節(jié)點(diǎn)進(jìn)行概率建模，最大化隨機(jī)游走序列的似然概率。最后使用隨機(jī)梯度下降法獲取節(jié)點(diǎn)的向量表示。該方法避免了鄰接矩陣需要將所有信息存儲(chǔ)在內(nèi)存而影響到計(jì)算效率的問題。其中隨機(jī)游走策略采用的是一種可重復(fù)訪問已訪問節(jié)點(diǎn)的深度優(yōu)先遍歷算法（Depth First Search, DFS）。LINE 是一種基于節(jié)點(diǎn)與鄰居間關(guān)系的大規(guī)模信息網(wǎng)絡(luò)表示學(xué)習(xí)算法，通過結(jié)合一階相似性和二階相似性來保存網(wǎng)絡(luò)結(jié)構(gòu)信息，獲取節(jié)點(diǎn)嵌入。其中一階相似性是指節(jié)點(diǎn)與直接相連的相鄰節(jié)點(diǎn)間的相似性，由于一階相似性不能代表節(jié)點(diǎn)的全局網(wǎng)絡(luò)結(jié)構(gòu)，因此引入具有共同鄰居節(jié)點(diǎn)的節(jié)點(diǎn)間的相似性，即二階相似性，通過最小化一階和二階相似的損失函數(shù)獲取網(wǎng)絡(luò)中節(jié)點(diǎn)的向量表示。該方法采用了廣度優(yōu)先遍歷算法（Breadth First Search,BFS）的思想。Node2vec 對(duì)DeepWalk 進(jìn)行了改進(jìn)，同時(shí)考慮了廣度優(yōu)先遍歷算法和深度優(yōu)先遍歷算法，形成了有偏的隨機(jī)游走，按照廣度優(yōu)先遍歷算法進(jìn)行游走趨向于節(jié)點(diǎn)周圍采樣序列，按照深度優(yōu)先遍歷算法進(jìn)行游走趨向于朝更遠(yuǎn)方向采樣序列。因此將兩者結(jié)合可以獲得反應(yīng)網(wǎng)絡(luò)全局信息及局部信息的節(jié)點(diǎn)序列，然后使用Skip-Gram模型輸出節(jié)點(diǎn)的向量表示，同時(shí)保證了網(wǎng)絡(luò)的同質(zhì)性與結(jié)構(gòu)性。基于深度神經(jīng)網(wǎng)絡(luò)的方法是利用深層神經(jīng)網(wǎng)絡(luò)模型對(duì)網(wǎng)絡(luò)中節(jié)點(diǎn)的非線性結(jié)構(gòu)進(jìn)行建模，進(jìn)而獲取網(wǎng)絡(luò)節(jié)點(diǎn)表示。以上網(wǎng)絡(luò)表示學(xué)習(xí)方法在復(fù)雜網(wǎng)絡(luò)上的成功應(yīng)用，對(duì)于學(xué)術(shù)文獻(xiàn)推薦具有重要啟示作用。

1.2 文本向量化表示模型

文本向量化表示是將自然語言轉(zhuǎn)化為實(shí)數(shù)向量，即計(jì)算機(jī)可以處理的格式。常見的文本向量表示模型有詞袋模型（bag of words）、Word2vec 和Doc2vec 等。詞袋模型僅考慮了詞頻，忽略了語序和語法信息，且易造成詞向量的稀疏性和高維性。Word2vec 的基本思想是使用上下文詞語預(yù)測(cè)當(dāng)前詞語或者使用當(dāng)前詞語預(yù)測(cè)上下文詞語，分別對(duì)應(yīng)Word2vec 中的CBOW 和Skip-gram 模型，使用Word2vec 進(jìn)行文本向量表示是在Word2vec 模型生成詞向量的基礎(chǔ)上，對(duì)文本包含的詞向量進(jìn)行加權(quán)平均等操作，該方法可以有效解決稀疏問題和維度災(zāi)難，但是同樣忽略了語序信息。Doc2vec 是Le等[14]于2014 年在Word2vec 的基礎(chǔ)上提出來的，區(qū)別在于增加了一個(gè)與詞向量維數(shù)相同的段落向量，該模型包含PV-DM（Distributed Memory version of Paragraph Vector）和PV-DBOW（Distributed Bag of Words version of Paragraph Vector）。PV-DM 模型與Word2vec 中的CBOW 模型相對(duì)應(yīng)，是通過上下文的詞向量和段落向量來預(yù)測(cè)目標(biāo)詞語，PV-DBOW 模型與Word2vec中的Skip-gram 模型相對(duì)應(yīng)，是以段落向量作為輸入，輸出其段落中詞向量的概況分布。與Word2vec 相比，Doc2vec 不僅考慮了語序信息，而且可以直接將文本向量化，訓(xùn)練過程方便簡(jiǎn)單。以上文本向量化本質(zhì)上是一種靜態(tài)表示方法，不能表達(dá)自然語言中的一詞多義，也不能獲取全局文本語義信息。針對(duì)上述問題，Devlin等[15]提出了BERT 模型，該模型以Transformer編碼器為主要框架，通過大量通用語料庫對(duì)預(yù)訓(xùn)練獲取通用語義信息，并針對(duì)專業(yè)語料庫進(jìn)行微調(diào)，進(jìn)而更好的實(shí)現(xiàn)文本特征表示。

2 研究思路與方法

本文首先根據(jù)學(xué)術(shù)文獻(xiàn)庫中的引用關(guān)系構(gòu)建學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò)，使用網(wǎng)絡(luò)表示學(xué)習(xí)模型Node2vec 獲取學(xué)術(shù)文獻(xiàn)的向量表示，同時(shí)利用Bert 模型獲取學(xué)術(shù)文獻(xiàn)的向量表示。其次對(duì)網(wǎng)絡(luò)表示學(xué)習(xí)與Bert 模型生成的向量進(jìn)行一次特征融合，采用余弦相似性算法分別獲取特征融合后向量及基于標(biāo)簽對(duì)應(yīng)的學(xué)術(shù)文獻(xiàn)相似度矩陣，并對(duì)其進(jìn)行二次相似度矩陣融合，獲取文獻(xiàn)綜合相似度矩陣。最后在文獻(xiàn)綜合相似度矩陣的基礎(chǔ)上，根據(jù)其相似性大小實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)推薦。整個(gè)推薦流程如圖1 所示。

圖1 融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦流程圖

2.1 基于網(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)向量表示

在學(xué)術(shù)文獻(xiàn)庫中，文獻(xiàn)并不是單獨(dú)存在，一篇文獻(xiàn)通常包含多個(gè)引文文獻(xiàn)，這些引文文獻(xiàn)與該文獻(xiàn)在研究內(nèi)容上有著密切的關(guān)系，而引文文獻(xiàn)也有下一層的引文文獻(xiàn)，這樣層層關(guān)聯(lián)便組成了引文網(wǎng)絡(luò)。網(wǎng)絡(luò)表示學(xué)習(xí)方法可以將引文網(wǎng)絡(luò)中的節(jié)點(diǎn)通過非線性模型轉(zhuǎn)化為更高層次的低維稠密的文獻(xiàn)向量表示，主要分為以下兩個(gè)步驟：

（1）構(gòu)建學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)

學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)反映了文獻(xiàn)間的引用關(guān) 系，可將其表示為G=（D,E），其中D 表示頂點(diǎn)集合，即學(xué)術(shù)文獻(xiàn)集合D={d1,d2,d3,d4,d5,…}，集合中每一個(gè)頂點(diǎn)di對(duì)應(yīng)不同的文獻(xiàn)；E 表示邊集合，即文獻(xiàn)間的引用關(guān)系集合E={e12,e13,e23,e24,e25,…}，集合中每一條邊eij表示文獻(xiàn)di和文獻(xiàn)dj存在引用關(guān)系。若一篇文獻(xiàn)的引文列表中包含另一篇文獻(xiàn)，則兩者構(gòu)成一條邊，通過上述規(guī)則可構(gòu)建學(xué)術(shù)文獻(xiàn)引文網(wǎng)絡(luò)。

（2）基于網(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)向量表示

基于學(xué)術(shù)文獻(xiàn)引用關(guān)系構(gòu)建的學(xué)術(shù)文獻(xiàn)引用網(wǎng)絡(luò)，通過對(duì)比DeepWalk、LINE 以及Node-2vec 等網(wǎng)絡(luò)表示學(xué)習(xí)模型。本文選擇Node2vec對(duì)文獻(xiàn)引用網(wǎng)絡(luò)進(jìn)行訓(xùn)練，以文獻(xiàn)引用網(wǎng)絡(luò)作為輸入，通過調(diào)整相關(guān)參數(shù)，獲取每個(gè)文獻(xiàn)對(duì)應(yīng)的低維向量表示。

Node2vec 是在DeepWalk 網(wǎng)絡(luò)表示學(xué)習(xí)模型的基礎(chǔ)上，綜合廣度優(yōu)先搜索和深度優(yōu)先搜索思想，通過引入?yún)?shù)p、q 進(jìn)行有偏的隨機(jī)游走，獲取隨機(jī)游走序列，實(shí)現(xiàn)通過廣度優(yōu)先搜索獲取文獻(xiàn)在數(shù)據(jù)集的微觀局部信息以及深度優(yōu)先搜索獲取文獻(xiàn)在數(shù)據(jù)集的宏觀全局信息。

如圖2[13]所示，根據(jù)Node2vec 網(wǎng)絡(luò)表示學(xué)習(xí)模型，若游走路徑為（t,v），定義p 為游走至前一文獻(xiàn)鄰居的概率，則p 越大，已游走過的文獻(xiàn)被再次游走到的概率越低；定義q 為游走至前一文獻(xiàn)非鄰居的概率，則當(dāng)q>1 時(shí)，隨機(jī)游走將局限于文獻(xiàn)t 附近，反之當(dāng)q＜1 時(shí)，隨機(jī)游走將遠(yuǎn)離文獻(xiàn)t；定義d 為從文獻(xiàn)t 到文獻(xiàn)x 的最短路徑，則按照Node2vec 游走思想，從文獻(xiàn)t 到文獻(xiàn)x 的概率計(jì)算方法如公式1[13]所示：

圖2 Node2vec 算法游走示意圖

基于上述算法獲取隨機(jī)游走序列，選用Skip-gram 模型對(duì)游走序列建模，實(shí)現(xiàn)隨機(jī)游走似然概率最大化，利用隨機(jī)梯度下降方法獲取文獻(xiàn)的向量表示。

2.2 基于內(nèi)容的學(xué)術(shù)文獻(xiàn)向量表示

文獻(xiàn)內(nèi)容是個(gè)性化推薦過程中需要關(guān)注的重點(diǎn)文本信息，如文獻(xiàn)的標(biāo)題、摘要等。因此，通過文獻(xiàn)內(nèi)容獲取特征向量表示，然后在此基礎(chǔ)上進(jìn)行相似性計(jì)算是實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)推薦的重要環(huán)節(jié)?；趦?nèi)容的學(xué)術(shù)文獻(xiàn)向量表示主要分為以下兩個(gè)步驟：

（1）數(shù)據(jù)預(yù)處理。主要包括分句、分詞和去停用詞，對(duì)學(xué)術(shù)文獻(xiàn)庫中的文獻(xiàn)進(jìn)行預(yù)處理的主要目的是生成結(jié)構(gòu)化的文本數(shù)據(jù)，并且去除無意義的詞語，這些是對(duì)文獻(xiàn)進(jìn)行特征提取和表示的基礎(chǔ)。對(duì)于由m 個(gè)文獻(xiàn)組成的文獻(xiàn)數(shù)據(jù)集合D={d1,d2,d3,…,dm}，首先將文獻(xiàn)的題目和摘要進(jìn)行合并，選取Stanford Tokenizer 英文分詞系統(tǒng)將合并后的文本切分為單獨(dú)且具有語義的詞，其次剔除沒有實(shí)際含義的詞，如介詞、語氣詞等，最后將所有文獻(xiàn)轉(zhuǎn)化為這些詞的集合di={w1,w2,w3,…,wn}。

（2）學(xué)術(shù)文獻(xiàn)向量化表示。Bert 模型以多層Transformer 編碼器為主要框架，基于其注意力機(jī)制獲取詞的表征信息，該表征信息包含了該詞本身語義和該詞與文本其他詞的關(guān)系，進(jìn)而獲得該詞的上下文語義信息。另外，Bert 模型利用掩蔽語言模型（Masked Language Model,MLM）和下一句預(yù)測(cè)（Next Sentence Prediction, NSP）技術(shù)進(jìn)行預(yù)訓(xùn)練，并針對(duì)具體任務(wù)進(jìn)行微調(diào)，從而獲得較好的特征提取和分類表現(xiàn)。對(duì)于學(xué)術(shù)文獻(xiàn)推薦領(lǐng)域，由于文獻(xiàn)標(biāo)題、摘要等信息從整體上實(shí)現(xiàn)了對(duì)文獻(xiàn)的描述，因此計(jì)算文獻(xiàn)標(biāo)題、摘要等文獻(xiàn)內(nèi)容的特征向量有助于實(shí)現(xiàn)文獻(xiàn)推薦。本文數(shù)據(jù)集為英文數(shù)據(jù)集，且不區(qū)分大小寫，故選用BERT-Base-Uncased 生成學(xué)術(shù)文獻(xiàn)向量表示。

2.3 基于標(biāo)簽的學(xué)術(shù)文獻(xiàn)相似性計(jì)算

除了文獻(xiàn)中以長文本形式存在的文獻(xiàn)內(nèi)容外，標(biāo)簽也是描述一篇學(xué)術(shù)文獻(xiàn)的重要信息，它以不同粒度反應(yīng)了文獻(xiàn)的主題特征，同時(shí)也包含了文獻(xiàn)中可能未提及的重要關(guān)鍵詞或詞組，是學(xué)術(shù)文獻(xiàn)推薦方法中重要的數(shù)據(jù)源之一，被廣泛應(yīng)用于推薦系統(tǒng)中。標(biāo)簽數(shù)據(jù)一方面可以規(guī)范且直觀的揭示文獻(xiàn)的特征，另一方面具備易抽取性和語義性，因此將標(biāo)簽作為學(xué)術(shù)文獻(xiàn)的特征表示來計(jì)算其相似性，對(duì)于提高學(xué)術(shù)文獻(xiàn)推薦的準(zhǔn)確性具有重要意義。

由于標(biāo)簽通常是由簡(jiǎn)短的詞語或詞組組成，不需要像處理長文本那樣進(jìn)行語義分析。因此本章節(jié)選擇Jaccard 系數(shù)即文獻(xiàn)對(duì)應(yīng)標(biāo)簽集合間的共現(xiàn)關(guān)系來計(jì)算文獻(xiàn)間的相似性，設(shè)定文獻(xiàn)d1由m 個(gè)標(biāo)簽組成，文獻(xiàn)d2由n 個(gè)標(biāo)簽組成，文獻(xiàn)d1和文獻(xiàn)d2的標(biāo)簽集合分別表示為Tagd1={a1, a2, …, am}和Tagd2={b1, b2, …, bn}。在此基礎(chǔ)上獲取基于標(biāo)簽的文獻(xiàn)相似度矩陣，其中文獻(xiàn)di和文獻(xiàn)dj間相似性計(jì)算方法如公式2 所示：

2.4 融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦

通過上述方法獲取兩種學(xué)術(shù)文獻(xiàn)向量表示與基于標(biāo)簽的學(xué)術(shù)文獻(xiàn)相似度矩陣后，如何融合這些信息成為學(xué)術(shù)文獻(xiàn)推薦的關(guān)鍵?；诰W(wǎng)絡(luò)表示學(xué)習(xí)的學(xué)術(shù)文獻(xiàn)向量體現(xiàn)了文獻(xiàn)引用網(wǎng)絡(luò)結(jié)構(gòu)中的語義信息，基于內(nèi)容的學(xué)術(shù)文獻(xiàn)向量體現(xiàn)了文獻(xiàn)描述的內(nèi)容信息，將兩者進(jìn)行特征融合可以充分挖掘文本信息，同時(shí)保留文獻(xiàn)間的引用關(guān)系。因此本文首先使用向量拼接的方法對(duì)基于網(wǎng)絡(luò)表示學(xué)習(xí)及內(nèi)容的學(xué)術(shù)文獻(xiàn)向量進(jìn)行一次特征融合，然后計(jì)算特征融合后向量的學(xué)術(shù)文獻(xiàn)相似度矩陣，常用的相似性算法包含余弦相似性算法、Jaccard 系數(shù)與歐氏距離相似度等。本文選擇余弦相似性算法獲取文獻(xiàn)相似度矩陣，其中文獻(xiàn)di和文獻(xiàn)dj間相似性計(jì)算方法如公式3 所示，其中k 代表文獻(xiàn)向量的維數(shù)。

基于網(wǎng)絡(luò)表示學(xué)習(xí)及Bert 模型的學(xué)術(shù)文獻(xiàn)向量進(jìn)行特征融合，并計(jì)算出相似度矩陣后，考慮到不同方法計(jì)算出的相似度矩陣代表了不同的意義，其重要程度不同。因此，本文將基于特征融合的學(xué)術(shù)文獻(xiàn)相似度矩陣與基于標(biāo)簽的學(xué)術(shù)文獻(xiàn)相似度矩陣以一定的權(quán)值加權(quán)求和獲取文獻(xiàn)的綜合相似度矩陣，其中文獻(xiàn)di和文獻(xiàn)dj間綜合相似性計(jì)算方法如公式4 所示。

在獲取文獻(xiàn)的綜合相似度矩陣后，接下來將待推薦的文獻(xiàn)與用戶喜好或已發(fā)表文獻(xiàn)進(jìn)行匹配，按照相似性大小對(duì)其排序，最終選取相似性最高的Top-N 個(gè)文獻(xiàn)推薦給用戶。

3 實(shí)驗(yàn)設(shè)計(jì)與評(píng)價(jià)

3.1 數(shù)據(jù)集

本文選擇CiteUlike 數(shù)據(jù)集作為實(shí)驗(yàn)數(shù)據(jù)源，該數(shù)據(jù)集是由施普林格出版社 (Springer)提供的免費(fèi)的在線科研平臺(tái)，科研人員可以在該平臺(tái)上發(fā)現(xiàn)、存儲(chǔ)、組織和管理學(xué)術(shù)文獻(xiàn)等，最終形成個(gè)人文獻(xiàn)庫，數(shù)據(jù)集的具體內(nèi)容信息及統(tǒng)計(jì)數(shù)據(jù)如表1、表2 所示。為了保證實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)確性，并將其轉(zhuǎn)化為計(jì)算機(jī)可識(shí)別的數(shù)據(jù)，需要對(duì)其進(jìn)行預(yù)處理操作，具體步驟如表3 所示。

表1 CiteUlike 數(shù)據(jù)集

表2 CiteUlike 數(shù)據(jù)集統(tǒng)計(jì)

表3 數(shù)據(jù)預(yù)處理

3.2 對(duì)比實(shí)驗(yàn)

為了客觀分析融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法的效果，本文選擇以下模型產(chǎn)生的推薦方法作為對(duì)比實(shí)驗(yàn)進(jìn)行評(píng)價(jià)。

（1）DeepWalk：在文獻(xiàn)引用網(wǎng)絡(luò)中，采用隨機(jī)游走算法獲取網(wǎng)絡(luò)中的節(jié)點(diǎn)序列，通過Skip-Gram 模型學(xué)習(xí)節(jié)點(diǎn)的向量表示。

（2）Line：利用一階相似性和二階相似性來保存網(wǎng)絡(luò)結(jié)構(gòu)信息，學(xué)習(xí)節(jié)點(diǎn)的向量表示。

（3）Node2vec：對(duì)DeepWalk 隨機(jī)游走的方式進(jìn)行改進(jìn)，綜合考慮基于深度優(yōu)先搜索和廣度優(yōu)先搜索的隨機(jī)游走策略，進(jìn)而獲取節(jié)點(diǎn)的網(wǎng)絡(luò)嵌入表示。

（4）Tag：使用Jaccard 系數(shù)即文獻(xiàn)對(duì)應(yīng)標(biāo)簽集合間的共現(xiàn)關(guān)系來計(jì)算文獻(xiàn)間的相似性。

（5）Bert：使用Bert 模型中BERT-Base-Uncased 版本對(duì)文獻(xiàn)內(nèi)容進(jìn)行向量表示。

在以上模型的基礎(chǔ)上，獲取文獻(xiàn)相似度矩陣，將與目標(biāo)文獻(xiàn)相似的前N 個(gè)文獻(xiàn)推薦給用戶。

3.3 評(píng)價(jià)標(biāo)準(zhǔn)

為了評(píng)價(jià)融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦的效果，本文選擇準(zhǔn)確率(Precision)、召回率(Recall)和F-measure 值作為評(píng)價(jià)標(biāo)準(zhǔn)。

（1）Precision

準(zhǔn)確率可以衡量推薦文獻(xiàn)的精準(zhǔn)性，它是指在推薦列表中用戶真實(shí)喜好的文獻(xiàn)所占的比例，計(jì)算方法如公式5 所示，針對(duì)所有用戶推薦的準(zhǔn)確率求平均值可以獲取整體準(zhǔn)確率。

其中，R(u)為給用戶u 推薦的文獻(xiàn)集合，T(u)為測(cè)試集中用戶u 喜好的文獻(xiàn)集合。

（2）Recall

召回率可以衡量推薦文獻(xiàn)的全面性，它是指用戶真實(shí)喜好的文獻(xiàn)被推薦的概率，即推薦列表中用戶真實(shí)喜好的文獻(xiàn)與測(cè)試集中用戶所有喜歡的文獻(xiàn)比例，計(jì)算方法如公式6 所示，針對(duì)所有用戶推薦的召回率求平均值可以獲取整體召回率。

（3）F-measure

隨著準(zhǔn)確率的增加，而召回率會(huì)減小，兩者是相互矛盾又統(tǒng)一的指標(biāo)。F-measure 值綜合考慮了兩者，對(duì)準(zhǔn)確率和召回率進(jìn)行加權(quán)調(diào)和平均，可以綜合體現(xiàn)推薦結(jié)果的準(zhǔn)確性和全面性，計(jì)算方法如公式7 所示。

3.4 實(shí)驗(yàn)結(jié)果與討論

3.4.1 實(shí)驗(yàn)分析

在學(xué)術(shù)文獻(xiàn)推薦的過程中，由于針對(duì)每篇目標(biāo)文獻(xiàn)的推薦個(gè)數(shù)n、綜合相似性權(quán)值α 以及不同融合方式對(duì)推薦結(jié)果有著重要影響。因此本節(jié)將討論n 和α 這兩個(gè)參數(shù)在不同數(shù)值設(shè)置下以及不同融合方式對(duì)實(shí)驗(yàn)的影響。

（1）推薦個(gè)數(shù)對(duì)實(shí)驗(yàn)結(jié)果的影響

為了分析推薦個(gè)數(shù)對(duì)學(xué)術(shù)文獻(xiàn)推薦效果的影響，在保持其他參數(shù)不變的情況下，分別設(shè)置推薦個(gè)數(shù)為120、140、160、180、200，計(jì)算對(duì) 應(yīng) 的Precision、Recall 和F-measure 值，實(shí)驗(yàn)結(jié)果如圖3—圖5 所示。從圖3—圖5 可以看出，總體上，隨著推薦個(gè)數(shù)的增加，大部分推薦方法的Precision 值呈略微下降趨勢(shì)，Recall 及F-measure 值呈上升趨勢(shì)。這是因?yàn)殡S著推薦文獻(xiàn)數(shù)的增多，排名靠后的文獻(xiàn)與用戶的偏好相差較大，但是可以提升推薦文獻(xiàn)的全面性。當(dāng)推薦個(gè)數(shù)分別等于120、140、160、180、200 時(shí)，本文推薦方法的Precision、Recall 和F-measure 值均高于其他對(duì)比方法；當(dāng)推薦個(gè)數(shù)等于120 時(shí)，各方法的Precision 達(dá)到最大值，但是與其他推薦個(gè)數(shù)對(duì)應(yīng)的Precision 值差別不大；當(dāng)推薦個(gè)數(shù)等于200 時(shí)，Recall 和F-measure 值達(dá)到最大值，與其他推薦個(gè)數(shù)對(duì)應(yīng)的Recall 和F-measure 值差別較大，同時(shí)考慮到F-measure 值可以綜合體現(xiàn)推薦結(jié)果的準(zhǔn)確性和全面性，因此本文選取n=200 為最優(yōu)推薦個(gè)數(shù)。

圖3 不同推薦個(gè)數(shù)下各推薦方法的準(zhǔn)確率對(duì)比

圖4 不同推薦個(gè)數(shù)下各推薦方法的召回率對(duì)比

圖5 不同推薦個(gè)數(shù)下各推薦方法的F-measure 對(duì)比

（2）綜合相似性權(quán)重對(duì)實(shí)驗(yàn)結(jié)果的影響

針對(duì)本文提出的推薦方法，在計(jì)算綜合相似度矩陣時(shí)，為了分析網(wǎng)絡(luò)表示學(xué)習(xí)、文本內(nèi)容、標(biāo)簽這三個(gè)角度對(duì)應(yīng)的相似度權(quán)重分配對(duì)推薦結(jié)果的影響，在保持其他參數(shù)不變的情況下，分別設(shè)置α 值為0、0.2、0.4、0.6、0.8、1，計(jì)算對(duì)應(yīng)的Precision、Recall 和F-measure 值，實(shí)驗(yàn)結(jié)果如圖6 所示。從圖6 可以看出，隨著α 值的上升，Precision、Recall 和F-measure 值均呈現(xiàn)先上升后下降的變化趨勢(shì)；當(dāng)α=0 或1時(shí)，表示未對(duì)相似度矩陣進(jìn)行融合，Precision、Recall 和F-measure 值達(dá)到最低和次低，說明將文獻(xiàn)引用關(guān)系、文本內(nèi)容和標(biāo)簽進(jìn)行融合可以提高推薦的效果；當(dāng)α=0.4 時(shí)，本文推薦方法取得最優(yōu)值，因此本文選取α=0.4 為最優(yōu)權(quán)值。

圖6 不同權(quán)值下本文推薦方法的準(zhǔn)確率、召回率及F-measure 對(duì)比

（3）不同融合方式對(duì)實(shí)驗(yàn)結(jié)果的影響

為了進(jìn)一步分析文獻(xiàn)引用關(guān)系與文本信息融合過程中，不同融合方式對(duì)文獻(xiàn)推薦效果的影響，本文分別計(jì)算以下兩種融合方法對(duì)應(yīng)的Precision、Recall 和F-measure 值，結(jié)果如圖7所示。

①特征與相似度融合。將node2vec 與bert模型生成的文獻(xiàn)特征向量拼接獲取融合后的特征向量，計(jì)算其相似度矩陣，然后與基于標(biāo)簽的文獻(xiàn)相似度矩陣進(jìn)行加權(quán)二次融合。

②相似度融合。將node2vec、tag 與bert 模型對(duì)應(yīng)的三種文獻(xiàn)相似度矩陣以一定的權(quán)值加權(quán)求和獲取文獻(xiàn)的綜合相似度矩陣。

通過圖7 可以看出，特征與相似度融合方法對(duì)應(yīng)的Precision、Recall 和F-measure 值較高，因此本文選擇先進(jìn)行特征融合、后進(jìn)行相似度融合的方法進(jìn)行學(xué)術(shù)文獻(xiàn)推薦。

圖7 不同融合方式下準(zhǔn)確率、召回率及F-measure 對(duì)比

3.4.2 實(shí)驗(yàn)結(jié)果

根據(jù)上述實(shí)驗(yàn)分析，本文最終選取推薦個(gè)數(shù)n=200,綜合相似性權(quán)重α=0.4，以及特征與相似度融合方法進(jìn)行實(shí)驗(yàn)，得到本文推薦方法與對(duì)比方法對(duì)應(yīng)的Precision、Recall、F-measure以及相比對(duì)比方法本文推薦方法的提升率，實(shí)驗(yàn)結(jié)果如表4 所示。從表4 可以看出，本文推薦方法的Precision、Recall 和F-measure 均高于其他5 種對(duì)比方法，且平均提升率分別為31.05%、28.51%和29.70%，說明本文提出的融合網(wǎng)絡(luò)表示學(xué)習(xí)與文本信息的學(xué)術(shù)文獻(xiàn)推薦方法具有更好的推薦效果。除此之外，在網(wǎng)絡(luò)表示學(xué)習(xí)的推薦方法中，基于Node2vec 的方法優(yōu)于基于DeepWalk、Line 的方法，這是因?yàn)镹ode2vec 綜合考慮了廣度優(yōu)先遍歷算法和深度優(yōu)先遍歷算法，可以同時(shí)保證文獻(xiàn)在數(shù)據(jù)集上的局部信息和全局信息。在基于本文信息的推薦方法中，基于Bert 的方法優(yōu)于基于Tag 的方法，說明使用Bert 對(duì)標(biāo)題摘要進(jìn)行特征提取比文獻(xiàn)的標(biāo)簽更能準(zhǔn)確表示文獻(xiàn)內(nèi)容信息。綜上所述，本文使用Node2vec、Bert 模型、Tag 從文獻(xiàn)間的引用關(guān)系、內(nèi)容信息和標(biāo)簽三個(gè)角度進(jìn)行融合，進(jìn)而實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)推薦，對(duì)于提高推薦方法的質(zhì)量具備一定的優(yōu)勢(shì)。

表4 本文方法與對(duì)比方法推薦結(jié)果對(duì)比

4 結(jié)語

針對(duì)傳統(tǒng)的學(xué)術(shù)文獻(xiàn)推薦忽略了文獻(xiàn)間引用關(guān)系的重要性，以及文獻(xiàn)向量表示維數(shù)過大進(jìn)而影響推薦效果的問題，本文提出了融合文獻(xiàn)引用網(wǎng)絡(luò)、長文本內(nèi)容和短文本標(biāo)簽的學(xué)術(shù)文獻(xiàn)推薦方法。首先，分別利用Node2vec、Bert 模型生成文獻(xiàn)向量表示，并對(duì)其進(jìn)行特征融合，計(jì)算特征融合和標(biāo)簽對(duì)應(yīng)的文獻(xiàn)相似度矩陣；其次，加權(quán)兩種文獻(xiàn)相似度矩陣獲取文獻(xiàn)綜合相似度矩陣，根據(jù)與目標(biāo)文獻(xiàn)的相似性大小實(shí)現(xiàn)學(xué)術(shù)文獻(xiàn)推薦；最后，在CiteUlike數(shù)據(jù)集上進(jìn)行實(shí)驗(yàn)驗(yàn)證，結(jié)果表明本文方法在Precision、Recall 和F-measure 上均有一定的提升，驗(yàn)證了網(wǎng)絡(luò)表示學(xué)習(xí)融入至基于文本信息的推薦方法中的有效性。由于本文僅在單一數(shù)據(jù)集上進(jìn)行了驗(yàn)證，因此具有一定局限性。除了文獻(xiàn)間引用關(guān)系外，用戶間的社交關(guān)系、文獻(xiàn)包含的多種特征信息以及用戶與文獻(xiàn)間的評(píng)分關(guān)系也是學(xué)術(shù)文獻(xiàn)推薦過程中需要關(guān)注的重點(diǎn)信息，如何將這些信息引入至文獻(xiàn)引用關(guān)系網(wǎng)絡(luò)中進(jìn)行推薦將是本文下一步的研究重點(diǎn)。

99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看