祝 婷
(西安工業(yè)大學(xué)圖書館,陜西 西安 710021)
學(xué)術(shù)論文是科研人員在學(xué)術(shù)研究過程中的重要知識(shí)源,然而隨著大數(shù)據(jù)時(shí)代的到來,學(xué)術(shù)論文數(shù)量急劇增長(zhǎng),用戶在論文數(shù)據(jù)庫中檢索論文時(shí),往往會(huì)出現(xiàn)信息過載的問題。如何幫助用戶從海量論文中獲取所需論文,為用戶提供推薦服務(wù),對(duì)輔助科學(xué)研究具有重要意義。常見的學(xué)術(shù)論文推薦方法包括基于內(nèi)容的推薦方法、基于關(guān)聯(lián)規(guī)則的推薦方法、協(xié)同過濾推薦方法以及混合推薦方法,其中協(xié)同過濾推薦方法是使用最為廣泛且成功的一種推薦方法。除了利用用戶對(duì)論文的評(píng)分計(jì)算相似性外,論文本身的語義特征也是不可忽略的重要因素,深度學(xué)習(xí)技術(shù)可以深層次的挖掘論文的隱式特征,因此,將深度學(xué)習(xí)技術(shù)與協(xié)同過濾推薦方法相融合已成為新的研究趨勢(shì)。本文首先對(duì)學(xué)術(shù)論文推薦現(xiàn)狀和存在的不足進(jìn)行了概述,然后介紹了深度學(xué)習(xí)和協(xié)同過濾技術(shù),最后在此基礎(chǔ)上提出了一種融合深度學(xué)習(xí)與協(xié)同過濾的學(xué)術(shù)論文推薦方法,以期為用戶提供更為準(zhǔn)確的學(xué)術(shù)論文推薦服務(wù)。
傳統(tǒng)的學(xué)術(shù)論文推薦方法通常包含基于內(nèi)容的學(xué)術(shù)論文推薦、基于關(guān)聯(lián)規(guī)則的學(xué)術(shù)論文推薦、協(xié)同過濾學(xué)術(shù)論文推薦以及混合學(xué)術(shù)論文推薦等?;趦?nèi)容的學(xué)術(shù)論文推薦是通過計(jì)算用戶和學(xué)術(shù)論文的向量空間模型,然后比較兩者之間的相似性,將與用戶相似性較高的學(xué)術(shù)論文推薦給用戶;基于關(guān)聯(lián)規(guī)則的學(xué)術(shù)論文推薦是根據(jù)數(shù)據(jù)挖掘算法獲取用戶瀏覽論文數(shù)據(jù)庫生成強(qiáng)關(guān)聯(lián)規(guī)則,用戶在檢索、瀏覽或下載論文時(shí)與強(qiáng)關(guān)聯(lián)規(guī)則進(jìn)行匹配,將匹配的學(xué)術(shù)論文推薦給用戶;協(xié)同過濾學(xué)術(shù)論文推薦是通過用戶-論文評(píng)分矩陣計(jì)算用戶之間的相似性,生成目標(biāo)用戶的近鄰用戶,將近鄰用戶感興趣的學(xué)術(shù)論文推薦給目標(biāo)用戶;混合學(xué)術(shù)論文推薦方法是為了克服以上推薦方法的缺點(diǎn),融合其優(yōu)點(diǎn),將多種推薦方法相結(jié)合形成新的混合推薦方法,與單一推薦方法相比具有更好的推薦效果。
基于協(xié)同過濾的學(xué)術(shù)論文推薦未與深度學(xué)習(xí)技術(shù)進(jìn)行相融合。利用協(xié)同過濾技術(shù)進(jìn)行學(xué)術(shù)論文推薦時(shí),主要是依據(jù)用戶對(duì)學(xué)術(shù)論文的評(píng)分進(jìn)行推薦,這種推薦方法雖然可以滿足用戶的基本需求,但是沒有對(duì)學(xué)術(shù)論文的語義特征進(jìn)行分析,致使學(xué)術(shù)論文推薦的準(zhǔn)確度不高,推薦效果不夠顯著。實(shí)際上,除了獲取評(píng)分?jǐn)?shù)據(jù)之外,分析論文本身的語義特征對(duì)于學(xué)術(shù)論文推薦也是至關(guān)重要的,論文的語義特征反映了一篇論文的核心內(nèi)容,而用戶是否對(duì)某篇論文感興趣,本質(zhì)上也是根據(jù)論文的核心內(nèi)容進(jìn)行判斷。常見的學(xué)術(shù)論文特征提取方法為一種淺層學(xué)習(xí)方法,該方法無法深層次挖掘?qū)W術(shù)論文的隱式特征,在一定程度上也限制了推薦的準(zhǔn)確性。因此,目前傳統(tǒng)的協(xié)同過濾論文推薦方法在根據(jù)用戶評(píng)分?jǐn)?shù)據(jù)進(jìn)行推薦時(shí),尚未考慮到深層次的學(xué)術(shù)論文隱式特征,致使推薦服務(wù)不能真正發(fā)揮作用,進(jìn)一步影響用戶體驗(yàn)。
深度學(xué)習(xí)作為機(jī)器學(xué)習(xí)研究領(lǐng)域的一個(gè)重要方向,已成為人工智能和大數(shù)據(jù)發(fā)展的熱潮,目前已廣泛應(yīng)用于自然語言處理、圖像處理、語音識(shí)別、機(jī)器翻譯等領(lǐng)域[1]。它將低層特征通過組合形成更稠密的高層抽象表示,進(jìn)而實(shí)現(xiàn)對(duì)數(shù)據(jù)的復(fù)雜特征表示,在這個(gè)過程中,避免了傳統(tǒng)的機(jī)器學(xué)習(xí)方法中人工構(gòu)建特征帶來的一些問題。隨著大數(shù)據(jù)時(shí)代的發(fā)展,用戶面對(duì)的數(shù)據(jù)更多的是多源異構(gòu)、復(fù)雜多樣、無規(guī)律的數(shù)據(jù),傳統(tǒng)的淺層學(xué)習(xí)方法無法處理這些數(shù)據(jù),這種場(chǎng)景下,深度學(xué)習(xí)方法便顯得尤為重要。常見的深度學(xué)習(xí)方法包括自編碼器、受限玻爾茲曼機(jī)、卷積神經(jīng)網(wǎng)絡(luò)、循環(huán)神經(jīng)網(wǎng)絡(luò)、深度信念網(wǎng)絡(luò)等。
協(xié)同過濾是目前應(yīng)用最為廣泛的一種個(gè)性化推薦方法,它的核心思想是相似的用戶具有相同的興趣愛好。協(xié)同過濾推薦方法分為基于用戶的協(xié)同過濾推薦方法和基于項(xiàng)目的協(xié)同過濾推薦方法[2]?;谟脩舻膮f(xié)同過濾推薦是指在用戶-項(xiàng)目評(píng)分矩陣中計(jì)算用戶間的相似性,獲得目標(biāo)用戶的近鄰用戶,然后使用近鄰用戶的評(píng)分來預(yù)測(cè)目標(biāo)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分,最后根據(jù)預(yù)測(cè)評(píng)分的大小對(duì)其推薦?;陧?xiàng)目的協(xié)同過濾推薦方法是指在用戶-項(xiàng)目評(píng)分矩陣中計(jì)算項(xiàng)目間的相似性,根據(jù)項(xiàng)目相似性預(yù)測(cè)用戶對(duì)未評(píng)分項(xiàng)目的評(píng)分,將預(yù)測(cè)評(píng)分較高的項(xiàng)目推薦給用戶。
本文在協(xié)同過濾推薦的過程中引入論文內(nèi)容信息,提出一種融合深度學(xué)習(xí)與協(xié)同過濾的學(xué)術(shù)論文推薦方法。首先,在論文數(shù)據(jù)庫中獲取論文數(shù)據(jù),如題名、摘要、關(guān)鍵詞等,將其向量化表示作為深度學(xué)習(xí)模型的輸入,輸出論文的隱式特征表示,在此基礎(chǔ)上計(jì)算論文間的相似性s1;然后,獲取用戶行為數(shù)據(jù)產(chǎn)生用戶-論文評(píng)分矩陣,通過該矩陣計(jì)算論文間的相似性s2;最后,結(jié)合以上兩種相似性生成最終的論文相似性,根據(jù)其相似性大小對(duì)用戶進(jìn)行推薦。整個(gè)學(xué)術(shù)論文推薦流程如圖1 所示。
圖1 學(xué)術(shù)論文推薦流程圖
利用深度學(xué)習(xí)技術(shù)進(jìn)行學(xué)術(shù)論文特征表示主要分為以下三個(gè)步驟:
3.1.1 數(shù)據(jù)預(yù)處理
首先從論文數(shù)據(jù)庫中爬取論文數(shù)據(jù),如題名、摘要、關(guān)鍵詞等,對(duì)其進(jìn)行合并操作;然后對(duì)合并后的文本進(jìn)行分詞及去停用詞,并且規(guī)范文本為統(tǒng)一長(zhǎng)度,小于統(tǒng)一長(zhǎng)度使用0 進(jìn)行填充,大于統(tǒng)一長(zhǎng)度進(jìn)行截?cái)?;最后?jì)算文本中每個(gè)詞的TF*IDF 值,對(duì)其進(jìn)行排序,選取前n 個(gè)詞組成詞匯庫,將每個(gè)文本即論文轉(zhuǎn)化為這些詞的集合。
3.1.2 向量化表示
由于深度學(xué)習(xí)模型無法直接處理詞或文本,本文使用斯坦福大學(xué)已經(jīng)訓(xùn)練好的語料庫GloVe(6B,400K個(gè)詞匯,包含50、100、200、300d 維的向量表示)來對(duì)本文的詞進(jìn)行向量表示,最終可將論文表示為,其中pi 表示論文,表示論文中第n 個(gè)詞,⊕表示拼接操作。
3.1.3 論文隱式特征表示
將第二步生成的向量作為深度學(xué)習(xí)模型(可選擇卷積神經(jīng)網(wǎng)絡(luò))的輸入,首先通過卷積層進(jìn)行特征提取,可表示為,其中*代表卷積操作,Kj為卷積核,bj為偏置項(xiàng),f 表示激活函數(shù);然后通過池化層進(jìn)行維度降低,可表示為;最后通過全連接層匯總組合特征信息,可表示為Z=Z1⊕Z2⊕ …⊕Zn。因此,論文的隱式特征最終表示為y=f(W*Z+b),其中W 為全連接層的權(quán)值矩陣,b 為偏置項(xiàng)。
協(xié)同過濾論文推薦方法是根據(jù)用戶對(duì)學(xué)術(shù)論文的評(píng)分對(duì)其進(jìn)行特征表示。評(píng)分一般分為顯示評(píng)分與隱式評(píng)分,顯示評(píng)分是指用戶對(duì)論文進(jìn)行主動(dòng)打分,分值一般為0-5,分值越高表明用戶對(duì)論文的感興趣程度越高,反之感興趣程度越低,0 表示用戶沒有對(duì)該論文進(jìn)行評(píng)分。隱式評(píng)分是將用戶在論文數(shù)據(jù)庫中檢索、瀏覽、下載論文時(shí)的行為數(shù)據(jù)進(jìn)行轉(zhuǎn)換形成的評(píng)分?jǐn)?shù)值。例如用戶瀏覽一篇論文的時(shí)間越長(zhǎng)代表對(duì)其越感興趣,對(duì)應(yīng)評(píng)分?jǐn)?shù)值越高。無論是顯示評(píng)分還是隱式評(píng)分,最終可將每個(gè)用戶對(duì)論文數(shù)據(jù)庫中每篇論文的評(píng)分表示為用戶-論文評(píng)分矩陣,某篇論文獲得每個(gè)用戶的評(píng)分即評(píng)分矩陣的列向量則為該論文的特征表示。
獲得學(xué)術(shù)論文的特征向量表示之后,接下來需要計(jì)算學(xué)術(shù)論文間的相似性。常見的相似性算法包括相關(guān)相似性、余弦相似性以及修正的余弦相似性[3]。在基于深度學(xué)習(xí)的學(xué)術(shù)論文特征表示和基于協(xié)同過濾的學(xué)術(shù)論文特征表示的基礎(chǔ)上,使用相似性算法分別計(jì)算論文間的相似性,將其表示為s1 和s2,然后加權(quán)兩者生成最終的論文相似性s=a*s1+(1-a)*s2,(0<a< 1)。
根據(jù)加權(quán)后的論文相似性數(shù)值生成論文相似性矩陣,選取與目標(biāo)論文較為相似的前k 篇論文作為近鄰論文,其集合可表示為nei,則用戶i 對(duì)論文j 的預(yù)測(cè)評(píng)分可表示為
大數(shù)據(jù)時(shí)代背景下學(xué)術(shù)論文數(shù)量急劇增長(zhǎng),為用戶提供更精準(zhǔn)的論文推薦服務(wù)是未來研究發(fā)展趨勢(shì)。本文將深度學(xué)習(xí)技術(shù)與協(xié)同過濾推薦相融合,在協(xié)同過濾推薦過程中計(jì)算論文相似性時(shí),引入基于深度學(xué)習(xí)的論文相似性,通過加權(quán)兩種相似性對(duì)用戶產(chǎn)生推薦。