• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      融合知識圖譜和深度學習的學術(shù)論文推薦算法

      2022-06-23 09:17:40吳舒展
      智能計算機與應用 2022年6期
      關(guān)鍵詞:學術(shù)論文圖譜檢索

      吳舒展

      (湖北工程學院 數(shù)學與統(tǒng)計學院,湖北 孝感 432000)

      0 引言

      隨著科學技術(shù)的迅速發(fā)展,各個行業(yè)領(lǐng)域和學科產(chǎn)生的研究成果也在大幅增長,海量學術(shù)成果的涌現(xiàn)在為學者提供豐富學術(shù)論文的同時,也對論文的檢索工作帶來了困難和挑戰(zhàn)。在科研人員進行相關(guān)科學研究的過程中,需要查詢和引用相應的學術(shù)論文,并在前人的研究基礎(chǔ)上開展進一步研究和優(yōu)化,從而有效保證研究成果的價值和可行性。然而在實際的檢索過程中,用戶很難在短時間內(nèi)精準地獲得最具參考價值的學術(shù)論文。為了解決學術(shù)論文的檢索和查詢問題,提出了學術(shù)論文推薦方法。

      學術(shù)論文推薦方法的提出與應用,不僅提高了用戶檢索目標論文的速度,同時也解決了網(wǎng)絡(luò)環(huán)境中信息過載以及信息迷航的問題?,F(xiàn)階段,國內(nèi)外學術(shù)論文推薦方法大體可分為協(xié)同過濾方法和內(nèi)容過濾方法。然而上述傳統(tǒng)的論文推薦方法主要針對的是靜態(tài)的、存儲在固態(tài)數(shù)據(jù)庫中的學術(shù)論文,由于在線學術(shù)論文處于動態(tài)變化的狀態(tài),因此使用傳統(tǒng)的論文推薦方法會出現(xiàn)推薦效果差、推薦速度慢等問題。

      以解決傳統(tǒng)學術(shù)論文推薦方法存在的問題為目的,融合知識圖譜和深度學習算法,對在線學術(shù)論文推薦方法進行優(yōu)化設(shè)計。將知識圖譜引入到推薦方法中,可以實現(xiàn)論文實體之間的連接,并以此來表示不同語義論文的擴展?jié)撛谝蜃幽P汀T谝酝难芯抗ぷ髦?,基于深度學習的論文推薦方法雖提升了推薦性能,但只考慮了用戶對論文的評分數(shù)據(jù),削弱了推薦效果。融合知識圖譜和深度學習算法并將其應用到學術(shù)論文推薦方法的設(shè)計工作中,以期在保證推薦性能的同時,提升推薦效果,滿足用戶的論文查詢需求。首先通過構(gòu)建論文中實體間的三元組關(guān)系表達式,構(gòu)建學術(shù)論文知識圖譜,再通過知識圖譜嵌入式分析知識圖譜中的論文的特征,并轉(zhuǎn)化為低維的連續(xù)向量,結(jié)合用戶的興趣,利用深度學習的循環(huán)神經(jīng)網(wǎng)絡(luò)進行訓練,根據(jù)論文的相似度實現(xiàn)學術(shù)論文的精準推薦。

      1 學術(shù)論文推薦方法設(shè)計

      學術(shù)論文推薦方法的設(shè)計目標是預測用戶需求與學術(shù)論文之間的匹配程度,根據(jù)匹配結(jié)果生成用戶的推薦列表。在實際的設(shè)計與運行過程中,以深度學習算法為基礎(chǔ)迭代算法,知識圖譜以嵌入式的方式與深度學習算法融合。知識圖譜模塊構(gòu)建的三元組表達式為:

      其中,、和分別表示實體、關(guān)系和屬性三元組集合。

      1.1 構(gòu)建學術(shù)論文知識圖譜

      按照公式(1)表示的結(jié)構(gòu),構(gòu)建學術(shù)論文的知識圖譜,具體的構(gòu)建過程如圖1 所示。

      圖1 學術(shù)論文知識圖譜構(gòu)建流程圖Fig.1 Academic papers knowledge graph construction flow chart

      從圖1 中可以看出,采用自底向上的方式進行知識圖譜的搭建,分別抽取學術(shù)論文中的實體知識和關(guān)系知識,根據(jù)實體之間的關(guān)系對其進行連接,并通過知識融合和加工,得出最終的圖譜構(gòu)建結(jié)果。論文實體的抽取就是從文本數(shù)據(jù)集合中識別論文的命名實體,建立知識圖譜中的節(jié)點。根據(jù)特定需求可以將實體分為時間類、數(shù)字類和實體類三種類型,選擇合適的實體抽取目標并按照詞性進行標簽編輯,通過分析各個標簽之間的搭配關(guān)系,實現(xiàn)對實體的抽取,進而創(chuàng)建實體模型。實體模型中,令M、C分別為學術(shù)論文模型和論文類型,則學術(shù)論文模型結(jié)構(gòu)可以表示為:

      公式(2)中的任意一個子矩陣代表知識圖譜中的任意2 種論文之間的關(guān)系,例如表示學術(shù)論文作者與論文之間的從屬關(guān)系,為論文引用關(guān)系和相似關(guān)系。關(guān)聯(lián)提取是在一句話中識別出實體對的語義關(guān)系和實體對應的屬性,兩者之間是相互聯(lián)系的語義紐帶。將關(guān)系抽取結(jié)果代入到公式(2)中,實現(xiàn)對實體的連接。另外,在學術(shù)論文知識圖譜中,定義關(guān)鍵詞的權(quán)重為ω,其計算公式為:

      其中,(,) 表示第個關(guān)鍵詞在論文中出現(xiàn)的頻度;表示學術(shù)論文總數(shù);表示包含關(guān)鍵詞的論文數(shù)量。

      知識合并主要是針對結(jié)構(gòu)化數(shù)據(jù)的整合,在進行了知識抽取和知識融合后,得到了一系列的事實表達,需要進行知識加工,才能最終形成結(jié)構(gòu)化、網(wǎng)絡(luò)化的知識系統(tǒng)。知識點中心度參數(shù)計算方法如下:

      1.2 分析用戶需求和興趣

      用戶需求的分析可以通過用戶輸入的檢索或查詢詞條直接讀出,根據(jù)用戶的基本信息和輸入的檢索詞在學術(shù)論文中進行匹配。而用戶興趣是在用戶使用學術(shù)論文平臺一段時間后,通過對用戶的歷史行為數(shù)據(jù)進行分析,得到用戶興趣。用戶興趣由主題偏好、學科偏好和關(guān)鍵詞偏好三個部分組成,其中用戶u對某個主題t的興趣值可以表示為:

      其中, A表示的是在知識圖譜環(huán)境下,用戶對論文產(chǎn)生操作行為對應邊的權(quán)值,而T為論文屬于主題t設(shè)定閾值的權(quán)值。同理可以得出用戶對關(guān)鍵詞和學科興趣的量化分析結(jié)果。

      1.3 提取學術(shù)論文特征

      為了提升用戶檢索詞條與學術(shù)論文匹配任務的處理速度,提取學術(shù)論文的特征,并以特征向量的形式輸出。這里,詞頻特征也就是某一個給定的詞語在學術(shù)論文中出現(xiàn)的次數(shù),其表達式為:

      其中,和T分別為學術(shù)論文中的總詞數(shù)和單詞在學術(shù)論文中出現(xiàn)的次數(shù)。由于學術(shù)論文數(shù)據(jù)量較多,因此在詞頻特征提取過程中可能會出現(xiàn)提取偏差,為此引入了逆文檔詞頻的概念,在逆文檔詞頻特征的提取過程中,認為一個單詞在一篇學術(shù)論文中出現(xiàn)的頻率越高,則該詞在所有論文中出現(xiàn)的頻率越低,表明該單詞在指定學術(shù)論文中的主題突出性。融合詞頻和逆文本頻率指數(shù),可以反映出整個資源庫中單詞特征的大眾化程度,從而過濾出論文中的關(guān)鍵詞特征。除了關(guān)鍵詞外,學術(shù)論文的權(quán)威度、引用量、時新度、論文質(zhì)量等也能夠在一定程度上反映論文特征,其特征向量表達式為:

      其中,和分別為學術(shù)論文的發(fā)刊級別和被引量的量化結(jié)果;和max對應的是論文被引量和論文來源數(shù)據(jù)庫中最大的被引量;為論文發(fā)表時間距離最早發(fā)表時間和最晚發(fā)表時間的月份數(shù)的比值;和表示年份和月份。另外,變量表示的是學術(shù)論文的熱度。使用相同的方式對特征向量進行提取與融合,最終得出學術(shù)論文的綜合特征提取結(jié)果。

      1.4 利用深度學習算法劃分學術(shù)論文類型

      利用深度學習算法中的循環(huán)神經(jīng)網(wǎng)絡(luò),實現(xiàn)學術(shù)論文的分類處理。循環(huán)神經(jīng)網(wǎng)絡(luò)的學習迭代原理如圖2 所示。

      圖2 循環(huán)神經(jīng)網(wǎng)絡(luò)學習原理圖Fig.2 Schematic diagram of recurrent neural network learning

      在實際的論文分類處理過程中,將提取的特征向量作為輸入項在時刻輸入到循環(huán)神經(jīng)網(wǎng)絡(luò)中,經(jīng)過隱藏層處理后輸出為s,在輸出層輸出o。那么隱藏層和輸出層的學習處理函數(shù)如下:

      其中,x為循環(huán)神經(jīng)網(wǎng)絡(luò)的輸入項;和為激活函數(shù);和是隱藏層和輸出層的偏置量,取值為常數(shù);、和為神經(jīng)網(wǎng)絡(luò)不同層級之間的權(quán)重矩陣。

      1.5 實現(xiàn)學術(shù)論文推薦

      1.5.1 構(gòu)建查詢向量

      由于用戶的查詢檢索需求不同,因此通過知識圖譜構(gòu)建并結(jié)合深度學習訓練而生成的查詢向量也存在差別,用戶輸入的查詢詞條類型包括:學術(shù)論文作者、名稱、主題和關(guān)鍵詞。在知識圖譜嵌入層,構(gòu)建的查詢元素由上述4 個部分信息共同組成,并轉(zhuǎn)化為向量表達,其表達式為:

      查詢矢量是由不具有完整語義信息的不同單詞組成的,在實際的查詢過程中只要求一個向量值不為空即可,將構(gòu)建的查詢向量作為學術(shù)論文推薦的輸入詞條,輸入到推薦運行程序中。

      1.5.2 度量論文的相似性

      提取的知識圖譜中論文特征向量用來表示,在論文類型劃分環(huán)境下,從2 個方面進行論文相似性度量,一個是知識圖譜中查詢向量與學術(shù)論文的相似性,另一個則是知識圖譜中用戶興趣與學術(shù)論文的相似性。則相似度的度量結(jié)果為:

      其中,為輸入的知識圖譜中查詢向量或用戶興趣分析向量。

      1.5.3 生成學術(shù)論文推薦列表

      生成的學術(shù)論文推薦列表中,約束前20 個推薦論文必須與輸入的知識圖譜中的查詢向量有關(guān),且相似度不得低于70%。按照相似性度量結(jié)果由大到小的順序進行論文排列,得出學術(shù)論文的最終推薦結(jié)果。

      2 推薦效果測試實驗分析

      2.1 搭建實驗環(huán)境

      實驗采用FloyHub 作為訓練和推薦效果測試平臺,測試環(huán)境中包含一臺服務器和多臺計算機設(shè)備,實驗環(huán)境配置見表1。

      表1 實驗環(huán)境參數(shù)配置表Tab.1 Experimental environment parameters configuration table

      研究指出,由于設(shè)計的學術(shù)論文推薦方法應用了知識圖譜和深度學習算法,因此需要在實驗環(huán)境的基礎(chǔ)上嵌入相應的運行程序插件,保證2 種技術(shù)的協(xié)同運行。

      2.2 準備學術(shù)論文數(shù)據(jù)樣本

      實驗所采用的論文數(shù)據(jù)樣本可由多所高等院校圖書館提供,而且還可以利用網(wǎng)絡(luò)爬蟲,在多個學術(shù)與教學網(wǎng)絡(luò)中獲取學術(shù)論文、學術(shù)會議等類型的論文樣本數(shù)據(jù)。本文實驗所用的學術(shù)論文數(shù)據(jù)樣本是由本地2 所高校圖書館提供,準備的論文數(shù)據(jù)樣本包含中文、英文等多種語言,通過解析與統(tǒng)一化操作后,得出實驗數(shù)據(jù)樣本見表2。

      表2 學術(shù)論文數(shù)據(jù)樣本Tab.2 Academic papers data samples

      另外,根據(jù)高校圖書館的學術(shù)論文的歷史評論記錄和查詢行為等條目,在實驗環(huán)境中導入100458條評論記錄和行為記錄。將準備的所有論文數(shù)據(jù)樣本上傳到實驗環(huán)境中,上傳界面如圖3 所示。

      圖3 論文數(shù)據(jù)樣本上傳界面Fig.3 Thesis data samples upload interface

      2.3 設(shè)置推薦效果評價指標

      實驗設(shè)置命中率和召回率作為實驗的評價指標,命中率越高的推薦列表,證明推薦方法的推薦效果更好。召回率為被引用的論文在前個推薦論文中占比。計算方式分別為:

      2.4 描述推薦效果測試過程

      為了形成實驗對比,分別設(shè)置傳統(tǒng)的推薦方法和文獻[9]推薦方法作為實驗的2 個對比方法,并將所有的推薦方法以程序代碼的形式導入到實驗環(huán)境中。按照用戶的需求輸入目標檢索詞,為了保證實驗結(jié)果的可信度,輸入的多個檢索詞形成實驗的多個組別,并通過計算評價指標的平均值得出最終推薦效果的仿真測試結(jié)果。研究中,論文設(shè)計推薦方法的輸出推薦結(jié)果如圖4 所示。

      圖4 學術(shù)論文推薦頁面Fig.4 Academic papers recommendation page

      2.5 測試實驗結(jié)果對比分析

      利用相關(guān)數(shù)據(jù)的記錄與統(tǒng)計,運算得出推薦召回率的量化測試結(jié)果見表3。

      通過對表3 中數(shù)據(jù)的處理,進一步得出3 種推薦方法的平均召回率分別為91.57%、93.18%和96.10%。由此可見,設(shè)計方法的召回率更高,即實際引用結(jié)果在推薦結(jié)果中的占比較高。同時,還給出了推薦結(jié)果命中率指標測試結(jié)果,如圖5 所示。

      表3 學術(shù)論文推薦召回率測試結(jié)果Tab.3 Academic papers recommendation recall test results

      圖5 推薦結(jié)果命中率對比曲線Fig.5 Recommendation results hit rate comparison curve

      從圖5 中可以直觀地看出,應用設(shè)計方法得出推薦結(jié)果的命中率更高,即用戶的滿意度較高。

      3 結(jié)束語

      目前學術(shù)界對基于關(guān)鍵詞的學術(shù)論文推薦的研究,多是從詞義層面上進行優(yōu)化,并沒有考慮到不同文章中不同詞義類型的差異。通過知識圖譜和深度學習算法的應用,直接提升學術(shù)論文的推薦效果,并在一定程度上間接地滿足用戶對學術(shù)論文的需求,有助于提高科研人員的科研效率,拓寬科研視野,把握相關(guān)研究的新趨勢。

      猜你喜歡
      學術(shù)論文圖譜檢索
      學術(shù)論文征集啟事
      學術(shù)論文征集啟事
      學術(shù)論文征集啟示
      學術(shù)論文征集啟事
      繪一張成長圖譜
      2019年第4-6期便捷檢索目錄
      補腎強身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      主動對接你思維的知識圖譜
      專利檢索中“語義”的表現(xiàn)
      專利代理(2016年1期)2016-05-17 06:14:36
      雜草圖譜
      雜草學報(2012年1期)2012-11-06 07:08:33
      泰顺县| 临西县| 深泽县| 永顺县| 吴桥县| 江阴市| 双城市| 靖宇县| 宜兰县| 乐平市| 政和县| 晋江市| 泰兴市| 正宁县| 镇康县| 黄浦区| 邯郸市| 蓬莱市| 博湖县| 西城区| 双桥区| 珠海市| 中西区| 泰安市| 磴口县| 毕节市| 济源市| 仁寿县| 金坛市| 从化市| 竹山县| 都江堰市| 上虞市| 乌苏市| 大田县| 土默特右旗| 威海市| 咸宁市| 永城市| 南安市| 镇雄县|