• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于隨機游走模型的高校圖書館知識發(fā)現(xiàn)系統(tǒng)構(gòu)建

      2020-08-13 07:24劉愛琴賈一帆冷長青
      現(xiàn)代情報 2020年5期
      關(guān)鍵詞:高校圖書館

      劉愛琴 賈一帆 冷長青

      摘 要:[目的]為了實現(xiàn)知識的快速聚類和關(guān)聯(lián)分類,由傳統(tǒng)的以資源檢索為目標的高校圖書館系統(tǒng)轉(zhuǎn)變?yōu)橥耆嫦蛴脩粜枨蟮?、主動發(fā)現(xiàn)和推送知識的圖書館知識發(fā)現(xiàn)系統(tǒng)。[過程]本文融合網(wǎng)絡爬蟲技術(shù)和學術(shù)資源網(wǎng)站結(jié)構(gòu)化數(shù)據(jù)的特征,構(gòu)建了基于隨機游走模型,依據(jù)摘要詞頻對文獻資料進行主題詞的提取、聚類;隨后在標簽信息標注的基礎上,根據(jù)相似性對游走過程進行加權(quán)處理;最終完成了知識關(guān)聯(lián)分類的知識發(fā)現(xiàn)系統(tǒng)。[結(jié)果]本文實現(xiàn)了用高效的知識提取手段,基于智慧云、物聯(lián)網(wǎng)構(gòu)建更加準確和更具關(guān)聯(lián)性的知識發(fā)現(xiàn)系統(tǒng),提高了高校圖書館知識檢索系統(tǒng)的查全率和查準率。

      關(guān)鍵詞:高校圖書館;摘要信息標注;加權(quán)處理;隨機游走模型;知識發(fā)現(xiàn)系統(tǒng)

      DOI:10.3969/j.issn.1008-0821.2020.05.012

      〔中圖分類號〕G250.74 〔文獻標識碼〕A 〔文章編號〕1008-0821(2020)05-0096-08

      Construction of Knowledge Discovery System in

      University Library Based on Random Walking Model

      Liu Aiqin Jia Yifan Leng Changqing

      (School of Economics and Management,Shanxi University,Taiyuan 030006,China)

      Abstract:[Purpose]In order to realize the fast association classification of knowledge,the traditional university library system with the goal of resource retrieval should transform into a library knowledge discovery system that completely faces the needs of users and actively discovers and pushes knowledge.[Process]In this paper,based on the combination of web crawler technology and the characteristics of structured data of academic resources websites,a random walk model was constructed,and the subject words were extracted and clustered according to the abstract word frequency;then,on the basis of label information tagging,the walking process was weighted according to similarity;Finally, the knowledge discovery system of knowledge association classification was completed.[Result]This paper realized the use of efficient knowledge extraction means to build a more accurate and relevant knowledge discovery system based on the cloud of wisdom and the Internet of things,which improved the recall and precision of the university library knowledge retrieval system.

      Key words:university library;information tagging of the abstract;weighted processing;random walk model;knowledge discovery system

      1 研究背景

      用戶知識需求的不斷增加,要求獲取信息的準確性和關(guān)聯(lián)性越來越高[1],高校圖書館利用高效的知識提取手段和知識發(fā)現(xiàn)技術(shù),基于智慧云、物聯(lián)網(wǎng)構(gòu)建更加準確和更具關(guān)聯(lián)性的知識發(fā)現(xiàn)系統(tǒng),實現(xiàn)短時間內(nèi)準確獲取知識[2],解決用戶的特定問題和滿足用戶日益增長的個性需求,要比高校圖書館提供傳統(tǒng)數(shù)據(jù)庫更吸引用戶的使用[3]。由傳統(tǒng)的以資源檢索為目標轉(zhuǎn)變?yōu)橥耆嫦蛴脩粜枨蟮?、主動發(fā)現(xiàn)和推送知識的圖書館知識發(fā)現(xiàn)系統(tǒng)的工作已迫在眉睫。

      根據(jù)研究對象的數(shù)據(jù)特點,國內(nèi)外學者正在展開積極的研究。國外學者Sen S等[4]利用標簽的推薦算法,Yildirim H等[5]利用RWR算法來消減協(xié)同過濾中稀疏性問題,其根據(jù)項目之間的相似度針對不同用戶的初始評分信息在項目空間中進行不同的隨機游走過程;Zhou D Y等[6]基于超圖的隨機游走方法;Li D C等[7]基于超圖的半監(jiān)督關(guān)鍵詞排序算法的定義,Meila M等[8]基于馬爾可夫鏈的隨機游走聚類算法解決傳統(tǒng)服務中推薦算法準確性不高以及推薦結(jié)果缺乏多樣性等問題。國內(nèi)學者在具體模型的構(gòu)建上進行了大量的研究,何勝等[9]提出一種以文獻“混合關(guān)聯(lián)”為主要內(nèi)容的圖書館文獻推薦方案及實現(xiàn)算法;劉愛琴等[10]基于SOM神經(jīng)網(wǎng)構(gòu)件關(guān)聯(lián)數(shù)據(jù)集,并結(jié)合語義檢索和屬性值匹配等技術(shù),構(gòu)建高校圖書館用戶個性化推薦服務系統(tǒng);趙榮珍等[11]針對知識發(fā)現(xiàn)中數(shù)據(jù)資源化保護的原始故障問題,借助數(shù)據(jù)驅(qū)動構(gòu)建了基

      于粗糙集理論的知識獲取模型,為智能決策的優(yōu)化提供了一種可行方案入PDA資源建設模式,幫助讀者在海量書目資源中方便快捷地發(fā)現(xiàn)自己需要的圖書資源;姜璐[12]通過利用現(xiàn)代信息分析技術(shù),構(gòu)建了圖書館嵌入式知識發(fā)現(xiàn)情報分析服務模型。馬慧芳等[13]將文獻標題與標題中的詞項視為超邊與超點構(gòu)造超圖,對超邊與超點同時加權(quán),設計了一種基于加權(quán)超圖隨機游走的關(guān)鍵詞提取算法;趙紅霞等[14]提出了基于隨機游走的最優(yōu)路徑集合選取算法,解決了網(wǎng)絡規(guī)模過大造成的準確性和執(zhí)行效率丟失問題;王麗莎等[15]在隨機游走算法的基礎上進行了改進,提出了一種項目—標簽導向的隨機游走推薦模型,針對特定用戶分別在項目空間和標簽空間中根據(jù)對象之間的相似性計算轉(zhuǎn)移概率,進行有限步長的隨機游走,在兩個空間中都生成若干個待推薦項目,然后重新計算預測評分,最后對該用戶進行個性化信息推薦;方晨等[16]提出了基于隨機游走和多樣性圖排序的個性化服務推薦方法,解決了傳統(tǒng)服務推薦算法由于數(shù)據(jù)稀疏性而導致推薦準確性不高,以及推薦結(jié)果缺乏多樣性等問題;在隨機游走模型的數(shù)據(jù)處理方面,余思東等[17]考慮隨機游走轉(zhuǎn)移概率的求解問題在邊界條件下的求解方法??梢?,目前已有研究多集中于對文獻的題目或文獻列出的關(guān)鍵詞進行分析和聚類,容易造成文獻信息獲取不全面、關(guān)鍵詞題目等對文獻的描述存在局限性等問題,同時,聚類標準的單一會使知識發(fā)現(xiàn)結(jié)果存在偏移。

      綜上所述,本文融合網(wǎng)絡爬蟲技術(shù)和學術(shù)資源網(wǎng)站結(jié)構(gòu)化數(shù)據(jù)的特征,首先基于文獻摘要,利用網(wǎng)絡爬蟲、Python對摘要主題詞進行提取,對數(shù)據(jù)進行預處理,對圖書館中海量的文獻數(shù)據(jù)進行爬取、加工和整合,隨后將主題詞作為文獻分類的基礎,基于超圖模型、k-means算法構(gòu)建隨機游走模型,通過設置標記點文獻并游走遍歷所有文獻的摘要主題詞,在諸多文獻之間的游走過程中,依據(jù)摘要的相似關(guān)鍵詞數(shù)量為從起點文章開始的不同游走路程進行加權(quán)處理,獲得文獻間的關(guān)聯(lián)性;最后在完成所有文獻的游走過程后,將達到概率標準的文章劃分為同類,實現(xiàn)知識發(fā)現(xiàn)系統(tǒng)的關(guān)聯(lián)、聚類和規(guī)范,達到知識集成和整合。

      2 知識發(fā)現(xiàn)系統(tǒng)模型構(gòu)建

      2.1 理論基礎

      隨機游走模型是通過隨機選取某一文獻作為起點,隨機游走所有的文獻,根據(jù)信息特征相似性對游走線路作加權(quán)處理,查閱所有文獻后完成聚類。

      隨機游走算法通過對數(shù)據(jù)集進行統(tǒng)一的定義,把給定的數(shù)據(jù)集合作為固定數(shù)目的節(jié)點和邊的離散對象,將數(shù)據(jù)聚類分析問題轉(zhuǎn)化為無向加權(quán)圖來實現(xiàn)求解。首先,將數(shù)據(jù)集映射成一個無向加權(quán)圖G=(V,E),由數(shù)據(jù)值的節(jié)點vi∈V和表示數(shù)據(jù)與其相鄰數(shù)據(jù)間關(guān)系的邊界e∈E組成。eij表示連接兩個頂點vi、vj的邊,每條邊用權(quán)重wij來表示兩個頂點之間的相似或差異程度。頂點vi的度定義為di=∑wij,等于所有與結(jié)點Vi相關(guān)聯(lián)邊的權(quán)值和;其次,根據(jù)數(shù)據(jù)性質(zhì)設置k個標記點,通過為每個未被標記的數(shù)據(jù)節(jié)點分配一個k維向量,來表示一個未被標記點到達所有標記點的隨機游走過程。第三,每個一維向量均表示從每個未標記點出發(fā),第一次到達k個標記點的概率,k個概率中最大的值為未標記點所屬的類標簽。該方法將具有相似性的數(shù)據(jù)就可歸為一類,根據(jù)不同類別之間的差異實現(xiàn)數(shù)據(jù)聚類。

      兩個文本數(shù)據(jù)X和Y的相似度可根據(jù)Tanimoto系數(shù)表示為式(1):

      其中,X與Y的相似度x、y即由二者相同的關(guān)鍵詞與所有關(guān)鍵詞之和的比值來表示,該相似度在進行歸一化后也作為游走概率即游走過程中的權(quán)重處理。

      在一定的邊界條件下,隨機游走轉(zhuǎn)移概率的求解問題與聯(lián)合狄利克雷求解問題的解相似。因此,本文通過求解聯(lián)合狄利克雷問題的解來實現(xiàn)隨機游走算法求解,在區(qū)域Ω上,給定定義文獻節(jié)點的函數(shù)u,其狄利克雷積分形式為式(2):

      D[u]=12∫ΩΔu2dΩ(2)

      隨機游走從一個非標記點到標記點的概率等于該標記點在邊界條件下的狄利克雷函數(shù),求解的問題即在某個邊界條件下求解拉普拉斯函數(shù),定義該文獻由二維參數(shù)i與j描述,如式(3)所示:

      拉普拉斯Lij的值由節(jié)點vi與vj共同決定,該矩陣是滿足邊界條件下的對稱正定矩陣。di為節(jié)點vi的度,定義di=∑nj=1wij,表示w第i行所有元素之和。

      由式(5)可知,關(guān)聯(lián)矩陣由邊eij和節(jié)點vk決定,圖中eij為任意方向,A為聯(lián)合梯度算子,AT為聯(lián)合散度算子。

      構(gòu)造一個大小為m×n的對角陣C,其對角線上的值為映射圖邊上的權(quán)值,見式(6):

      如果連續(xù),聯(lián)合梯度算子和聯(lián)合散度算子之積可以表示各向同性的聯(lián)合拉普拉斯矩陣即L=ATA。在映射圖中,矩陣C可看作向量上一個加權(quán)內(nèi)積大小的度量,當C=I時,L=ATCA可簡化為L=ATA。因此,調(diào)和函數(shù)求解問題可通過上述定義解決即:在固定標記點值已知情況下,非標記點到標記點的概率值可求,式(2)可轉(zhuǎn)化為:

      其中,L為聯(lián)合的拉普拉斯矩陣,x為圖中數(shù)據(jù)的概率值,D[x]的最小值可通過聯(lián)合調(diào)和函數(shù)x求得,映射圖中的所有節(jié)點可分為未標記點集合和標記點集合集將拉普拉斯矩陣按標記點和未標記點排列得:

      其中,XB、XU分別為標記點和非標記點的隨機游走概率值,D[xU]對xU求的微分得:

      令xsi表示未標記點到達標記點為s的概率,定義一個表示所有標記點集合的函數(shù):Q(vj)=s,vj∈VM且0

      因此,通過求解:LUxs=-BTms得到到達單個標記點的概率;通過LUX=-BTM求得到所有種子點的概率,其中,k個列矢量xs組成X,k個列矢量ms組成M。因為對任意未被標記節(jié)點來說,它到所有種子點的概率之和為1,即:

      對于k個標記種子點來說,計k-1組方程,求可得出k-1個概率值。

      在獲得每個結(jié)點vi第一次到達k個種子點的概率后,逐個比較大小,以最大轉(zhuǎn)移概率maxs(xsi)實現(xiàn)聚類。

      2.2 系統(tǒng)構(gòu)建

      基于隨機游走模型的高校圖書館知識發(fā)現(xiàn)系統(tǒng)由數(shù)據(jù)層、匹配層和用戶層3個層次組成。其中,數(shù)據(jù)層主要完成對文獻數(shù)據(jù)通過隨機游走模型進行整合統(tǒng)計,包括數(shù)據(jù)庫,分為文獻資源數(shù)據(jù)庫與用戶資源數(shù)據(jù)庫,用來管理系統(tǒng)中所有的原始數(shù)據(jù);數(shù)據(jù)處理操作,包含對用戶搜索歷史、目標學科信息的提取保存和文獻摘要關(guān)鍵詞的提取,以及通過關(guān)鍵詞相似度進行文獻聚類,即隨機游走模型在系統(tǒng)中的應用。

      匹配層主要完成數(shù)據(jù)層與用戶層的連接,輸入處理主要是針對用戶搜索的文獻進行資源庫搜索或?qū)π落浫氲奈墨I進行聚類處理,以便后續(xù)搜索或相關(guān)文獻推薦;資源匹配則是將數(shù)據(jù)庫的文獻資源與用戶搜索匹配。

      用戶層是展示給知識發(fā)現(xiàn)系統(tǒng)用戶的層面,其主要功能就是向用戶展示資源匹配的結(jié)果,內(nèi)容的形式以關(guān)聯(lián)文獻來表現(xiàn),詳見圖1。

      該知識發(fā)現(xiàn)系統(tǒng)將資源整合與用戶服務相結(jié)合,將數(shù)據(jù)層、匹配層和用戶層相聯(lián)系,具體服務操作流程如圖2所示:首先,系統(tǒng)起始操作由用戶或系統(tǒng)管理者發(fā)起。系統(tǒng)管理者發(fā)起對系統(tǒng)進行文獻錄入,并由系統(tǒng)的匹配層完成輸入處理,匹配層提取文獻摘要關(guān)鍵詞并進行隨機游走完成聚類,計入文獻資源庫的某一聚類集群中。其次,用戶在登入系統(tǒng)后,系統(tǒng)通過訪問用戶資源庫提取用戶的數(shù)據(jù),包括歷史訪問、偏愛集群和用戶信息,獲取用戶可能感興趣的文獻或集群。在用戶輸入信息進行搜索后,系統(tǒng)的匹配層完成輸入處理,并將用戶搜索輸入時提供的新用戶特征,如感興趣的學科內(nèi)容等錄入用戶資源庫。第三,用戶輸入搜索,匹配層完成資源匹配,將數(shù)據(jù)庫中的文獻資源與用戶搜索內(nèi)容進行匹配。最后,系統(tǒng)完成匹配,將用戶的搜索與資源庫的文獻或集群的關(guān)聯(lián)展示給用戶,與此同時,新的用戶搜索增加新的用戶特征與關(guān)聯(lián)圖譜。通過此系統(tǒng),提高了高校圖書館信息檢索的查全率和查準率,實現(xiàn)了知識聚類。

      3 系統(tǒng)實現(xiàn)

      利用中國知網(wǎng)數(shù)據(jù)庫進行上述高校圖書館知識發(fā)現(xiàn)系統(tǒng)中關(guān)于文獻摘要聚類的性能的算法仿真驗證。本文應用Python爬蟲技術(shù),在檢索欄輸入“信息”,選取前200篇文獻,隨機抓取文獻摘要,并基于該摘要詞頻對相應句意進行主題詞提取。獲取文獻摘要并提取主題詞的部分代碼,如圖3所示,隨機獲得文獻摘要樣本后,根據(jù)詞頻對句意提取主題詞的部分代碼,如圖4所示。文獻間基于主題詞相似度獲取文獻間游走路徑的權(quán)重,部分獲取結(jié)果如圖5所示。

      根據(jù)權(quán)重在200篇文獻中進行隨機游走,最終部分結(jié)果如圖6所示,游走遍歷所有文獻的摘要關(guān)鍵詞聚類,關(guān)聯(lián)性強的文獻在如圖所示的結(jié)果中被聚集在了一起,讀者可以方便、快捷地查找到同類文獻,實現(xiàn)高校圖書館知識發(fā)現(xiàn)系統(tǒng)的構(gòu)建。

      游走結(jié)果展示出了起點文獻或中心文獻及與該文獻關(guān)聯(lián)的文獻標題與數(shù)目,如圖7所示,由此可以完成對具體聚類數(shù)目的規(guī)劃,較已有圖書館文獻聚類系統(tǒng)擁有更加細致的分類。

      為使數(shù)據(jù)更加直觀,從視覺感官上獲取數(shù)據(jù)信息的頻度關(guān)聯(lián)程度,可通過方塊面積來展示數(shù)據(jù)信息頻度的Masico圖,和文字大小代表關(guān)鍵詞頻度的詞云,以及背景圖片的形狀變換相應數(shù)據(jù)的位置來實現(xiàn)列表數(shù)據(jù)的可視化圖示。以“CEO特征對企業(yè)社會責任信息披露影響研究”為中心文獻為例,與該文獻關(guān)聯(lián)的,并以矩形方片中心橢圓式向外擴散的可視化最終顯示結(jié)果,如圖8所示。其中,關(guān)鍵詞出現(xiàn)頻度不高,設置最低字體大小詞匯,以遠離中心顯示。

      在此為基礎,構(gòu)建的高效圖書館知識發(fā)現(xiàn)系統(tǒng),由用戶界面與后臺管理界面組成,用戶和管理員可在此界面均可完成上述操作,詳見圖9、圖10所示。

      4 結(jié) 語

      融合網(wǎng)絡爬蟲技術(shù)和學術(shù)資源網(wǎng)站結(jié)構(gòu)化數(shù)據(jù)的特征,本文基于隨機游走模型構(gòu)建了高校圖書館知識發(fā)現(xiàn)系統(tǒng)。該系統(tǒng)依據(jù)摘要詞頻作為聚類標準,對文獻摘要進行主題詞的提取、聚類;隨后在標簽信息標注的基礎上,遍歷文獻,并根據(jù)相似性對游走過程進行加權(quán)處理,一方面有效地實現(xiàn)了知識的快速聚類和關(guān)聯(lián)分類;另一方面聚類類目的細化及起點或中心文獻及與該文獻關(guān)聯(lián)的文獻標題與數(shù)目關(guān)聯(lián)可視化顯示,有效地提高了高校圖書館知識檢索系統(tǒng)的查全率和查準率。

      參考文獻

      [1]李祎.基于圖書情報機構(gòu)智庫建設的知識發(fā)現(xiàn)系統(tǒng)構(gòu)建研究[J].圖書館工作與研究,2017,(2):61-65.

      [2]王勛.基于深度學習的數(shù)字圖書館網(wǎng)絡知識發(fā)現(xiàn)研究[J].圖書館學刊,2018,(7):116-120.

      [3]Doug Way.The Impact of Web-scale Discovery on the Use of a Library Collection[J].Serials Review,2010,36(4):214-220.

      [4]Sen S,Vig J,Riedl.J.Tagommenders:Connecting Users to Items through Tags[C]//Proceedings of the 18th International World Wide Web Conference,Madrid,Spain, 2009:671-680.

      [5]Yildirim H,Krishnamoorthy M S.A Random Walk Method for Alleviating the Sparsity Problem in Collaborative Filtering[C]//Proceedings of the 4th ACM Conference on Recommender Systems,Lausanne,Switzerland 2008:131-138.

      [6]Zhou D Y,Huang J Y,et al.Learning with Hypergraphs:Clustering,Classification,and Embedding[A].Proceedings of the 20th International Conference on Neural Information Processing Systems[C]//Vancouver,Canada:MIT Press,2006:1601-1608.

      [7]Li D C,Li S J.Hypergraph-based Inductive Learning for Generating Implicit Key Phrases[A].Proceedings of the 20th International Conference on World Wide Web[C]//Hyderabad,India:Springer,2011:77-78.

      [8]Meila M,Shi J.Learning Segmentation By Random Walks[C]//NIPS,Den,Co,USA:MIT Press,2000:873-879.

      [9]何勝,熊太純,柳益君,等.基于Spark的高校圖書館文獻推薦方案及實證研究[J].圖書情報工作,2017,61(23):129-137.

      [10]劉愛琴,李永清.基于SOM神經(jīng)網(wǎng)絡的高校圖書館個性化推薦服務系統(tǒng)構(gòu)建[J].圖書館論壇,2018,38(4):95-102.

      [11]趙榮珍,鄧林峰.基于粗糙集數(shù)據(jù)分類概念的故障知識發(fā)現(xiàn)[J].振動、測試與診斷,2012,32(1):17-22,158.

      [12]姜璐.大數(shù)據(jù)時代圖書館嵌入式知識發(fā)現(xiàn)情報分析服務研究[J].農(nóng)業(yè)圖書情報學刊,2018,30(8):152-155.

      [13]馬慧芳,劉芳,夏琴,等.基于加權(quán)超圖隨機游走的文獻關(guān)鍵詞提取方法[J].電子學報,2018,46(6):1410-1414.

      [14]趙紅霞,劉高森,李愈.基于隨機游走的分類垃圾回收最優(yōu)路徑規(guī)劃[J].交通運輸工程于信息學報,2018,16(3):103-108.

      [15]王麗莎,張紹武,林鴻飛.基于項目和標簽的隨機游走個性化信息推薦模型[J].情報學報,2012,31(3):289-296.

      [16]方晨,張恒巍,王娜,等.基于隨機游走和多樣性圖排序的個性化服務推薦方法[J].電子學報,2016,46(11):2773-2780.

      [17]余思東,萬榮澤,黃欣.一種基于隨機游走的復雜網(wǎng)絡生成[J].計算機應用與軟件,2015,32(2):120-123.

      [18]何明,要凱升,楊芃,等.基于標簽信息特征相似性的協(xié)同過濾個性化推薦[J].計算機科學,2018,45(6):415-422.

      (責任編輯:郭沫含)

      猜你喜歡
      高校圖書館
      淺談高校圖書館隨書光盤的編目與管理作用
      當代高校圖書館“大閱讀”服務模式探討
      新平| 绥芬河市| 炉霍县| 祁连县| 南木林县| 仙居县| 五华县| 马尔康县| 贡山| 霞浦县| 肥乡县| 白山市| 桑日县| 诸暨市| 乌苏市| 南宁市| 长葛市| 临海市| 蕉岭县| 邢台市| 桂东县| 昌乐县| 高邑县| 开封市| 黄骅市| 涪陵区| 丰城市| 银川市| 井研县| 溧阳市| 唐河县| 台江县| 白水县| 孟连| 揭西县| 柞水县| 耒阳市| 兴海县| 恩平市| 四平市| 永福县|