• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      知識圖譜在領(lǐng)域知識多維分析中的應(yīng)用途徑研究*

      2019-04-19 01:09:46王思茗孫熊蘭滕廣青葉心欒宇
      數(shù)字圖書館論壇 2019年3期
      關(guān)鍵詞:圖譜實(shí)體領(lǐng)域

      王思茗 孫熊蘭 滕廣青 葉心 欒宇

      (1.東北師范大學(xué)信息科學(xué)與技術(shù)學(xué)院,長春 130117;2.長春市圖書館,長春 130021)

      21世紀(jì)以來,隨著網(wǎng)絡(luò)科學(xué)的復(fù)興,以網(wǎng)絡(luò)結(jié)構(gòu)表征知識關(guān)聯(lián)關(guān)系的思想已經(jīng)被圖書情報(bào)學(xué)界普遍接受和認(rèn)可。人工智能領(lǐng)域中各類神經(jīng)網(wǎng)絡(luò)(CNN、RNN、DNN)[1]的崛起,無一不印證了網(wǎng)絡(luò)思維在揭示多維復(fù)雜關(guān)系中的重要性。2012年5月,Google在其官方網(wǎng)站發(fā)布Introducing the Knowledge Graph:Things,not Strings,首次提出了知識圖譜(Knowledge Graph)的概念[2]。知識圖譜相比傳統(tǒng)的知識網(wǎng)絡(luò)具有更豐富的知識關(guān)聯(lián),正在迅速應(yīng)用于經(jīng)濟(jì)、醫(yī)療、金融、教育等諸多領(lǐng)域。與此同時,圖書情報(bào)學(xué)界也開始嘗試知識圖譜在本學(xué)科領(lǐng)域的應(yīng)用。

      本文基于知識圖譜理論及其構(gòu)建技術(shù),構(gòu)建特定學(xué)科領(lǐng)域的知識圖譜。在闡述知識圖譜構(gòu)建方法及過程的基礎(chǔ)上,基于知識圖譜從簡單實(shí)體間關(guān)系和多維復(fù)雜關(guān)系的視角進(jìn)行研究分析,探索和分析知識圖譜在領(lǐng)域知識多維分析中可能的應(yīng)用途徑,以期為基于知識圖譜的多維知識分析提供參考和借鑒。

      1 相關(guān)研究現(xiàn)狀

      傳統(tǒng)的知識組織體系以樹形結(jié)構(gòu)為主,當(dāng)前風(fēng)行世界各大圖書館的杜威十進(jìn)制[3]就是典型的代表。樹形結(jié)構(gòu)強(qiáng)調(diào)非此即彼的隸屬關(guān)系和等級森嚴(yán)的層級關(guān)系,體系結(jié)構(gòu)相對簡單和僵化。進(jìn)入21世紀(jì)以后,領(lǐng)域本體[4]憑借其多重繼承關(guān)系和對語義網(wǎng)的支持,一定程度上突破了傳統(tǒng)樹形結(jié)構(gòu)的桎梏。Soergel[5]認(rèn)為,本體作為概念與概念之間的語義地圖,有利于將多元學(xué)科、語種和文化的知識建立關(guān)聯(lián),作為一種參考工具為知識組織體系的構(gòu)建過程提供方向指引。Hautam?ki[6]通過對實(shí)體的“屬性—值”描述,豐富了領(lǐng)域本體中概念的內(nèi)在邏輯和繼承關(guān)系類型。滕廣青等[7]指出,領(lǐng)域本體的相關(guān)研究沿著“本體構(gòu)建—本體合并—本體集成—本體對應(yīng)”這一總體路徑向前發(fā)展。孫雨生等[8]對本體研究和應(yīng)用進(jìn)行總結(jié),表明領(lǐng)域本體可以應(yīng)用于知識表示、知識組織、知識存儲、知識檢索、知識導(dǎo)航、知識問答、知識推薦、用戶興趣建模、個性化定制等方面。盡管領(lǐng)域本體在知識組織與服務(wù)領(lǐng)域取得了較為顯著的進(jìn)展,但是其仍然受制于嚴(yán)苛的等級關(guān)系。

      隨著網(wǎng)絡(luò)科學(xué)理論和方法的突破,網(wǎng)絡(luò)思維和網(wǎng)絡(luò)分析技術(shù)被引入知識組織與信息分析的研究領(lǐng)域。Martin等[9]使用網(wǎng)絡(luò)和聚類的思想構(gòu)建知識網(wǎng)絡(luò),將知識群落用沖擊圖進(jìn)行層級展示,進(jìn)而分析領(lǐng)域知識的演化進(jìn)程。Pham等[10]將期刊論文和會議論文結(jié)合,借助論文中的引用關(guān)系分別構(gòu)建期刊關(guān)系網(wǎng)絡(luò)、主題關(guān)系網(wǎng)絡(luò)、知識關(guān)系網(wǎng)絡(luò)等多個不同維度的知識網(wǎng)絡(luò),并通過不同維度的網(wǎng)絡(luò)交叉分析,挖掘知識間的引用行為,判識子學(xué)科的發(fā)展趨勢。Ma等[11]通過一致性分析、中心性分析、核心-邊緣分析等網(wǎng)絡(luò)分析方法,證實(shí)了標(biāo)簽知識網(wǎng)絡(luò)同時具備小世界效應(yīng)和無標(biāo)度屬性,并基于引用關(guān)系的發(fā)展演化過程建立了引文知識網(wǎng)絡(luò)的時序演化模型[12]。安寧等[13]從Hub涌現(xiàn)的角度對知識網(wǎng)絡(luò)在時間序列上的知識涌現(xiàn)進(jìn)行分析,揭示了其中隨機(jī)性與非隨機(jī)性的交互。隨著研究工作的深入,知識網(wǎng)絡(luò)的相關(guān)研究在主題聚類[14]、學(xué)科進(jìn)展[15]、科研合作[16]、知識傳遞[17]等方面取得了豐碩的成果,網(wǎng)絡(luò)科學(xué)的理論與方法也得到學(xué)術(shù)界的普遍認(rèn)可。隨著數(shù)據(jù)科學(xué)的崛起和相關(guān)研究的深入,單一的網(wǎng)絡(luò)分析在面臨多維信息分析時的局限性逐漸顯露出來。

      在領(lǐng)域本體數(shù)據(jù)模式與知識網(wǎng)絡(luò)結(jié)構(gòu)關(guān)系的基礎(chǔ)上,知識圖譜[2]應(yīng)運(yùn)而生。目前國內(nèi)學(xué)術(shù)界對知識圖譜的相關(guān)研究剛起步,尚處于引進(jìn)和探索階段[18],雖然在模型構(gòu)建方法[19]等基礎(chǔ)研究方面進(jìn)行了探索和嘗試,但同時也暴露出一些問題。對真正意義的知識圖譜的認(rèn)識尚不清晰,知識地圖、知識網(wǎng)絡(luò)、知識圖譜等概念之間存在一定的混用現(xiàn)象[20]。有鑒于此,本文將詳細(xì)闡述知識圖譜的構(gòu)建過程,并對知識圖譜相對于一般知識網(wǎng)絡(luò)在領(lǐng)域知識多維分析中的可能途徑進(jìn)行探索和分析,以期為知識圖譜在領(lǐng)域知識多維分析中的應(yīng)用提供參考和借鑒。

      2 基礎(chǔ)理論框架

      隨著數(shù)據(jù)科學(xué)的崛起以及領(lǐng)域本體與知識網(wǎng)絡(luò)的應(yīng)用,數(shù)據(jù)多樣化與復(fù)雜的結(jié)構(gòu)關(guān)系為知識間多維度關(guān)聯(lián)關(guān)系的揭示提出了新的訴求。知識圖譜可以形式化地對客觀世界中不同類別的概念實(shí)體以及實(shí)體之間的關(guān)系進(jìn)行表示,并通過屬性對實(shí)體和實(shí)體間關(guān)系進(jìn)行界定和描述。

      在領(lǐng)域本體和知識網(wǎng)絡(luò)中,實(shí)體(節(jié)點(diǎn))的識別與判定往往需要對真實(shí)數(shù)據(jù)進(jìn)行抽象化,尤其適用于相同或近似性質(zhì)的事物或概念,實(shí)體間關(guān)系也被抽象化和簡單化。知識圖譜則可以容納多種不同類型的實(shí)體,實(shí)體間關(guān)系更是種類繁復(fù),加之附帶的實(shí)體屬性與關(guān)系屬性,知識圖譜可以用于組織和架構(gòu)現(xiàn)實(shí)社會中眾多的事物及其關(guān)聯(lián)關(guān)系。當(dāng)前,知識圖譜已經(jīng)在語義檢索、問答系統(tǒng)、金融分析等眾多領(lǐng)域得到運(yùn)用,并展露出巨大的應(yīng)用前景?;诳萍嘉墨I(xiàn)的相關(guān)數(shù)據(jù)構(gòu)建領(lǐng)域知識圖譜,能夠?yàn)槊嫦驅(qū)W科知識服務(wù)的多維知識分析提供新的途徑。

      本研究的目的在于構(gòu)建學(xué)科領(lǐng)域知識圖譜,并通過對知識圖譜中不同維度的實(shí)體間關(guān)系分析,探索和展示知識圖譜在多維信息分析中的應(yīng)用途徑和優(yōu)勢。因此,研究工作將基于圖數(shù)據(jù)庫技術(shù)構(gòu)建領(lǐng)域知識圖譜。知識圖譜的具體構(gòu)建步驟如下。①知識提取。知識提取包括實(shí)體提取、關(guān)系提取及屬性提取,并將結(jié)構(gòu)化、半結(jié)構(gòu)化或非結(jié)構(gòu)化數(shù)據(jù)與實(shí)體、關(guān)系及屬性對齊[21]。②知識圖譜架構(gòu)。將“實(shí)體—關(guān)系—實(shí)體”和“實(shí)體/關(guān)系—屬性—屬性值”以圖結(jié)構(gòu)的形式進(jìn)行架構(gòu),構(gòu)成包含全部數(shù)據(jù)的實(shí)體關(guān)系屬性網(wǎng)絡(luò)。③知識層面應(yīng)用。對所構(gòu)建的知識圖譜進(jìn)行知識層面的分析,從邏輯概念層次與圖層次進(jìn)行推理,挖掘潛在知識及其關(guān)聯(lián)。

      研究中,將基于上述步驟構(gòu)建領(lǐng)域知識圖譜,并基于知識圖譜將領(lǐng)域知識分析從簡單實(shí)體間關(guān)系分析推進(jìn)到多維復(fù)雜關(guān)系分析,探索知識圖譜在領(lǐng)域知識多維分析中應(yīng)用的可能途徑。

      3 數(shù)據(jù)采集與知識圖譜構(gòu)建

      3.1 研究數(shù)據(jù)

      本研究根據(jù)2017年發(fā)布的Journal Citation Reports(《期刊引證報(bào)告》),利用Web of Science核心數(shù)據(jù)庫檢索“Information Science& Library Science”學(xué)科領(lǐng)域內(nèi)Q1區(qū)的22種權(quán)威期刊,選取2014—2018年收錄的期刊文獻(xiàn),期刊語種限定為英語,檢索日期為2018年12月11日,所獲數(shù)據(jù)及相關(guān)信息見表1。

      數(shù)據(jù)顯示共獲得“Information Science& Library Science”學(xué)科5年內(nèi)Q1區(qū)期刊論文7 010篇。被引量(篇均被引>11)和影響因子表明,研究中所采集的文獻(xiàn)數(shù)據(jù)具有高被引和高影響因子的特征,一定程度上能夠代表該學(xué)科領(lǐng)域的主要研究狀況。此外,表1只列示了部分相關(guān)數(shù)據(jù),限于篇幅和數(shù)據(jù)關(guān)系復(fù)雜性的原因,基金資助、地域、作者署名、刊發(fā)時間等數(shù)據(jù)并沒有列示。更細(xì)致的多維信息將在領(lǐng)域知識圖譜中體現(xiàn)。

      表1 文獻(xiàn)數(shù)據(jù)相關(guān)信息

      3.2 實(shí)體與關(guān)系及屬性提取

      本研究假設(shè)實(shí)體集U={A,T,K,J,S,R}。其中,A代表作者,T代表文獻(xiàn)標(biāo)題,K代表關(guān)鍵詞,J代表期刊,S代表地域,R代表文獻(xiàn)所屬的學(xué)科方向。關(guān)系集V={A_write_T,A_use_K,A_site_S,K_tag_T,T_published_J,T_belong_R,J_site_S}。其中,A_write_T表示作者A創(chuàng)作文獻(xiàn)T,A_use_K代表作者A使用關(guān)鍵詞K,A_site_S代表作者A歸屬于地域S(國家或地區(qū)),K_tag_T代表關(guān)鍵詞K標(biāo)注文獻(xiàn)T,T_published_J代表文獻(xiàn)T發(fā)表于期刊J,T_belong_R代表文獻(xiàn)T歸屬學(xué)科方向R,J_site_S代表期刊J歸屬于地域S(國家或地區(qū))。屬性集O={Ax,Tf,ATy,TJy},屬性集中包含兩類屬性,分別為實(shí)體屬性和關(guān)系屬性。其中,Ax表示為作者A是否為通信作者的屬性,Tf為文獻(xiàn)T是否有有基金資助,ATy表示作者A創(chuàng)作文獻(xiàn)T的時間(首次投稿時間),TJy則表示為在文獻(xiàn)T發(fā)表于期刊J(T_published_J)的這條關(guān)系中存在文獻(xiàn)發(fā)表時間的屬性。相關(guān)實(shí)體、關(guān)系、屬性的界定可以在具體的研究工作中根據(jù)任務(wù)需求有所調(diào)整。

      (1)A_write_T。A_write_T表示作者A創(chuàng)作文獻(xiàn)T,作者A與文獻(xiàn)T為實(shí)體。考慮到同一篇文獻(xiàn)可能由一名作者獨(dú)立完成,也可能由多名作者共同創(chuàng)作完成,實(shí)體作者自身又具有是否為通信作者的屬性,在知識圖譜中通過布爾邏輯值是或否(True/False)表示作者是否為通信作者這一屬性。在作者實(shí)體建立過程中,將是否為通信作者加入實(shí)體屬性。同時,作者創(chuàng)作文獻(xiàn)的這條關(guān)系中含有文獻(xiàn)創(chuàng)作時間的屬性。

      (2)A_use_K。A_use_K表示作者A使用關(guān)鍵詞K,作者A和關(guān)鍵詞K作為連接關(guān)系兩端的實(shí)體。關(guān)鍵詞在一篇論文中至關(guān)重要,能夠精準(zhǔn)反映文章的主旨。為保證知識圖譜中數(shù)據(jù)的完整性和準(zhǔn)確性,本文所構(gòu)建的知識圖譜選取擴(kuò)展關(guān)鍵詞作為實(shí)體。

      (3)A_site_S。A_site_S表示作者A歸屬于地域S。地域S為國家或地區(qū),將地域作為實(shí)體加入知識圖譜,有利于從地域的角度分析作者合作現(xiàn)象、學(xué)科地域分布、區(qū)域研究現(xiàn)狀和熱點(diǎn)等,并能夠在一定程度上化解作者重名問題。

      (4)K_tag_T。K_tag_T表示為關(guān)鍵詞K標(biāo)注文獻(xiàn)T。通過對文獻(xiàn)關(guān)鍵詞進(jìn)行分析,可以洞察所選學(xué)科領(lǐng)域權(quán)威期刊的研究熱點(diǎn),從而跟蹤和把握領(lǐng)域知識發(fā)展方向。

      (5)T_published_J。T_published_J表示文獻(xiàn)T發(fā)表于期刊J,文獻(xiàn)T與期刊J作為實(shí)體??茖W(xué)文獻(xiàn)具有是否有基金資助的屬性,除此以外,連接文獻(xiàn)與期刊的實(shí)體間關(guān)系附帶發(fā)表時間的屬性。

      (6)T_belong_R。T_belong_R表示文獻(xiàn)T歸屬于學(xué)科方向R。許多研究工作在學(xué)科方向上存在交叉關(guān)系,將文獻(xiàn)歸屬于各個學(xué)科方向,在一定程度上可以反映出研究領(lǐng)域中的學(xué)科交叉與融合,判識當(dāng)前學(xué)科領(lǐng)域發(fā)展的趨勢。在知識圖譜視域下,知識并非嚴(yán)格隸屬于某一固定學(xué)科方向,學(xué)科交融和知識交叉可以通過知識圖譜得以呈現(xiàn),有助于知識演化與科技創(chuàng)新的預(yù)測。

      (7)J_site_S。J_site_S表示為期刊J歸屬地域S(國家或地區(qū))。本文選取Journal Citation Reports(《期刊引證報(bào)告》)“Information Science& Library Science”學(xué)科領(lǐng)域的Q1區(qū)期刊,在某種程度上代表了圖書情報(bào)學(xué)領(lǐng)域的權(quán)威地位。通過J_site_S可以推理出不同地域?qū)W(xué)科知識研究與傳播的貢獻(xiàn)。

      研究中基于不同的關(guān)系類型,分別對不同類型實(shí)體間關(guān)系包含的實(shí)體數(shù)量、實(shí)體間關(guān)系數(shù)量進(jìn)行統(tǒng)計(jì),所得結(jié)果見表2。

      表2 實(shí)體與實(shí)體間關(guān)系數(shù)量

      統(tǒng)計(jì)數(shù)據(jù)表明,研究工作共提取36 376個實(shí)體節(jié)點(diǎn),310 918條實(shí)體間關(guān)系。其中A_use_K(作者使用關(guān)鍵詞)在實(shí)體間關(guān)系中占比超過62%,是關(guān)系總量中最多的實(shí)體間關(guān)系。研究工作基于上述提取的實(shí)體、關(guān)系和相關(guān)屬性,采用圖數(shù)據(jù)庫技術(shù)構(gòu)建學(xué)科領(lǐng)域知識圖譜。

      3.3 知識圖譜構(gòu)建

      在對該學(xué)科領(lǐng)域內(nèi)實(shí)體、關(guān)系和屬性進(jìn)行提取的基礎(chǔ)上,綜合領(lǐng)域本體的數(shù)據(jù)模式和知識網(wǎng)絡(luò)的結(jié)構(gòu)關(guān)系,借助圖數(shù)據(jù)庫技術(shù),基于研究中所采集的數(shù)據(jù)及所提取的實(shí)體、關(guān)系、屬性,采用開源的Neo4j圖引擎構(gòu)建圖書情報(bào)學(xué)科領(lǐng)域的知識圖譜,基本結(jié)構(gòu)見圖1。

      圖1 領(lǐng)域知識圖譜基本結(jié)構(gòu)

      在知識圖譜基本結(jié)構(gòu)中,由作者、文獻(xiàn)、關(guān)鍵詞、期刊、地域(國家或地區(qū))、學(xué)科方向構(gòu)成實(shí)體集合。實(shí)體間的關(guān)系由有向?qū)嵕€表示。實(shí)體屬性用虛線與實(shí)體連接,其中作者實(shí)體帶有是否為通信作者的屬性,文獻(xiàn)實(shí)體帶有是否有基金資助的屬性;關(guān)系屬性用虛線與關(guān)系連接,分別為作者創(chuàng)作文獻(xiàn)時間(首次投稿時間)和文獻(xiàn)正式發(fā)表時間。從圖1中可以獲知的實(shí)體間關(guān)系信息有:作者實(shí)體創(chuàng)作了文獻(xiàn)實(shí)體從而產(chǎn)生關(guān)系,作者實(shí)體具有是否為通信作者的屬性,在作者創(chuàng)作文獻(xiàn)的這條關(guān)系中具有作者創(chuàng)作時間的屬性。作者使用關(guān)鍵詞,關(guān)鍵詞用來標(biāo)注文獻(xiàn),從而作者與關(guān)鍵詞、關(guān)鍵詞與文獻(xiàn)之間產(chǎn)生關(guān)系。文獻(xiàn)在期刊上發(fā)表也產(chǎn)生一種關(guān)系,同時這條關(guān)系附帶文獻(xiàn)發(fā)表時間的屬性。文獻(xiàn)帶有基金屬性,文獻(xiàn)與學(xué)科方向存在歸屬關(guān)系。此外,作者、期刊還分別與地域(國家或地區(qū))存在歸屬關(guān)系。在此基礎(chǔ)上,研究工作將對知識圖譜在領(lǐng)域知識多維分析中的應(yīng)用途徑進(jìn)行探索。

      4 知識圖譜在領(lǐng)域知識分析中的應(yīng)用途徑

      4.1 簡單實(shí)體間關(guān)系分析

      本文所構(gòu)建的領(lǐng)域知識圖譜中,涉及兩種不同實(shí)體的簡單關(guān)系包含7種類型。從網(wǎng)絡(luò)科學(xué)的視角看,簡單實(shí)體間關(guān)系分析類似于2-模網(wǎng)絡(luò)分析,并在2-模網(wǎng)絡(luò)的基礎(chǔ)上增加了實(shí)體屬性和關(guān)系屬性。研究工作選取文獻(xiàn)歸屬學(xué)科方向(T_belong_R)、關(guān)鍵詞標(biāo)注文獻(xiàn)(K_tag_T)、作者創(chuàng)作文獻(xiàn)(A_write_T)3類簡單實(shí)體間關(guān)系,對知識圖譜在領(lǐng)域知識多維分析中的應(yīng)用進(jìn)行分析。

      4.1.1 文獻(xiàn)歸屬學(xué)科方向的簡單實(shí)體間關(guān)系

      本文構(gòu)建的知識圖譜中包含7 010篇文獻(xiàn),共涉及10個學(xué)科方向。通過文獻(xiàn)歸屬的學(xué)科方向(T_belong_R)產(chǎn)生17 142條關(guān)系。在知識交叉融合的大背景下,一篇文獻(xiàn)可能同時歸屬于多個學(xué)科方向,不但能夠揭示科研工作對不同學(xué)科知識的吸納融合,還可以通過統(tǒng)計(jì)數(shù)據(jù)反映多學(xué)科之間的交叉程度。研究工作從所構(gòu)建的知識圖譜中提取了部分文獻(xiàn)及其歸屬的學(xué)科方向(見圖2)。

      圖2 文獻(xiàn)歸屬學(xué)科方向的簡單實(shí)體間關(guān)系

      圖2(a)為圖書情報(bào)學(xué)科領(lǐng)域Q1區(qū)內(nèi)22種核心期刊在2014—2018年所刊發(fā)文獻(xiàn)歸屬的10個學(xué)科方向。圖2(b)為以計(jì)算機(jī)跨學(xué)科應(yīng)用(A:Computer Science,Interdisciplinary Applications)和衛(wèi)生保健科學(xué)與服務(wù)(B:Health Care Sciences & Services)兩個學(xué)科方向?yàn)槔崛〉牟糠治墨I(xiàn)。其中指向A、B的有向關(guān)系為文獻(xiàn)歸屬的學(xué)科方向(T_belong_R)。圖2(b)中,左右兩側(cè)的文獻(xiàn)分別歸屬于計(jì)算機(jī)跨學(xué)科應(yīng)用(A)和衛(wèi)生保健科學(xué)與服務(wù)(B)兩個學(xué)科方向,位于中間位置的文獻(xiàn)則同時歸屬于計(jì)算機(jī)跨學(xué)科應(yīng)用(A)和衛(wèi)生保健科學(xué)與服務(wù)(B)兩個學(xué)科方向。限于篇幅原因,圖中只提取部分文獻(xiàn),且未展示與其他學(xué)科的歸屬關(guān)系。在本研究構(gòu)建的領(lǐng)域知識圖譜中,文獻(xiàn)的學(xué)科歸屬關(guān)系更加豐富。表3為知識圖譜中全部文獻(xiàn)涉及的學(xué)科方向。

      表3 全部文獻(xiàn)涉及的學(xué)科方向

      在采集的圖書情報(bào)學(xué)科領(lǐng)域的7 010篇文獻(xiàn)中,有3 306篇同時歸屬于計(jì)算機(jī)科學(xué)信息系統(tǒng)(Computer Science,Information Systems),1 645篇文獻(xiàn)同時歸屬于計(jì)算機(jī)跨學(xué)科應(yīng)用(Computer Science,Interdisciplinary Applications),1 482篇文獻(xiàn)歸屬于管理學(xué)(Management)等。這表明,2014—2018年,圖書情報(bào)學(xué)科方向與計(jì)算機(jī)科學(xué)信息系統(tǒng)學(xué)科方向的交叉融合現(xiàn)象非常顯著(超過47%的文獻(xiàn)同時涉及這兩個學(xué)科方向的交叉)。

      4.1.2 關(guān)鍵詞標(biāo)注文獻(xiàn)的簡單實(shí)體間關(guān)系

      關(guān)鍵詞為文獻(xiàn)主題的語言凝練,簡潔準(zhǔn)確地表達(dá)了文獻(xiàn)的主旨。關(guān)鍵詞不僅可以幫助讀者總體上掌握文獻(xiàn)的主旨,讀者也可以使用關(guān)鍵詞作為檢索詞并根據(jù)自身的需求獲取相關(guān)文獻(xiàn)。本研究構(gòu)建的領(lǐng)域知識圖譜中共包含9 674個關(guān)鍵詞,7 010篇文獻(xiàn),49 246條K_tag_T實(shí)體間關(guān)系。圖3為部分關(guān)鍵詞標(biāo)注文獻(xiàn)(K_tag_T)的局部知識圖譜,展示了關(guān)鍵詞與文獻(xiàn)之間以標(biāo)注關(guān)系作為連接產(chǎn)生的關(guān)聯(lián)。

      圖3 關(guān)鍵詞標(biāo)注文獻(xiàn)的簡單實(shí)體間關(guān)系

      其中,外圍橢圓形為關(guān)鍵詞實(shí)體,中心處為3篇文獻(xiàn)實(shí)體。關(guān)鍵詞標(biāo)注文獻(xiàn)(K_tag_T)關(guān)系由外圍的關(guān)鍵詞實(shí)體分別指向中心處的文獻(xiàn)實(shí)體。Article Q、Article W、Article E分別被5個、6個和10個關(guān)鍵詞標(biāo)注。在一般的網(wǎng)絡(luò)分析中,可以借助關(guān)鍵詞標(biāo)注文獻(xiàn)的簡單實(shí)體間關(guān)系確定關(guān)鍵詞或文獻(xiàn)間的潛在關(guān)聯(lián)或相似性。如通過關(guān)鍵詞“internet”和“big data”共同標(biāo)注Article Q的同現(xiàn)關(guān)系確定兩個關(guān)鍵詞的潛在關(guān)聯(lián)并構(gòu)建1-模共詞網(wǎng)絡(luò);通過關(guān)鍵詞“infrastructure”分別標(biāo)注了Article Q、Article E兩篇文獻(xiàn),發(fā)現(xiàn)兩篇文獻(xiàn)間的相似性等。這些分析思想與方法在以往的知識網(wǎng)絡(luò)分析中經(jīng)常被使用。

      在知識圖譜中,即使簡單的實(shí)體間關(guān)系也可以借助實(shí)體屬性增加信息維度。從圖3中可以發(fā)現(xiàn),文獻(xiàn)實(shí)體具有基金資助屬性,其中Article Q、Article E均有基金資助{T},Article W則沒有基金資助{F}。通過基金資助屬性,可以獲得政府或社會團(tuán)體對相關(guān)研究的政策與支持狀況。傳統(tǒng)的網(wǎng)絡(luò)分析更多地關(guān)注網(wǎng)絡(luò)節(jié)點(diǎn)之間的關(guān)系,一定程度上忽視了網(wǎng)絡(luò)節(jié)點(diǎn)(實(shí)體)自身所具備的性質(zhì),而知識圖譜則可以通過實(shí)體屬性呈現(xiàn)更多維度的信息。

      4.1.3 作者創(chuàng)作文獻(xiàn)的簡單實(shí)體間關(guān)系

      本研究構(gòu)建的領(lǐng)域知識圖譜共包含7 010篇文獻(xiàn)、19 538位作者,以及24 203條作者創(chuàng)作文獻(xiàn)(A_write_T)的實(shí)體間關(guān)系。研究工作抽取了知識圖譜中部分作者創(chuàng)作文獻(xiàn)(A_write_T)的關(guān)系(見圖4)。

      圖4 作者創(chuàng)作文獻(xiàn)的簡單實(shí)體間關(guān)系

      其中,Co、Se、Le、Ma為作者實(shí)體,Article A、Article B為文獻(xiàn)實(shí)體。作者實(shí)體與文獻(xiàn)實(shí)體通過創(chuàng)作關(guān)系產(chǎn)生連接。圖3中借助實(shí)體屬性能夠擴(kuò)展領(lǐng)域知識分析的信息維度,事實(shí)上更多的屬性能夠?qū)⒅R分析的維度進(jìn)一步擴(kuò)展。通過圖4中的作者創(chuàng)作文獻(xiàn)(A_write_T)關(guān)系可以發(fā)現(xiàn),作者Co與作者Le、Ma于{2018.03.20}共同撰寫了Article B,作者M(jìn)a為通信作者(通信作者屬性為True:B.{T});作者Co與作者Se于{2018.07.05}共同撰寫了Article A,作者Se為通信作者。Article A與Article B均未獲得基金資助(基金屬性為False:{F})。顯然,基于知識圖譜的分析,借助實(shí)體屬性和關(guān)系屬性,能夠獲得比普通網(wǎng)絡(luò)分析更豐富的信息。如通信作者屬性能夠幫助研究者更準(zhǔn)確地識別科研團(tuán)隊(duì)中的領(lǐng)軍人物;創(chuàng)作時間屬性有利于在刊發(fā)周期漫長的環(huán)境下解決思想或方法首創(chuàng)的辨識問題等。

      事實(shí)上,研究中構(gòu)建的領(lǐng)域知識圖譜所包含的實(shí)體間關(guān)系的類型和規(guī)模遠(yuǎn)大于文中所抽取展示的部分。如果以經(jīng)典網(wǎng)絡(luò)分析中的2-模網(wǎng)絡(luò)視角觀察,知識圖譜中則包含多種相互關(guān)聯(lián)的2-模網(wǎng)絡(luò),復(fù)雜程度與信息豐富程度遠(yuǎn)高于普通2-模網(wǎng)絡(luò)。加之知識圖譜的簡單實(shí)體間關(guān)系可以方便地?cái)U(kuò)展到多維復(fù)雜實(shí)體間關(guān)系,因此可以基于知識圖譜挖掘到更豐富的多維信息。

      4.2 復(fù)雜實(shí)體間關(guān)系分析

      復(fù)雜實(shí)體間關(guān)系可以理解為簡單實(shí)體間關(guān)系的組合交疊。由于知識圖譜的靈活性,不僅可以呈現(xiàn)出所查詢的實(shí)體間關(guān)系,同時還會呈現(xiàn)所查詢實(shí)體間的其他關(guān)聯(lián)關(guān)系。這部分研究中,基于知識圖譜提取并組合4種復(fù)雜實(shí)體間關(guān)系進(jìn)行分析,以進(jìn)一步探索知識圖譜在領(lǐng)域知識多維分析中的可能途徑。

      4.2.1 作者、關(guān)鍵詞、文獻(xiàn)、期刊間的多維復(fù)雜關(guān)系

      研究工作從領(lǐng)域知識圖譜中抽取了作者、關(guān)鍵詞、文獻(xiàn)、期刊4種類型的部分實(shí)體及其關(guān)系。作者實(shí)體為Con、Cha、Ti、Ju、Sc、Bh、Pa、Re、Jo,關(guān)鍵詞實(shí)體為“agency”和“scientometrics”,Article X為文獻(xiàn)實(shí)體,期刊實(shí)體為“Information Systems Journal”。實(shí)體間關(guān)系則分別為作者使用關(guān)鍵詞(A_use_K)、關(guān)鍵詞標(biāo)注文獻(xiàn)(K_tag_T)、作者創(chuàng)作文獻(xiàn)(A_write_T)及文獻(xiàn)發(fā)表于期刊(T_published_J)。同時包括相應(yīng)的實(shí)體屬性和關(guān)系屬性。抽取的局部知識圖譜見圖5。

      圖5 作者、關(guān)鍵詞、文獻(xiàn)、期刊間的多維復(fù)雜關(guān)系

      其中,9位作者分別在各自的文獻(xiàn)中使用“agency”作為關(guān)鍵詞,關(guān)鍵詞“agency”又被作者Sc用于標(biāo)注Article X。作者Sc于{2017.12.14}創(chuàng)作Article X,是該文獻(xiàn)的通信作者(通信作者屬性值為True:{T}),并同時使用了關(guān)鍵詞“scientometrics”標(biāo)注文獻(xiàn)Article X。Article X受到基金資助(基金屬性值為True:{T}),并于{2018.01.28}發(fā)表于期刊“Information Systems Journal”。圖5中多個實(shí)體間關(guān)系形成多條有向關(guān)系路徑,這種交叉關(guān)聯(lián)的多維關(guān)系在傳統(tǒng)的知識網(wǎng)絡(luò)分析中難以體現(xiàn),也正是知識圖譜的優(yōu)勢所在。知識圖譜完全突破了一般1-模知識網(wǎng)絡(luò)和2-模知識網(wǎng)絡(luò)的結(jié)構(gòu)關(guān)系,能夠以更豐富的信息維度靈活地對知識及其關(guān)系進(jìn)行呈現(xiàn)與表達(dá)。

      4.2.2 作者、文獻(xiàn)、學(xué)科、期刊間的多維復(fù)雜關(guān)系

      研究工作基于所構(gòu)建的領(lǐng)域知識圖譜提取了4種實(shí)體(作者、文獻(xiàn)、學(xué)科方向、期刊)與3種實(shí)體間關(guān)系(作者創(chuàng)作文獻(xiàn)A_write_T、文獻(xiàn)歸屬學(xué)科方向T_belong_R、文獻(xiàn)發(fā)表于期刊T_published_J),組成局部知識圖譜(見圖6)。

      圖6 作者、文獻(xiàn)、學(xué)科、期刊間的多維復(fù)雜關(guān)系

      其中,作者實(shí)體為Ma、Le、Co、Se、Ra、Hu、Ni、De、Fe、To、Sa,文獻(xiàn)實(shí)體為Article A、Article B、Article M、Article G,學(xué)科方向?qū)嶓w為“Computer Science,Information Systems”“Management”和“Information Science & Library Science”,期刊實(shí)體為“Journal of Informetrics”。如圖6所示,作者Co與作者M(jìn)a、Le于{2018.03.20}合作創(chuàng)作了Article B,作者M(jìn)a為通信作者;作者Co與作者Se于{2018.07.05}合作創(chuàng)作了Article A,作者Se為通信作者。Article A、Article B歸屬于“Information Science & Library Science”學(xué)科方向。作者Ra、Hu、Ni、De于{2017.08.04}共同創(chuàng)作了Article M,作者Sa、To、Fe于{2016.07.08}共同創(chuàng)作Article G并受到基金資助。Article M、Article G分別于{2017.11.25}和{2016.10.01}在“Journal of Informetrics”上發(fā)表,且共同歸屬于“Information Science & Library Science”、“Management”和“Computer Science,Information Systems”3個學(xué)科方向。圖6同時可以視為圖5局部知識圖譜基礎(chǔ)上的簡單關(guān)系的擴(kuò)展。僅就圖6呈現(xiàn)的內(nèi)容而言,不但可以發(fā)現(xiàn)Article A、Article B、Article M、Article G在學(xué)科方向上具有一定的相關(guān)性,Article M、Article G所歸屬的學(xué)科方向和刊發(fā)期刊均相同,相關(guān)性更高;還可以發(fā)現(xiàn)傳統(tǒng)的圖書情報(bào)學(xué)期刊“Journal of Informetrics”近年來一定程度上傾向于“Information Science &Library Science”、“Management”和“Computer Science,Information Systems”等學(xué)科方向交叉的研究成果等信息。知識圖譜中的多維復(fù)雜關(guān)系將領(lǐng)域知識分析擴(kuò)展到更豐富的維度空間。

      4.2.3 關(guān)鍵詞、文獻(xiàn)、作者、學(xué)科、期刊間的多維復(fù)雜關(guān)系

      為了更突出地展現(xiàn)知識圖譜在領(lǐng)域知識多維分析中的應(yīng)用價值,研究工作進(jìn)一步提取了更多類型的實(shí)體及其關(guān)系?;陬I(lǐng)域知識圖譜提取關(guān)鍵詞、文獻(xiàn)、作者、學(xué)科、期刊5類實(shí)體和實(shí)體間關(guān)系及相應(yīng)的屬性,組成的局部知識圖譜如圖7所示。

      圖7 關(guān)鍵詞、文獻(xiàn)、作者、學(xué)科、期刊間的多維復(fù)雜關(guān)系

      圖7可以視為圖4局部知識圖譜中簡單實(shí)體關(guān)系的擴(kuò)展。圖7包含的5種實(shí)體間關(guān)系,分別是作者創(chuàng)作文獻(xiàn)(A_write_T)、作者使用關(guān)鍵詞(A_use_K)、關(guān)鍵詞標(biāo)注文獻(xiàn)(K_tag_T)、文獻(xiàn)歸屬學(xué)科方向(T_belong_R)及文獻(xiàn)發(fā)表于期刊(T_published_J)。此外還包括作者實(shí)體的通信作者屬性、文獻(xiàn)實(shí)體的基金屬性,以及作者創(chuàng)作文獻(xiàn)關(guān)系的時間屬性和文獻(xiàn)發(fā)表于期刊關(guān)系的時間屬性。在關(guān)鍵詞、文獻(xiàn)、作者、學(xué)科和期刊的多維關(guān)系中,作者Cu以通信作者的身份與作者Go、Sed于{2017.12.04}合作創(chuàng)作了Article W,并于{2018.05.22}在“Journal of Informetrics”上發(fā)表。Article Q、Article E的研究工作獲得了基金資助(文獻(xiàn)實(shí)體的基金屬性值為True:{T})。

      表面上看(與圖3相同的部分),Article Q、Article E、Article W的關(guān)鍵詞存在較大差異,從關(guān)鍵詞的維度看3篇文獻(xiàn)的相關(guān)性不大。但是對圖7中新增維度關(guān)系的進(jìn)一步分析可知,Article W、Article Q、Article E雖然在關(guān)鍵詞使用上存在差異,但3篇文獻(xiàn)刊發(fā)于同一學(xué)術(shù)期刊、文獻(xiàn)所歸屬的學(xué)科方向相同、同時涉及3個學(xué)科方向的交叉等;甚至可以大致推斷出3篇文獻(xiàn)具有一定的學(xué)科相關(guān)性。顯然,知識圖譜能夠從多維復(fù)雜關(guān)系的層面為領(lǐng)域知識多維分析提供支持與可能。

      4.2.4 作者、關(guān)鍵詞、文獻(xiàn)、期刊、地域間的多維復(fù)雜關(guān)系

      研究工作進(jìn)一步從領(lǐng)域知識圖譜中提取了5類實(shí)體和6種實(shí)體間關(guān)系。實(shí)體類型分別為作者、關(guān)鍵詞、文獻(xiàn)、期刊、地域;實(shí)體間關(guān)系類型為作者創(chuàng)作文獻(xiàn)(A_write_T)、作者使用關(guān)鍵詞(A_use_K)、關(guān)鍵詞標(biāo)注文獻(xiàn)(K_tag_T)、文獻(xiàn)發(fā)表于期刊(T_published_J)、文獻(xiàn)歸屬于地域(A_site_S)、作者歸屬于地域(A_site_S)。獲得在圖5基礎(chǔ)上擴(kuò)展后的局部知識圖譜如圖8所示。

      在多維復(fù)雜關(guān)系中共有8個關(guān)鍵詞實(shí)體,其中6個關(guān)鍵詞共同標(biāo)注受到基金資助的Article Z;關(guān)鍵詞“agency”標(biāo)注2篇Article Y、Article X,并且與關(guān)鍵詞“scientometrics”共同標(biāo)注受基金資助的Article X。作者Sc、Ti、Re共同使用關(guān)鍵詞“agency”,其中作者Sc作為通信作者使用關(guān)鍵詞“agency”“scientometrics”標(biāo)注了其于{2017.12.14}創(chuàng)作的Article X,該文獻(xiàn)于{2018.01.28}刊發(fā)于期刊“Information Systems Journal”,該期刊與作者均歸屬于地域“USA”。

      隨著更多實(shí)體及實(shí)體間維度的加入,更多維度的信息得以呈現(xiàn)。圖8中雖然僅展示了領(lǐng)域知識圖譜的部分?jǐn)?shù)據(jù)和部分實(shí)體及實(shí)體間關(guān)系,但其中包含的信息維度遠(yuǎn)遠(yuǎn)高于一般的知識網(wǎng)絡(luò)。實(shí)際研究工作中,對領(lǐng)域全局的知識圖譜進(jìn)行分析,則可以從知識圖譜當(dāng)中挖掘獲得更多的領(lǐng)域知識信息,借助其中作者、文獻(xiàn)、關(guān)鍵詞、期刊、地域、基金、時間等多維信息,可以對科研團(tuán)隊(duì)及領(lǐng)袖、學(xué)科研究狀況、熱點(diǎn)知識識別、區(qū)域優(yōu)勢分布、發(fā)展趨勢預(yù)測等提供有力的支撐。

      圖8 作者、關(guān)鍵詞、文獻(xiàn)、期刊、地域間的多維復(fù)雜關(guān)系

      5 結(jié)論與討論

      本文采用圖數(shù)據(jù)庫技術(shù),基于Web of Science核心數(shù)據(jù)庫“Information Science & Library Science”學(xué)科領(lǐng)域內(nèi)Q1區(qū)的22種權(quán)威期刊2014—2018年文獻(xiàn)數(shù)據(jù),構(gòu)建領(lǐng)域知識圖譜。從簡單關(guān)系和多維復(fù)雜關(guān)系兩個層面,對知識圖譜在領(lǐng)域知識多維信息分析中的應(yīng)用進(jìn)行可視化分析與展示。通過上述分析可以得出以下結(jié)論。

      (1)知識圖譜能夠從多維角度組織和分析領(lǐng)域知識與知識關(guān)聯(lián)。與一般的領(lǐng)域本體和知識網(wǎng)絡(luò)的體系結(jié)構(gòu)不同,知識圖譜內(nèi)含豐富的實(shí)體類型和實(shí)體間關(guān)系,并且實(shí)體和關(guān)系都可以攜帶自身的屬性,信息攜帶量極其豐富。知識圖譜自身的體系結(jié)構(gòu)不但適合處理結(jié)構(gòu)化數(shù)據(jù),更適合處理半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)。借助內(nèi)部豐富的信息,知識圖譜能夠從多個維度對領(lǐng)域知識進(jìn)行組織與分析,更適用于面向?qū)W科知識服務(wù)的多維信息分析任務(wù)。

      (2)知識圖譜能夠靈活地對領(lǐng)域知識及其關(guān)系實(shí)現(xiàn)可視化呈現(xiàn)。知識圖譜不僅是一種信息組織與分析技術(shù),同時也是一種信息可視化技術(shù)和手段。研究中不同維度的初步分析已經(jīng)證實(shí),知識圖譜能夠根據(jù)用戶選擇,將相關(guān)實(shí)體和實(shí)體間關(guān)系及相應(yīng)屬性實(shí)現(xiàn)可視化呈現(xiàn),并且可以通過選擇相應(yīng)的實(shí)體或關(guān)系,靈活地組織可視化信息。知識圖譜優(yōu)秀的可視化功能,能夠靈活方便地從海量數(shù)據(jù)中提取和呈現(xiàn)知識及其關(guān)聯(lián),有助于大數(shù)據(jù)背景下的領(lǐng)域知識分析與服務(wù)。

      (3)知識圖譜能夠方便存儲和快速提取知識關(guān)系并進(jìn)行推理。知識圖譜能夠方便地存儲真實(shí)數(shù)據(jù),靈活的查詢指令也可以快速提取相關(guān)的信息。知識圖譜同時還具有一定的知識推理功能。研究中的多維關(guān)系分析發(fā)現(xiàn),通過對知識圖譜內(nèi)實(shí)體間關(guān)系的分析,可以推理和挖掘更多的潛在信息。因此,知識圖譜不但在多維信息分析中具有優(yōu)勢,而且對于知識推理與知識挖掘同樣具有優(yōu)勢。

      本研究旨在通過構(gòu)建領(lǐng)域知識圖譜和不同維度層面的實(shí)體間關(guān)系分析,分析和探索知識圖譜在領(lǐng)域知識多維分析中的可能途徑。研究中也存在不足之處,限于本文目的和篇幅原因,研究中僅抽取部分?jǐn)?shù)據(jù)和有限的實(shí)體及關(guān)系,沒有基于全部數(shù)據(jù)開展更深入的具體分析與挖掘。未來的研究工作將基于知識圖譜在領(lǐng)域知識多維分析中的優(yōu)勢展開更深入的研究。

      猜你喜歡
      圖譜實(shí)體領(lǐng)域
      繪一張成長圖譜
      前海自貿(mào)區(qū):金融服務(wù)實(shí)體
      中國外匯(2019年18期)2019-11-25 01:41:54
      領(lǐng)域·對峙
      青年生活(2019年23期)2019-09-10 12:55:43
      實(shí)體的可感部分與實(shí)體——兼論亞里士多德分析實(shí)體的兩種模式
      補(bǔ)腎強(qiáng)身片UPLC指紋圖譜
      中成藥(2017年3期)2017-05-17 06:09:01
      兩會進(jìn)行時:緊扣實(shí)體經(jīng)濟(jì)“釘釘子”
      振興實(shí)體經(jīng)濟(jì)地方如何“釘釘子”
      主動對接你思維的知識圖譜
      新常態(tài)下推動多層次多領(lǐng)域依法治理初探
      肯定與質(zhì)疑:“慕課”在基礎(chǔ)教育領(lǐng)域的應(yīng)用
      宁强县| 海南省| 葫芦岛市| 华坪县| 馆陶县| 怀远县| 溧阳市| 崇阳县| 湟源县| 丁青县| 衡水市| 建昌县| 抚松县| 阳高县| 斗六市| 汉阴县| 丰原市| 临潭县| 丁青县| 扎赉特旗| 甘孜| 晋宁县| 茌平县| 鱼台县| 焉耆| 历史| 同心县| 富顺县| 新昌县| 和平区| 岑巩县| 芜湖县| 长寿区| 依安县| 瓮安县| 绥中县| 利辛县| 平武县| 阜城县| 莱州市| 成都市|