• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      多源異構(gòu)數(shù)據(jù)情境中學(xué)術(shù)知識圖譜模型構(gòu)建研究

      2020-06-01 08:15李肖俊邵必林
      現(xiàn)代情報 2020年6期
      關(guān)鍵詞:知識圖譜

      李肖俊 邵必林

      摘 要:[目的/意義]隨著大數(shù)據(jù)和人工智能技術(shù)的蓬勃發(fā)展,數(shù)據(jù)驅(qū)動的智慧學(xué)術(shù)研究以及基于學(xué)術(shù)大數(shù)據(jù)的知識發(fā)現(xiàn)受到產(chǎn)業(yè)界和學(xué)術(shù)界的廣泛關(guān)注。學(xué)術(shù)知識圖譜是學(xué)術(shù)信息挖掘和學(xué)術(shù)知識管理的基礎(chǔ),在智慧學(xué)術(shù)研究中具有重要的學(xué)術(shù)價值和產(chǎn)業(yè)價值。[方法/過程]本文以構(gòu)建智慧學(xué)術(shù)服務(wù)的實際需求為出發(fā)點,從學(xué)術(shù)大數(shù)據(jù)的獲取、學(xué)術(shù)實體識別、學(xué)術(shù)實體鏈接與知識融合、學(xué)術(shù)知識圖譜本體模型構(gòu)建、學(xué)術(shù)知識圖譜表示與存儲等核心問題入手,提出智慧學(xué)術(shù)領(lǐng)域的知識圖譜構(gòu)建的理論模型。[結(jié)論/結(jié)果]多源異構(gòu)數(shù)據(jù)融合的學(xué)術(shù)知識圖譜是支撐智慧學(xué)術(shù)的數(shù)據(jù)基礎(chǔ),同時也是人工智能及知識表示技術(shù)在學(xué)術(shù)大數(shù)據(jù)領(lǐng)域的重要應(yīng)用。

      關(guān)鍵詞:學(xué)術(shù)知識圖譜;多源異構(gòu)數(shù)據(jù);知識圖譜;知識表示;智慧學(xué)術(shù)

      Abstract:[Purpose/Significance]With the rapid development of big data and artificial intelligence technology,data-driven intelligent academic research and knowledge discovery based on academic big data have received extensive attention from industry and academic.Academic knowledge graph is the foundation of academic information mining and academic knowledge management,and has important academic value and industrial value in intelligent academic research.[Method/Process]This paper started from the actual needs of building intelligent academics service,begining with the core issues of academic big data acquisition,academic entity identification,academic entity link and knowledge fusion,academic knowledge map ontology model construction,academic knowledge graph representation and storage,and proposed the theoretical model for the construction of knowledge graph in the field of smart academics.[Result/Conclusion]The construction of academic knowledge graph for multi-source heterogeneous data fusion was the data foundation supporting intelligent academics,and also an important application of artificial intelligence and knowledge representation technology in the field of academic big data.

      Key words:academic knowledge graph;multi-source heterogeneous data;knowledge graph;knowledge representation;smart academic

      隨著學(xué)術(shù)信息數(shù)字化的不斷發(fā)展,學(xué)術(shù)機構(gòu)以及學(xué)術(shù)出版集團(tuán)的互聯(lián)網(wǎng)公開學(xué)術(shù)數(shù)據(jù)庫的涌現(xiàn)產(chǎn)生了海量的學(xué)術(shù)數(shù)據(jù)。這些數(shù)據(jù)中蘊含了大量隱性學(xué)術(shù)知識,如潛在的合作團(tuán)隊、潛在的合作作者等。如果這些隱性的知識能夠被加工處理,并以有效的知識呈現(xiàn),不僅可以為潛在學(xué)術(shù)團(tuán)隊構(gòu)建、潛在科研興趣預(yù)測與潛在科研能力量化研究提供輔助決策,還可以為各種學(xué)術(shù)應(yīng)用平臺的構(gòu)建提供可靠的數(shù)據(jù)源,從而增強學(xué)術(shù)研究者的科研能力,并豐富智慧學(xué)術(shù)的研究內(nèi)涵。因此,如何抽取多源異構(gòu)學(xué)術(shù)數(shù)據(jù)自身的隱性特征,形成有價值的知識,并使之為學(xué)術(shù)研究者提供行之有效的輔助決策,已成為數(shù)據(jù)挖掘技術(shù)在學(xué)術(shù)大數(shù)據(jù)領(lǐng)域應(yīng)用研究的新趨勢[1]。

      近年來,由于單一數(shù)據(jù)源描述事實具有很大偏向性,尤其是個性化智能搜索的需要。多種數(shù)據(jù)源語義統(tǒng)一表示技術(shù)研究受到業(yè)界的廣泛關(guān)注。2012年,Google公司提出了Google知識圖譜技術(shù),并將其成功用于智能搜索領(lǐng)域[2]。隨后,關(guān)于知識圖譜的應(yīng)用研究席卷各個領(lǐng)域。最為常見的應(yīng)用就是借助維基百科構(gòu)建知識圖譜。因為維基百科是迄今為止依靠群體智慧所創(chuàng)建的最大互聯(lián)網(wǎng)數(shù)據(jù)源,具有豐富的半結(jié)構(gòu)化數(shù)據(jù),且易于提取事實知識。比如,國外有名的知識圖譜項目DBpedia[3]、YAGO[4]和Freebase[5]等通用知識圖譜的數(shù)據(jù)來源都是維基百科。

      相對而言,雖然國內(nèi)有關(guān)知識圖譜的研究起步較晚,但是在工業(yè)界和學(xué)術(shù)界也取得了不菲的成就。例如,在商業(yè)應(yīng)用方面成功的案例就有百度公司研發(fā)的知識圖譜“知心”和搜狗公司自主開發(fā)的知識圖譜“知立方”。在學(xué)術(shù)領(lǐng)域應(yīng)用研究方面有清華大學(xué)主導(dǎo)研發(fā)的知識圖譜XLORE以及上海交通大學(xué)自主研發(fā)的知識圖譜Zhishi.me[6]。他們都是借助互動百科和百度百科所研發(fā)的大規(guī)模知識圖譜項目。其中,XLORE知識圖譜是以英文維基百科為載體,采用跨語言鏈接技術(shù)構(gòu)建的融合中英文百科的雙語言知識庫。但是,這些依托互聯(lián)網(wǎng)百科知識所構(gòu)建的通用知識圖譜數(shù)據(jù)來源多、知識覆蓋面廣,不能有效聚焦特定領(lǐng)域圖譜構(gòu)建和知識推理等應(yīng)用研究。這是由于,通用圖譜本身知識表示的粗粒度和語義表示的泛化性容易造成所構(gòu)建的智能應(yīng)用預(yù)測的準(zhǔn)確性和客觀性降低。尤其是在對準(zhǔn)確性要求極高的學(xué)術(shù)領(lǐng)域,比如重大科研攻關(guān)項目研發(fā)團(tuán)隊的組建或者科研合作團(tuán)隊預(yù)期科研產(chǎn)出評估,都需要相當(dāng)精確的領(lǐng)域知識圖譜做智能應(yīng)用的研究數(shù)據(jù)基礎(chǔ)。因此,構(gòu)建面向?qū)W術(shù)大數(shù)據(jù)的知識圖譜是一個亟待解決的新問題。

      另外,通過相關(guān)的文獻(xiàn)梳理發(fā)現(xiàn),國外的通用知識圖譜的發(fā)展比較成熟,尤其是Google公司,其理論研究和商業(yè)應(yīng)用都處于領(lǐng)先地位。相反,國內(nèi)有關(guān)知識圖譜的研究應(yīng)用還尚不成熟,特別是學(xué)術(shù)領(lǐng)域知識圖譜的構(gòu)建研究。為此,本文聚焦學(xué)術(shù)領(lǐng)域知識圖譜的構(gòu)建研究,其意義主要體現(xiàn)在以下幾方面:

      1)有助于更加精確和合理地評估科研工作者個人和團(tuán)隊的科研貢獻(xiàn)度,為重大課題攻關(guān)團(tuán)隊的選擇提供可靠的決策指導(dǎo)。眾所周知,科研實力是國家科技的生命線,重大攻關(guān)項目團(tuán)隊的組建是其能否順利實現(xiàn)的根本保障。團(tuán)隊成員的篩選需要根據(jù)與項目主題相關(guān)研究者已有科研積累作參考進(jìn)行決策。而決策能否有效實施,依賴于相關(guān)數(shù)據(jù)源的廣泛性。通常,依托的相關(guān)數(shù)據(jù)源種類越多,其決策的準(zhǔn)確度越高。毫無疑問,知識圖譜是表征多源異構(gòu)數(shù)據(jù)的最佳方式。

      2)有助于更加科學(xué)地衡量科研工作者的科研成果,為榮譽評定和基金評估提供有價值的參考。這是由于知識圖譜能夠涵蓋學(xué)術(shù)大數(shù)據(jù)中所涉及的各類實體、屬性和關(guān)系,以三元組的形式將事實統(tǒng)一表征,并能夠為科研工作者績效評判和基金審核提供更為合理的知識參考。

      3)有助于潛在合作伙伴的發(fā)掘和學(xué)術(shù)熱點的探究,為智慧學(xué)術(shù)的發(fā)展奠定堅實的數(shù)據(jù)基礎(chǔ)。學(xué)術(shù)知識圖譜是海量學(xué)術(shù)大數(shù)據(jù)的語義抽取,是多源異構(gòu)的學(xué)術(shù)數(shù)據(jù)的融合表示,是對學(xué)術(shù)大數(shù)據(jù)以三元組表示事實的精準(zhǔn)刻畫。通過知識圖譜,可以借助復(fù)雜網(wǎng)絡(luò)的相關(guān)技術(shù)與方法對學(xué)術(shù)大數(shù)據(jù)進(jìn)行更為高效的價值發(fā)掘,尤其是學(xué)術(shù)伙伴的預(yù)測與研究趨勢的預(yù)判。

      綜上,本文以多源異構(gòu)學(xué)術(shù)大數(shù)據(jù)為數(shù)據(jù)源,從數(shù)據(jù)的獲取、數(shù)據(jù)分類、學(xué)術(shù)實體識別、學(xué)術(shù)實體間關(guān)聯(lián)關(guān)系發(fā)現(xiàn)、學(xué)術(shù)知識圖譜本體構(gòu)建以及學(xué)術(shù)知識圖譜表示與存儲等核心問題入手,將多源異構(gòu)數(shù)據(jù)融合的理念引入智慧學(xué)術(shù)領(lǐng)域中學(xué)術(shù)圖譜的構(gòu)建,提出學(xué)術(shù)大數(shù)據(jù)領(lǐng)域知識圖譜構(gòu)建的理論模型。然后,系統(tǒng)闡述多源異構(gòu)數(shù)據(jù)情景中學(xué)術(shù)知識圖譜的模型構(gòu)建流程,以及圖譜構(gòu)建過程中關(guān)鍵技術(shù)問題(如實體識別、關(guān)系抽取、知識融合等)的解決方法,并建立學(xué)術(shù)知識圖譜的本體模型,以解決單一數(shù)據(jù)源構(gòu)建學(xué)術(shù)知識圖譜時存在的信息表示不全、語義匱乏的問題。本研究旨在為學(xué)術(shù)知識圖譜的理論研究和工程應(yīng)用提供方法借鑒,從而為智慧學(xué)術(shù)決策提供可靠的數(shù)據(jù)保障。以進(jìn)一步提高多源異構(gòu)數(shù)據(jù)條件下,構(gòu)建學(xué)術(shù)領(lǐng)域主題知識圖譜的科學(xué)性與準(zhǔn)確性。

      1 知識圖譜概述

      知識圖譜[7]是一種圖數(shù)據(jù),它具有大規(guī)模、多語義和高質(zhì)量等特點,能夠通過其獨有的三元組數(shù)據(jù)表示結(jié)構(gòu)完成現(xiàn)實世界中事實的抽取。下面從知識圖譜的定義和架構(gòu)對其進(jìn)行簡要描述。

      1.1 知識圖譜定義

      知識圖譜(Knowledge Graph,KG)從本質(zhì)上講,是一種用圖結(jié)構(gòu)表示數(shù)據(jù)的形式,由萬維網(wǎng)發(fā)明人蒂姆·伯納斯-李(Tim Berners-Lee)提出的“語義網(wǎng)”概念(Semantic Web)延伸擴展而來,用符號描述客觀世界中的實體、概念、事件、屬性和相互關(guān)系[8]。其發(fā)展歷程如圖1所示。用資源描述框架(Resource Description Framework,RDF)來描述,采用“主語—謂詞—賓語”或“實體—關(guān)系—實體”的三元組結(jié)構(gòu)來表示事實。例如,三元組(Andy,Write,AAAI18)和三元組(AAAI,Publish,AAAI18)表示學(xué)者撰寫了一篇AAA18的文章,并且會議AAAI發(fā)表了文章AAAI18,其可視化表示如圖2所示。直到2012年,Google公司正式推出Google知識圖譜。知識圖譜這一數(shù)據(jù)表示方式才正式進(jìn)入公眾的視野。目前,知識圖譜已經(jīng)成為學(xué)術(shù)界和工業(yè)界使用最為廣泛的數(shù)據(jù)表示方式之一。

      1.2 知識圖譜架構(gòu)

      一般來講,知識圖譜架構(gòu)由自身邏輯結(jié)構(gòu)和構(gòu)建知識圖譜使用的體系結(jié)構(gòu)組成。

      1)自身邏輯結(jié)構(gòu)

      自身邏輯結(jié)構(gòu)由數(shù)據(jù)層和模式層兩部分構(gòu)成。其中,數(shù)據(jù)層的知識包含一系列的事實,以事實為單位將知識存儲在圖數(shù)據(jù)庫。模式層構(gòu)建在數(shù)據(jù)層之上,是知識圖譜的核心,是數(shù)據(jù)層中知識的泛化和抽象,是知識的知識(元知識)。通常用本體庫來表示,其作用相當(dāng)于數(shù)據(jù)層知識庫的模具,用于進(jìn)一步規(guī)范知識庫。

      2)構(gòu)建知識圖譜體系結(jié)構(gòu)

      知識圖譜構(gòu)建體系結(jié)構(gòu)是指面向特定主題運用知識提取技術(shù)對各類數(shù)據(jù)源中的事實三元組進(jìn)行抽取,并進(jìn)行實體消歧、共指消解、知識融合、知識存儲、動態(tài)更新的過程。邏輯結(jié)構(gòu)如圖3所示,虛線框代表知識圖譜的構(gòu)建過程和圖譜更新迭代。一次迭代包含信息抽取、知識融合與知識處理3個階段。通常,知識圖譜的構(gòu)建可分為自頂向下(從百度百科等信息類網(wǎng)站提取高質(zhì)量知識模板存入知識庫)和自底向上(借助信息抽取技術(shù)從公開數(shù)據(jù)集中提取事實模式,采用人工審核的方式將可信度高的事實納入知識庫)兩種方式。知識圖譜發(fā)展初期,由于知識抽取技術(shù)和信息加工方式的不成熟,知識圖譜的構(gòu)建多采用自頂向下的方式完成構(gòu)建,比如Freebase知識圖譜。隨著深度學(xué)習(xí)技術(shù)的不斷發(fā)展,特征自動提取技術(shù)日趨成熟,越來越多的領(lǐng)域知識圖譜采用自底向上的方式構(gòu)建,如微軟的Satori。本文中,學(xué)術(shù)知識圖譜的構(gòu)建也是采用自底向上的方式嚴(yán)格按照圖譜的體系結(jié)構(gòu)進(jìn)行構(gòu)建。

      2 學(xué)術(shù)知識圖譜數(shù)據(jù)源

      學(xué)術(shù)知識圖譜旨在對學(xué)術(shù)領(lǐng)域的各類數(shù)據(jù)源中所涉及的事實進(jìn)行統(tǒng)一的提取和表示。學(xué)術(shù)大數(shù)據(jù)[9]主要包括期刊論文、會議論文集、學(xué)位論文、專利、學(xué)術(shù)搜索引擎等數(shù)據(jù)源。另外,還包括在這些數(shù)據(jù)源中所隱藏的學(xué)者信息、機構(gòu)信息、論文信息等潛在數(shù)據(jù)集。

      2.1 學(xué)術(shù)數(shù)據(jù)分類

      通常,不同的分類原則,數(shù)據(jù)分類有所不同,學(xué)術(shù)數(shù)據(jù)也不例外。對于學(xué)術(shù)數(shù)據(jù)的分類,可從以下3方面考慮。

      1)從數(shù)據(jù)自身固有的原始形態(tài)看,可以將其分為結(jié)構(gòu)化數(shù)據(jù)(如CNKI中文數(shù)據(jù)庫中記錄的論文信息等)、半結(jié)構(gòu)化數(shù)據(jù)(如網(wǎng)頁形態(tài)呈現(xiàn)的學(xué)者主頁)和非結(jié)構(gòu)化數(shù)據(jù)(如學(xué)者撰寫的論文文本)。

      2)從數(shù)據(jù)的表現(xiàn)形式看,可分為顯性數(shù)據(jù)(如學(xué)者論文、專利等)和隱藏數(shù)據(jù)(通常指包含在顯性數(shù)據(jù)中的數(shù)據(jù),如論文中的作者信息、機構(gòu)信息、參考文獻(xiàn))。

      3)從數(shù)據(jù)的組合形態(tài)看,可分為簡單數(shù)據(jù)(如作者信息)和復(fù)雜數(shù)據(jù)(如學(xué)者論文)。

      因而,不難發(fā)現(xiàn),同一種數(shù)據(jù)可能會呈現(xiàn)不同的分類狀態(tài)。因而,在實際數(shù)據(jù)類別劃分時,可根據(jù)業(yè)務(wù)需求統(tǒng)一采用一種分類方式,以免造成數(shù)據(jù)的冗余表示。

      2.2 數(shù)據(jù)獲取

      學(xué)術(shù)數(shù)據(jù)本身的可靠性決定了其對應(yīng)的事實的可信度,其直接影響對應(yīng)知識圖譜的質(zhì)量。然而,已有的學(xué)術(shù)知識圖譜都是業(yè)務(wù)需求方根據(jù)自己的需求有偏向性的構(gòu)建的知識庫。比如,微軟公司開發(fā)的微軟學(xué)術(shù)圖譜(Microsoft Academic Graph,MAC),只包含作者、科研機構(gòu)、論文、期刊(會議文集)及研究領(lǐng)域(主題會議),其功能主要體現(xiàn)在文獻(xiàn)檢索,其本身是學(xué)術(shù)知識圖譜構(gòu)建的很好的數(shù)據(jù)源;清華大學(xué)唐杰研究團(tuán)隊依托自主研發(fā)的AMiner學(xué)術(shù)服務(wù)平臺構(gòu)建的科學(xué)知識圖譜(Science Knowledge Graph,SciKG),面向ACM computing Classification System,只提取了研究領(lǐng)域、專家和論文3個實體,收錄了計算機領(lǐng)域大部分的文獻(xiàn);上海交通大學(xué)的王新兵研究團(tuán)隊借助自主研發(fā)的Acemap學(xué)術(shù)搜索數(shù)據(jù)庫構(gòu)建了AceKG學(xué)術(shù)知識圖譜,聚焦計算機領(lǐng)域兼顧醫(yī)學(xué)和通訊等領(lǐng)域的學(xué)術(shù)信息,含有22億三元組數(shù)據(jù)集。

      然而,現(xiàn)有學(xué)術(shù)知識圖譜突出特點就是數(shù)據(jù)源的選擇領(lǐng)域偏向性比較明顯,又或者過于泛化不能很好地實現(xiàn)個性化的定制需求。因此,構(gòu)建面向特定主題的領(lǐng)域垂直學(xué)術(shù)知識圖譜是進(jìn)行學(xué)術(shù)大數(shù)據(jù)縱深挖掘與知識發(fā)現(xiàn)及精準(zhǔn)的智能推薦不可或缺的環(huán)節(jié)。另外,結(jié)合垂直領(lǐng)域特定主題學(xué)術(shù)知識圖譜構(gòu)建的實際需求,需重點考慮以下數(shù)據(jù)資源:

      1)學(xué)者主頁:這類資源囊括了特定主題領(lǐng)域的杰出科研工作者的關(guān)鍵信息,比如,其所撰寫的論文,主持的科研項目等,這類資源的可信度高,是學(xué)術(shù)知識圖譜作者實體的重要數(shù)據(jù)來源。

      2)領(lǐng)域會議論文(代表性論文):這類文章通常奠定了所涉研究主題的基礎(chǔ)框架,文章的文本內(nèi)容尤其是參考文獻(xiàn)所涵信息量大,而且影響力高,同樣也是學(xué)術(shù)知識圖譜應(yīng)該關(guān)注的重要數(shù)據(jù)源。

      3)領(lǐng)域文獻(xiàn)數(shù)據(jù)庫:領(lǐng)域文獻(xiàn)數(shù)據(jù)庫是對應(yīng)領(lǐng)域所有研究成果的有機整合,也是高質(zhì)量的學(xué)術(shù)大數(shù)據(jù)來源之一,文獻(xiàn)摘要、文獻(xiàn)關(guān)鍵字是文獻(xiàn)內(nèi)容的高度凝練,同樣也是學(xué)術(shù)知識圖譜的重要數(shù)據(jù)源。

      4)學(xué)術(shù)社交網(wǎng):學(xué)術(shù)社交網(wǎng)是學(xué)者們交流思想,相互學(xué)習(xí)的在線交際平臺,積累了大量用戶原生的學(xué)術(shù)內(nèi)容,這類用戶生成數(shù)據(jù)的專業(yè)性強,數(shù)據(jù)量大,也是學(xué)術(shù)知識圖譜需要考慮的數(shù)據(jù)源。

      總之,在設(shè)計領(lǐng)域?qū)W術(shù)知識圖譜時,需盡可能的容納廣泛的數(shù)據(jù)來源,并且在抽取事實前,對數(shù)據(jù)源進(jìn)行一定的冗余處理。這樣,有助于減輕后續(xù)知識圖譜構(gòu)建過程中的實體消歧、關(guān)系消解的工作量。

      3 學(xué)術(shù)知識圖譜模型構(gòu)建

      文中依托知識圖譜的技術(shù)架構(gòu)構(gòu)建學(xué)術(shù)知識圖譜模型,并從現(xiàn)有的學(xué)術(shù)知識圖譜AceKG和SciKG中提取可靠的概念模式,然后再根據(jù)領(lǐng)域主題的需要選擇合適的學(xué)術(shù)數(shù)據(jù)庫、領(lǐng)域?qū)W者主頁、學(xué)術(shù)社交網(wǎng)用戶自生成內(nèi)容作為數(shù)據(jù)源進(jìn)行實體填充。

      3.1 學(xué)術(shù)知識圖譜構(gòu)建流程

      根據(jù)圖3知識圖譜構(gòu)建體系,繪制學(xué)術(shù)知識圖譜構(gòu)建流程如圖4所示。具體操作如下:

      1)確定特定主題學(xué)術(shù)知識圖譜的數(shù)據(jù)源,其中,包括結(jié)構(gòu)化文獻(xiàn)數(shù)據(jù)源(比如Web of Science,ScienceDirect等);半結(jié)構(gòu)化數(shù)據(jù)源(比如百度學(xué)者主頁,CNKI學(xué)者庫等);非結(jié)構(gòu)化數(shù)據(jù)(比如,科研之友等)。

      2)將半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)統(tǒng)一轉(zhuǎn)為JSON格式進(jìn)行清洗、分詞和標(biāo)注,并進(jìn)行屬性抽取、關(guān)系抽取和實體抽取,然后以文章實體為核心發(fā)掘其與其他實體的關(guān)系,進(jìn)行實體消歧和關(guān)系消解構(gòu)建本體庫,并對其進(jìn)行質(zhì)量評價,形成初始的領(lǐng)域主題學(xué)術(shù)知識圖譜。

      3)將結(jié)構(gòu)化數(shù)據(jù)直接轉(zhuǎn)換為知識并與從現(xiàn)有的學(xué)術(shù)知識圖譜中抽取的知識進(jìn)行實體消歧和指代消解操作,然后將其融入已構(gòu)建的領(lǐng)域主題知識圖譜。

      4)對已構(gòu)建的領(lǐng)域知識圖譜進(jìn)行知識推理操作并挖掘潛在的關(guān)系,然后對新產(chǎn)生的知識進(jìn)行評價,并納入知識庫。

      5)對所有的知識使用RDF描述,并用Neo4j圖數(shù)據(jù)庫進(jìn)行存儲。

      綜上,知識圖譜的構(gòu)建過程是一個迭代修正的過程,特別是知識的關(guān)系指代消解和實體的去歧義性操作需要反復(fù)迭代。與此同時,生成的知識圖譜的知識發(fā)現(xiàn)工作也不容忽視。

      3.2 學(xué)術(shù)實體識別

      實體抽取(Named Entity Recognition,NER)是指從文本數(shù)據(jù)集中識別人名、機構(gòu)名等命名實體的過程[10-12]。實體抽取的質(zhì)量取決于其所采用的抽取技術(shù)是否能夠準(zhǔn)確將屬于同一概念或事物的實體的不同表達(dá)進(jìn)行統(tǒng)一的規(guī)約表示。一定程度上,實體抽取技術(shù)的好壞決定了獲取知識的價值。因而,實體識別是知識圖譜構(gòu)建的基礎(chǔ)和關(guān)鍵。通常,實體抽取的方法可歸納為兩類,主要包括:

      1)手工實體抽取。利用專家編制的啟發(fā)式規(guī)則或字典分析句子的句法特征,并進(jìn)行實體的識別。比如,文獻(xiàn)摘要是按照固定的格式來撰寫的,可通過構(gòu)造相應(yīng)的學(xué)術(shù)字典進(jìn)行摘要實體的提取。

      2)自動實體抽取。機器學(xué)習(xí)是目前實體抽取比較流行的方法,其優(yōu)勢在圖譜構(gòu)建比較成熟的醫(yī)學(xué)領(lǐng)域得到證明[19-20]。常用的實體抽取方法有條件隨機域(Conditional Random Field,CRF)[13]、支持向量機(Support Vector Machine,SVM)[14]及循環(huán)神經(jīng)網(wǎng)絡(luò)(Recurrent Neural Networks,RNN)[15]等。例如,在研究文獻(xiàn)主題相似度時,可采用隱馬爾可夫模型提取學(xué)術(shù)數(shù)據(jù)中文章摘要中的研究對象實體。學(xué)者Collier N等[16]已將該方法成功用于MEDLINE數(shù)據(jù)庫文獻(xiàn)的摘要和正文中基因名稱的提取。另外,學(xué)者Liu X等[17]利用K最近鄰算法和條件隨機域也成功從Twitter文本中抽取相關(guān)實體。同樣,在對學(xué)者社交網(wǎng)絡(luò)中實體的識別時,可采用類似的方法。與此同時,學(xué)者Lin B Y等[18]通過實驗證明,利用字符和句法信息采用雙向的LSTM-CRF模型就可高效完成帶噪聲的文本命名實體識別。

      總之,隨著人工智能技術(shù)的不斷發(fā)展,各類機器學(xué)習(xí)方法將更好地滿足非結(jié)構(gòu)化文本中實體的識別,這一點在醫(yī)學(xué)領(lǐng)域知識圖譜構(gòu)建的實體識別中已得到較好驗證[19-20]。

      3.3 學(xué)術(shù)實體關(guān)系抽取

      在學(xué)術(shù)知識圖譜的構(gòu)建過程中,實體關(guān)系的抽取與實體抽取同等重要,它是用于表征實體間相互關(guān)聯(lián)的操作。與實體抽取相似,實體關(guān)系的抽取也可劃分為基于人工構(gòu)造的語義規(guī)則識別實體關(guān)系和基于聯(lián)合推理的實體關(guān)系抽取。其中,針對人工構(gòu)造語義規(guī)則實體關(guān)系的識別,學(xué)者BANKO M等人[21]提出的開放域信息抽取框架(Open Information Extraction,OIE)是人工實體關(guān)系抽取方式的里程碑。隨后,一些學(xué)者[22-26]在OIE的基礎(chǔ)上,提出了更多的優(yōu)化的二元關(guān)系或多元關(guān)系的抽取技術(shù),如WOE[22](一種Wikipedia的OIE方法)等,該類OIE方法可用在領(lǐng)域文獻(xiàn)數(shù)據(jù)庫中文獻(xiàn)實體與作者實體關(guān)系的識別、作者實體與機構(gòu)名稱關(guān)聯(lián)關(guān)系等實體關(guān)系的抽取中。而對于非結(jié)構(gòu)化數(shù)據(jù)中實體關(guān)系的抽取,可采用基于聯(lián)合推理的實體關(guān)系的抽取方法。該類方法的典型代表是馬爾科夫邏輯網(wǎng)(Markov Logic Network,MLN),是一種將馬爾科夫網(wǎng)絡(luò)和一階謂詞邏輯融合的關(guān)系抽取技術(shù),同時也是一種將推理與OIE框架融合的高效實體關(guān)系提取模型[27]。同樣,基于該模型也衍生出了許多改良的模型。如學(xué)者楊博等[28]提出的簡易Markov邏輯(Tractable Markov Logic,TML),主要用于抽取實體或概念之間的層次化關(guān)系。因而,此類方法能夠較好地滿足非結(jié)構(gòu)化數(shù)據(jù)中實體關(guān)系的提取,如文獻(xiàn)數(shù)據(jù)庫中文章自身與其所引用的參考文獻(xiàn)的關(guān)系抽取。

      3.4 學(xué)術(shù)實體鏈接與知識融合

      學(xué)術(shù)實體鏈接是指將多源異構(gòu)數(shù)據(jù)源中經(jīng)過實體對齊操作的實體通過已抽取的關(guān)系關(guān)聯(lián)起來,更好地表示不同數(shù)據(jù)源中實體的語義關(guān)系,進(jìn)而實現(xiàn)多源異構(gòu)數(shù)據(jù)語義的統(tǒng)一表征。然而,不同的期刊文獻(xiàn)的作者姓名、參考文獻(xiàn)格式也不盡相同,尤其是關(guān)鍵字的中英文等價關(guān)聯(lián),以及文章摘要內(nèi)容中實體的上下文指代不明給實體鏈接造成巨大的困難。針對類似實體鏈接問題,一方面,可抽取實體自身特征并構(gòu)建特征向量進(jìn)行相似度計算,并評估實體間的相似度。如學(xué)者Pedersen T等[29]利用奇異值分解技術(shù)對實體自身的文本向量空間進(jìn)行分解,得到給定維度的淺層語義特征,用以計算待鏈接實體與目標(biāo)實體的關(guān)聯(lián)度;另一方面,可根據(jù)實體的上下文背景信息進(jìn)行關(guān)聯(lián)度評估。如,學(xué)者Wang C等[26]依托詞袋模型對待鏈接實體所在頁面的上下文信息和目標(biāo)實體所在語料的上下文信息構(gòu)造特征向量進(jìn)行相似度評估,作為實體鏈接的依據(jù)。

      知識融合是知識再重構(gòu),是指在統(tǒng)一標(biāo)準(zhǔn)下將不同數(shù)據(jù)源的知識進(jìn)行整合、消歧、加工、更新等操作的過程,進(jìn)而優(yōu)化知識圖譜,并提升圖譜質(zhì)量。其主要包括兩個關(guān)鍵步驟:實體對齊和實體填充。其中,實體對齊是指知識的動態(tài)融合,即識別出同一對象在不同數(shù)據(jù)源、不同語言、不同地域以及同一數(shù)據(jù)源中同一實體的不同表現(xiàn)形式,然后,用一個全局的唯一的實體統(tǒng)一表征。比如,論文中作者姓名的表示,不同的期刊有不同的格式要求,那么,如何將同一作者的不同格式的姓名進(jìn)行正確識別并統(tǒng)一表示,便是實體對齊的主要任務(wù);實體填充是指在特定的語境下為實體賦予合理的特征,使其能夠正確的被人和機器理解和區(qū)分。比如,把文獻(xiàn)當(dāng)作一類實體,在文獻(xiàn)數(shù)據(jù)庫中檢索時,便會出現(xiàn)對文獻(xiàn)應(yīng)的標(biāo)題、作者、摘要、引用量等描述該實體的特征。這些特征便是對文獻(xiàn)實體的合理表示。

      3.5 學(xué)術(shù)知識圖譜本體模型

      本體是特定領(lǐng)域不同實體之間進(jìn)行連通與交流的語義載體,概念上具有嚴(yán)格的“ISA”關(guān)系[30]??刹捎檬謩臃绞綐?gòu)建也可采用自動的方式生成。在學(xué)術(shù)知識圖譜構(gòu)建中,本體模型的描述以論文為資源為核心,而且其自身也包含了許多屬性,如論文的作者、論文的分類號、論文的主題等。它的主要載體有期刊論文集合會議論文集。其中,將期刊(如情報雜志)所收錄的指定主題的文章集合稱為期刊論文集;將會議(如Special Interest Group on Knowledge Discovery and Data Mining,ACM SIGKDD)所收錄的特定領(lǐng)域的文章的集合稱為會議論文集。另外,論文與論文之間也包含一系列的相關(guān)屬性,如共同作者、共同領(lǐng)域等。并且,論文也有與之相關(guān)聯(lián)的隸屬于特定機構(gòu)的作者。其相互之間的關(guān)聯(lián)關(guān)系形成了學(xué)術(shù)知識圖譜的本體模型,如圖5所示。

      3.6 學(xué)術(shù)知識圖譜表示與存儲

      知識圖譜的表示和存儲是指將學(xué)術(shù)實體以及實體之間的關(guān)系按照一定的數(shù)據(jù)描述模型(如RDF和圖數(shù)據(jù)庫)進(jìn)行存儲的過程。其中,RDF數(shù)據(jù)模型的使用較為常見,國內(nèi)的一些學(xué)者[31-32]已將其成功的用于醫(yī)學(xué)領(lǐng)域知識圖譜的存儲中。同樣,在構(gòu)建學(xué)術(shù)知識圖譜時,也可采用RDF描述模型進(jìn)行圖譜的存儲。例如,構(gòu)建以“文章”實體為中心的學(xué)術(shù)圖譜時,每一個實體都有一個URL與之對應(yīng),通過URL就能跳轉(zhuǎn)到對應(yīng)的實體,實現(xiàn)實體之間的關(guān)聯(lián)。比如,圖2的RDF偽代碼示意圖如圖6所示。另外,知識圖譜本身也是一種圖結(jié)構(gòu)。因而,也可利用圖數(shù)據(jù)庫存儲知識圖譜中的實體和實體間的關(guān)系。以Neo4j圖數(shù)據(jù)庫為例,通過局部代碼片段如表1,展示學(xué)術(shù)知識圖譜中實體的可視化交互效果如圖7所示。

      4 結(jié) 語

      學(xué)術(shù)知識圖譜不僅能夠為構(gòu)建智慧學(xué)術(shù)的相關(guān)服務(wù)提供知識支撐,而且也能為學(xué)術(shù)領(lǐng)域多源異構(gòu)數(shù)據(jù)的統(tǒng)一表示提供有效的解決措施。本文針對智慧學(xué)術(shù)服務(wù)的實際需求,提出了融合多種不同類型數(shù)據(jù)源的學(xué)術(shù)知識圖譜的概念模型,該模型主要包括各類學(xué)術(shù)數(shù)據(jù)的獲取、學(xué)術(shù)實體識別、學(xué)術(shù)實體鏈接與知識融合、學(xué)術(shù)知識圖譜本體構(gòu)建、學(xué)術(shù)知識圖譜表示與存儲等關(guān)鍵操作步驟。基于多源異構(gòu)學(xué)術(shù)數(shù)據(jù)融合的理念,提出了學(xué)術(shù)知識圖譜構(gòu)建的基本框架,詳細(xì)闡述了學(xué)術(shù)知識圖譜實現(xiàn)的完整流程以及學(xué)術(shù)知識圖譜的本體模型。通過多源異構(gòu)數(shù)據(jù)融合的方式解決了單數(shù)據(jù)源構(gòu)建學(xué)術(shù)知識圖譜時存在的信息不全、語義缺失的問題。通過研究知識圖譜構(gòu)建中涉及的實體識別、關(guān)系抽取、實體鏈接等關(guān)鍵技術(shù),挖掘適合學(xué)術(shù)領(lǐng)域數(shù)據(jù)源特征的相關(guān)技術(shù),以提高學(xué)術(shù)數(shù)據(jù)源實體識別、關(guān)系抽取、實體鏈接的準(zhǔn)確性。通過分析知識圖譜構(gòu)建流程和本體模型的實現(xiàn)方法,提出適用于學(xué)術(shù)領(lǐng)域的圖譜構(gòu)建流程和本體模型,以提升學(xué)術(shù)知識圖譜構(gòu)建的規(guī)范性和可靠性。從而,為多源異構(gòu)數(shù)據(jù)融合的學(xué)術(shù)知識圖譜的構(gòu)建提供客觀依據(jù)。

      下一步的研究,我們將以“圖書情報學(xué)領(lǐng)域”的學(xué)術(shù)信息為數(shù)據(jù)源,依托文中提出的知識圖譜框架模型構(gòu)建圖書情報領(lǐng)域的學(xué)術(shù)知識圖譜。從模式定義、數(shù)據(jù)源分析、詞匯挖掘、實體發(fā)現(xiàn)、關(guān)系發(fā)現(xiàn)、知識融合、質(zhì)量控制7個步驟完成圖書情報學(xué)領(lǐng)域知識圖譜實現(xiàn),尤其注重圖譜實現(xiàn)過程中的知識抽取、知識加工、知識更新的精準(zhǔn)度研究。同時,我們將利用生成的知識圖譜對圖書情報領(lǐng)域的研究發(fā)展脈絡(luò)進(jìn)行精準(zhǔn)的呈現(xiàn),預(yù)測圖書情報領(lǐng)域可能存在的研究熱點,分析并挖掘圖書情報領(lǐng)域文章的引用模式,預(yù)測圖書情報領(lǐng)域潛在的學(xué)術(shù)合作關(guān)系等,以進(jìn)一步豐富圖書情報領(lǐng)域智慧學(xué)術(shù)的研究內(nèi)涵及解決路徑。

      參考文獻(xiàn)

      [1]Khan S,Liu X,Shakil K A,et al.A Survey on Scholarly Data:From Big Data Perspective[J].Information Processing & Management,2017,53(4):923-944.

      [2]Nelson B.Make the Web Work for You[J].Google,2012.

      [3]Bizer C,Lehmann J,Kobilarov G,et al.DBpedia-A Crystallization Point for the Web of Data[J].Social Science Electronic Publishing,2009,7(3):154-165.

      [4]Suchanek F M,Kasneci G,Weikum A G.Yago-A Large Ontology from Wikipedia and WordNet[J].Web Semantics Science Services & Agents on the World Wide Web,2008,6(3):203-217.

      [5]Bollacker K,Cook R,Tufts P.Freebase:A Shared Database of Structured General Human Knowledge[C]//Aaai Conference on Artificial Intelligence.DBLP,2007.

      [6]Niu X,Sun X,Wang H,et al.Zhishi.me-Weaving Chinese Linking Open Data[C]//The Semantic Web-ISWC 2011-10th International Semantic Web Conference,Bonn,Germany,October 23-27,2011,Proceedings,Part Ⅱ.Springer-Verlag,2011.

      [7]Wang Q,Mao Z,Wang B,et al.Knowledge Graph Embedding:A Survey of Approaches and Applications[J].IEEE Transactions on Knowledge & Data Engineering,2017,29(12):2724-2743.

      [8]Rezk E,F(xiàn)oufou S.A Survey of Semantic Web Concepts Applied in Web Services and Big Data[C]//IEEE/ACS International Conference on Computer Systems & Applications.IEEE,2015.

      [9]Xia F,Wang W,Bekele T M,et al.Big Scholarly Data:A Survey[J].IEEE Transactions on Big Data,2017,3(1):18-35.

      [10]Nadeau D,Sekine S.A Survey of Named Entity Recognition and Classification[J].Lingvisticae Investigationes,2007,30(1):3-26.

      [11]Pletscher-Frankild S,Jensen L J.Design,Implementation,and Operation of a Rapid,Robust Named Entity Recognition Web Service[J].Journal of Cheminformatics,2019,11(1).

      [12]Zhang H,Guo Y,Li T.Multifeature Named Entity Recognition in Information Security Based on Adversarial Learning[J].Security and Communication Networks,2019,2019(2):1-9.

      [13]Zhang L,Li H,Shen P,et al.Improving Semantic Image Segmentation with a Probabilistic Superpixel-based Dense Conditional Random Field[J].IEEE Access,2018:1-1.

      [14]de Lima Márcio Dias,Luiza C N,Rommel B.Improvements on Least Squares Twin Multi-Class Classification Support Vector Machine[J].Neurocomputing,2018.

      猜你喜歡
      知識圖譜
      國內(nèi)酒店品牌管理研究進(jìn)展的可視化分析
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術(shù)發(fā)展
      安宁市| 台州市| 静安区| 丰台区| 大连市| 北海市| 石林| 三穗县| 溧阳市| 油尖旺区| 墨脱县| 彰化市| 琼中| 普兰店市| 池州市| 钟山县| 邢台县| 祥云县| 沂南县| 工布江达县| 丹阳市| 汕尾市| 永仁县| 安达市| 噶尔县| 泰州市| 从化市| 浦东新区| 德江县| 潮州市| 枣庄市| 临沧市| 太白县| 宁津县| 郓城县| 虞城县| 岑巩县| 寿宁县| 冀州市| 万载县| 新安县|