• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于Neo4j生物醫(yī)藥知識圖譜的構(gòu)建

      2021-07-20 04:49曹皓偉徐建良竇方坤
      計算機(jī)時代 2021年6期
      關(guān)鍵詞:數(shù)據(jù)融合生物醫(yī)藥

      曹皓偉 徐建良 竇方坤

      摘 ?要: 人類積累了大量的生物醫(yī)藥科研數(shù)據(jù),這些數(shù)據(jù)以不同的形式存放在不同的數(shù)據(jù)源中,而數(shù)據(jù)的組織形式?jīng)Q定了數(shù)據(jù)的使用價值。為了使數(shù)據(jù)發(fā)揮更大的價值,將多源異構(gòu)數(shù)據(jù)應(yīng)用于知識挖掘與發(fā)現(xiàn),深入研究和改進(jìn)了知識融合等知識圖譜的構(gòu)建技術(shù),使用Neo4j圖形數(shù)據(jù)庫進(jìn)行數(shù)據(jù)存儲,構(gòu)建了生物醫(yī)藥領(lǐng)域的大規(guī)模知識圖譜。知識圖譜的構(gòu)建可為后期的知識挖掘與知識圖譜的應(yīng)用作支撐。

      關(guān)鍵詞: Neo4j; 圖數(shù)據(jù)庫; 生物醫(yī)藥; 知識圖譜構(gòu)建; 數(shù)據(jù)融合

      中圖分類號:TP399 ? ? ? ? ?文獻(xiàn)標(biāo)識碼:A ? ? 文章編號:1006-8228(2020)06-35-04

      Abstract: Human beings have accumulated a large number of biomedical research data, which are stored in different forms in different sources. The organization of the data determines the use value of the data. In order to make the data play a greater value, the multi-source heterogeneous data is applied to knowledge mining and discovery. The construction technologies of knowledge graph such as knowledge fusion are deeply studied and improved in this paper, and Neo4j graph database is used for data storage to construct a large-scale knowledge graph in the field of biomedicine, which can support knowledge mining and other applications later.

      Key words: Neo4j; knowledge graph; biomedicine; knowledge graph construction; data fusion

      0 引言

      2012年Google公司提出知識圖譜的概念,目的是加強(qiáng)智能搜索[1],概念提出后備受關(guān)注,自此各大公司與科研機(jī)構(gòu)先后推出面向各行業(yè)各領(lǐng)域的知識圖譜。目前知識圖譜已被廣泛應(yīng)用于電商、金融、醫(yī)學(xué)等領(lǐng)域,在智能搜索、反欺詐、智能決策和智能問答等方面發(fā)揮著重要的作用[2]。

      1 研究現(xiàn)狀

      1.1 知識圖譜的定義

      知識圖譜基于圖的數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲,是語義網(wǎng)絡(luò)的技術(shù)之一,知識圖譜由head、relationship、tail三元組構(gòu)成[3],可以表示為G={H,R,T},其中H={h1,h2,…h(huán)|n|}代表了知識圖譜中實體的集合,R代表了知識圖譜中所有關(guān)系的集合,T屬于H×R×H,代表了知識圖譜中的三元組集合,三元組集合的基本表示形式包括{實體A,關(guān)系,實體B},如化合物A對蛋白質(zhì)B具有活性、{實體,包含,屬性},如化合物具有相對分子質(zhì)量的屬性,{屬性、屬性的值、值},如相對分子質(zhì)量是124.5g/mol等。知識圖譜在本質(zhì)上表示了實體之間的語義關(guān)系,是對現(xiàn)實世界中事物和關(guān)聯(lián)的描述。

      1.2 知識圖譜的分類

      按照面向領(lǐng)域的不同,識圖譜可以分為開放鏈接知識圖譜和垂直行業(yè)知識圖譜[3]。開放鏈接知識圖譜不面向特定領(lǐng)域,具有一定的普適性。例如基于維基百科的Wikidata[4]等;垂直行業(yè)知識圖譜面向某個具體領(lǐng)域,具有一定的專業(yè)性,如GeoNames[5]等。

      1.3 知識圖譜的構(gòu)建

      知識圖譜的構(gòu)建方式分為自頂向下、自底向上和混合方式三種。自頂向下的構(gòu)建方式是在知識圖譜構(gòu)建的初期先構(gòu)建知識圖譜的本體或模式層,預(yù)先定義知識圖譜的組織結(jié)構(gòu)。自底向上的構(gòu)建方式在初期沒有預(yù)定義的組織結(jié)構(gòu)而是從數(shù)據(jù)源的模式層中不斷的提取更新概念和概念之間的組織結(jié)構(gòu),通過數(shù)據(jù)層來指導(dǎo)模式層的構(gòu)建。自頂向下與自底向上混合的構(gòu)建方式是在初期有預(yù)定義的本體或模式層,同時隨著數(shù)據(jù)源的加入,數(shù)據(jù)源的組織結(jié)構(gòu)可以對知識圖譜模式層進(jìn)行更新改進(jìn),從而使知識圖譜更加完善和可靠。

      知識圖譜構(gòu)建的關(guān)鍵技術(shù)主要包括數(shù)據(jù)獲取、知識抽取、知識融合、知識計算和知識應(yīng)用,如圖1所示。

      數(shù)據(jù)獲取:是前期對數(shù)據(jù)的準(zhǔn)備,即對知識圖譜所在的領(lǐng)域數(shù)據(jù)的獲取,這些數(shù)據(jù)包括結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)與非結(jié)構(gòu)化數(shù)據(jù)。

      知識抽?。褐R抽取也叫信息抽取,是一種通過自動化的方式從半結(jié)構(gòu)化或非結(jié)構(gòu)化的數(shù)據(jù)中抽取實體、關(guān)系、屬性信息的技術(shù)。在早期知識抽取主要通過啟發(fā)式算法與規(guī)則相結(jié)合的方式來實現(xiàn),現(xiàn)在常用的方法有借助本體與詞匯集,借助多層神經(jīng)網(wǎng)絡(luò)和自然語言處理等。

      知識融合:知識融合主要是對概念實體進(jìn)行鏈接,來自不同數(shù)據(jù)源的概念可能在含義、指代粒度上有所不同,存在的問題主要有:①命名相同概念可能指代不同的實體;②命名不同的概念可能指代相同的實體;③概念指代的粒度不同。為了解決以上問題,常使用基于本體或神經(jīng)網(wǎng)絡(luò)的相似性打分函等方法進(jìn)行知識融合。

      知識計算:知識計算主要包括知識推理、置信度檢查、子圖匹配、本體推理、知識挖掘等幾部分,是知識圖譜用于智能計算和推理的基礎(chǔ)。

      知識應(yīng)用:主要指基于知識圖譜開發(fā)應(yīng)用,例如基于知識圖譜實現(xiàn)問答系統(tǒng)、專家系統(tǒng)、推薦系統(tǒng)等。

      1.4 知識圖譜的存儲

      目前知識圖譜有多種存儲方案,基于disk或mainmemory的原生數(shù)據(jù)庫、基于關(guān)系型數(shù)據(jù)庫、基于非關(guān)系型數(shù)據(jù)庫。因為基于圖形的存儲結(jié)構(gòu)更有利于發(fā)現(xiàn)實體之間潛在的關(guān)系,所以本文使用非關(guān)系型數(shù)據(jù)庫中的圖形數(shù)據(jù)庫存儲知識圖譜。將知識圖譜存入圖數(shù)據(jù)庫,是將知識圖譜的實體存為圖數(shù)據(jù)庫中的節(jié)點(diǎn),而實體間的關(guān)系存為連接各個節(jié)點(diǎn)的邊[6]。目前主流的圖數(shù)據(jù)庫有美國Neo technology機(jī)構(gòu)開發(fā)的Neo4j數(shù)據(jù)庫、微軟公司開發(fā)的GraphEngine數(shù)據(jù)庫、北京大學(xué)開發(fā)的gstore數(shù)據(jù)庫[7]等等。其中目前最常用的圖數(shù)據(jù)庫是Neo4j,它是一個成熟的高性能圖引擎,同時支持分布式,Neo4j圖數(shù)據(jù)庫對Java平臺具有很好的兼容性,有利于后期的工程開發(fā)。綜合以上優(yōu)勢,本文使用Neo4j圖數(shù)據(jù)庫對知識圖譜進(jìn)行存儲。

      2 生物醫(yī)藥知識圖譜的構(gòu)建

      生物醫(yī)藥知識圖譜的構(gòu)建主要包括數(shù)據(jù)獲取、知識抽取、知識融合等幾個步驟。數(shù)據(jù)獲取即獲取相關(guān)領(lǐng)域的數(shù)據(jù)源,知識抽取是從數(shù)據(jù)源中識別并提取相關(guān)實體,知識融合是把來源不同的等價或相關(guān)實體進(jìn)行鏈接。

      2.1 領(lǐng)域數(shù)據(jù)源

      生物醫(yī)藥知識圖譜的構(gòu)建需要整合多個領(lǐng)域的數(shù)據(jù),隨著生物醫(yī)藥領(lǐng)域的發(fā)展,科學(xué)家積累了大量相關(guān)的科研數(shù)據(jù),這些數(shù)據(jù)以多種多樣的形式在互聯(lián)網(wǎng)上開放共享,包括生物醫(yī)藥領(lǐng)域相關(guān)的文獻(xiàn)、化合物、蛋白質(zhì)、藥物等等。目前主流的生物醫(yī)藥文獻(xiàn)數(shù)據(jù)庫有包括英國的Europe PubMED Center(Europe PMC)[8]數(shù)據(jù)庫、美國的MEDLINE數(shù)據(jù)庫等;主流的化合物數(shù)據(jù)庫有ZINC15等。本文應(yīng)用的數(shù)據(jù)庫如表1所示。

      2.2 數(shù)據(jù)獲取與知識抽取

      生物醫(yī)藥知識圖譜涉及化合物、蛋白質(zhì)、文獻(xiàn)等多個領(lǐng)域的數(shù)據(jù),這些領(lǐng)域數(shù)據(jù)大多以XML、JSON等格式存儲并在互聯(lián)網(wǎng)上開放共享,本文通過直接下載或者編寫網(wǎng)絡(luò)爬蟲的方式來完成數(shù)據(jù)獲取,數(shù)據(jù)獲取后,通過實現(xiàn)對XML、JSON等多種格式的解析來實現(xiàn)對實體和關(guān)系的抽取。

      2.3 知識融合

      在知識融合階段需要對實體和實體的屬性進(jìn)行對齊。在實體對齊階段首先考慮通過實體的唯一標(biāo)識進(jìn)行實體對齊,例如化合物的InCHI屬性和CAS Number屬性,蛋白質(zhì)的UniprotID屬性等等,若實體不具有唯一標(biāo)識的信息則需要使用基于相似性的打分函數(shù)來實現(xiàn)。同理,屬性的對齊也是通過基于本體與詞匯集的相似度評分算法來實現(xiàn),例如化合物的“相對分子質(zhì)量”屬性,在PubCHEM數(shù)據(jù)源中為“Molecular Weight”,在Zinc15數(shù)據(jù)源中為“Mwt”,通過構(gòu)建的本體來標(biāo)識兩個相同的屬性概念從而實現(xiàn)實體屬性的對齊。

      下面將以蛋白質(zhì)的相關(guān)數(shù)據(jù)為例介紹實體對齊方法并進(jìn)行實驗評估。蛋白質(zhì)的命名具有多樣性,來自不同數(shù)據(jù)源的同一個蛋白質(zhì)可能具有不同的名稱,例如人類的UBP7蛋白,其常見的命名有“UBP7_HUMAN”、“USP7 HAUSP”等6種,如表2所示。因為實體概念的同義詞現(xiàn)象,導(dǎo)致在實體對齊時基于規(guī)則的算法不能準(zhǔn)確的進(jìn)行匹配,所以需要使用相似性函數(shù)進(jìn)行相似度評估,常用的相似性函數(shù)有①基于文本的相似性函數(shù)如Jaccard相似性算法、余弦相似性算法、編輯距離相似性算法;②基于結(jié)構(gòu)的相似性函數(shù)如共同鄰居計數(shù)算法、Adar評分算法等。本文在綜合使用這兩種相似性算法的基礎(chǔ)上構(gòu)建了基于領(lǐng)域的本體與詞匯表來提升相似性函數(shù)的準(zhǔn)確性。

      從不同蛋白質(zhì)數(shù)據(jù)源中抽取1000個蛋白質(zhì)概念的集合P={p1,p2,……,p1000}進(jìn)行實驗設(shè)計,將P平均分為兩組P1和P2,使用P1集合構(gòu)建蛋白質(zhì)本體和詞匯集,使用P2集合分別對三種相似性算法進(jìn)行評估。其中基于文本的相似性函數(shù)綜合使用了余弦相似性算法和編輯距離相似性算法,如公式⑴。

      基于本體的改進(jìn)后的相似性算法是在領(lǐng)域本體的基礎(chǔ)上綜合使用前兩種相似性函數(shù)。實驗結(jié)果使用精度、召回率和f-score值進(jìn)行評估,結(jié)果如表3所示。

      經(jīng)過實驗驗證可以看出基于本體的實體對齊算法在精度、召回率、f-score值三個評估指標(biāo)上都優(yōu)于基于文本相似性和基于結(jié)構(gòu)相似性算法,其中精度提升了16%,召回率提升了28%,f-score值提升了23%,綜上所述,使用本體和同義詞表有利于提升相似度算法的準(zhǔn)確性。

      2.4 生物醫(yī)藥知識圖譜的存儲

      知識融合后需存入Neo4J圖數(shù)據(jù)庫,Neo4J圖數(shù)據(jù)庫底層使用圖數(shù)據(jù)結(jié)構(gòu)進(jìn)行存儲,大幅度提升了數(shù)據(jù)檢索的性能。在數(shù)據(jù)導(dǎo)入方面,Neo4J支持三種數(shù)據(jù)導(dǎo)入方式:①通過Cypher Create語句;②通過Cypher LOAD CSV方式;③通過Neo4J-Import工具。前兩種方式可以在任何情況下導(dǎo)入,但速度慢,第三種導(dǎo)入方式速度快但只能在初始化時進(jìn)行數(shù)據(jù)導(dǎo)入。本文使用第三種方式,將融合后的數(shù)據(jù)格式化為CSV格式后,通過腳本進(jìn)行數(shù)據(jù)導(dǎo)入。構(gòu)建后的知識圖譜如圖2所示。其中知識圖譜中包括76萬條實體、230萬條關(guān)聯(lián),如表4所示。

      3 結(jié)束語

      本文借助Neo4j圖數(shù)據(jù)庫構(gòu)建了大規(guī)模生物醫(yī)藥知識圖譜并借助領(lǐng)域本體與詞匯集改進(jìn)了知識融合算法,算法的準(zhǔn)確性提升約20%,為知識圖譜的自動化構(gòu)建、知識圖譜的應(yīng)用做了準(zhǔn)備。

      本課題仍然有很多不足與待實現(xiàn)部分,如算法的準(zhǔn)確性與知識圖譜構(gòu)建的自動化程度有待進(jìn)一步提升,同時基于生物醫(yī)藥知識圖譜可以開發(fā)知識問答、決策與發(fā)現(xiàn)系統(tǒng),有待后期進(jìn)一步完善。

      參考文獻(xiàn)(References):

      [1] 歐艷鵬.知識圖譜技術(shù)研究綜述[J].電子世界,2018.13:54,56

      [2] 阮彤,孫程琳,王昊奮,方之家,殷亦超.中醫(yī)藥知識圖譜構(gòu)建與應(yīng)用[J].醫(yī)學(xué)信息學(xué)雜志,2016.37(4):8-13

      [3] 徐增林,盛泳潘,賀麗榮,王雅芳.知識圖譜技術(shù)綜述[J].電子科技大學(xué)學(xué)報,2016.45(4):589-606

      [4] WMF.Wikidata[EB/OL].[2015-11-11].https://www.wikidata.org/wiki/Wikidata:Main_Page.

      [5] NiuX,SunXR,WangHF,et al.Zhishi.me-weaving Chineselinking open data.Proceedings of the 10th International Semantic Web Conference.Bonn,Germany,2011:205-220

      [6] 黃恒琪,于娟,廖曉,席運(yùn)江.知識圖譜研究綜述[J].計算機(jī)系統(tǒng)應(yīng)用,2019.28(6):1-12

      [7] Zou L,?zsuMT,ChenL,etal.gStore:A graph-based SPARQLquery engine.The VLDB Journal,2014.23(4):565-590

      [8] Hodgman, Charlie T .Insant notes in bioinformatics=生物信息學(xué)/2nd ed[M].科學(xué)出版社,2010.

      猜你喜歡
      數(shù)據(jù)融合生物醫(yī)藥
      湖北恒玖生物醫(yī)藥科技有限公司
      多傳感器數(shù)據(jù)融合技術(shù)在機(jī)房監(jiān)控系統(tǒng)中的應(yīng)用
      《可靠性工程》課程教學(xué)的幾點(diǎn)思考
      基于數(shù)據(jù)融合的家庭遠(yuǎn)程監(jiān)護(hù)系統(tǒng)研究
      船舶動力定位中的數(shù)據(jù)融合技術(shù)文獻(xiàn)綜述
      基于信源編碼的數(shù)據(jù)融合隱私保護(hù)技術(shù)
      生物醫(yī)藥潔凈管道系統(tǒng)
      生物醫(yī)藥潔凈管道系統(tǒng)
      生物醫(yī)藥潔凈管道系統(tǒng)
      生物醫(yī)藥潔凈管道系統(tǒng)
      安西县| 青神县| 原阳县| 精河县| 咸宁市| 巴里| 德阳市| 诸暨市| 达州市| 兴山县| 亚东县| 长宁区| 开平市| 大丰市| 许昌县| 沐川县| 沾益县| 平顺县| 延长县| 安泽县| 定陶县| 内黄县| 防城港市| 怀集县| 忻城县| 犍为县| 宁乡县| 无棣县| 扎兰屯市| 博野县| 库尔勒市| 泽库县| 西充县| 潞城市| 全椒县| 托克托县| 东台市| 牡丹江市| 土默特左旗| 沙河市| 平凉市|