田夢暉,陳明*,席曉桃
融合Albert模型的珍稀瀕危植物知識圖譜的構(gòu)建
田夢暉1,2,陳明1,2*,席曉桃1,2
(1.上海海洋大學信息學院,上海 201306;2.農(nóng)業(yè)農(nóng)村部漁業(yè)信息重點實驗室,上海 201306)
針對珍稀瀕危植物形態(tài)特征、分類等級、瀕危系數(shù)、保護措施等知識不明確的問題,設計了文本融合輕量級雙向轉(zhuǎn)換編碼表示模型(Albert)的知識抽取模型框架,實現(xiàn)批量抽取珍稀瀕危植物知識,從而構(gòu)建珍稀瀕危植物知識圖譜:1) 在現(xiàn)存一般性植物本體的基礎上,采用自頂向下的方式構(gòu)建珍稀瀕危植物本體,得到5個體系,即物種分類體系、生長形態(tài)特征體系、命名體系、保護現(xiàn)狀體系和生態(tài)習性體系;2) 采取Albert預訓練模型來增強下游任務模型輸入向量的珍稀瀕危植物屬性描述文本語義的表征能力;3) 利用BiLSTM–CRF模型和BiGRU–Attention模型分別實現(xiàn)命名實體識別和關系抽取。在珍稀瀕危植物數(shù)據(jù)測試集上對模型的有效性進行驗證,結(jié)果表明,命名實體識別模型和關系抽取模型的召回率和準確率的調(diào)和平均值(1)值分別達到98.07%和93.76%,將得到的大量的實體和關系所形成的三元組存儲在圖數(shù)據(jù)庫Neo4j中,完成珍稀瀕危植物知識圖譜的可視化展示。
珍稀瀕危植物;Albert模型;知識圖譜;本體;命名實體識別;關系抽取
知識圖譜在植物領域的應用已經(jīng)取得許多積極成果。陳亞東等[1]通過對8類蘋果產(chǎn)業(yè)資源進行整合和分析,以樹形結(jié)構(gòu)呈現(xiàn)知識邏輯體系,利用知識抽取、知識融合等技術構(gòu)建了蘋果產(chǎn)業(yè)領域的輕量級知識圖譜。于合龍等[2]結(jié)合自頂向下和自底向上2種方式構(gòu)建水稻病蟲害本體,分別采用CBOW–BiLSTM–CRF模型和機器學習算法實現(xiàn)知識實體抽取、關系分類,將獲取的三元組存儲在Neo4j,形成水稻病蟲害知識圖譜。張橋英等[3]通過查閱資料、實地勘察自然環(huán)境、踏勘法結(jié)合植物群落樣方調(diào)查、目測等方法,分析探討大巴山國家地質(zhì)公園的67種珍稀瀕危維管植物和10個分布區(qū)類型;王雙蕾等[4]利用Citespace和HistCite工具,基于1970年至2019年2個核心數(shù)據(jù)庫的文獻資源,構(gòu)建重點保護珍稀瀕危植物沙冬青的資源研究可視化圖譜,通過對高頻關鍵詞和突現(xiàn)詞等統(tǒng)計單位的分析理清研究脈絡,提供科學參考。
筆者設計了一種管道式植物領域知識抽取模型框架,利用融合了Albert預訓練模型[5]的BiLSTM– CRF和BiGRU–Attention分別進行命名實體識別和關系抽取任務,利用此框架實現(xiàn)大批量地從現(xiàn)存的珍稀瀕危植物文本中自動抽取知識,構(gòu)建知識圖譜,以期為后續(xù)基于此知識圖譜實現(xiàn)珍稀瀕危植物的智能應用提供技術支撐。
重點針對珍稀瀕危植物概念抽取對應知識,復用現(xiàn)存的一般性植物領域本體的研究[6–7],以《中國植物志》電子版[8]、《中國珍稀瀕危植物圖鑒》[9]和中國珍稀瀕危植物信息系統(tǒng)[10]提供的信息為主要數(shù)據(jù)來源,百度百科為輔助數(shù)據(jù)來源,加上對恩格勒植物分類體系[11]和秦仁昌分類系統(tǒng)[12]的參考,對植物領域本體共性概念進行擴展和完善;在遇到關于裸子植物分類體系的分歧時,采取百度百科的信息為數(shù)據(jù)支撐。采取自頂向下[13]的方式,定義珍稀瀕危植物本體中的類、層級、概念之間的關系、約束和條件等。
將珍稀瀕危植物本體分為5個體系(圖1),即物種分類體系、生長形態(tài)特征體系、命名體系、保護現(xiàn)狀體系和生態(tài)習性體系。其中物種分類體系指按照植物物種間的親緣關系進行的物種分類,按照界、門、綱、目、屬、種的層級結(jié)構(gòu)進行分類;生長形態(tài)特征體系主要是對植物生長形態(tài)特征概念的描述;命名體系主要是針對植物的命名概念的描述;保護現(xiàn)狀體系是對植物的各種瀕危系數(shù)的概念描述;生態(tài)習性體系主要囊括了對植物生長環(huán)境、物候期、地理分布等概念的描述。
圖1 珍稀瀕危植物本體各體系的架構(gòu)
表1和表2分別展示了基于本體的珍稀瀕危植物數(shù)據(jù)中實體關系和實體屬性的映射。表1主要描述本體概念層中實體關系三元組實例,包括植物的別稱、植物分類、瀕危系數(shù)等關系,例如〈窄果脆蘭,科類,蘭科〉這個三元組表達的語義信息是“窄果脆蘭是屬于蘭科的植物”。表2主要描述實體的屬性關系,包括植物的生活型、高度、生長形態(tài)、共用價值、致危因子、保護措施等。
表1 珍稀瀕危植物本體概念層的實體關系
表2 珍稀瀕危植物本體概念層的實體屬性
為了實現(xiàn)珍稀瀕危植物的知識抽取,選取了預訓練模型和神經(jīng)網(wǎng)絡模型結(jié)合的方式實現(xiàn)知識抽取任務[14]。以《中國珍稀瀕危植物圖鑒》珍稀瀕危植物海南風吹楠()為例,利用人工標注提取的三元組如圖2所示。
圖2 海南風吹楠描述文本中待分類實體和關系
從圖2可以看出,每一段文本都只針對同一種植物進行描述。而知識抽取模型最終要實現(xiàn)大批量從原始文本數(shù)據(jù)中提取符合本體規(guī)則的三元組實例,因此設計一種管道式[15]珍稀瀕危植物領域知識抽取模型流程框架(圖3),以便正確識別實體和關系抽取,從而獲得三元組。2個子任務在句子級別上獨立訓練,首先,通過命名實體識別模型,在Albert模型和BiLSTM–CRF模型[16]的基礎上對抽取的實體進行實體預測,再通過關系抽取模型,通過Albert模型和BiGRU–Attention模型[17]的處理對實體的關系進行預測,獲得三元組。
圖3 管道式知識抽取模型框架
命名實體識別是構(gòu)建瀕危珍稀植物知識圖譜的基礎,模型需從非結(jié)構(gòu)化的植物描述中識別出符合本體概念層的實體,實體識別模型結(jié)構(gòu)如圖4所示。
針對收集到的數(shù)據(jù),首先利用BIO標注模式[18],采用編碼方式對實體識別訓練數(shù)據(jù)進行自動批量預處理,再通過Albert模型進行文本預訓練,利用transformer中encoder的解碼特性,學習句子的特征信息,從而獲取數(shù)據(jù)的向量表示用于下游模型的訓練任務,最后利用BiLSTM層對預訓練模型輸出得到的向量作進一步訓練,并且經(jīng)過全連接層的處理,獲得實體標簽的分數(shù)排名分布,送入CRF層,通過CRF的修正預測,最終獲得實體標簽最大得分的標注序列。
由于選擇BIO序列標注方法,實體標簽類別有5個,分別為B–SUBJ(1)、I–SUBJ(2)、O(3)、B–OBJ(4)、I–OBJ(5),通過判斷實體標簽類型,識別多個類別的實體。
設計的關系抽取任務模型如圖4所示,自底向上分為輸入層、Albert層、BiGRU層、注意力層、全連接層和輸出層。設計訓練數(shù)據(jù)時,考慮到1條語句中存在1個subject實體與多個object實體相交互的情況,將存在掩碼的語句作為1條訓練數(shù)據(jù)輸入到Albert模型,以獲得特征向量傳輸?shù)紹iGRU層進行上下文信息語義理解,最終結(jié)合注意力機制層進一步實現(xiàn)對局部信息的抽取,進行詞級別權重分配;權重高代表對關系抽取的影響較大,最后全連接層的加入進一步提升關系預測的準確率,從而實現(xiàn)對實體之間關系的分類。
2.4.1數(shù)據(jù)源
針對數(shù)據(jù)來源,首先利用Python腳本,遵循h(huán)ttp協(xié)議,通過解析網(wǎng)頁結(jié)構(gòu)請求網(wǎng)站并且獲取相應的網(wǎng)頁url,其次采用Xpath和lxml網(wǎng)頁解析工具按照設計好的數(shù)據(jù)規(guī)則進行批量爬取,同時將數(shù)據(jù)以Json的格式存儲在MongoDB數(shù)據(jù)庫當中。最終獲取的標注數(shù)據(jù)總計11 688條珍稀瀕危植物物種文本。以“豬血木”為例,收集到的文本數(shù)據(jù)有:常綠喬木,高約15~20 m,胸徑約1.5 m,全株除頂芽和萼片外均無毛;……星散分布于廣東陽春八甲村及廣西平南思旺村和巴馬縣靈祿鄉(xiāng);生于海拔100~400 m的低丘疏林中或村旁林緣,數(shù)量極少;根據(jù)實地調(diào)查,目前僅在廣東陽春八甲村村旁丘陵地田邊及八甲小學校園中尚保存有3株大樹,其他各地似乎均已滅絕。
另外在其結(jié)構(gòu)化數(shù)據(jù)中,“豬血木”的拉丁學名、科名、國家保護級別、CITES、IUCN和特有性的實體分別為、山茶科、Ⅰ級、Ⅱ、CR、中國特有。
2.4.2數(shù)據(jù)標注及評價指標
在模型的訓練過程中,按照訓練需求將數(shù)據(jù)設計為特定三元組格式,得到最終的訓練數(shù)據(jù)。例如原文本句子“text”:“海南韶子是常綠喬木,高5~20 m”。標注的三元組訓練數(shù)據(jù)格式為:“spo_list”: [{“predicate”: “生活型”, “object_type”: “生活型”, “subject_type”: “中文名”, “object”: “常綠喬木”, “subject”: “海南韶子”},{“predicate”: “高度”, “object_type”: “高度”, “subject_type”: “中文名”, “object”: “5~20 m”, “subject”: “海南韶子”}]。為了避免訓練過程出現(xiàn)過擬合現(xiàn)象,將語料按照7∶3的比例將其劃分為訓練集和測試集,主要對珍稀瀕危植物屬性描述文本中28類關系(表3)進行分類提取。
表3 珍稀瀕危植物知識抽取試驗數(shù)據(jù)集的分布
按照任務流程,評價模型應充分考慮實體識別和關系抽取的準確率,因此采取精確率()、召回率()、精確率和召回率的調(diào)和平均值(1)來對模型的性能進行評判。命名實體識別模型結(jié)果如表4所示。
表4 珍稀瀕危植物命名實體識別模型的精確率和召回率及調(diào)和平均值
從表4可以看出,所用的Albert–BiLSTM–CRF模型的NER結(jié)果中,在珍稀瀕危植物實體識別任務上優(yōu)于其他模型。Albert–BiLSTM–CRF模型與BiLSTM–CRF發(fā)現(xiàn),加入Albert后識別的精確率提高了1.74%,召回率提高了1.46%,1值提高了1.6%,說明預訓練模型的加入能夠更好地對輸入文本進行語義編碼,捕捉到深層次語義信息,從而提高模型識別性能,達到有效識別珍稀瀕危植物實體的目的。對比Albert–BiLSTM–CRF模型與Albert– BiLSTM模型發(fā)現(xiàn),加入CRF層后識別的精確率提高了3.57%,召回率提高了2.77%,1值提高了3.16%,說明加入CRF層后對修正最終結(jié)果起積極作用,使得識別結(jié)果準確率更高;對比Albert– BiLSTM–CRF模型與Albert–BiGRU–CRF模型發(fā)現(xiàn),精確率提高了0.15%,召回率提高了0.08%,1值提高了0.11%,說明針對NER任務,BiLSTM在識別效果上優(yōu)于BiGRU。其中,subject的識別準確度比object要高,主要原因在于subject是植物中文名,較為單一,而object針對的主要是本體中除了中文名的一些概念實體,由于存在人工標注的錯誤和對某些概念缺乏足夠的標注數(shù)據(jù)的原因,導致object的識別率比subject要低。
關系抽取模型結(jié)果如表5所示。
表5 珍稀瀕危植物關系抽取模型的精確率和召回率及調(diào)和平均值
所建立的關系抽取模型Albert–BiGRU– Attention模型效果較好。與BiGRU–Attention模型對比,精確率、召回率和1值分別提高了6.05%、9.23%、8.51%,說明Albert更好地捕捉到上下文信息,有助于提高模型預測實體之間的關系類別的性能;與Albert–BiGRU模型對比,精確率、召回率和1值分別提高了2.93%、1.87%、3.52%,說明Attention層的加入提高了關系抽取的準確度,有效地實現(xiàn)了對珍稀瀕危植物實體之間的關系類別的預測;與Albert–BiLSTM–Attention模型對比,精確率和1值分別提高0.72%和0.38%。
在28類關系抽取當中,有一些關系的抽取還存在錯誤,例如“生長形態(tài)”和“分枝方式”,主要是這兩類關系在實驗語料數(shù)據(jù)集所占比例較低,以及由于人工標注數(shù)據(jù)的一些誤差,導致一些文本中還存在概念的重疊,因此在訓練過程中降低了模型對“生長形態(tài)”“生長方式”關系抽取的準確率。
采用Neo4j圖數(shù)據(jù)庫存儲實體和關系,采取2種方式導入數(shù)據(jù):一是在導入Json格式數(shù)據(jù)集時,借助Neo4j的Python工具包py2neo,按照設計好的數(shù)據(jù)規(guī)則直接編碼導入Neo4j;二是針對CSV格式數(shù)據(jù),直接采用Neo4j腳本語言Cypher語句加載CSV至Neo4j中,并實現(xiàn)知識融合,避免信息冗余,釋放內(nèi)存壓力[19]。輸入“MATCH (n: Plant) where n.name=“斑葉杓蘭” RETURN n”語句后,在Neo4j中可出現(xiàn)如圖5所示的植物知識圖譜可視化結(jié)果。
圖5 珍稀瀕危植物知識圖譜的可視化
以中國珍稀瀕危植物信息系統(tǒng)和植物科學數(shù)據(jù)中心所提供的《中國植物志》電子版為主要知識來源,構(gòu)建了珍稀瀕危植物本體,設計了一種知識抽取模型流程框架,通過知識圖譜構(gòu)建技術進行知識抽取,獲取大量珍稀瀕危植物領域三元組,試驗結(jié)構(gòu)表明該框架可以實現(xiàn)大批量的知識抽取,有效地提高了準確度,并且滿足數(shù)據(jù)存儲要求。
基于知識抽取獲取的珍稀瀕危植物知識圖譜,明確了珍稀瀕危植物的物種形態(tài)特征、瀕危等級、保護現(xiàn)狀等信息,為實現(xiàn)植物領域智能系統(tǒng)提供技術支撐。后續(xù)將圍繞基于珍稀瀕危植物知識圖譜,構(gòu)建智能問答系統(tǒng),加強珍稀瀕危植物知識關聯(lián)度。
[1] 陳亞東,鮮國建,寇遠濤,等.我國蘋果產(chǎn)業(yè)知識圖譜構(gòu)建研究[J].中國農(nóng)業(yè)資源與區(qū)劃,2017,38(11):40–45.
[2] 于合龍,沈金夢,畢春光,等.基于知識圖譜的水稻病蟲害智能診斷系統(tǒng)[J].華南農(nóng)業(yè)大學學報,2021,42(5):105–116.
[3] 張橋英,吳勇.大巴山國家地質(zhì)公園珍稀瀕危植物資源[J].生態(tài)環(huán)境學報,2018,27(11):2011–2016.
[4] 王雙蕾,韓航,馮金朝,等.基于文獻計量學分析沙冬青屬植物的研究進展[J].中央民族大學學報(自然科學版),2020,29(1):24–35.
[5] LAN Z,CHEN M,GOODMAN S,et al.Albert:a lite BERT for self-supervised learning of language represent- tations[C]//ICLR 2020 Area Chairs.ICLR 2020.Addis Ababa:ICLR,2020.
[6] 段宇鋒,黃思思.基于BFO構(gòu)建中文植物物種多樣性領域本體的研究[J].現(xiàn)代圖書情報技術,2015(12):72–79.
[7] 羅貝,吳潔,曹存根,等.從文本中獲取植物知識方法的研究[J].計算機科學,2005,32(10):6–13.
[8] 中國科學院植物研究所.植物智:中國植物志[EB/OL]. [2021–10–11].http://www.iplant.cn/frps.
[9] 國家林業(yè)局野生動物保護和自然保護區(qū)管理司,中國科學院植物研究所.中國珍稀瀕危植物圖鑒[M].北京:中國林業(yè)出版社,2013:249.
[10] 中國科學院植物研究所.中國珍惜瀕危植物信息系統(tǒng):中國珍稀瀕危植物圖鑒[EB/OL].[2021–10–11]. https:// www.plantplus.cn/rep/protlist.
[11] 吳征鎰,路安民,湯彥承,等.中國被子植物科屬綜述[M].北京:科學出版社,2004:6–7.
[12] 李曉娟,李建秀.山東水龍骨科植物孢粉學研究及其在分類上的意義[J].廣西植物,2020,40(4):443–451.
[13] 劉博,張佳慧,李建強,等.大氣污染領域本體的半自動構(gòu)建及語義推理[J].北京工業(yè)大學學報,2021,47(3):246–259.
[14] 鄂海紅,張文靜,肖思琪,等.深度學習實體關系抽取研究綜述[J].軟件學報,2019,30(6):1793?1818.
[15] 隗昊,周愛,張益嘉,等.深度學習生物醫(yī)學實體關系抽取研究綜述[J].計算機工程與應用,2021,57(21):14–23.
[16] 馬詩語,黃潤才.基于ALBERT與BILSTM的糖尿病命名實體識別[J].中國醫(yī)學物理學雜志,2021,38(11):1438–1443.
[17] 張德政,范欣欣,謝永紅,等.基于ALBERT與雙向GRU的中醫(yī)臟腑定位模型[J].工程科學學報,2021,43(9):1182–1189.
[18] 宋曄璇,陳釗,武剛.基于部分標簽數(shù)據(jù)和經(jīng)驗分布的命名實體識別[J].中文信息學報,2021,35(4):51–57.
[19] 閆麗華.基于知識圖譜的葡萄病蟲害自動問答系統(tǒng)[D].楊凌:西北農(nóng)林科技大學,2021.
Construction of the knowledge graph for the rare and endangered plants based on Albert model
TIAN Menghui1,2,CHEN Ming1,2*,XI Xiaotao1,2
(1.College of Information Technology, Shanghai Ocean University, Shanghai 201306, China; 2.Key Laboratory of Fisheries Information, Ministry of Agriculture and Rural Affairs, Shanghai 201306, China)
Aiming at the problem of unclear knowledge of morphological characteristics, classification levels, endangerment coefficients, and protection measures in the field of rare and endangered plants, a knowledge extraction model framework based on Albert is designed to realize the batch extraction of rare and endangered plant knowledge and construct the knowledge graph of rare and endangered plants: 1) On the basis of the existing general plant ontology, the rare and endangered plant ontology is constructed in a top-down manner, and five systems are obtained, namely, species classification system, growth morphological characteristic system, and nomenclature system, conservation status system and ecological habit system; 2) The Albert model was adopted to enhance the representation ability of the text semantics of the rare and endangered plant attribute description text input vector of the downstream task model; 3) The BiLSTM CRF model and BiGRU Attention model are used to realize named entity recognition and relation extraction, respectively, and the effectiveness of the model was verified on the rare and endangered plant data test set, and the results showed that the harmonic mean (F1) values of recall and accuracy of the named entity recognition model and the relation extraction model reached 98.07% and 93.76%, respectively, and the triples formed by a large number of entities and relationships were stored in the graph database Neo4j in order to complete the visual display of the knowledge graph of rare and endangered plants.
rare and endangered plants; Albert model; knowledge graph; ontology; named entity recognition; knowledge extraction
TP391.1
A
1007–1032(2023)05–0616–08
田夢暉,陳明,席曉桃.融合Albert模型的珍稀瀕危植物知識圖譜的構(gòu)建[J].湖南農(nóng)業(yè)大學學報(自然科學版),2023,49(5):616–623.
TIAN M H,CHEN M,XI X T.Construction of the knowledge graph for the rare and endangered plants based on Albert model[J].Journal of Hunan Agricultural University(Natural Sciences),2023,49(5):616–623.
http://xb.hunau.edu.cn
2022–05–08
2023–06–20
上海市科學技術委員會項目(20dz1203800)
田夢暉(1996—),女,湖北孝感人,碩士研究生,主要從事知識圖譜研究,1178851697@qq.com;*通信作者,陳明,博士,教授,主要從事農(nóng)業(yè)信息技術和知識圖譜研究,mchen@shou.edu.cn
10.13331/j.cnki.jhau.2023.05.017
責任編輯:羅慧敏
英文編輯:吳志立