袁培森 李潤隆 王 翀 徐煥良
(1.南京農(nóng)業(yè)大學(xué)人工智能學(xué)院,南京 210095;2.國網(wǎng)江蘇省電力有限公司信息通信分公司,南京 210024)
植物表型組學(xué)數(shù)據(jù)分析是近年來植物學(xué)、信息科學(xué)領(lǐng)域研究的交叉熱點(diǎn),其本質(zhì)是對植物基因數(shù)據(jù)的三維時(shí)序表達(dá),以及地域分布特征和代際演進(jìn)規(guī)律[1]。表型組學(xué)指利用生物的遺傳基因組信息對生物的外部及內(nèi)部表型數(shù)據(jù)進(jìn)行研究的一門綜合性學(xué)科[2]。植物表型組學(xué)不僅研究植物的外在形狀,還研究其內(nèi)部結(jié)構(gòu)、物理和生化性質(zhì)以及遺傳信息。亟需研究建立植物表型組學(xué)數(shù)據(jù)完整知識庫的智能計(jì)算方法[3]。
中國是世界上水稻產(chǎn)量最大、消費(fèi)最多的國家[4],水稻的培育及研究是中國糧食安全戰(zhàn)略的重要內(nèi)容[5]。水稻表型組學(xué)研究是植物生物學(xué)的研究熱點(diǎn),水稻表型數(shù)據(jù)的高通量、高維、海量的數(shù)據(jù)特征對數(shù)據(jù)的快速檢索和知識的有效提取提出了更高的技術(shù)要求[6]。
知識圖譜將知識轉(zhuǎn)化為圖,利用計(jì)算機(jī)進(jìn)行推理分析,實(shí)現(xiàn)從感知智能到認(rèn)知智能的飛躍,是人工智能領(lǐng)域的一項(xiàng)重要技術(shù)[7]。知識圖譜是一個具有結(jié)構(gòu)化特征的語義知識庫,采用符號的形式描述數(shù)據(jù)中的實(shí)體及之間的關(guān)系[8],利用對語義的抽取和分析,并結(jié)合數(shù)據(jù)科學(xué)、人工智能等學(xué)科的前沿技術(shù)和方法,在學(xué)科知識庫構(gòu)建領(lǐng)域獲得了廣泛關(guān)注。
對知識圖譜系統(tǒng)的構(gòu)建包括2個核心步驟:實(shí)體抽取、實(shí)體間關(guān)系的構(gòu)建,其中實(shí)體關(guān)系的構(gòu)建需要關(guān)系的抽取技術(shù)。關(guān)系抽取任務(wù)的研究目標(biāo)是自動對兩個實(shí)體和之間聯(lián)系所構(gòu)成的3元組進(jìn)行關(guān)系識別[9]。關(guān)系抽取能夠提取文本數(shù)據(jù)中的特征,并提升到更高的層面[10]。
實(shí)體關(guān)系的抽取方法可以分為3類:基于模板、基于傳統(tǒng)機(jī)器學(xué)習(xí)和基于深度學(xué)習(xí)的方法[11]?;谀0宓年P(guān)系抽取方法是早期基于語料學(xué)知識及語料的特點(diǎn),由相應(yīng)領(lǐng)域的專家和研究人員手工編寫模板,這種方法需要耗費(fèi)大量專業(yè)人力,可移植性較差?;趥鹘y(tǒng)機(jī)器學(xué)習(xí)的關(guān)系抽取方法主要包括使用核函數(shù)[12]、邏輯回歸[13]以及條件隨機(jī)場[14]等,是一種依賴特征工程的方法。HASEGAWA等[15]使用聚類方法計(jì)算上下文的相似性。趙明等[16]采用本體學(xué)習(xí),使用有監(jiān)督的、基于依存句法分析的詞匯-語法模式對百度百科植物語料庫進(jìn)行關(guān)系抽取,在非分類的關(guān)系抽取任務(wù)中表現(xiàn)較好,為構(gòu)建植物領(lǐng)域知識圖譜奠定了基礎(chǔ)。
基于深度學(xué)習(xí)的關(guān)系抽取方法包括遞歸神經(jīng)網(wǎng)絡(luò)模型[17]、卷積神經(jīng)網(wǎng)絡(luò)模型[18]、雙向轉(zhuǎn)換編碼表示模型(Bidirectional encoder representation from transformers, BERT)[19]等。深度學(xué)習(xí)能夠?qū)崿F(xiàn)語義特征的自動提取,從而使模型能夠?qū)Σ煌橄髮哟紊系恼Z義進(jìn)行分析[20]。BERT為典型的深度學(xué)習(xí)模型[19],通過自動學(xué)習(xí)句中特征信息、獲取句子向量表示,能夠?qū)λ颈硇徒M學(xué)數(shù)據(jù)進(jìn)行關(guān)系抽取。在水稻知識圖譜構(gòu)建中,區(qū)分水稻表型組學(xué)實(shí)體之間的復(fù)雜關(guān)系與水稻表型組學(xué)知識庫的構(gòu)建有關(guān)。因此,研究水稻表型組學(xué)的關(guān)系抽取十分重要。
本文使用爬蟲框架獲取水稻表型組學(xué)數(shù)據(jù),根據(jù)植物本體論提出一種對水稻的基因、環(huán)境、表型等表型組學(xué)數(shù)據(jù)進(jìn)行關(guān)系分類的方法。使用詞向量、位置向量等算法提取句中特征,在獲取水稻表型組學(xué)實(shí)體關(guān)系數(shù)據(jù)集的基礎(chǔ)上構(gòu)建基于雙向轉(zhuǎn)換編碼表示的關(guān)系抽取模型,并將本文方法與卷積神經(jīng)網(wǎng)絡(luò)(Convolutional neural network,CNN)[21]、分段卷積神經(jīng)網(wǎng)絡(luò)(Piece wise CNN,PCNN)[18]進(jìn)行對比,以期實(shí)現(xiàn)句子級別的關(guān)系抽取。
本文關(guān)系數(shù)據(jù)集主要來自國家水稻數(shù)據(jù)中心(http:∥www.ricedata.cn/)以及維基百科中文語料庫。數(shù)據(jù)爬取使用可對網(wǎng)頁的結(jié)構(gòu)性數(shù)據(jù)進(jìn)行獲取以及保存的框架Scrapy[22],實(shí)現(xiàn)水稻數(shù)據(jù)中心本體系統(tǒng)以及維基關(guān)系數(shù)據(jù)集的爬取。對爬取的水稻表型數(shù)據(jù)進(jìn)行清洗處理,獲得了用于關(guān)系分類處理的水稻表型組學(xué)關(guān)系數(shù)據(jù)集,數(shù)據(jù)集詳情如表1所示。
表1 數(shù)據(jù)集來源分布
在水稻表型組學(xué)關(guān)系數(shù)據(jù)的分類問題上,本文參照了植物本體論(Plant ontology)[23]對植物表型組學(xué)的分類,通過關(guān)系分類將水稻的解剖結(jié)構(gòu)、形態(tài)、生長發(fā)育與植物基因數(shù)據(jù)聯(lián)系起來,從而對水稻表型組學(xué)數(shù)據(jù)進(jìn)行分類。
本體[24]指的是在某一領(lǐng)域內(nèi)的實(shí)體與其相互間關(guān)系的形式化表達(dá),本體論是概念化的詳細(xì)說明,它的核心作用是定義某一個領(lǐng)域內(nèi)的專業(yè)詞匯以及他們之間的關(guān)系[25]。
植物本體論[23]是一種結(jié)構(gòu)化的數(shù)據(jù)庫資源,是用來描述植物解剖學(xué)、形態(tài)學(xué)等植物學(xué)的結(jié)構(gòu)性術(shù)語集合,它將植物的內(nèi)部解剖結(jié)構(gòu)、外表形態(tài)結(jié)構(gòu)等表型組學(xué)數(shù)據(jù)與植物基因組學(xué)數(shù)據(jù)聯(lián)系起來,使用關(guān)系來描述基因、環(huán)境、表型之間的聯(lián)系。如今植物本體論的描述范圍從最開始的水稻單個物種擴(kuò)大到了22種植物,對這些植物的基因或基因模型、蛋白質(zhì)、RNA、種質(zhì)等表型和基因數(shù)據(jù)進(jìn)行描述。本文依據(jù)其分類規(guī)則,將水稻表型組學(xué)數(shù)據(jù)分為7類:①is a,用來表示父術(shù)語以及子術(shù)語之間的關(guān)系,表示對象O1是O2的子類型或亞型。②has part,用來表示對象O1的每個實(shí)例都有一部分O2的實(shí)例。③has a morphology trait,表示O1通過O2的形態(tài)特征表現(xiàn)出來。④develop from,表示O1從O2發(fā)育而來,O2的世系可以追溯到O1。⑤participate,表示實(shí)體O1的每個實(shí)例都參與開發(fā)O2的某些實(shí)例。⑥r(nóng)egulate,O1對O2有調(diào)節(jié)或調(diào)控作用。⑦other,表示其他關(guān)系。
分類完成后的關(guān)系抽取數(shù)據(jù)集示例如表2所示。表2中,ddu1(Dwarf and disproportionate uppermost-internode1)為使用甲基磺酸乙酯誘變粳稻品種蘭勝而成的矮化突變體的品種名稱;SPL5(Spotted leaf 5)為經(jīng)γ射線輻射誘導(dǎo)粳稻品種Norin 8而成的水稻類病變突變體的品種名稱;FLW1(Flag leaf width NAL1)為劍葉寬度基因。最后,將數(shù)據(jù)集按8∶2分為訓(xùn)練集和測試集。
表2 關(guān)系抽取數(shù)據(jù)集示例
水稻實(shí)體及關(guān)系采用圖方式進(jìn)行建模以及數(shù)據(jù)存儲,本文使用圖數(shù)據(jù)庫Neo4j[26]存放實(shí)體和關(guān)系數(shù)據(jù)。Neo4j的核心概念是節(jié)點(diǎn)和邊,節(jié)點(diǎn)用來存儲實(shí)體,使用圓形圖例表示,邊用來存儲關(guān)系數(shù)據(jù)結(jié)構(gòu)中實(shí)體之間的關(guān)系,使用帶箭頭的線表示。不同實(shí)體以及關(guān)系的相互連接形成復(fù)雜的數(shù)據(jù)結(jié)構(gòu),實(shí)現(xiàn)對某個實(shí)體進(jìn)行關(guān)系的完整增刪改查等功能。
對收集的數(shù)據(jù)集進(jìn)行預(yù)處理,提取2 021個實(shí)體和2 689條關(guān)系,通過Cypher語言[27]進(jìn)行快速的查詢工作。圖1為Neo4j數(shù)據(jù)庫存儲的水稻表型組學(xué)關(guān)系示例。由于實(shí)體名稱較長,圖1中的“12號染…”為12號染色體;“等位基因…”為等位基因STV11-S。
本文BERT關(guān)系抽取模型使用詞向量、位置向量以及句子向量相結(jié)合的輸入向量序列,不僅能簡單獲取詞語語義上的特征,而且能夠?qū)ι顚哟握Z義進(jìn)行表示和抽取。
2.1.1詞向量
本文使用BERT模型中的詞嵌入方式來動態(tài)產(chǎn)生詞向量,即將詞轉(zhuǎn)化為稠密的向量。通過這種詞嵌入方式,該模型能夠根據(jù)上下文預(yù)測中心詞的方式來獲得動態(tài)的語義特征,以解決傳統(tǒng)詞嵌入模型產(chǎn)生的多義詞局限性,可以產(chǎn)生更精確的特征表示,從而提高模型性能。
BERT的詞向量生成方法如下:給定語句序列s=w0,w1,…,wn。其中w0=[CLS]、wn=[SEP]表示句子的開始以及結(jié)束。模型將原有的序列映射為具有固定長度的向量來表示語義關(guān)系。
2.1.2位置向量
設(shè)句子為s=w0,w1,…,wn,實(shí)體為i1與i2,則對于每一個單詞wi,計(jì)算其與i1、i2的相對距離,即i-i1和i-i2,使得該句子可以根據(jù)兩個實(shí)體生成兩部分的位置向量,并且能體現(xiàn)距離和實(shí)體的關(guān)系。本文使用的位置向量維度為50。
2.1.3句子向量
句子向量按照句子的數(shù)目進(jìn)行標(biāo)記,對于第1條句子的每個單詞添加向量v1,給第2條句子中的每個單詞添加一個向量v2。
2.1.4輸入表示
BERT模型的輸入示例如圖2所示。圖2中的BERT模型輸入的句子為“稻是谷類,原產(chǎn)中國與印度”,模型生成每個詞的詞向量,根據(jù)每個詞與實(shí)體之間的距離生成句向量,根據(jù)句子的條數(shù)生成對應(yīng)的句向量,將此作為BERT模型的輸入。
BERT是以Transformer的編碼器為基礎(chǔ)的雙向自注意力機(jī)制表示模型,能夠?qū)λ袑踊谏舷挛倪M(jìn)行雙向表示。BERT模型使用雙向自注意力機(jī)制來進(jìn)行構(gòu)建,使用Transformer的編碼器來進(jìn)行編碼,并且使用遮擋語言模型以及下一句預(yù)測兩個方法來更有效地訓(xùn)練模型。
2.2.1雙向自注意力機(jī)制
BERT使用雙向自注意力機(jī)制[28]進(jìn)行構(gòu)建。雙向自注意力機(jī)制是注意力機(jī)制中的一種,注意力機(jī)制在自然語言處理領(lǐng)域的多個任務(wù)得到了實(shí)際應(yīng)用。注意力機(jī)制可以描述為一個查詢Q到相應(yīng)鍵值對〈K,V〉的一個映射過程[29],可描述為
At(Q,K,V)=Sf(Sm(Q,K))V
(1)
式中At——注意力機(jī)制函數(shù)
Sf——Softmax函數(shù)
Sm——相似度函數(shù)
注意力值的計(jì)算過程可分為3部分:①首先計(jì)算查詢Q和每個鍵K之間的相似度S,獲得權(quán)重,使用的相似度計(jì)算函數(shù)有點(diǎn)積、拼接以及感知機(jī)。②使用Softmax函數(shù)進(jìn)行權(quán)重歸一化。③將權(quán)重以及鍵值對中的值V進(jìn)行加權(quán),獲得最終的注意力值。自注意力機(jī)制即檢索自身的鍵值對進(jìn)行加權(quán)處理,Q=K=V,將序列進(jìn)行重新編碼,獲得更具整體性的特征序列[30]。自注意力機(jī)制的結(jié)構(gòu)圖如圖3所示。
自注意力機(jī)制將輸入序列通過向量映射的方式輸入到嵌入層,注意力層進(jìn)行查詢向量和值向量的相似度計(jì)算,Softmax層使用函數(shù)加權(quán)后將序列輸出。BERT所用的多頭自注意力機(jī)制在輸入到注意力層之前對查詢Q、鍵K以及值V進(jìn)行多次線性變換,線性變換的次數(shù)即為多頭,多頭自注意力機(jī)制可以獲得多種序列的子特征,進(jìn)而獲得較長序列中的相隔較遠(yuǎn)的向量特征[31]。
2.2.2Transformer編碼器
BERT使用Transformer編碼器進(jìn)行編碼,Transformer[32]通過對語義信息以及位置信息的分析來完成自然語言處理任務(wù),其框架為編碼器加解碼器結(jié)構(gòu)。其中,編碼器框架使用了層疊結(jié)構(gòu),每一層有兩部分:進(jìn)行加權(quán)處理的多頭注意力機(jī)制和進(jìn)行前饋化網(wǎng)絡(luò)的全連接層,在兩部分之間使用殘差進(jìn)行連接然后進(jìn)行標(biāo)準(zhǔn)化。解碼器的層數(shù)與編碼器相同,同時(shí)在每一層之內(nèi)還添加了一個進(jìn)行計(jì)算翻譯效果的部分。Transformer編碼器結(jié)構(gòu)圖如圖4所示,圖中N×表示編碼器或解碼器包含的層數(shù)。
Transformer編碼器由3部分組成:①首先對輸入句子進(jìn)行向量化,將詞嵌入到編碼器中。②編碼器接受向量序列,隨后使用自注意力機(jī)制對序列進(jìn)行處理,通過對序列中所有單詞之間建立聯(lián)系來進(jìn)行序列編碼,處理后的序列通過殘差網(wǎng)絡(luò)進(jìn)行求和與歸一化。③自注意力機(jī)制結(jié)束以后,輸入到全連接的前饋網(wǎng)絡(luò)中,輸出標(biāo)準(zhǔn)化后的向量。
BERT模型使用多個Transformer編碼器進(jìn)行編碼,編碼器輸出后進(jìn)入到一個全連接層與激活函數(shù)構(gòu)成的分類層并輸出相應(yīng)的概率[33]。圖5是對水稻表型進(jìn)行編碼示例,輸入的句子為“產(chǎn)量性狀是與植物可收獲產(chǎn)物相關(guān)的性狀”。
BERT模型在使用過程中,僅需要在編碼器后面加上一層全連接層就能夠完成關(guān)系抽取任務(wù)。在后期的微調(diào)部分中,設(shè)之前遮蓋處理后的輸出向量為C,使用Softmax分類器完成關(guān)系分類的概率Pr為
Pr=Sf(CWT)
(2)
式中W——向量矩陣
對于本文的關(guān)系多分類問題,類別標(biāo)簽y∈{1,2,…,M}。給定測試樣本x,Softmax函數(shù)預(yù)測類別c∈{1,2,…,M}的條件概率為
(3)
式中wc——權(quán)重
wi——第i類權(quán)重
p——概率
BERT模型輸出關(guān)系類別以及其對應(yīng)的概率。另外,BERT模型在預(yù)訓(xùn)練部分使用了遮擋語言模型以及下一句預(yù)測兩個方式來訓(xùn)練模型。
2.2.3遮擋語言模型
遮擋語言模型(Masked language model)[19]指的是在進(jìn)行BERT模型訓(xùn)練時(shí),由于進(jìn)行的注意力機(jī)制是多頭而不是單向的,如果按照CNN等模型的訓(xùn)練方式進(jìn)行訓(xùn)練,則BERT模型的訓(xùn)練將成為一個先獲得后文再進(jìn)行預(yù)測的任務(wù),無法正確獲取語義特征,因此進(jìn)行雙向注意力機(jī)制訓(xùn)練時(shí),BERT使用了遮擋語言模型,將輸入的詞進(jìn)行隨機(jī)遮蓋,從而使得雙向編碼器能夠真正對前后文進(jìn)行預(yù)測[19]。本文對15%的詞進(jìn)行遮擋,并且遵循以下規(guī)律:①被遮擋的詞有80%的概率被替換成屏蔽符號[mask]。②10%的概率被換成隨機(jī)詞。③10%的概率保持原有單詞不變。這樣后期微調(diào)部分的向量輸入不會與遮蓋處理中的向量差距太大。
2.2.4下一句預(yù)測
下一句預(yù)測(Next sentence prediction)[19]使BERT模型能夠?qū)W習(xí)下一句和上一句的內(nèi)在聯(lián)系,BERT模型在數(shù)據(jù)集中隨機(jī)選取句子S1,對于其下一句S2,有50%的概率將S2替換為無關(guān)的句子S3,以此來學(xué)習(xí)句子間的關(guān)系。
選擇Intel Corei5-8250u處理器@1.6 GHz,8 GB內(nèi)存,1 TB硬盤,Windows 10操作系統(tǒng)。
BERT模型的參數(shù)設(shè)置如表3所示。為防止模型訓(xùn)練后期的波動,學(xué)習(xí)率衰減采用了文獻(xiàn)[34]中的推薦值,設(shè)置為2×10-5。
表3 BERT模型參數(shù)設(shè)置
梯度下降算法(Gradient descent optimizer)[35]能夠幫助模型進(jìn)行目標(biāo)函數(shù)的最大化或最小化計(jì)算,一個優(yōu)秀的梯度下降算法能夠減少損失函數(shù)的值。常用的梯度下降算法有隨機(jī)梯度下降(Stochastic gradient descent,SGD)[35]、自適應(yīng)力矩估計(jì)(Adaptive moment estimation,ADAM)[36]、解耦權(quán)重衰減的自適應(yīng)矩估計(jì)(Adaptive moment estimation with decoupled weight decay,ADAMW)[37]等,本文選擇ADAMW算法。
根據(jù)植物本體論進(jìn)行實(shí)體關(guān)系數(shù)據(jù)的分類,共獲得7大類、2 689條關(guān)系數(shù)據(jù),類型有:is a、has part、has a morphology trait、develop from、participate、regulate、other。各個關(guān)系類型的數(shù)量及分布如表4所示。
表4 水稻表型組學(xué)關(guān)系數(shù)據(jù)集的數(shù)量分布
使用精度(Precision,P)、召回率(Recall,R)、F1值(F1)作為評價(jià)指標(biāo),將BERT與傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型[21]與分段卷積神經(jīng)網(wǎng)絡(luò)模型[18]進(jìn)行對比。
本部分對梯度下降算法[35]、批尺寸[38]和表2中的關(guān)系進(jìn)行了試驗(yàn)分析測試。
3.5.1梯度下降算法
對于BERT關(guān)系抽取模型,本文進(jìn)行了梯度下降算法的對比,選擇批(Batch)尺寸為8,3種梯度下降算法在BERT模型上的結(jié)果如圖6所示。
由圖6可以看出,ADAMW的精度、召回率和F1值比SGD和ADAM高,SGD最低,3個指標(biāo)均在60%左右。ADAM和ADAMW都在94%以上。
3.5.2批尺寸
選擇批尺寸分別為8、16、32、64進(jìn)行試驗(yàn),選擇ADAMW作為梯度下降算法,其在BERT模型上的結(jié)果如表5所示。
由表5可知,批尺寸為8時(shí),ADAMW算法的精度達(dá)到了95.11%,召回率為96.61%,F(xiàn)1值為95.85%。相比批尺寸為16、32、64,精度分別提高了0.52、0.63、0.88個百分點(diǎn);F1值分別提高1.04、0.22、1.23個百分點(diǎn)。
表5 不同批尺寸在BERT模型上的對比
3.5.3不同關(guān)系類型的處理結(jié)果
本試驗(yàn)批尺寸為8,BERT模型使用ADAMW算法對本文數(shù)據(jù)集上的不同關(guān)系抽取結(jié)果進(jìn)行對比,結(jié)果如表6所示。
表6 BERT模型對不同關(guān)系的處理結(jié)果
由表6可知,BERT模型對于不同關(guān)系的F1值都不低于60.02%,但是對于不同關(guān)系的處理效果也不同。其中,對于has part、is a、other、regulate關(guān)系分類效果較好,其F1值都不小于73.33%,而對于develop from、participate、has a morphology trait的分類效果相對較差。在7種關(guān)系中,is a關(guān)系類型的測試結(jié)果最佳,其F1值達(dá)到了92.83%,是develop from類型的1.546 7倍。develop from、has a morphology trait和participate 分類效果較差的原因是這3個關(guān)系類別的數(shù)據(jù)庫中關(guān)系數(shù)較少,且數(shù)據(jù)集中各個類別的分布不均衡。其解決方法有:①通過增加這3個類別實(shí)體關(guān)系數(shù)據(jù)使BERT模型提取更多有效的語義和詞匯特征。②將各個關(guān)系數(shù)據(jù)的條數(shù)進(jìn)行調(diào)整,保持各個類別實(shí)體關(guān)系數(shù)據(jù)的數(shù)量均衡。
本文將CNN[21]、PCNN[18]與BERT模型進(jìn)行對比,CNN和PCNN模型的參數(shù)設(shè)置如表7所示。
表7 CNN和PCNN模型參數(shù)設(shè)置
CNN在批尺寸為16時(shí),使用SGD算法時(shí)獲得最高精度、召回率與F1值,精度為81.79%,召回率為82.35%,F(xiàn)1值為82.07%。PCNN的批尺寸為16,使用SGD算法時(shí),獲得最高精度、召回率與F1值,精度為85.95%,召回率為81.67%,F(xiàn)1值為83.66%。BERT模型在隱藏層數(shù)量為1 536、最大序列長度為80、學(xué)習(xí)率衰減為2×10-5、訓(xùn)練輪數(shù)為5、批尺寸為8、梯度下降算法為ADAMW時(shí),關(guān)系抽取的精度、召回率與F1值達(dá)到最優(yōu),精度為95.11%,召回率為96.61%,F(xiàn)1值為95.85%。
BERT在精度、召回率以及F1值上都明顯高于其他兩種模型,其F1值是CNN的1.17倍、PCNN的1.15倍。
綜上所述,在使用BERT模型進(jìn)行水稻表型組學(xué)數(shù)據(jù)關(guān)系抽取時(shí),BERT模型能夠根據(jù)上下文預(yù)測中心詞的方式來獲得動態(tài)的詞向量,使用自注意力機(jī)制獲得雙向的語義特征,大幅度提高了關(guān)系抽取的質(zhì)量。
本文基于植物本體論提出基于水稻表型組學(xué)的關(guān)系分類方法,將水稻表型的實(shí)體關(guān)系分為7類,使用詞向量、位置向量以及句子向量進(jìn)行句子特征抽取,構(gòu)建BERT模型,并將BERT模型與CNN、PCNN模型進(jìn)行對比。結(jié)果表明,BERT模型的精度、召回率與F1值分別為95.11%、96.61%和95.85%,達(dá)到了預(yù)期分類效果。