張彩麗,吳賽賽,李 瑋,王 慧,陳 磊
(1安徽省農(nóng)業(yè)科學(xué)院農(nóng)業(yè)經(jīng)濟(jì)與信息研究所,合肥 230031;2中國(guó)農(nóng)業(yè)科學(xué)院農(nóng)業(yè)信息研究所,北京 100081;3安徽省農(nóng)業(yè)科學(xué)院作物研究所,合肥 230031;4安徽省農(nóng)業(yè)科學(xué)院土壤肥料研究所,合肥 230031)
隨著計(jì)算機(jī)技術(shù)和生物學(xué)研究的快速發(fā)展與相互間的融合,由兩者引領(lǐng)的農(nóng)業(yè)科學(xué)技術(shù)變革引發(fā)世界范圍的響應(yīng),而由此產(chǎn)生的生物信息及數(shù)據(jù)已至“海量”并仍指數(shù)式突破[1-2]。在以往科學(xué)研究過程中,一方面科學(xué)數(shù)據(jù)位置分散,其保存和展示方式不太一致,這種數(shù)據(jù)組織方式與科研工作者的需要不能成功對(duì)接;其二,小型科研項(xiàng)目產(chǎn)生的數(shù)據(jù)在數(shù)據(jù)格式、存儲(chǔ)方式、數(shù)據(jù)類型、產(chǎn)生方式等方面有較大差異,數(shù)據(jù)之間無法達(dá)到某種程度上的統(tǒng)一,產(chǎn)生了一個(gè)個(gè)信息上的盲區(qū)[3-4]。而在圖書情報(bào)學(xué)與計(jì)算機(jī)科學(xué)研究人員的共同努力下,藉由關(guān)聯(lián)數(shù)據(jù)與知識(shí)庫(kù)建設(shè)的發(fā)展,這些問題逐步化解[5-7]。
與此同時(shí),知識(shí)圖譜(knowledge graph)因具有動(dòng)態(tài)性、直觀性、有效性,可以展示知識(shí)及其內(nèi)外部聯(lián)系,而逐步來到大眾視野[8-9]。近年來隨著自然語言處理等技術(shù)的成熟,知識(shí)圖譜慢慢在互聯(lián)網(wǎng)上得到深度發(fā)展與應(yīng)用,從提取文本中特定類型實(shí)體、關(guān)系、事件向深度發(fā)掘大數(shù)據(jù)中實(shí)體信息方向不斷進(jìn)化[10-11]。然而數(shù)據(jù)的中心化和冗余問題,一定程度上影響了知識(shí)圖譜的快速發(fā)展。近年來,萬維網(wǎng)之父Tim Berners-Lee提出了去中心化技術(shù)規(guī)范Solid,致力于推動(dòng)互聯(lián)網(wǎng)的去中心化,這對(duì)于知識(shí)圖譜的融合發(fā)展具有重要意義[12]。
目前國(guó)內(nèi)的知識(shí)圖譜研究按照應(yīng)用領(lǐng)域主要分為企業(yè)界和學(xué)術(shù)界。當(dāng)前國(guó)內(nèi)企業(yè)界對(duì)于知識(shí)圖譜的研究非?;钴S,特別是一些大型的互聯(lián)網(wǎng)企業(yè),由于知識(shí)圖譜能描述實(shí)體間交錯(cuò)互聯(lián)的關(guān)系對(duì)企業(yè)產(chǎn)生的應(yīng)用價(jià)值,對(duì)于知識(shí)圖譜的需求非常強(qiáng)烈。而國(guó)內(nèi)學(xué)術(shù)界對(duì)于知識(shí)圖譜的研究則更傾向于技術(shù)性,即知識(shí)圖譜中的關(guān)鍵技術(shù)及其實(shí)現(xiàn)等方面的研究。所以目前國(guó)內(nèi)真正實(shí)現(xiàn)落地的知識(shí)圖譜研究,更多的是集中在可以迅速產(chǎn)生經(jīng)濟(jì)效益的領(lǐng)域,比如生物醫(yī)藥、電商、金融、創(chuàng)投、旅游等領(lǐng)域[13-17]。這一方面說明知識(shí)圖譜的確可以創(chuàng)造經(jīng)濟(jì)效益,也獲得了市場(chǎng)的認(rèn)可,這對(duì)于知識(shí)圖譜的研究發(fā)展是非常有利的。另一方面,知識(shí)圖譜人才和研究熱點(diǎn)的不均衡會(huì)加劇。對(duì)于一些基礎(chǔ)性的、非盈利性的知識(shí)圖譜研究,可能會(huì)陷入無人問津的境地,這對(duì)于行業(yè)的均衡發(fā)展是不利的。因此為了知識(shí)圖譜的長(zhǎng)足發(fā)展,一方面需要學(xué)術(shù)界承擔(dān)起拓展知識(shí)圖譜研究領(lǐng)域的責(zé)任,另一方面也需要國(guó)家相關(guān)政策的傾斜和支持[18]。
在農(nóng)業(yè)知識(shí)圖譜方面,目前相關(guān)研究較少,而在土壤肥力這個(gè)具體方向上,僅見少量與土壤相關(guān)的知識(shí)圖譜研究[19],而土壤肥力的研究幾乎沒有。與此同時(shí),構(gòu)建知識(shí)圖譜中的本體知識(shí)庫(kù)基本框架的輔助資料——土壤肥力敘詞表或主題詞表也非常稀少[20]。但欣慰的是,1980—1996 年完成了全國(guó)第二次土壤普查,在土壤肥力指標(biāo)方面有可觀的數(shù)據(jù)資源;在科學(xué)施肥方面,測(cè)土施肥專家決策系統(tǒng)的開發(fā)研究已取得一定成果[21-24]。然而,近幾年測(cè)土配方專家決策系統(tǒng)的建立和推廣并不十分順利,一方面與地塊小且零散、增加了農(nóng)民種地成本、配方肥生產(chǎn)銷售不到位等有關(guān),另一方面與專家決策系統(tǒng)的功能和查詢效率及智能水平有關(guān)。因此,建立智能化、可視化水平更高、更“聰明”的土壤肥力知識(shí)圖譜勢(shì)在必行。建立土壤肥力與農(nóng)作物施肥管理領(lǐng)域知識(shí)圖譜,一方面可提供土壤肥力與科學(xué)施肥知識(shí)圖譜的智能知識(shí)服務(wù)方案,將信息資源轉(zhuǎn)化成知識(shí)[25];另一方面可有效地將土壤肥力與科學(xué)施肥知識(shí)連接并形成推理,可以促進(jìn)挖掘土壤肥力與科學(xué)施肥之間的內(nèi)在聯(lián)系,從而支持基礎(chǔ)研究的跨越式前進(jìn)。
由此,筆者以安徽省為例,結(jié)合對(duì)土壤肥力與科學(xué)施肥管理領(lǐng)域知識(shí)服務(wù)需求的調(diào)研,利用大量文獻(xiàn)資料[26-27],以及土壤肥力與科學(xué)施肥專家驗(yàn)證等方式設(shè)計(jì)領(lǐng)域知識(shí)服務(wù)驅(qū)動(dòng)的土壤肥力與科學(xué)施肥本體模型;在本體的基礎(chǔ)上,利用命名實(shí)體識(shí)別、關(guān)系抽取等技術(shù)構(gòu)建土壤肥力與科學(xué)施肥管理知識(shí)圖譜,以期實(shí)現(xiàn)對(duì)土壤肥力與科學(xué)施肥領(lǐng)域海量數(shù)據(jù)的語義化處理和存儲(chǔ),搭建面向領(lǐng)域知識(shí)服務(wù)、融合測(cè)土配方施肥決策系統(tǒng)的土壤肥力與科學(xué)施肥管理智能服務(wù)平臺(tái),以期實(shí)現(xiàn)土壤肥力與科學(xué)施肥管理的知識(shí)探索、推理、查詢等智能化功能[28],促進(jìn)大數(shù)據(jù)與人工智能現(xiàn)狀下土壤肥力與科學(xué)施肥管理知識(shí)組織及使用方式的革新,加快傳統(tǒng)農(nóng)業(yè)研究范式的升級(jí)。
土壤肥力知識(shí)圖譜的構(gòu)建選擇自頂向下的方式,構(gòu)建過程中包括概念層與數(shù)據(jù)層2 個(gè)部分,其中概念層是數(shù)據(jù)的模板范式,數(shù)據(jù)層則是具體數(shù)據(jù)填充。首先結(jié)合專家定義和數(shù)據(jù)內(nèi)容,構(gòu)建土壤肥力領(lǐng)域本體(概念層),然后在本體的基礎(chǔ)上,根據(jù)領(lǐng)域數(shù)據(jù)特征,通過IDW(反距離加權(quán))插值—數(shù)據(jù)清洗—數(shù)據(jù)標(biāo)注—命名實(shí)體識(shí)別—屬性關(guān)系抽取等操作,得到相關(guān)三元組數(shù)據(jù),存儲(chǔ)到Neo4j 圖數(shù)據(jù)庫(kù)中形成安徽省土壤肥力知識(shí)圖譜,同時(shí)可以進(jìn)行可視化操作以及特定的知識(shí)推理過程,具體流程見圖1。
圖1 土壤肥力知識(shí)圖譜構(gòu)建流程
構(gòu)建領(lǐng)域本體的方法學(xué)問題在領(lǐng)域內(nèi)目前是熱點(diǎn)方向之一,但研究至今仍無系統(tǒng)的、工程化的、可以覆蓋全部領(lǐng)域的構(gòu)建方法。該研究根據(jù)構(gòu)建安徽省土壤肥力知識(shí)圖譜的目的和使用范圍,以及領(lǐng)域?qū)<医ㄗh,采用人工構(gòu)建的方法,使用Protégé本體庫(kù)構(gòu)建工具構(gòu)建安徽省土壤肥力領(lǐng)域本體,其本體層次如圖2所示。
圖2 土壤肥力領(lǐng)域本體類層次
土壤肥力領(lǐng)域本體的層級(jí)包括:(1)土壤肥力知識(shí)圖譜;(2)行政區(qū)域、土壤肥力、施肥管理及常見農(nóng)作物;(3)行政區(qū)域包括省、市、縣/區(qū)、鄉(xiāng)鎮(zhèn)/街道等,土壤肥力包括pH、有機(jī)質(zhì)、全氮、全磷、全鉀、有效氮、有效磷、粘粒、粉粒、砂粒等,施肥管理包括氮、磷、鉀肥,常見農(nóng)作物類為小麥、水稻、玉米、油菜、馬鈴薯、棉花、花生、大豆等。
構(gòu)建本體時(shí),針對(duì)某個(gè)概念的建模允許有一些不同選擇。而概念描述由于本體存在自高層到低層、自低層到高層2 個(gè)方向,因此存在描述的不匹配問題[27]。本研究采用領(lǐng)域?qū)<覅f(xié)作人工構(gòu)建的方式構(gòu)建本體,其概念層(圖3)的匹配問題在構(gòu)建時(shí)已經(jīng)統(tǒng)一,但以后在與其他應(yīng)用系統(tǒng)之間進(jìn)行信息交互時(shí)需要考慮本體概念層的異構(gòu)問題。
圖3 土壤肥力領(lǐng)域本體概念層
研究的數(shù)據(jù)來源有3類。(1)全國(guó)第二次土壤普查安徽省1:400 萬土壤全氮、全磷、全鉀、pH、有效磷、有效氮、有機(jī)質(zhì)、粘粒、砂粒、粉粒分布圖(1980—1996)的相關(guān)信息與數(shù)據(jù),這些數(shù)據(jù)從國(guó)家科技基礎(chǔ)條件平臺(tái)——國(guó)家地球系統(tǒng)科學(xué)數(shù)據(jù)中心平臺(tái)申請(qǐng)得到(http://www.geodata.cn)。(2)安徽省土壤肥力相關(guān)主題與常見農(nóng)作物施肥管理政策相關(guān)主題期刊文獻(xiàn)。(3)包含安徽省特定區(qū)域土壤肥力數(shù)據(jù)的測(cè)土配方查詢系統(tǒng)的網(wǎng)絡(luò)數(shù)據(jù)。平臺(tái)申請(qǐng)得到的數(shù)據(jù)基本結(jié)構(gòu)比較固定,屬結(jié)構(gòu)化數(shù)據(jù);而其他類型屬于半結(jié)構(gòu)與非結(jié)構(gòu)化數(shù)據(jù)。利用反距離加權(quán)插值法對(duì)結(jié)構(gòu)化數(shù)據(jù)進(jìn)行信息提取,其他2種類型數(shù)據(jù)通過深度學(xué)習(xí)模型提取命名實(shí)體與實(shí)體間關(guān)系。
1.2.1 反距離加權(quán)插值法 全國(guó)第二次土壤普查中,安徽省的土壤普查數(shù)據(jù)側(cè)重不同土種的理化性質(zhì)(土壤肥力指標(biāo)),數(shù)據(jù)多是不同地區(qū)多個(gè)樣點(diǎn)的平均值,無法與鎮(zhèn)/鄉(xiāng)級(jí)的地址對(duì)應(yīng)。另外,安徽省行政區(qū)劃多年來變化也很大。因此,根據(jù)安徽省1:400萬土壤全氮、全磷、全鉀、pH、有效磷、有效氮、有機(jī)質(zhì)、粘粒、砂粒、粉粒分布圖(1980—1996)的數(shù)據(jù)特征,選擇反距離加權(quán)插值法插值出安徽省各市縣土壤全氮、全磷、全鉀、pH、有效磷、有效氮、有機(jī)質(zhì)、粘粒、砂粒、粉粒的點(diǎn)數(shù)據(jù)。反距離加權(quán)(Inverse distance weighted,IDW)插值法由美國(guó)國(guó)家氣象局于1972年第一次提出,其邏輯支撐是地理學(xué)第一定律——相近相似原理[29-32]。IDW插值法計(jì)算如式(1)。
式中,Z(X0)為估測(cè)點(diǎn)X0屬性值,Z(Xi)為估測(cè)點(diǎn)X0周邊區(qū)域內(nèi)第i點(diǎn)Xi的屬性值,n為局部鄰域內(nèi)點(diǎn)的個(gè)數(shù),Wi為Xi點(diǎn)對(duì)于X0點(diǎn)的權(quán)值。
1.2.2 基于深度學(xué)習(xí)的有監(jiān)督實(shí)體關(guān)系抽取方法 命名實(shí)體識(shí)別及關(guān)系抽取是信息抽取、自然語言理解、信息檢索等領(lǐng)域的核心任務(wù)與重要環(huán)節(jié)。實(shí)體自自然語言文本里被抽取后,其間的關(guān)系也依次被抽取出來。實(shí)體對(duì)之間的內(nèi)在聯(lián)系一般被組織化為關(guān)系三元組(e1,r,e2),e1、e2為實(shí)體,r為目標(biāo)關(guān)系集R{r1,r2,r3,...,ri}[33]。
分別采用ERNIE-BiLSTM-CRF 模型與PCNNAttention模型來實(shí)現(xiàn)土壤肥力命名實(shí)體識(shí)別與土壤肥力關(guān)系抽取任務(wù)。2個(gè)模型的訓(xùn)練數(shù)據(jù)采用的是國(guó)內(nèi)土壤肥力期刊文獻(xiàn)的txt文本進(jìn)行實(shí)體和關(guān)系標(biāo)注,標(biāo)注后的文本共計(jì)為1036 篇。土壤肥力期刊文獻(xiàn)的獲取過程為:采用檢索式“SU=(土壤)*(土壤肥力+測(cè)土配方+養(yǎng)分+全氮+全磷+全鉀+pH+有效磷+有效氮+有機(jī)質(zhì)+粘粒+砂粒+粉粒)NOT TI=(訂閱+訂購(gòu)+征文+征稿+稿約+聲明+啟事+通知+須知+通訊+論文索引)”在中國(guó)知網(wǎng)上進(jìn)行專業(yè)檢索,期刊出版時(shí)間始于1980年1月1日,終于2021年5月31日。
深度學(xué)習(xí)模型ERNIE-BiLSTM-CRF 的實(shí)體識(shí)別過程主要為:(1)使用ERNIE 模型獲得目標(biāo)文本的字向量;(2)輸入字向量至雙向LSTM模型中捕獲上下文特征,獲取更長(zhǎng)距離的語義信息;(3)通過CRF解碼得到數(shù)據(jù),訓(xùn)練、學(xué)習(xí)取得標(biāo)簽轉(zhuǎn)移概率與約束條件,得到各標(biāo)簽的類別信息。取得的準(zhǔn)確率為95.44%,召回率為97.10%,F(xiàn)1值為96.26%。
基于PCNN-Attention 模型的關(guān)系抽取任務(wù):PCNN即是在CNN(卷積神經(jīng)網(wǎng)絡(luò))模型上的改進(jìn),抽取關(guān)系時(shí),因CNN 中的max-pooling 層需要對(duì)全部卷積層數(shù)據(jù)處理,導(dǎo)致對(duì)關(guān)系與實(shí)體的結(jié)構(gòu)提取效果不高;而PCNN 把每個(gè)卷積核輸出的結(jié)果分成3 段分別進(jìn)行max-pooling操作,對(duì)于關(guān)系抽取的效果有了很大提升。同時(shí)引入Attention機(jī)制為每個(gè)示例賦予權(quán)重,很大程度上遏制噪聲數(shù)據(jù)對(duì)模型的影響。結(jié)果的準(zhǔn)確率為85%,召回率為78%,F(xiàn)1值為80%。
1.2.3 基于規(guī)則模板的信息抽取 測(cè)土配方查詢系統(tǒng)的常見數(shù)據(jù)格式見表1[21](目標(biāo)產(chǎn)量為6750 kg/hm2的中等肥力水平的水稻土壤肥力指標(biāo)情況)、表2[21](推薦施肥量)與表3[22],數(shù)據(jù)格式基本屬于半結(jié)構(gòu)化數(shù)據(jù)。通過實(shí)踐發(fā)現(xiàn),可以利用這些半結(jié)構(gòu)化特征構(gòu)造相應(yīng)規(guī)則進(jìn)行信息抽取。因此采用基于規(guī)則模板的正則表達(dá)式來抽取測(cè)土配方查詢系統(tǒng)中相關(guān)數(shù)據(jù),如提取三元組(均溪鎮(zhèn)紅星村,有機(jī)質(zhì),20.8 g/kg)、(均溪鎮(zhèn)紅星村,有效磷,69.3 mg/kg)、(均溪鎮(zhèn)紅星村,速效鉀,39 mg/kg)等。
表1 測(cè)土配方查詢系統(tǒng)數(shù)據(jù)格式1
表2 測(cè)土配方查詢系統(tǒng)數(shù)據(jù)格式2
表3 測(cè)土配方查詢系統(tǒng)數(shù)據(jù)格式3
目前,采用關(guān)系數(shù)據(jù)庫(kù)存儲(chǔ)RDF三元組容易保存很多重復(fù)無用數(shù)據(jù),因此需要花費(fèi)額外的人力資源成本定期維護(hù)。而Neo4j 是高性能開源圖數(shù)據(jù)庫(kù),也是目前知識(shí)圖譜存儲(chǔ)領(lǐng)域最常用的存儲(chǔ)選擇之一。在Neo4j 中,實(shí)體作為節(jié)點(diǎn),關(guān)系及屬性作為邊,能夠較為直觀地反映實(shí)體之間的交互關(guān)系以及知識(shí)圖譜的內(nèi)部結(jié)構(gòu),大幅度提升知識(shí)檢索性能,也有利于知識(shí)推理,且具有更強(qiáng)的擴(kuò)展性。與此同時(shí),Neo4j 采用的Cypher語言,對(duì)于數(shù)據(jù)的保存與檢索非常有效率。土壤肥力知識(shí)圖譜中土壤肥力與科學(xué)施肥管理建議的檢索基于Cypher語言,在檢索語言模板中輸入需要檢索的實(shí)體或者屬性,即可檢索到節(jié)點(diǎn)的相關(guān)信息,隨后數(shù)據(jù)封裝通過D3.js實(shí)現(xiàn)數(shù)據(jù)的可視化,實(shí)現(xiàn)知識(shí)圖譜中節(jié)點(diǎn)以及邊的可視化展示[34]。安徽省土壤肥力知識(shí)圖譜的可視化展示見圖4。以安徽省行政區(qū)劃為主線連接的節(jié)點(diǎn),在鎮(zhèn)/鄉(xiāng)/街道級(jí)別,即查詢到常見農(nóng)作物種類與10項(xiàng)土壤肥力指標(biāo)的不同取值。
圖4 土壤肥力知識(shí)圖譜的可視化
基于土壤肥力指標(biāo)數(shù)據(jù)、期刊文獻(xiàn)數(shù)據(jù)的結(jié)構(gòu)與特點(diǎn),筆者提出了構(gòu)建土壤肥力知識(shí)圖譜的方法。首先根據(jù)構(gòu)建土壤肥力知識(shí)圖譜的目的和使用范圍,結(jié)合領(lǐng)域?qū)<医ㄗh,采用人工構(gòu)建的方法,通過Protégé建立土壤肥力相關(guān)的領(lǐng)域本體。其次,根據(jù)安徽省1:400萬土壤全氮、全磷、全鉀、pH、有效磷、有效氮、有機(jī)質(zhì)、粘粒、砂粒、粉粒分布圖(1980—1996)的數(shù)據(jù)特征,選擇反距離加權(quán)插值法插值出安徽省各市縣土壤的全氮、全磷、全鉀、pH、有效磷、有效氮、有機(jī)質(zhì)、粘粒、砂粒、粉粒的點(diǎn)數(shù)據(jù);采用基于深度學(xué)習(xí)的有監(jiān)督實(shí)體和關(guān)系抽取方法(ERNIE-BiLSTM-CRF 模型與PCNNAttention模型)來進(jìn)行命名實(shí)體識(shí)別與關(guān)系抽取任務(wù),得到土壤肥力三元組數(shù)據(jù);采用基于規(guī)則模板的正則表達(dá)式抽取測(cè)土配方查詢系統(tǒng)中相關(guān)數(shù)據(jù)。最后,將RDF 三元組保存至Neo4j 中,并基于可定制化Cypher查詢語言,查詢檢索需要的節(jié)點(diǎn)信息,其后封裝數(shù)據(jù)采用D3.js可視化知識(shí)圖譜的節(jié)點(diǎn)與周邊的聯(lián)系。
雖然土壤肥力知識(shí)圖譜已成功構(gòu)建并實(shí)現(xiàn)了可視化查詢,但有些問題需要進(jìn)一步深入探索。就目前來看,土壤肥力知識(shí)圖譜理論上具有很強(qiáng)的可擴(kuò)展性,但能否將地域范圍擴(kuò)大至全國(guó),需要實(shí)踐不同的深度模型對(duì)更多來源標(biāo)注語料的適應(yīng)能力;其次,該知識(shí)圖譜中常見農(nóng)作物施肥管理政策存在長(zhǎng)文本抽取困難,及同一文獻(xiàn)里面的實(shí)體融合問題,需要進(jìn)一步研究。