肖 樂, 李家馨, 葛 亮, 吳 濤
(河南工業(yè)大學(xué)信息科學(xué)與工程學(xué)院1,鄭州 450001) (國家糧食和物資儲備局信息化推進(jìn)辦2,北京 100038)
我國糧食產(chǎn)后損失驚人,據(jù)國家糧食和物資儲備局的數(shù)據(jù)顯示,我國在糧食儲藏、運(yùn)輸和加工等產(chǎn)后環(huán)節(jié),每年損失量達(dá)700億斤以上,一年的糧食損失接近吉林省全年糧食產(chǎn)量,糧食行業(yè)“產(chǎn)后護(hù)理”空間巨大[1]?!皽p少糧食產(chǎn)后損失等于建設(shè)無形良田,是提高糧食安全保障水平的重要舉措。在糧食產(chǎn)后損耗中,有一部分是由于農(nóng)戶及儲糧管理人員缺少相關(guān)知識和經(jīng)驗(yàn),無法及時(shí)對糧情做出科學(xué)的決策而造成。已有研究提出構(gòu)建糧情決策支持系統(tǒng)減少這部分糧食損耗,但當(dāng)前的方法存在獲取和添加知識困難、不能有效利用先驗(yàn)知識等局限性。針對這些局限性,本文提出構(gòu)建知識圖譜的方法輔助決策。以知識圖譜為“專家”,指揮決策支持系統(tǒng)進(jìn)行糧情決策,有效改善了農(nóng)戶及儲糧管理人員因知識不全、經(jīng)驗(yàn)不足而造成的糧食損失狀況。
國外對糧食及相關(guān)行業(yè)決策系統(tǒng)的研究起于20世紀(jì)70年代末,第一個(gè)決策系統(tǒng)由美國伊利諾伊大學(xué)開發(fā),用于診斷大豆病蟲害[2];Flinn等[3]開發(fā)了一個(gè)SAG Pro系統(tǒng)做糧食害蟲決策,該系統(tǒng)采用基于規(guī)則的方法向糧食管理者提供決策結(jié)果;Balleda等[4]提出了基于規(guī)則的專家系統(tǒng)-Agpest,該系統(tǒng)采用正向鏈接機(jī)制,有效的利用Agpest知識庫;Nascimento等[5]開發(fā)了一種病蟲害診斷工具,首先利用專家知識構(gòu)建病蟲害文本與圖像知識庫,之后編寫規(guī)則和問題進(jìn)行柚木害蟲診斷防治;Afzal等[6]構(gòu)建了水稻領(lǐng)域本體,并采用基于規(guī)則的方法為農(nóng)民提供水稻管理方面的決策支持。以上傳統(tǒng)基于規(guī)則的決策支持系統(tǒng)面臨獲取決策知識難度較大、依賴領(lǐng)域內(nèi)專家構(gòu)建IF-THEN規(guī)則的困境,針對基于規(guī)則的決策系統(tǒng)的不足,一些學(xué)者提出樸素貝葉斯算法用于構(gòu)建決策支持系統(tǒng)。Wani等[7]提出利用樸素貝葉斯算法擬合機(jī)器學(xué)習(xí)模型進(jìn)行害蟲診斷預(yù)測;Nababan等[8]建立圖像數(shù)據(jù)集,采用樸素貝葉斯方法訓(xùn)練模型并對油棕植物病害進(jìn)行診斷;但基于樸素貝葉斯的決策系統(tǒng)依賴歷史數(shù)據(jù),能解決的決策問題有限,針對該問題,研究人員提出將人工神經(jīng)網(wǎng)絡(luò)用于決策支持系統(tǒng)。Kumar等[9]利用人工神經(jīng)網(wǎng)絡(luò)開發(fā)了一個(gè)決策支持系統(tǒng),該系統(tǒng)利用實(shí)際作物產(chǎn)量數(shù)據(jù)建立預(yù)測模型。由于農(nóng)業(yè)信息具有模糊性,且變量之間的關(guān)系復(fù)雜,Tay等[10]采用自適應(yīng)神經(jīng)模糊推理與人工神經(jīng)網(wǎng)絡(luò)結(jié)合的方法,有效的利用了模糊的農(nóng)業(yè)信息進(jìn)行決策支持,為玫瑰溫室害蟲的日常風(fēng)險(xiǎn)評估創(chuàng)建了決策支持工具;基于人工神經(jīng)網(wǎng)絡(luò)的決策支持系統(tǒng)存在需要大量訓(xùn)練樣本的局限性,Prabakaran等[11]針對人工神經(jīng)網(wǎng)絡(luò)的局限,構(gòu)建了基于支持向量機(jī)與模糊邏輯的作物施肥決策支持系統(tǒng),有效的提高了農(nóng)業(yè)生產(chǎn)效率;但支持向量機(jī)需要大量特征工程,且對新問題適應(yīng)性較差,針對此問題,Saleem等[12]提出了基于深度學(xué)習(xí)算法的棉花害蟲決策支持系統(tǒng),該方法通過RBFN算法對環(huán)境因子進(jìn)行分類,對粉虱生長環(huán)境進(jìn)行精確監(jiān)測。
2006年,我國原國家糧食局提出在“十一五”期間實(shí)施“安全綠色儲糧關(guān)鍵技術(shù)研究開發(fā)與示范”項(xiàng)目,該項(xiàng)目涉及了糧情測控系統(tǒng)。早在1998年,楊秀金等[13]就提出了安全儲糧智能決策支持系統(tǒng),結(jié)合圖像處理技術(shù)與規(guī)則推理的方法進(jìn)行糧情決策,較為有效地減少了糧食損失;甄彤等[14]針對儲糧通風(fēng)提出儲糧機(jī)械通風(fēng)控制系統(tǒng),整個(gè)系統(tǒng)首先根據(jù)糧情檢測系統(tǒng)檢測的數(shù)據(jù)進(jìn)行知識庫的建立,然后用推理機(jī)進(jìn)行推理;張伶子等[15]將本體技術(shù)引入農(nóng)業(yè)害蟲診斷系統(tǒng),采用Protégé編制本體和知識庫,并構(gòu)建推理規(guī)則對害蟲進(jìn)行診斷;傳統(tǒng)基于規(guī)則的推理無法處理一些不確定性問題,針對這些不確定性,徐宏[16]開發(fā)了基于模糊理論的專家系統(tǒng),用人工神經(jīng)網(wǎng)絡(luò)獲取知識并構(gòu)建糧食儲藏的知識庫用于推理;基于規(guī)則的方法獲取決策知識困難,針對此問題,孫曉全等[17]構(gòu)建了基于BP神經(jīng)網(wǎng)絡(luò)的糧情決策系統(tǒng),該系統(tǒng)采用嵌入式AMR9的低成本傳感器平臺采集數(shù)據(jù),并使用糧食信息加權(quán)融合與BP神經(jīng)網(wǎng)絡(luò)對數(shù)據(jù)進(jìn)行訓(xùn)練以及預(yù)測。
糧食及農(nóng)作物方面的知識資源分布散亂、穩(wěn)定性低、數(shù)據(jù)種類多且數(shù)量大。在面對如此復(fù)雜的多源異構(gòu)數(shù)據(jù)時(shí),目前的方法存在以下局限性:基于規(guī)則的決策系統(tǒng)獲取知識和添加新知識都很困難,不能捕捉到數(shù)據(jù)間深層次的關(guān)聯(lián)關(guān)系,并且由于缺乏分層的知識表達(dá)造成了規(guī)則關(guān)系之間的不透明問題;基于機(jī)器學(xué)習(xí)和深度學(xué)習(xí)的決策支持系統(tǒng)在大規(guī)模的數(shù)據(jù)集上能得到較好的決策支持結(jié)果,但是它們難以利用先驗(yàn)知識,并且依賴大規(guī)模標(biāo)注數(shù)據(jù)集。另一方面,在大量實(shí)踐中,越來越多的人發(fā)現(xiàn)深度學(xué)習(xí)模型的結(jié)果與先驗(yàn)知識相沖。這些局限性阻礙了深度學(xué)習(xí)在糧情決策支持中的發(fā)展。
表1對糧食及相關(guān)行業(yè)決策支持系統(tǒng)現(xiàn)狀進(jìn)行了分析總結(jié)。
表1 糧食及相關(guān)行業(yè)決策系統(tǒng)與專家系統(tǒng)現(xiàn)狀的分析總結(jié)
知識圖譜包含了大量世界上的實(shí)體和它們之間相互關(guān)系的信息[18],蘊(yùn)含了人類豐富的先驗(yàn)知識,獲取知識和添加新知識都較為方便且能挖掘出數(shù)據(jù)間的深層關(guān)聯(lián),能有效地彌補(bǔ)深度學(xué)習(xí)算法的不足。如今,利用知識圖譜中的知識進(jìn)行決策支持,從而提升決策支持系統(tǒng)的性能,已成為決策支持研究的重要問題之一。
目前基于知識圖譜的決策系統(tǒng)已廣泛用于醫(yī)療、金融等領(lǐng)域內(nèi),在糧食農(nóng)作物方面也有了少量研究。例如,王娟[19]構(gòu)建了基于知識圖譜的煙草花葉病案例推理模型,提出了一套適用的煙草花葉病防治方案。于合龍等[20]提出基于知識圖譜的水稻智能診斷系統(tǒng)。但是基于知識圖譜的糧情決策系統(tǒng)鮮有報(bào)道。本文主要研究目的為構(gòu)建糧情知識圖譜,并將其用于糧情決策支持系統(tǒng)。
知識圖譜,通過將數(shù)據(jù)粒度從文檔級別降到數(shù)據(jù)級別,聚合大量知識,實(shí)現(xiàn)知識的快速響應(yīng)和推理。其基本組成單位是“實(shí)體-關(guān)系-實(shí)體”三元組,以及實(shí)體及其相關(guān)屬性的鍵值對,實(shí)體通過之間的關(guān)系相互聯(lián)結(jié)。從原始數(shù)據(jù)到知識圖譜的生成,大致要經(jīng)歷知識抽取、知識融合、數(shù)據(jù)模型構(gòu)建等過程。根據(jù)知識圖譜的分層結(jié)構(gòu),將知識圖譜劃分為自頂向下和自底向上構(gòu)建,自頂向下是借助結(jié)構(gòu)化數(shù)據(jù)源,從高質(zhì)量數(shù)據(jù)中抽取本體和模式信息,加入到知識庫;自底向上是從公開采集的數(shù)據(jù)中抽取出資源模式,選擇置信度較高的新模式加入知識庫。
糧情知識圖譜與其他領(lǐng)域的數(shù)據(jù)特征相比,儲糧領(lǐng)域的數(shù)據(jù)有如下特點(diǎn):數(shù)據(jù)種類多、數(shù)量大;資源分布散亂、穩(wěn)定性低;各個(gè)地方采用的存儲方式和標(biāo)準(zhǔn)不同。因此,糧情知識圖譜構(gòu)建面臨巨大的挑戰(zhàn)。本文采用自底向上的方法構(gòu)建糧情知識圖譜。首先通過實(shí)體抽取以及關(guān)系抽取方法從多源異構(gòu)的糧情數(shù)據(jù)中抽取出實(shí)體以及實(shí)體之間的關(guān)系,然后進(jìn)行本體構(gòu)建,實(shí)體以及實(shí)體之間的關(guān)系在本體框架的指導(dǎo)下被鏈接成知識圖譜的表現(xiàn)形式,并用Neo4j存儲知識圖譜。之后在知識圖譜的基礎(chǔ)上進(jìn)行知識推理,達(dá)到輔助糧情決策的目的。糧情知識圖譜的構(gòu)建框架如圖1所示。
圖1 糧情知識圖譜構(gòu)建框架
知識抽取主要由命名實(shí)體識別和關(guān)系抽取組成,其目的為從多源異構(gòu)的數(shù)據(jù)中抽取實(shí)體以及實(shí)體間的關(guān)系,在此基礎(chǔ)上形成本體化的知識表達(dá)。糧情知識抽取模型總體框架舉例如圖2所示。
圖2 糧情知識抽取模型總體框架舉例
2.1.1 命名實(shí)體識別
命名實(shí)體識別是指識別和區(qū)分文本中特定含義的詞匯和所屬的類別,它是知識圖譜中的基礎(chǔ)任務(wù)也是關(guān)鍵任務(wù)。早期基于規(guī)則的實(shí)體識別方法耗時(shí)費(fèi)力,且不具有可擴(kuò)展性,不能適應(yīng)數(shù)據(jù)的變化?;跈C(jī)器學(xué)習(xí)的命名實(shí)體識別方法主要是先訓(xùn)練原始語料,之后通過訓(xùn)練好的模型去識別實(shí)體。在機(jī)器學(xué)習(xí)方法中,命名實(shí)體識別也可以看作是序列標(biāo)注問題[21]。通常采用的傳統(tǒng)的機(jī)器學(xué)習(xí)方法有:馬爾可夫模型、隱馬爾可夫模型、最大熵模型以及將上述方法結(jié)合和改進(jìn)的方法等。方瑩[22]提出了C-CRF層疊條件隨機(jī)場模型抽取農(nóng)業(yè)實(shí)體,充分利用了農(nóng)作物特征詞典,獲得了較好的識別效果。相比于基于規(guī)則的方法,基于統(tǒng)計(jì)機(jī)器學(xué)習(xí)的方法構(gòu)建模型所需的代價(jià)小,魯棒性好。但是基于機(jī)器學(xué)習(xí)的方法對選取的特征要求較高,對語料庫的依賴比較大,而用來構(gòu)建和評估命名實(shí)體識別系統(tǒng)的大型語料庫又比較少。近年來,隨著深度學(xué)習(xí)的發(fā)展,不少人也將深度學(xué)習(xí)的方法應(yīng)用到命名實(shí)體識別的研究中。Collobert等[23]是較早將神經(jīng)網(wǎng)絡(luò)方法應(yīng)用到NER的論文之一。Huang等[24]提出了雙向長短時(shí)記憶網(wǎng)絡(luò),能有效利用序列的上下文信息。Guo等[25]提出了一種聯(lián)合多尺度局部上下文特征和注意力機(jī)制的中文命名實(shí)體識別模型抽取害蟲實(shí)體,通過CNN 提取多尺度局部特征,并采用注意力機(jī)制捕捉長距離依賴關(guān)系。實(shí)體識別準(zhǔn)確性比Huang等[24]提出的Bilstm高了1.67%。
2.1.2 關(guān)系抽取
關(guān)系抽取主要指文本中實(shí)體之間的關(guān)系,例如語法、語義關(guān)系。通常將實(shí)體之間的關(guān)系形式化描述為
近年來,也有學(xué)者提出聯(lián)合抽取,將實(shí)體與關(guān)系同時(shí)抽取,Zheng等[28]提出將實(shí)體和關(guān)系聯(lián)合抽取轉(zhuǎn)化為序列標(biāo)注任務(wù),此法在公共數(shù)據(jù)集上的抽取準(zhǔn)確率超過60%,但是在此法中,抽取的實(shí)體之間只能有一種關(guān)系;Katiyar等[29]提出了將注意力機(jī)制與BiLSTM的BiLSTM-WA模型做聯(lián)合抽取,改善了Zheng等[28]提出的方法的缺陷;沈利言等[30]針對水稻病蟲害文本,在BiLSTM-WA模型的基礎(chǔ)上提出了雙BiLSTM與注意力機(jī)制結(jié)合的水稻病蟲害與藥劑實(shí)體關(guān)系聯(lián)合抽取的方法,其聯(lián)合抽取準(zhǔn)確率最高達(dá)到92.90%。
本體是用于描述一個(gè)領(lǐng)域的術(shù)語集合,其組織結(jié)構(gòu)為層次結(jié)構(gòu)化,可以作為一個(gè)知識庫的骨架和基礎(chǔ)。本體構(gòu)建的方式主要分為三類,分別為手動構(gòu)建本體、半自動化構(gòu)建本體和自動化構(gòu)建本體。手動構(gòu)建本體耗時(shí)費(fèi)力,自動構(gòu)建本體快速有效。本體自動構(gòu)建目前處于起步階段,目前采用較多的方法是手工構(gòu)建本體。糧食本體構(gòu)建屬于特定領(lǐng)域本體構(gòu)建,其本體構(gòu)建源于2001年,聯(lián)合國糧農(nóng)組織實(shí)行了農(nóng)業(yè)本體服務(wù)計(jì)劃[31]。Chougule等[32]提出以O(shè)WL格式保存印度糧食害蟲自適應(yīng)本體。Abrah?o等[33]提出使用UML對農(nóng)業(yè)田間作業(yè)技術(shù)知識進(jìn)行本體的構(gòu)建。糧情知識圖譜的本體構(gòu)建舉例如圖3所示。
圖3 糧食知識圖譜的本體構(gòu)建舉例
知識推理就是利用已有的知識推理出新知識的過程[34]。知識推理的方法主要分為三類:基于規(guī)則的推理、基于分布式推理和基于神經(jīng)網(wǎng)絡(luò)的推理。早期基于規(guī)則的推理就是利用簡單的規(guī)則或統(tǒng)計(jì)特征對知識圖譜進(jìn)行推理。Chen等[35]提出了概率知識庫,能批量用馬爾可夫邏輯網(wǎng)絡(luò)推理規(guī)則。然而基于邏輯規(guī)則推理的方法計(jì)算復(fù)雜度高,可擴(kuò)展性差,且大部分稀疏的實(shí)體和關(guān)系嚴(yán)重影響推理性能?;诜植际酵评淼姆椒ǎ瑢?shù)據(jù)稀疏性不敏感,可擴(kuò)展性更強(qiáng)。基于分布式推理包括張量分解、距離模型和語義匹配模型。張量分解方法以RESCAL[36]為主,RESCAL通過張量進(jìn)行分解,得到實(shí)體和關(guān)系類型的嵌入式表示,反映了實(shí)體或關(guān)系領(lǐng)域結(jié)構(gòu)的相似性,但該法效果有限。Bordes等[37]提出了TransE模型,TransE將所有的實(shí)體和關(guān)系映射為低維的向量,之后判斷兩個(gè)嵌入點(diǎn)平移后能否重合,若能,則關(guān)系存在。TransE效果較好,但是平移轉(zhuǎn)化要求嚴(yán)格,難以對抗噪聲。García-Durán等[38]提出語義匹配模型TATEC,主要是對知識圖譜中的二元語義和三元語義進(jìn)行匹配,以此衡量關(guān)系是否合理并構(gòu)建線性優(yōu)化目標(biāo),但此法不能捕捉非線性語義關(guān)系。神經(jīng)網(wǎng)絡(luò)能有效捕捉非線性語義關(guān)系,它通過非線性變換將輸入數(shù)據(jù)的特征分布從原始空間轉(zhuǎn)換到另一個(gè)特征空間,并自動學(xué)習(xí)特征表示。Shi等[39]提出了共享變量神經(jīng)網(wǎng)絡(luò)模型進(jìn)行知識推理。Neelakantan等[40]提出采用PRA來尋找邏輯關(guān)系路徑,并以遞歸神經(jīng)網(wǎng)絡(luò)為模型來建模關(guān)系路徑。RNN的引入提高了模型的泛化能力,使其可用于處理訓(xùn)練數(shù)據(jù)中未觀測到的新關(guān)系。但是由于第2個(gè)實(shí)體必須由推斷獲得,因此該法不適用于復(fù)雜任務(wù)。而Li等[41]針對這個(gè)問題提出了一種基于多代理和強(qiáng)化學(xué)習(xí)的路徑推理方法,即MARLPaR。2個(gè)代理分別以迭代的方式進(jìn)行關(guān)系選擇和實(shí)體選擇,從而實(shí)現(xiàn)復(fù)雜的推理任務(wù)。
知識推理從已有的三元組中推斷出未知關(guān)系,為特定領(lǐng)域內(nèi)的知識圖譜提供有效的關(guān)聯(lián)發(fā)現(xiàn)能力,輔助糧情進(jìn)行決策支持。
通過調(diào)研,本文采用聯(lián)合糧情詞典與Flat-lattice[42]的方法從多源異構(gòu)數(shù)據(jù)中抽取糧情實(shí)體實(shí)現(xiàn)構(gòu)建基于知識圖譜的糧情決策系統(tǒng)的第一步。
3.1.1 文本收集
本文語料主要來源于糧食大辭典[43]與知網(wǎng)爬取獲得的糧食文本形成糧情數(shù)據(jù)集。糧情詞典是由新詞發(fā)現(xiàn)算法結(jié)合分詞工具對糧食大辭典進(jìn)行分詞,之后經(jīng)過篩選得到的領(lǐng)域內(nèi)專業(yè)術(shù)語。
3.1.2 類別劃分
本文將糧情數(shù)據(jù)的中文實(shí)體類別劃分為14類。其實(shí)體類別如表2所示。
表2 實(shí)體類別
3.1.3 標(biāo)注實(shí)體
選取部分語料,采用BIOES標(biāo)注方法對33 346條數(shù)據(jù)進(jìn)行實(shí)體語料標(biāo)注。
3.1.4 特征分析
如表3所示,糧情數(shù)據(jù)集在實(shí)體類型和專業(yè)性等方面與通用數(shù)據(jù)集相比都有很大不同,除了無明確邊界外,該數(shù)據(jù)集有幾個(gè)特點(diǎn):實(shí)體類別多,該數(shù)據(jù)集包含14個(gè)實(shí)體類別;專業(yè)性強(qiáng)、領(lǐng)域內(nèi)未登錄詞多,在數(shù)據(jù)集中存在大量專業(yè)術(shù)語和未登錄的糧情術(shù)語,如“褐胚”、“酸敗”和“玉米象”等。而現(xiàn)有分詞工具對領(lǐng)域內(nèi)專有名詞不敏感以及無法對未登錄詞進(jìn)行正確分割,很容易導(dǎo)致分詞錯誤,從而降低實(shí)體識別精度;數(shù)據(jù)集中存在一些嵌套實(shí)體,如“玉米象”與“玉米”,很容易造成模型誤判。
針對糧情數(shù)據(jù)集的特點(diǎn),本文提出了結(jié)合糧情詞典與Flat-lattice做實(shí)體抽取。糧情詞典的引入提高了Flat-lattice識別糧情領(lǐng)域內(nèi)未登錄詞與專業(yè)名詞的性能,同時(shí)輔助Flat-lattice更好地避免分詞錯誤和充分利用詞信息。
表3 糧情數(shù)據(jù)集樣例
漢字格結(jié)構(gòu)對利用詞信息和避免分詞的錯誤傳播有很大的好處。因此將一個(gè)句子與一個(gè)詞典進(jìn)行匹配,得到其中的潛詞。如圖4所示。格是一個(gè)有向無環(huán)圖,其中每個(gè)節(jié)點(diǎn)都是一個(gè)字符或一個(gè)潛在的字。格包括句子中的一系列字符和可能的單詞。單詞的第一個(gè)字符和最后一個(gè)字符決定了它的位置。本文采用Transformer對序列中的長距離依賴進(jìn)行建模,引入序列中的每個(gè)token的位置表示保存位置信息。為1個(gè)標(biāo)記(字符或單詞)分配了2個(gè)位置索引:頭位置和尾位置,通過這2個(gè)索引,既可以從1組標(biāo)記重構(gòu)出1個(gè)格子,也可以把1個(gè)格子壓成1個(gè)平面。如圖5所示。因此,可以直接使用Transformer對格子輸入進(jìn)行完整的建模。
圖4 漢字格子結(jié)構(gòu)舉例
圖5 格子轉(zhuǎn)為平面結(jié)構(gòu)
算法流程為:
輸入:輸入的字符與糧情字典里的詞進(jìn)行匹配,與原始文本一起形成Token,由Token映射出頭位置索引head和尾位置索引tail。
初始化可學(xué)習(xí)參數(shù),Wr,Wq,WK,R,WK,E,u,V。
對于格子中的兩個(gè)跨xi和xj,通過式(1)~式(4)計(jì)算它們之間的區(qū)間相對位置距離,
(1)
(2)
(3)
(4)
(5)
式中:Wr是一個(gè)可學(xué)習(xí)的參數(shù),⊕表示連接算子,Pd計(jì)算如式(6)和式(7):
(6)
(7)
式中:k為位置編碼的維數(shù)指標(biāo)。
(8)
式中:Wq,WK,E,WE,R∈Rdmodel×dhead,u,V∈Rdhead是可學(xué)習(xí)參數(shù)。
Flat之后,將字符表示形式帶入輸出層,后面接條件隨機(jī)場,從而得到命名實(shí)體識別結(jié)果。
3.3.1 模型實(shí)驗(yàn)結(jié)果
表4為基于糧情詞典和Flat-lattice的命名實(shí)體識別模型在糧情數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果,并同中文命名實(shí)體識別常用的基于字符的CRF,Bilstm-CRF模型以及無糧情詞典的Flat-lattice模型的實(shí)驗(yàn)結(jié)果進(jìn)行了對比。與傳統(tǒng)的方法相比,基于糧情詞典的Flat-lattice模型的實(shí)體識別效果有了很大的提升。相對于沒有糧情詞典的Flat-lattice模型,有糧情詞典的模型能將F1值從89.96%提高到94.29%。
表4 實(shí)驗(yàn)結(jié)果對比
3.3.2 糧情詞典的影響
實(shí)驗(yàn)結(jié)果顯示,隨著訓(xùn)練次數(shù)的增加,無糧情詞典的模型與有糧情詞典的模型F1值、準(zhǔn)確率和召回率都逐漸提高。無糧情詞典的模型的精確率、召回率、F1值分別為93.39%、86.78%、89.96%,而加入糧情詞典后,則將精確率、召回率、F1值分別提高了2.65%、5.92%、4.33%,且有糧情詞典的模型收斂速度更快。糧情詞典對糧情實(shí)體抽取任務(wù)效果的提高起到了一定的幫助作用。
通過對以往的糧情決策支持系統(tǒng)的研究發(fā)現(xiàn),當(dāng)前糧食及相關(guān)行業(yè)的決策支持技術(shù)存在獲取和添加知識困難、難以利用先驗(yàn)知識等不足。本實(shí)驗(yàn)針對這些不足提出了基于知識圖譜的糧情決策支持技術(shù),并采用糧情詞典與Flat-lattice結(jié)合的方法從多源異構(gòu)數(shù)據(jù)中抽取出糧情實(shí)體用于后續(xù)構(gòu)建基于知識圖譜的糧情決策支持。經(jīng)過實(shí)驗(yàn),結(jié)合糧情詞典與Flat-lattice抽取實(shí)體F1值最高達(dá)到94.29%。
將知識圖譜技術(shù)用于決策支持,既能挖掘出數(shù)據(jù)間的深層關(guān)聯(lián)關(guān)系,還能有效利用先驗(yàn)知識進(jìn)行輔助決策。構(gòu)建糧情知識圖譜決策支持系統(tǒng)不僅能為儲糧安全提供信息保障,為農(nóng)民提供科學(xué)決策,還能為科研人員提供研究參考。同時(shí)構(gòu)建基于知識圖譜的糧情決策支持也是智能農(nóng)業(yè)的一部分,更是響應(yīng)國家提出的“農(nóng)業(yè)信息化”的號召。盡管對基于知識圖譜的糧情決策支持系統(tǒng)做了很多嘗試,但是還不夠深入和完善,需要更進(jìn)一步的研究。未來研究團(tuán)隊(duì)將探索如何從多源異構(gòu)數(shù)據(jù)中自動化構(gòu)建糧情知識圖譜,并深入研究如何利用知識圖譜的知識進(jìn)行糧情決策。