• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      面向聯(lián)合收割機故障診斷領域知識圖譜的構建技術及其問答應用

      2024-06-17 03:42:20楊寧楊林楠陳健
      中國農機化學報 2024年6期
      關鍵詞:聯(lián)合收割機知識圖譜故障診斷

      楊寧 楊林楠 陳健

      摘要:聯(lián)合收割機作為一種有效的機械化收割設備,可以極大地提高農作物的收獲效率。然而在進行收割作業(yè)時不可避免地會發(fā)生一些機械故障,由于駕駛員缺乏專門的維修經驗,無法確定故障發(fā)生的原因以及出現(xiàn)故障后應該如何維修機器,導致嚴重影響農作物的收獲,甚至還可能引發(fā)安全事故。由于知識圖譜能夠利用圖數(shù)據(jù)庫將專家知識等非結化數(shù)據(jù)進行規(guī)范化的存儲,所以在故障診斷問答領域,知識圖譜有著良好的應用前景,基于此提出一套面向聯(lián)合收割機故障診斷領域知識圖譜的構建方法。根據(jù)專家知識明確知識圖譜中所需要的實體和實體關系類型,利用RoBERTa-wwm-ext預訓練模型融合雙向門控循環(huán)單元(BiGRU)和Transformer編碼器的實體抽取模型對非結構化文本進行實體抽取;利用RoBERTa-wwm-ext預訓練模型融合循環(huán)神經網(wǎng)絡(RNN)模型對抽取的實體進行實體審核;在實體審核完成后使用RoBERTa-wwm-ext預訓練模型融合雙向門控循環(huán)單元(BiGRU)和注意力機制的關系抽取模型對頭實體和尾實體之間存在的實體關系進行抽??;將抽取到的實體和實體關系組成三元組,利用三元組構建知識圖譜,從而可以利用知識圖譜實現(xiàn)智能問答。

      關鍵詞:聯(lián)合收割機;知識圖譜;預訓練模型;故障診斷;雙向門控循環(huán)單元

      中圖分類號:S225

      文獻標識碼:A

      文章編號:2095-5553 (2024) 06-0170-08

      收稿日期:2022年11月27日

      修回日期:2023年1月6日

      *基金項目:國家重點研發(fā)計劃(2021YFD1000205)

      第一作者:楊寧,男,1997年生,山東濱州人,碩士研究生;研究方向為自然語言處理。E-mail: 804141529@qq.com

      通訊作者:楊林楠,男,1964年生,云南保山人,博士,教授;研究方向為農業(yè)信息化。E-mail: lny5400@163.com

      Construction techniques for knowledge graphs in the field of combine harvester fault

      diagnosis and their question and answer applications

      Yang Ning1, 2, 3, Yang Linnan1, 2, 3, Chen Jian1, 2, 3

      (1. School of Big Data, Yunnan Agricultural University, Kunming, 650201, China; 2. Agricultural Big Data Engineering Research Center of Yunnan Province, Kunming, 650201, China; 3. Green Agricultural Product Big Data Intelligent Information Processing Engineering Research Center, Kunming, 650201, China)

      Abstract: As an effective mechanized harvesting equipment, the combine harvester can greatly improve the harvesting efficiency of crops. However, it is inevitable that some mechanical failures will occur during harvesting operations. Since the driver lacks specialized maintenance experience, he does not know the cause of the failure and how to repair the machine when the failure occurs. This will seriously affect the harvest of crops, and even it may also cause safety accidents. Since knowledge graphs can use graph databases to store unstructured data such as expert knowledge in a standardized manner, knowledge graphs have good application prospects in the field of fault diagnosis question and answer. Based on this, a set of knowledge graphs for combine harvester fault diagnosis is proposed. Firstly, the entities and entity relationship types required in the knowledge graph are clarified based on expert knowledge, the entity extraction model of the Bidirectional Gated Recurrent Unit (BiGRU) and the Transformer encoder is combined with the RoBERTa-wwm-ext pre-training model to extract entities from unstructured text. Secondly, the RoBERTa-wwm-ext pre-training model is again used to fuse the recurrent neural network (RNN) model to conduct entity review of the extracted entities. Thirdly, after the entity review is completed, the RoBERTa-wwm-ext pre-training model is used to extract the entity relationships existing between the head entity and the tail entity, by combining the relationship between the Bidirectional Gated Recurrent Unit (BiGRU) and the attention mechanism. Finally, the extracted entities and entity relationships are formed into triples, and the triples are used to build a knowledge graph, so that the knowledge graph can be used to implement intelligent question and answer.

      Keywords: combine harvester; knowledge graph; pre-training model; fault diagnosis; bidirectional gated recurrent unit

      0 引言

      知識圖譜其本質是將結構化的知識存入知識庫,用來對物理世界中的相互關系及其概念進行描述?!皩嶓w—關系—實體”的三元組類型,以及相關“屬性—值對”是構成知識圖譜的基本組成單位,實體之間通過關系相互聯(lián)結,構成了網(wǎng)狀的知識結構[1]。

      知識圖譜自誕生以來在問答領域[2]就得到了廣泛的應用。王寅秋等[3]利用專業(yè)的醫(yī)療知識圖譜,讓公眾能夠在醫(yī)療社區(qū)中更便利、更準確地獲取有價值的信息。曹明宇等[4]針對成人中常見的原發(fā)性肝癌,從知識庫中抽取知識三元組構建了原發(fā)性肝癌的知識圖譜,在此基礎上實現(xiàn)了能夠有效回答原發(fā)性肝癌相關的藥物、疾病及表征等問題。

      借鑒知識圖譜在問答領域的成功應用,國內外也已經有相關文獻將知識圖譜引入到故障診斷問答領域。薛蓮等[5]提出了一種磁懸浮軸承故障領域知識圖譜構建方法,對磁懸浮故障領域的故障診斷具有一定的指導意義。吳闖等[6]提出了一套面向航空發(fā)動機潤滑系統(tǒng)的故障知識圖譜構建方法,實現(xiàn)了潤滑系統(tǒng)故障知識智能問答和故障歸因分析應用。然而針對聯(lián)合收割機故障診斷的知識圖譜構建方法及其問答應用還尚未有研究。

      聯(lián)合收割機在出廠的時候,從事研發(fā)和測試的相關人員會根據(jù)研發(fā)和測試的數(shù)據(jù)編寫大量有關聯(lián)合收割機故障診斷的文本數(shù)據(jù),可以利用這些非結構化的文本數(shù)據(jù)結合知識圖譜構建技術從中抽取實體以及實體之間的關系組成三元組來構建知識圖譜。因此,提出一套面向聯(lián)合收割機故障診斷知識圖譜的構建及應用流程。

      1 聯(lián)合收割機故障診斷領域知識圖譜總體構建流程

      如圖1所示,面向聯(lián)合收割機故障診斷知識圖譜的構建主要分為兩層。第一層為數(shù)據(jù)層,主要以權威的故障診斷書籍以及專業(yè)的論文作為數(shù)據(jù)來源構建起原始語料庫。第二層為構建層,構建知識圖譜主要分為兩種,一種是自底向上的構建方法在構建通用知識圖譜時比較合適,另一種是自頂向下的構建方法在構建垂直行業(yè)知識圖譜時較為適用[7]。由于在故障診斷領域是較為專業(yè)的垂直領域,所以本文采用自頂向下的構建方法。為了減小實體抽取誤差對實體關系抽取的影響,相較于傳統(tǒng)自頂向下構建知識圖譜方法,本文在實體抽取和關系抽取之間加入實體審核任務,用來規(guī)避一些不規(guī)范的實體。

      2 本體構建

      本體是一個數(shù)據(jù)模型,表示一組概念以及一個域中這些概念之間的關系[8]。在構建對某一專業(yè)領域的圖譜時,應根據(jù)專家知識先行構建該圖譜的本體,為后續(xù)的實體抽取和關系抽取提供規(guī)范。本體構建主要包括規(guī)定實體類型、規(guī)定實體關系類型、確定頭實體和尾實體。

      對聯(lián)合收割機故障診斷知識圖譜規(guī)定的實體類型為故障部位、故障名稱、故障原因以及故障維修。關系類型及其頭、尾實體如表1所示。構建完成的本體可視化結構如圖2所示。

      3 實體抽取

      3.1 實體抽取模型

      在知識圖譜中每個節(jié)點都是由實體構成,因此在構建知識圖譜時需要利用實體抽取模型參照構建的實體類型對相關領域的非結構化文本進行實體抽取。在深度學習技術出現(xiàn)之前,像隱馬爾可夫(HMM)、最大熵隱馬爾可夫(EMHMM)大部分都是基于線性統(tǒng)計模型來實現(xiàn)的實體抽取的。隨著近幾年深度學習的不斷發(fā)展,基于端到端的實體抽取模型不斷地被提出,其中最為經典的是由Huang等[9]提出的BiLSTM+CRF模型,并在實體抽取中取得了不錯的成績。后來又有研究人員將以BERT為代表的預訓練模型加入BiLSTM+CRF中,使得實體抽取的效果得到了進一步的提升,也使得BERT+BiLSTM+CRF成為目前主流的實體抽取模型。

      本文針對聯(lián)合收割故障診斷領域的實體抽取對BERT+BiLSTM+CRF模型進行了改進,提出了RoBERTa-wwm-ext+BiGRU+Multi-Head-Self-Attention+CRF模型。模型圖如圖3所示,該模型主要利用的是RoBERTa-wwm-ext預訓練模型作為詞嵌入層,將Transformer的編碼器層融合雙向門控循環(huán)單元(BiGRU)作為的上下文編碼器,最后利用條件隨機場(CRF)作為解碼器進行實體的輸出。

      3.2 詞嵌入層

      RoBERTa預訓練模型是Liu等[10]沿著BERT預訓練模型的訓練思路,針對BERT在訓練中存在的不足之處進行了改進從而提出的一種新的預訓練模型,通過使用動態(tài)掩碼策略、調整優(yōu)化器參數(shù)和使用更大的字符編碼等方法使得RoBERTa預訓練模型的性能要比BERT預訓練模型更加優(yōu)秀。RoBERTa-wwm-ext是根據(jù)Cui等[11]提出的全詞遮蔽(WWM)策略使用中文數(shù)據(jù)集重新訓練RoBERTa所得到的一種新的預訓練模型。全詞遮蔽策略是對詞語作遮蔽語言訓練,因為中文的詞語由多個字符組成,直接遮蔽單個字符可能會導致語義信息的丟失。通過使用全詞遮蔽策略,能夠更好地捕捉中文詞語的完整語義,從而提高模型在中文自然語言處理任務中的表現(xiàn)。

      3.3 位置編碼器

      在自然語言中,每一句話都是由單詞構成,單詞在句子中出現(xiàn)的位置不同代表的語義信息也就不同。Transformer不同于時序類的神經網(wǎng)絡,其通過自注意力機制來獲取句子中詞與詞之間的關系,但是自注意力機制無法獲取詞在句子中位置信息,故需要在詞向量進入Transformer編碼器前加入位置編碼器,這樣就可以將詞匯在不同位置產生語義信息添加到詞嵌入的張量中去,彌補了信息的缺失。位置編碼器主要使用的絕對位置編碼,是由sin函數(shù)和cos函數(shù)的線性變換來提供給模型位置信息,計算如式(1)、式(2)所示。其中,pos代表當前字符在序列中位置,從1到序列長度的范圍內取值;i代表嵌入向量的維度的索引;dmodel代表嵌入向量的維度,即每個元素在嵌入空間中的表示維度;PE(pos,2i)代表絕對位置編碼中的正弦函數(shù)部分,在位置pos和維度2i上的正弦值;PE(pos,2i+1)代表絕對位置編碼中的余弦函數(shù)部分,表示在位置pos和維度2i+1上的余弦值。這些變量在絕對位置編碼的公式中通過正弦和余弦的運算,為序列中的每個位置pos的每個維度i提供了一個獨特的編碼值,以便模型能夠理解輸入序列中不同位置的元素。

      PE(pos,2i)=sinpos10 0002idmodel(1)

      PE(pos,2i+1)=cospos10 0002idmodel(2)

      3.4 上下文編碼層

      上下文編碼層主要是由Transformer的編碼器層和雙向門控循環(huán)單元(BiGRU)組成。Transformer編碼器對于句子語義信息能夠進行很好的挖掘,融合雙向循環(huán)門控單元對目標詞的上下文進行區(qū)分,兩者相互融合使得獲取的詞向量更加符合語義信息。

      在Transformer編碼器中主要是利用多頭自注意力來獲取單詞在句子中的語義信息。多頭自注意力的計算規(guī)則是一個詞的詞向量Xt={x1,x2,x3,x4,…},其中xi是輸入序列的第i個元素,根據(jù)規(guī)定的頭數(shù)平均分割,每一個分割下來的向量進行三個線性變換乘以三個不同的權重矩陣Wq、Wk、Wv得到三個形狀相同但數(shù)值不同的向量Qi(query)、Ki(key)、Vi(value),將Qi與所有的鍵Kj的轉置做點積運算,然后除以一個縮放系數(shù)dk,dk是鍵Kj的維度。再使用softmax處理,這里的softmax函數(shù)將計算每個注意力分數(shù)的指數(shù),然后對它們進行歸一化,使它們的和等于1,最后與Vj做張量乘法,這里的Vj值向量序列的第j個元素,最后將每個分割下來的向量再重新拼接,拼接后的向量就是經過多頭注意力計算后的詞向量。在這里需要注意當Q、K、V的來源相同時才是自注意力機制。計算圖如圖4所示。計算公式如式(3)所示。

      Attention(Q,K,V)=softmaxQi·KTjdk·Vj(3)

      在深度學習網(wǎng)絡中往往會出現(xiàn)退化和訓練困難的問題,因此Transformer編碼器加入了殘差網(wǎng)絡和層歸一化,優(yōu)化了在訓練過程存在的梯度消失和訓練困難的問題。

      由于傳統(tǒng)的循環(huán)神經網(wǎng)絡(RNN)在時間方向進行反向傳播更新梯度參數(shù)時會流經tanh節(jié)點和矩陣乘機節(jié)點。y=tanh(x)的導數(shù)為dydx=1-y2,根據(jù)其導數(shù)可知,當導數(shù)的值小于1時,隨著x的值在正數(shù)方向不斷增加,導數(shù)的值是越來越接近于0的,這就意味著如果梯度經過tanh節(jié)點過多的話,導數(shù)的值就會慢慢趨近于0,從而出現(xiàn)梯度消失的現(xiàn)象,一旦出現(xiàn)梯度消失,權重參數(shù)將無法進行更新,這也是傳統(tǒng)循環(huán)神經網(wǎng)絡無法學習到長時序依賴的主要原因之一。當梯度經過矩陣乘機節(jié)點時梯度會隨著時間步的增加呈現(xiàn)出指數(shù)級別的增長,當梯度過于龐大時就會出現(xiàn)非數(shù)值,導致神經網(wǎng)絡無法進行學習,從而引發(fā)梯度爆炸。長短時記憶網(wǎng)絡(LSTM)通過引進輸入門、遺忘門和輸出門在一定程度緩解了傳統(tǒng)循環(huán)神經網(wǎng)絡所帶來的問題[12]。門控循環(huán)單元(GRU)作為LSTM的改進版本,不僅具有LSTM的優(yōu)勢而且還減少了計算成本和參數(shù)。GRU計算圖如圖5所示,由于沒有記憶單元,只有一個隱藏狀態(tài)h參與門控循環(huán)單元在時間上的傳播,所以門控循環(huán)單元只設置了重置門r和更新門z,降低了計算成本。重置門是決定在多大程度上“忽略”過去的隱藏信息,更新門則是對新增的信息進行加權。門控循環(huán)單元計算如式(4)~式(7)所示,其中h~是新的隱藏狀態(tài)。由于單向的門控循環(huán)單元只能學習到上文的信息,而沒有辦法學習到下文的信息,然而利用雙向的門控循環(huán)單元不僅可以學習到上文的信息也可以學習到下文的信息,提高了模型對實體的抽取精度。

      z=σ(xtW(z)x+ht-1W(z)h+b(z))(4)

      r=σ(xtW(r)x+ht-1W(r)h+b(r))(5)

      h~=tanh(xtWx+(r⊙ht-1)Wh+b)(6)

      ht=(1-z)⊙ht-1+z⊙h~(7)

      式中:xt——輸入矩陣;

      ht——隱藏狀態(tài)矩陣;

      ht-1——前一個隱藏狀態(tài)矩陣;

      Wx——輸入狀態(tài)權重矩陣;

      Wh——隱藏狀態(tài)權重矩陣;

      b——輸出偏置項。

      3.5 解碼層

      條件隨機場(CRF)是一種給定輸入隨機變量X,求解條件概率P(y|x)的概率無向圖模型。因為隱馬爾可夫模型(HMM)存在觀察獨立假設和隱馬爾可夫鏈,所以對于序列標注問題不是很合理。最大熵模型(EM)在進行序列標注的時候會出現(xiàn)標簽偏離的情況。條件隨機場是在這兩個模型的基礎上提出的一種判別生成模型,不僅打破了隱馬爾可夫模型的兩個假設而且還對最大熵模型存在標簽偏差的問題進行了修正,使模型在序列標注問題上可以做到全局的歸一化,對標簽進行更好的預測。建模公式如式(8)所示,給定一個序列s=[s1,s2,…,sT]其對應標簽序列為y=[y1,y2,…,yT],Y(s)代表所有有效標簽的序列,y的概率是由式(8)計算得出的。在式(8)中f(yt-1,yt,s)是計算yt-1到y(tǒng)t的轉化分數(shù),來最大化P(y|s),使用維特比算法找到最優(yōu)的標簽路徑輸出,e代表指數(shù)函數(shù)。

      P(y|s)=∑Tt=1ef(yt-1,yt,s)∑Y(s)y∑Tt=1ef(yt-1,y′t,s)(8)

      3.6 試驗與分析

      根據(jù)構建的聯(lián)合收割機故障診斷語料庫,采用BIO標記,利用YEEDA[13]實體標記工具共標記實體8 159個,“故障部位”4 147個實體、“故障原因”1 514個實體,“故障維修”1 014個實體、“故障名稱”1 484個實體。實體標注結果如表2所示。實體抽取模型中超參數(shù)的參數(shù)配置如表3所示。

      將實體抽取數(shù)據(jù)集按照8∶2的比例來劃分訓練集和測試集,參照混淆矩陣用精確率P(Precision),召回率R(Recall)和F1值(F1-measure)作為評價指標。其計算如式(9)~式(11)所示。

      P=TPTP+FP(9)

      R=TPTP+FN(10)

      F1=2×P×RP+R(11)

      式中:TP——模型預測為正類的正樣本;

      FP——模型預測為正類的負樣本;

      FN——模型預測為負類的正樣本。

      為了驗證RoBERTa-wwm-ext+BiGRU+Multi-Head-Self-Attention+CRF模型優(yōu)于傳統(tǒng)的BERT+BiLSTM+CRF模型,所以本文進行了模型對比試驗,模型對比結果如表4所示。從模型對比結果可知,RoBERTa-wwm-ext+BiGRU+Multi-Head-Self-Attention+CRF的準確率、召回率和F1值均優(yōu)于傳統(tǒng)的BERT+BiLSTM+CRF模型。

      4 實體審核

      4.1 實體審核模型

      因為實體關系抽取任務會用到實體抽取的結果,所以實體抽取結果的好壞會影響實體關系抽取結果的好壞,因為實體抽取模型抽取實體的準確度并不能達到100%所以會存在一些實體抽取的誤差,所以我們在實體抽取任務和實體關系抽取任務之間加入實體審核任務,目的就是為了減小這個誤差對實體關系抽取的影響。在審核的過程中模型主要是根據(jù)字符本身的組合方式來進行判別,實際上,這是一種不需要獲取長時序關系的文本分類任務。再加上RNN循環(huán)神經網(wǎng)絡模型的參數(shù)較少,計算比較簡單,對于獲取短時序本文關系的效果和性能都能達到很好的均衡,所以選用RNN循環(huán)神經網(wǎng)絡來解決短文本分類任務。實體審核模型架構如圖6所示,該模型主要包含詞嵌入層和循環(huán)神經網(wǎng)絡層。

      每條文本在經過實體抽取后會將抽取出來的實體保存為文本類型的文件,用于實體審核模型的輸入。例如一段文本‘通常作物產量愈高前進速度就愈慢否則易發(fā)生堵塞或超負荷現(xiàn)象。當實體抽取模型能夠準確地抽取出文本中所存在的故障名稱實體為“堵塞”和“超負荷”時,就會通過實體審核進入下一個環(huán)節(jié),反之將由人工根據(jù)本文重新進行提取后進入下一個環(huán)節(jié)。

      4.2 實體審核數(shù)據(jù)集與數(shù)據(jù)分析

      實體審核數(shù)據(jù)集樣例如表5所示,實體審核數(shù)據(jù)集樣本分析如表6所示。根據(jù)表6可知,實體審核數(shù)據(jù)樣本的平均長度是5.11,長度中位數(shù)是4.0,因此實體審核數(shù)據(jù)集屬于短文本,使用RNN循環(huán)神經網(wǎng)絡就可以達到很好的分類效果。

      4.3 RNN循環(huán)神經網(wǎng)絡

      存在一個環(huán)路是循環(huán)神經網(wǎng)絡(RNN)最主要的特征,通過這個環(huán)路數(shù)據(jù)就可以不斷地得到循環(huán),正是循環(huán)神經網(wǎng)絡存在這樣的特征,才使得循環(huán)神經網(wǎng)絡在記住過去數(shù)據(jù)信息的同時還可以更新數(shù)據(jù)。如圖7所示,通過展開RNN層的循環(huán),將其轉化成了從左向右延伸的長神經網(wǎng)絡,每個時刻的RNN層前面是輸入后面是輸出,據(jù)此可以計算出當前時刻的輸出,計算如式(12)所示。在式(12)中,首先執(zhí)行矩陣的乘積運算,然后使用tanh函數(shù)變換它們的和,其結果就是時刻t的輸出ht,這個ht有兩個不同的流向,向上輸出到下一個計算層,向右輸出到下一個循環(huán)神經網(wǎng)絡層?,F(xiàn)在的出處ht是由前一個輸出ht-1計算出來的,這就說明RNN的狀態(tài)h是通過式(12)來更新的。

      ht=tanh(ht-1Wh+xtWx+b)(12)

      4.4 試驗與分析

      將3 000條實體審核數(shù)據(jù)按照8∶2的比例來劃分訓練集和測試集,訓練的損失值和準確值如圖8、圖9所示。從圖8可以看出,基于RoBERTa-wwm-ext預訓練模型融合循環(huán)神經網(wǎng)絡的實體審核模型的準確率可以達到98.20%,具有很好的實體審核效果。

      5 實體關系抽取

      5.1 實體關系抽取模型

      實體關系抽取是在已完成實體識別的基礎上,檢索實體間所存在的關系,目前主流的抽取方法主要是基于規(guī)則和監(jiān)督學習的方法[14]?;谝?guī)則的抽取方法雖然抽取的準確度較高但是存在覆蓋率低和移植困難等問題?;诒O(jiān)督學習方法旨在通過標注部分相關數(shù)據(jù)集去訓練一個關系抽取模型。本文模型架構如圖10所示。

      本文所使用的是基于監(jiān)督學習的方法,通過改進模型來提高實體關系抽取的準確度。基于注意力機制的雙向長短期記憶網(wǎng)絡(BiLSTM)關系抽取算法是由Zhou等[15]在2016年自然語言處理處理(Natural Language Processing,NLP)領域的國際頂級會議Association for Computational Linguistics(ACL)上提出的。本文在此模型的基礎上加入了預訓練模型,將雙向長短期記憶網(wǎng)絡換成了雙向門控循環(huán)單元,不僅極大地提高了實體關系的抽取準確率,而且計算成本更低。

      5.2 注意力機制

      當人們去觀察新事物的時候,大腦會把焦點聚焦在事物中比較重要的地方,不需要從頭到尾觀察一遍事物后,才能有判斷結果,注意力機制的提出正是基于這樣的理論。注意力機制最早是由Mnih等[16]在計算機視覺領域提出,Bahdanau等[17]首次將注意力機制應用在自然語言處理領域,使機器翻譯的效果得到了提升。2017年,文獻[18]在機器翻譯任務中使用了注意力機制取得良好的效果。注意力機制的計算規(guī)則是詞向量H={h1,h2,h3,…,hn}經過tanh激活函數(shù)計算以后乘以權重矩陣W得到相似值,利用softmax函數(shù)將相似值歸一化,詞向量H再和歸一化后的相似值相乘得到經過注意力計算后的詞向量。計算公式如式(13)~式(16)所示。

      M=tanh(H)(13)

      S=M·W(14)

      a=softmax(S)(15)

      Fatt=H·aT(16)

      5.3 試驗與分析

      將構建好的500條關系抽取數(shù)據(jù)集按照8∶2的比例劃分出訓練集、測試集,實體關系抽取數(shù)據(jù)集樣例如表7所示,模型超參數(shù)配置如表8所示。

      為了驗證本文實體關系抽取模型的有效性和準確性,本文選取了傳統(tǒng)的BERT+BiLSTM+Attention模型進行對比試驗,如表9所示。結果表明本文的關系抽取模模型的準確率、召回率和F1值均優(yōu)于傳統(tǒng)的關系抽取模型。

      6 圖譜構建

      將抽取到的實體和實體關系以三元組的形式存入到Neo4j圖數(shù)據(jù)庫中,構建起聯(lián)合收割機故障診斷知識圖譜。圖譜的可視化數(shù)據(jù)如圖11所示。

      7 智能問答

      7.1 意圖分析

      意圖識別是進行知識問答的開始,也是機器人理解用戶語義的前提,其主要任務是準確判斷用戶有什么樣的需求,根據(jù)用戶所提出的問題進行歸類,本質上也是一項文本分類任務。意圖槽不同所對應的意圖也就不相同,意圖分類的準確性也會直接影響到標簽的識別和條件體、目標體的識別,因此一個好的意圖識別方法對實現(xiàn)知識問答尤為重要。意圖識別的方法主要包括基于監(jiān)督學習的方法和基于規(guī)則詞典的方法,由于缺乏相關的訓練語料,本文將選擇基于關鍵字和規(guī)則的問題方式來進行意圖識別。

      7.2 基于詞典規(guī)則的意圖分類

      基于詞典規(guī)則的意圖識別方法需要構建規(guī)則模板以及類別信息來對用戶的意圖進行分類[19]。意圖不同所匹配的領域字典也會不同,當接收到用戶的意圖后,會根據(jù)意圖和詞典的匹配程度或者重合程度來進行判斷。雖然基于詞典規(guī)則的意圖識別方法會存在人力物力耗費大、難以維護和移植性較差等缺點,但是在小規(guī)模的數(shù)據(jù)集上構造相對容易,識別準確度高,對于缺乏訓練語料的小樣本數(shù)據(jù)來說效果很好。

      7.3 應用

      利用Python編程語言中內置的服務器訪問模塊,訪問服務器。將對話接口接入到智能問答應用中,用戶只需要下載相對應的手機應用輸入想問的問題,如果數(shù)據(jù)庫中存在能夠回答相關問題的答案,機器人便會實現(xiàn)智能問答。

      8 結論

      1) 聯(lián)合收割機在進行收割作業(yè)時容易發(fā)生機械故障,針對這個問題借鑒了知識圖譜在故障診斷領域的成功經驗,提出一套面向聯(lián)合收割機故障診斷的知識圖譜構建方法和流程。

      2) 以專業(yè)的聯(lián)合收割機維修書籍和論文為原始語料,構建起13萬字的命名實體識別數(shù)據(jù)集,3 000條實體審核數(shù)據(jù)集,500條實體關系數(shù)據(jù)集,為后續(xù)的模型研究提供可靠的數(shù)據(jù)的支撐。

      3) 未來還將進一步提高模型的抽取精度,建立更加可靠的農機故障診斷知識圖譜,更好地服務于廣大農機駕駛員朋友。

      參 考 文 獻

      [1]劉嶠, 李楊, 段宏, 等. 知識圖譜構建技術綜述[J]. 計算機研究與發(fā)展, 2016, 53(3): 582-600.

      Liu Qiao, Li Yang, Duan Hong, et al. Knowledge graph construction techniques [J]. Journal of Computer Research and Development, 2016, 53(3): 582-600.

      [2]王智悅, 于清, 王楠, 等. 基于知識圖譜的智能問答研究綜述[J]. 計算機工程與應用, 2020, 56(23): 1-11.

      Wang Zhiyue, Yu Qing, Wang Nan, et al. Survey of intelligent question answering research based on knowledge graph [J]. Computer Engineering and Applications, 2020, 56(23): 1-11.

      [3]王寅秋, 虞為, 陳俊鵬. 融合知識圖譜的中文醫(yī)療問答社區(qū)自動問答研究[J]. 數(shù)據(jù)分析與知識發(fā)現(xiàn), 2023, 7(3): 97-109.

      Wang Yinqiu, Yu Wei, Chen Junpeng. Automatic question-answering in Chinese medical Q & A community with knowledge graph [J]. Data Analysis and Knowledge Discovery, 2023, 7(3): 97-109.

      [4]曹明宇, 李青青, 楊志豪, 等. 基于知識圖譜的原發(fā)性肝癌知識問答系統(tǒng)[J]. 中文信息學報, 2019, 33(6): 88-93.

      Cao Mingyu, Li Qingqing, Yang Zhihao, et al. A question answering system for primary liver cancer based on knowledge graph [J]. Journal of Chinese Information Processing, 2019, 33(6): 88-93

      [5]薛蓮, 姚新文, 鄭啟明, 等. 高鐵列控車載設備故障知識圖譜構建方法研究[J]. 鐵道科學與工程學報, 2023, 20(1): 34-43.

      Xue Lian, Yao Xinwen, Zheng Qiming, et al. Research on construction method of fault knowledge graph of CTCS on-board equipment [J]. Journal of Railway Science and Engineering, 2023, 20(1): 34-43.

      [6]吳闖, 張亮, 唐希浪, 等. 航空發(fā)動機潤滑系統(tǒng)故障知識圖譜構建及應用[J]. 北京航空航天大學學報, 2024(2): 1-14.

      Wu Chuang, Zhang Liang, Tang Xilang, et al. Construction and application of fault knowledge graph for aero-engine lubrication system [J]. Journal of Beijing University of Aeronautics and Astronautics, 2024(2): 1-14.

      [7]瞿智豪, 胡建鵬, 黃子麒, 等. 工業(yè)設備故障處置知識圖譜構建與應用研究[J]. 計算機工程與應用, 2023, 59(24): 309-318.

      Qu Zhihao, Hu Jianpeng, Huang Ziqi, et al. Research on construction and application of knowledge graph for industrial equipment fault disposal [J]. Computer Engineering and Applications, 2023, 59(24): 309-318.

      [8]譚玲, 鄂海紅, 匡澤民, 等. 醫(yī)學知識圖譜構建關鍵技術及研究進展[J]. 大數(shù)據(jù), 2021, 7(4): 80-104.

      Tan Ling, E Haihong, Kuang Zemin, et al. Key technologies and research progress of medical knowledge graph construction [J]. Big Data Research, 2021, 7(4): 80-104.

      [9]Huang Z, Xu W, Yu K. Bidirectional LSTM-CRF models for sequence tagging [J]. arXiv Preprint arXiv: 1508.01991, 2015.

      [10]Liu Y, Ott M, Goyal N, et al. RoBERTa: A robustly optimized BERT pretraining approach [J]. arXiv Preprint arXiv: 1907.11692, 2019.

      [11]Cui Y, Che W, Liu T, et al. Pre-training with whole word masking for Chinese bert [C]. IEEE/ACM Transactions on Audio, Speech, and Language Processing, 2021, 29 (13): 3504.

      [12]Hochreiter S, Schmidhuber J. Long short-term memory [J]. Neural Computation, 1997, 9(8): 1735-1780.

      [13]Yang J, Zhang Y, Li L, et al. YEDDA: A lightweight collaborative text span annotation tool [J]. arXiv Preprint arXiv: 1711.03759, 2017.

      [14]王傳棟, 徐嬌, 張永. 實體關系抽取綜述[J]. 計算機工程與應用, 2020, 56(12): 25-36.

      Wang Chuandong, Xu Jiao, Zhang Yong. Survey of entity relation extraction [J]. Computer Engineering and Applications, 2020, 56(12): 25-36.

      [15]Zhou P, Shi W, Tian J, et al. Attention-based bidirectional long short-term memory networks for relation classification [C]. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics (volume 2: Short papers), 2016: 207-212.

      [16]Mnih V, Heess N, Graves A, et al. Recurrent models of visual attention [J]. Advances in Neural Information Processing Systems, 2014, 3.

      [17]Bahdanau D, Cho K, Bengio Y. Neural machine translation by jointly learning to align and translate [J]. arXiv Preprint arXiv: 1409.0473, 2014.

      [18]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need [J]. Advances in Neural Information Processing Systems, 2017, 30.

      [19]羅承天, 葉霞. 基于知識圖譜的推薦算法研究綜述[J]. 計算機工程與應用, 2023, 59(1): 49-60.

      Luo Chengtian, Ye Xia. Survey on knowledge graph-based recommendation methods [J]. Computer Engineering and Applications, 2023, 59(1): 49-60.

      猜你喜歡
      聯(lián)合收割機知識圖譜故障診斷
      聯(lián)合收割機零件的養(yǎng)護及故障的預防
      如何保養(yǎng)聯(lián)合收割機主要工作裝置
      聯(lián)合收割機底盤主要部件的保養(yǎng)方法
      近十五年我國小學英語教學研究的熱點、問題及對策
      基于知識圖譜的產業(yè)集群創(chuàng)新績效可視化分析
      智富時代(2016年12期)2016-12-01 16:28:41
      基于知識圖譜的智慧教育研究熱點與趨勢分析
      從《ET&S》與《電化教育研究》對比分析中管窺教育技術發(fā)展
      聯(lián)合收割機技術保養(yǎng)綜述
      因果圖定性分析法及其在故障診斷中的應用
      基于LCD和排列熵的滾動軸承故障診斷
      达拉特旗| 郓城县| 葫芦岛市| 株洲县| 哈尔滨市| 惠来县| 三江| 河津市| 洪雅县| 遵义县| 肇州县| 维西| 山东省| 资中县| 鱼台县| 东乡族自治县| 马鞍山市| 博野县| 营山县| 凤凰县| 色达县| 瑞丽市| 锡林浩特市| 金寨县| 新余市| 英山县| 醴陵市| 始兴县| 佛坪县| 东兰县| 夏邑县| 库尔勒市| 五家渠市| 嘉峪关市| 海门市| 澳门| 内黄县| 清丰县| 唐海县| 安顺市| 吴桥县|