• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看

      ?

      基于PCNN-Attention的土壤肥力關(guān)系抽取研究

      2022-09-21 03:34:18周樂樂張彩麗劉楠楠
      安徽農(nóng)業(yè)科學 2022年17期
      關(guān)鍵詞:土壤肥力注意力實體

      季 豐,周樂樂,張彩麗,任 竹,劉楠楠,陳 磊

      (安徽省農(nóng)業(yè)科學院農(nóng)業(yè)經(jīng)濟與信息研究所,安徽合肥 230001)

      在農(nóng)業(yè)生產(chǎn)的過程中,準確、迅速地獲取土壤肥力相關(guān)數(shù)據(jù),進行綜合評估與分析,對精準農(nóng)業(yè)生產(chǎn)具有重要的意義。隨著時代的進步,計算機技術(shù)在農(nóng)業(yè)生產(chǎn)領域得到了普遍的應用。利用知識圖譜構(gòu)建土壤肥力知識問答系統(tǒng),能夠有效、快速獲取土壤肥力的相關(guān)數(shù)據(jù),有助于開展精細化農(nóng)業(yè)生產(chǎn)。

      關(guān)系抽取(Relation Extraction,RE)是知識圖譜構(gòu)建中的重要環(huán)節(jié),具有關(guān)鍵的理論意義和豐富的應用前景,為多種應用提供重要的支持。關(guān)系抽取主要負責在命名實體識別的基礎上,抽取實體間的語義關(guān)系,組成實體A、關(guān)系、實體B的結(jié)構(gòu)形式。一個完整的RE系統(tǒng)包含3部分:實體識別(用于抽取文本中的實體)、實體鏈接(將抽取的實體和已有的知識圖譜關(guān)聯(lián))、關(guān)系分類(根據(jù)上下文對實體關(guān)系進行分類)。

      在中文土壤肥力相關(guān)的文本中,存在“一個文本中存在多種指標類型”“有些存在關(guān)系的實體之間距離較遠,抽取困難”“文本中對同一種指標的描述方式不一樣”等問題,傳統(tǒng)的關(guān)系抽取方法效果一般,針對這類問題,筆者提出了一種基于PCNN-Attention的土壤肥力關(guān)系抽取方法,能夠較好適用于土壤肥力領域的文本,滿足土壤肥力知識圖譜系統(tǒng)構(gòu)建的需求。

      1 相關(guān)研究

      關(guān)系抽取的方法大致有監(jiān)督學習、半監(jiān)督學習及無監(jiān)督學習3類。其中監(jiān)督學習使用的數(shù)據(jù)集通常經(jīng)過完全正確的標注,因此只需要對關(guān)系進行分類即可。半監(jiān)督學習是通過人工部分標注文本,從而構(gòu)建模板,通過模板選取實力組成訓練集,這種方法受到模板構(gòu)建和規(guī)則的影響,會產(chǎn)生噪聲影響結(jié)果,從而使數(shù)據(jù)精確度較低。 無監(jiān)督學習不需要進行人工標注,而是利用語料中的冗余信息進行聚類,通過結(jié)果判斷關(guān)系,但由于聚類方法對關(guān)系的描述不夠準確,無監(jiān)督學習通常無法取得精確的關(guān)系抽取效果。

      監(jiān)督學習方面,2013年Liu等提出了使用卷積神經(jīng)網(wǎng)絡進行關(guān)系抽取。與傳統(tǒng)方法相比,提高了準確度。 2014年Zeng等改良此方法,對輸入的詞向量進行預處理,同時加入了實體的詞匯特征,優(yōu)化了關(guān)系分類的效果。之后,Zhang等提出使用循環(huán)神經(jīng)網(wǎng)絡進行關(guān)系分類,效果顯著優(yōu)于卷積神經(jīng)網(wǎng)絡。Zhou 等借助長短期記憶人工神經(jīng)網(wǎng)絡,并添加注意力機制,提高了分類的準確度。Zhu等嘗試將注意力機制與卷積神經(jīng)網(wǎng)絡相結(jié)合,在英文數(shù)據(jù)集中取得了不錯的效果。在半監(jiān)督學習方面。2015年Zeng等借助多示例學習方法降低噪聲,并優(yōu)化了遠程自動標注導致的數(shù)據(jù)錯誤問題。雖然降低了噪聲對于關(guān)系分類的干擾,但也遺失了部分數(shù)據(jù)。Lin等在此基礎上添加注意力機制,在降低噪聲影響的同時,提高了數(shù)據(jù)的利用率。

      目前英文數(shù)據(jù)集上的關(guān)系抽取研究較為成熟,而因為中文數(shù)據(jù)集的缺失,中文關(guān)系抽取領域研究較薄弱。Wu等結(jié)合注意力機制和卷積神經(jīng)網(wǎng)絡嘗試進行中文關(guān)系抽取,在中文文本數(shù)據(jù)上提升了準確性。丁澤源等利用結(jié)合注意力機制的雙向長短期記憶網(wǎng)絡實現(xiàn)關(guān)系抽取,在中文生物醫(yī)學領域得到了不錯的結(jié)果。姚博文等針對中文人物關(guān)系領域的文本中語法結(jié)構(gòu)復雜,文本語義特征不明顯的問題,通過預訓練模型較強的語義表征能力生成詞向量,并將文本句子分層次進行特征提取,在中文人物關(guān)系數(shù)據(jù)集上驗證了較好的準確性。

      從早期基于模式匹配的關(guān)系抽取到后來基于機器學習的關(guān)系抽取,實體關(guān)系抽取得到了廣泛的關(guān)注。目前隨著以深度學習為基礎的人工智能潮流席卷全球,自然語言處理也取得了突破進展。深度學習下實體關(guān)系抽取有效改善了傳統(tǒng)標注工具的自身缺陷,取得了良好的效果,并成為近些年研究的熱點與關(guān)鍵。然而實體關(guān)系抽取至今仍面臨許多挑戰(zhàn),如實體語義關(guān)系的復雜性、句與句之間實體關(guān)系的模糊性、數(shù)據(jù)規(guī)模不足與模型學習能力的沖突等都制約著實體關(guān)系抽取的發(fā)展。

      2 基于PCNN-Attention的關(guān)系抽取

      采用PCNN-Attention模型實現(xiàn)關(guān)系抽取,模型結(jié)構(gòu)如圖1所示,包括BERT預訓練語言模型、卷積層、分段池化層以及Softmax分類層。

      圖1 模型結(jié)構(gòu)Fig.1 Model structure

      本層的作用是對文本進行向量化,與其他模型有所區(qū)別的是,該研究使用的PCNN模型同時考慮單個實體詞語義信息和每個實體詞與其他詞的相對位置,因此需要分為詞向量化和位置向量化2步,從而將輸入的文本轉(zhuǎn)化為向量形式,以便于計算機進行處理。

      訓練數(shù)據(jù)集為中文土壤肥力領域文本,為了便于計算機的處理,利用BERT預訓練語言模型進行詞向量化,訓練得到每個詞對應的向量。

      通過以下方法對句子向量化:首先,將句子拆分為數(shù)個單詞,并將2個實體詞作為基準詞,將其在句子中的位置視為0,分別計算其他詞相對于基準詞的位置。例如,“五蓮縣土壤全氮含量為0.82 g/kg”,可以分為“五蓮縣”“土壤”“全氮”“含量” “為”“0.82 g/kg”6個詞,其中“五蓮縣”和“0.82 g/kg”為實體詞,則其他詞關(guān)于“五蓮縣”的相對位置為[1,2,3,4,5],關(guān)于“0.82 g/kg”的相對位置為[-5,-4,-3,-2,-1]。

      首先將經(jīng)過BERT預訓練語言模型處理的數(shù)據(jù)輸入本層進行卷積,本層設計了3個卷積,每個卷積包含100個卷積核,卷積核的大小為1*3,1*5,1*7。

      依據(jù)中文土壤肥力領域文本的特征,本層采用了GELU激活函數(shù)。設輸入為,公式為式(1)所示:

      (1)

      本層功能是將卷積層輸出結(jié)果進行分段,再分別池化。由圖2可知,模型將句子按照實體詞的位置分段,分別為句首~實體1、實體1~實體2、實體2~句末,再分別進行池化。

      圖2 分段池化Fig.2 Segmented pooling

      句子分段完成后,對3部分分別進行填充,按照其中最長的1個分句的長度為基準,分別對另外2部分進行填充,并將填充的位置標注為1,未填充的位置標注為0。

      由于句子被2個實體詞分為3段,每個卷積核的輸出同樣為3份,若設卷積核的數(shù)量是,本層的輸出向量是一個長度為3的向量,如式(2)所示:

      (2)

      為了防止模型過擬合,提高魯棒性,模型在分類前經(jīng)過Dropout層、ReLU層以及線性層處理池化層的輸出,然后對數(shù)據(jù)進行降維操作,借助線性層將維度降到維,為關(guān)系類別。最后采用Softmax進行關(guān)系的分類,通過輸入數(shù)組中第個節(jié)點的值和節(jié)點的個數(shù),即分類的類別數(shù),得到Softmax函數(shù)的輸出值,如式(3)所示:

      (3)

      注意力機制(Attention Mechanism)是深度學習的核心技術(shù)之一,該技術(shù)參考了人類視覺系統(tǒng)的選擇性注意機制,人類視覺可以快速掃描目標,從而獲取目標中的重點區(qū)域,對其投入更多注意力資源,以獲得更多關(guān)注目標的細節(jié),而抑制其他無用信息,提高了視覺信息處理的效率與準確性。借助此機制,在文本數(shù)據(jù)中可對數(shù)據(jù)進行權(quán)重分配,通過信息的重要性來確定權(quán)重,給予重要信息更高的權(quán)重分配,導致其對關(guān)系抽取產(chǎn)生更大的影響,從而提升關(guān)系抽取效果,具體過程如式(4)、(5)、(6):

      =()

      (4)

      (5)

      (6)

      式中,為輸入狀態(tài)序列,是學習函數(shù),受到的影響。通過該公式,可以視為計算的加權(quán)平均,從而確定權(quán)值,將其視為注意力。最后,通過該注意力權(quán)值對序列的隱含向量進行加權(quán),從而計算出關(guān)系向量。該向量則為通過注意力機制優(yōu)化的輸出向量。

      3 結(jié)果與分析

      通過中國知網(wǎng)精確檢索土壤肥力相關(guān)文獻構(gòu)建實驗數(shù)據(jù)集,檢索式為SU=(土壤)*(肥力+測土配方+土壤養(yǎng)分+全氮+全磷+全鉀+pH+有效磷+有效氮+有機質(zhì)+黏粒+砂粒+粉粒)NOT TI=(訂閱+訂購+征文+征稿+稿約+聲明+啟事+通知+須知+通訊+論文索引),選取下載1980年至2021年土壤肥力相關(guān)文獻共計1 036篇,并對文獻中土壤肥力水平十大指標(pH、全氮、全磷、全鉀、有效氮、有效磷、有機質(zhì)、粉粒、黏粒、砂粒)進行標注,從而形成文本數(shù)據(jù)集。其中訓練集725篇,測試集311篇。

      試驗環(huán)境如下:操作系統(tǒng)為Windows 10;CPU為Intel(R)Xeon(R)Bronze 3106 CPU @1.70 GHz;GPU為NVIDIA GeForce RTX 2080 Ti(11G);Python為3.7.3;TensorFlow為1.14.0;內(nèi)存為32 G。參數(shù)設置如表1所示。

      表1 參數(shù)設置Table 1 Parameter setting

      分別采用準確率、召回率以及值3組數(shù)據(jù)評價模型性能,具體公式如式(7)、(8)、(9):

      (7)

      (8)

      (9)

      式中,為被正確地劃分為正例的樣本數(shù),為被錯誤地劃分為負例的樣本數(shù),被錯誤地劃分為正例的樣本數(shù)。

      在上述試驗設置下,通過PCNN-Attention模型對7種關(guān)系進行提取,具體結(jié)果如表2所示。從結(jié)果數(shù)據(jù)中可以看出,準確率、召回率、值的宏平均值分別達到了85%、78%、80%,加權(quán)平均值分別達到了89%、89%、88%,證明該模型能夠有效提取土壤肥力相關(guān)的7種關(guān)系,能夠滿足土壤肥力知識圖譜系統(tǒng)構(gòu)建的需求。

      4 結(jié)語

      針對中文土壤肥力文本中指標類型較多,語法結(jié)構(gòu)較為復雜,同一指標描述方式不同等問題,提出一種基于PCNN-Attention的土壤肥力關(guān)系抽取模型,該模型先結(jié)合BERT預訓練語言模型進行文本的向量化,再利用分段卷積神經(jīng)網(wǎng)絡實現(xiàn)關(guān)系抽取,并在此基礎上添加了注意力機制,以提高關(guān)系分類的準確性。在中文土壤肥力相關(guān)文獻數(shù)據(jù)集上對模型進行試驗,試驗結(jié)果數(shù)據(jù)顯示,該模型在中文土壤肥力領域,對土壤肥力相關(guān)數(shù)據(jù)指標能夠有效進行關(guān)系抽取,具有較為可靠的準確率,能夠滿足土壤肥力知識圖譜系統(tǒng)構(gòu)建的需求。

      表2 不同指標準確率和召回率的比較Table 2 Comparison of accuracies and recall rates of different indexes %

      猜你喜歡
      土壤肥力注意力實體
      讓注意力“飛”回來
      前海自貿(mào)區(qū):金融服務實體
      中國外匯(2019年18期)2019-11-25 01:41:54
      拉薩市土壤肥力變化趨勢與改良策略
      實體的可感部分與實體——兼論亞里士多德分析實體的兩種模式
      哲學評論(2017年1期)2017-07-31 18:04:00
      “揚眼”APP:讓注意力“變現(xiàn)”
      傳媒評論(2017年3期)2017-06-13 09:18:10
      兩會進行時:緊扣實體經(jīng)濟“釘釘子”
      振興實體經(jīng)濟地方如何“釘釘子”
      A Beautiful Way Of Looking At Things
      安吉白茶園土壤肥力現(xiàn)狀分析
      茶葉(2014年4期)2014-02-27 07:05:15
      不同有機物料培肥對渭北旱塬土壤微生物學特性及土壤肥力的影響
      调兵山市| 广东省| 紫阳县| 太湖县| 东海县| 图木舒克市| 盐边县| 嘉义县| 屏山县| 长子县| 嫩江县| 景宁| 普兰店市| 马公市| 大邑县| 峡江县| 永和县| 嘉善县| 攀枝花市| 礼泉县| 正宁县| 阳高县| 甘洛县| 汉阴县| 灵台县| 保德县| 壶关县| 筠连县| 林甸县| 霞浦县| 古蔺县| 建水县| 嘉定区| 遂川县| 达孜县| 南皮县| 平度市| 高安市| 南乐县| 邵武市| 徐汇区|