• 
    

    
    

      99热精品在线国产_美女午夜性视频免费_国产精品国产高清国产av_av欧美777_自拍偷自拍亚洲精品老妇_亚洲熟女精品中文字幕_www日本黄色视频网_国产精品野战在线观看 ?

      基于BERT—BiLSTM—CRF模型的中文巖石描述文本命名實體與關系聯(lián)合提取

      2022-03-28 08:09:12陳忠良袁峰李曉暉張明明合肥工業(yè)大學資源與環(huán)境工程學院合肥230009安徽省地質(zhì)調(diào)查院合肥230001
      地質(zhì)論評 2022年2期
      關鍵詞:語料命名巖石

      陳忠良, 袁峰,李曉暉, 張明明合肥工業(yè)大學資源與環(huán)境工程學院,合肥, 230009;2)安徽省地質(zhì)調(diào)查院,合肥, 230001

      內(nèi)容提要: 地質(zhì)調(diào)查正在從“數(shù)字化”走向“智能化”,需要在大數(shù)據(jù)思維的指導下,面向非結(jié)構化數(shù)據(jù)開展機器閱讀和地質(zhì)知識的自動提取。地學命名實體和關系聯(lián)合提取是當前研究的難點和核心。本文采用基于大規(guī)模預訓練中文語言模型的BERT—BiLSTM—CRF方法開展巖石描述文本命名實體與關系聯(lián)合提取。首先,通過收集數(shù)字地質(zhì)填圖工作中的剖面測量和路線地質(zhì)觀測數(shù)據(jù),建立巖石描述語料;然后,在巖石學理論指導下分析巖石知識組成,完成巖石知識圖譜命名實體與關系的模式設計,標注巖石語料;最后,開展巖石描述語料知識提取的深度學習訓練和消融試驗對比。試驗結(jié)果顯示,大規(guī)模預訓練中文語言模型(BERT)對巖石描述語料知識提取具有較高的適用性。推薦的BERT—BiLSTM—CRF模型方法對巖石命名實體與關系聯(lián)合提取的準確率(F1值)為91.75%,對巖石命名實體識別的準確率(F1值)為97.38%。消融試驗證明基于BERT的詞嵌入層對巖石描述知識提取的性能提升影響顯著,雙向長短時記憶網(wǎng)絡模型層(BiLSTM Layer)能提升實體關系聯(lián)合提取性能。

      隨著大數(shù)據(jù)思維和人工智能技術在地學研究中的不斷應用(周國玉等,2020;黃敬軍等;2020;劉傳正和陳春利,2020;周永章等,2021a),基于自然語言處理技術的機器閱讀技術(Peters et al., 2014;蔣璟鑫等,2020)和地學領域知識提取技術(Abu-Salih, 2021;周永章等,2021b)也越來越受到地學研究者的關注。

      在地學領域,針對文獻的機器閱讀技術(Geodeepdive)較早應用于以沉積學為主的地質(zhì)數(shù)據(jù)庫(Macrostrat;Peters et al., 2014)。在疊層石的時空分布研究中,機器閱讀技術成功從文獻中智能提取了疊層石詞匯及其所處巖石地層名稱(Peters et al., 2017)。對于非結(jié)構化的中文地學文獻,學者開展了基于中文分詞和詞頻統(tǒng)計的文獻關鍵字提取,采用知識圖譜的圖方式展示了文獻的內(nèi)蘊信息(Zhu Yueqin et al., 2017;Wang Chengbin et al., 2018)?;谏疃葘W習的命名實體識別技術也被應用于從文獻中提取信息構建地質(zhì)災害知識圖譜(Fan Runyu et al., 2019)。劉鵬等(2020)引入基于 BiLSTM—CRF 改進的網(wǎng)格結(jié)構模型 Lattice—LSTM 進行了煤礦領域知識提取。周永章等(2021b)依據(jù)斑巖型銅礦床概念模型,開展華南欽州—杭州成礦帶內(nèi)典型礦床的知識獲取、標注和提取。機器閱讀技術和地學領域知識提取技術關注的同為如何從非結(jié)構化的數(shù)據(jù)(如文本)中提取出事實。在知識圖譜中事實既是知識,是以實體及其關系組成的三元組(王萬良,2020;Ji Shaoxiong et al., 2021)。目前,在地學領域知識的自動獲取和圖譜構建的過程中,實體識別是其重要內(nèi)容,關系提取則是其中的難點和核心(齊浩等,2020;周永章等,2021b)。

      當前,地質(zhì)調(diào)查正在從“數(shù)字化”走向“智能化”( 李超嶺等,2015)。建設中的地質(zhì)調(diào)查智能空間以“需求+數(shù)據(jù)+知識+智能驅(qū)動”理念為指導,研發(fā)空間數(shù)據(jù)自適應感知服務、非結(jié)構化數(shù)據(jù)挖掘服務、地質(zhì)知識的流程化和智能化應用等(李豐丹等,2019)。在非結(jié)構化數(shù)據(jù)挖掘方面,現(xiàn)有智能空間平臺已開展基于位置和關鍵詞的地質(zhì)報告信息檢索技術研究,基于機器學習的非結(jié)構化數(shù)據(jù)挖掘工作是需要開展的研究內(nèi)容(Wu Liang et al., 2017)。在地質(zhì)調(diào)查智能空間平臺中,巖石描述文本是除照片、地質(zhì)報告文檔外重要的非結(jié)構化數(shù)據(jù)之一。當前,基于機器學習的巖石和礦物智能識別研究正在逐漸深入(張野等,2018;徐述騰和周永章,2018;任偉等,2021),但針對巖石描述文本的機器閱讀和知識提取技術研究卻尚未開展。巖石描述文本與地質(zhì)報告的顯著區(qū)別是其短文本特點,非常適合開展基于大規(guī)模預訓練語言模型的深度學習。如BERT預訓練語言模型的最大支持標記序列為512個字詞(Devlin et al., 2018)。同時,巖石描述文本中命名實體和關系明確,也有利于人工語料標注并開展實體和關系的聯(lián)合提取。

      本文針對地學領域知識的自動獲取,特別是關系提取這一難點問題,以智能地質(zhì)調(diào)查空間中巖石描述這一短文本為研究對象,開展基于深度學習的巖石描述文本命名實體和關系聯(lián)合提取方法研究。分為:中文語料庫與詞嵌入技術、地學命名實體識別和關系提取的相關研究工作;巖石實體與關系的模式設計、巖石描述語料的收集和標注以及基于BERT—BiLSTM—CRF模型的知識提取方法;試驗結(jié)果和討論,開展了推薦模型方法的消融試驗,比較分析了模型中各部分對巖石知識提取性能的影響。

      1 相關工作

      開展地學領域知識提取方法研究主要涉及:① 中文地學語料庫與地學領域詞嵌入技術; ② 地學命名實體識別與關系提取。

      1.1 中文地學語料庫與詞嵌入技術

      向量是理解和表示文本數(shù)據(jù)的數(shù)學方法。詞嵌入技術(Word Embeddings),是將文本的每個字(單詞)封裝成向量表述的一種技術,是機器學習算法開展自然語言處理的基礎。當前,地學領域詞嵌入技術主要有GeoVec,其與通用詞嵌入技術相比,在多項地學英文語言處理任務中取得了更好的效果(Padarian and Fuentes, 2019; Fuentes et al., 2020)。然而,地學領域中文語料庫和中文地學領域詞嵌入技術卻相對匱乏。由于本次以中文地學知識提取作為研究對象,在地學領域詞嵌入技術缺乏的情況,通用中文詞嵌入技術成為可選方案,如Word2Vec(Mikolov et al., 2013)、BERT(Devlin et al., 2018)等。特別是后者作為一個Word2Vec的替代者,在自然語言處理領域的多個方向大幅刷新了精度。通用中文詞嵌入技術在地學知識提取中的應用效果成為本次研究的內(nèi)容之一。

      1.2 地學命名實體識別與關系提取

      目前地學領域命名實體識別主要有基于詞典及規(guī)則的方法和基于機器學習的方法。對于非結(jié)構化的中文地學文獻,學者開展了基于擴展地質(zhì)詞典及規(guī)則的地質(zhì)知識提取(Zhu Yueqin et al., 2017)。而傳統(tǒng)的機器學習方法應用于地學命名實體提取的主要為條件隨機場模型(CRF)。Wang Chengbin 等(2018)基于地質(zhì)詞典采用CRF模型開展了地學文獻的中文分詞和詞頻統(tǒng)計。條件隨機場模型對災害領域命名實體提取實現(xiàn)F1值72.55%的識別結(jié)果(杜志強等,2020)。近年,深度學習方法提取特征逐漸成為主流(周永章等,2018),如DBN、BiLSTM—CRF、Lattice—LSTM、BiGRU—CRF、ELMO—CNN—BiLSTM—CRF模型等。DBN模型在小規(guī)模礦產(chǎn)資源地質(zhì)調(diào)查報告語料的地質(zhì)實體識別評估中,各項評估指標(P,R,F(xiàn)1)均取得了90%以上(張雪英等,2018)。BiLSTM—CRF 模型及其改進的Lattice—LSTM模型對煤礦領域命名實體分別取得了F1值91.94%和94.04%的識別結(jié)果(劉鵬等,2020)。BiGRU—CRF模型對地質(zhì)災害命名實體識別也取得了F1值94.19的識別結(jié)果(Fan Runyu et al., 2019)。

      基于深度學習的方法對地學命名實體識別展現(xiàn)了較好的識別效果,但地學命名實體與關系聯(lián)合提取目前工作開展較少。隨著大規(guī)模預訓練語言模型BERT在自然語言處理領域眾多任務中取得最優(yōu)結(jié)果(Devlin et al., 2018),其對地學數(shù)據(jù)集的命名實體識別特別是實體與關系的聯(lián)合提取的適應性研究尚未開展。

      2 材料與方法

      2.1 巖石命名實體與關系的模式設計

      巖石觀察和描述的內(nèi)容一般包括顏色、構造、結(jié)構、礦物成分的種類和含量,以及依據(jù)巖石的分類命名原則對巖石命名。巖石知識圖譜是節(jié)點和邊(有向邊)組成的知識三元組表現(xiàn)形式。節(jié)點,即實體,內(nèi)容包含巖石、地層代號、顏色、結(jié)構、構造、礦物、第四紀沉積物、接觸關系等。邊,即關系,是各節(jié)點之間廣泛的知識關聯(lián),如主要礦物、次要礦物、新鮮色、風化色等。圖1為巖石知識命名實體與關系的模式設計元圖。接觸關系為巖石之間的接觸關系,多為巖石描述語句之外單獨語句描述。本次考慮描述語句字數(shù)限制,暫對接觸關系描述語句只做命名實體設計。

      圖1 巖石知識圖譜命名實體與關系的模式設計元圖Fig. 1 Meta-graph for named entities and relations of the domain—specific knowledge graph of petrology

      2.2 數(shù)據(jù)來源及語料標注

      巖石知識來源眾多,可分為結(jié)構化數(shù)據(jù)、半結(jié)構化數(shù)據(jù)和非結(jié)構化數(shù)據(jù)。其中,非結(jié)構化數(shù)據(jù)以巖石學文獻和巖石描述文本為主,是巖石知識提取的主要研究對象之一。特別是巖石描述文本,其是數(shù)字填圖系統(tǒng)和研發(fā)中的智能地質(zhì)調(diào)查系統(tǒng)(李超嶺等,2015;李豐丹等,2019)野外采集人員輸入的主要數(shù)據(jù),成為了本次巖石知識提取的主要語料資源。本次巖石描述文本所描述的巖石類型涵蓋了巖漿巖、沉積巖、變質(zhì)巖和第四紀沉積物。

      巖石描述語料標注為“BIO+命名實體”方式。其中,B代表命名實體片段的開始;I代表實體片段的中間;O代表字符不為任何實體。由于巖石描述多為圍繞某種巖石或第四紀沉積物展開,本次巖石描述語料中的實體關系同樣采用“BIO+關系”的標注方式。標注工具采用開源的BRAT(Stenetorp et al., 2012)。采用這種方式,實體與關系聯(lián)合提取任務將轉(zhuǎn)換成序列標注任務。圖2為巖石描述語料命名實體和關系標注示例。對于“風化色”這一“巖石”與“顏色”命名實體間的關系,一般巖石描述中均在顏色實體前有“風化”字詞,具有一定的前后文語義特征。其它實體關系,如主要礦物、次要礦物等,均具有類似的前后文語義特征。

      圖2 巖石描述語料命名實體和關系標注示例Fig. 2 A example for the annotations of the named entities and relations on lithological description corpus

      最終選取了300個地質(zhì)點的巖石描述開展了標注工作。BIO標注語料771個句子。為了測試命名實體識別和實體與關系聯(lián)合提取的差異,本次對語料分為兩個版本,V1版為只標注巖石命名實體,V2版則是巖石命名實體與關系同步標注。兩版語料均以8∶1∶1的比例劃分為訓練集、驗證集和測試集。V1版巖石命名實體提取語料共標記771個句子。其中,629個句子訓練集,66個句子驗證集,76個句子測試集。V2版巖石命名實體與關系聯(lián)合提取語料同樣標記771個句子。其中,620個句子訓練集,73個句子驗證集,78個句子測試集。

      2.3 基于BERT—BiLSTM—CRF模型的巖石命名實體識別與關系提取

      本次采用基于大規(guī)模預訓練中文語言模型的BERT—BiLSTM—CRF模型開展巖石描述文本命名實體與關系聯(lián)合提取。模型結(jié)構如圖3所示。主要包含基于BERT的詞嵌入層(BERT-Embedding Layer),雙向長短時記憶網(wǎng)絡模型層(BiLSTM Layer)和條件隨機場模型層(CRF Layer)。

      圖3 BERT—BiLSTM—CRF模型結(jié)構示意圖Fig. 3 The schematic diagram of the BERT—BiLSTM—CRF model architecture

      基于BERT的詞嵌入層,首先利用基于大規(guī)模中文語料預訓練BERT中文語言模型輸出的字典文件,將輸入的巖石描述語句逐字映射轉(zhuǎn)換為字符編碼。然后字符編碼進入預訓練參數(shù)初始化的BERT模型層轉(zhuǎn)換為詞向量輸出。本層主要學習輸入的巖石描述語句中每個字和符號到對應的巖石命名實體和關系標簽的規(guī)律(Devlin et al., 2018)。

      雙向長短時記憶網(wǎng)絡模型層由一個正向和一個反向長短時記憶網(wǎng)絡(LSTM)組成。該層主要學習巖石描述語句的上下文信息(劉鵬等,2020)。本層輸出為巖石語句中每一個字屬于不同巖石命名實體和關系的概率。

      條件隨機場模型層則是學習巖石描述句子中相鄰巖石命名實體和關系標簽之間的轉(zhuǎn)移規(guī)則(Wang Chengbin et al., 2018),如“B—巖石”為巖石實體的開頭,一般后面會是“I—巖石”。句子的開頭應為“B—”或“O—”。“ I—”只出現(xiàn)在句中和句尾。轉(zhuǎn)移規(guī)律的學習能夠提高預測的準確度。

      模型訓練實驗均在配置有Quadro P3200顯卡的移動工作站上完成。機器學習平臺采用Tensorflow-gpu 1.13.1。模型訓練參數(shù)見表1所示。批處理尺寸為2。輸入語句最大長度設定為500(實際語料句子最大長度為424)。LSTM 模型的隱藏層神經(jīng)元數(shù)量設置為 128。詞向量大小設置為 768。模型訓練參數(shù)中,編譯優(yōu)化器選擇Ruder(2016)推薦的Adam自適應優(yōu)化器,初始學習率為0.00002,Dropout設置為0.5。

      表1 BERT—BiLSTM—CRF模型訓練參數(shù)Table 1 The experiment settings for the training of the BERT—BiLSTM—CRF model

      3 結(jié)果和討論

      3.1 評估指標

      試驗結(jié)果評估指標采用(Goutte and Gaussier, 2005)定義的三個測試指標:查準率(precision,P)、召回率(recall,R)和F1值。根據(jù)模型在測試集上的預測結(jié)果,其中TP為能正確識別巖石命名實體和關系標簽的個數(shù)、FP為能識別出巖石命名實體和關系但標簽類別判定出現(xiàn)錯誤的個數(shù)、FN為應該但沒被識別的巖石命名實體和關系個數(shù)。按照公式(1~3)可以得到P、R和F1(β=1)值。

      (1)

      (2)

      (3)

      3.2 測試結(jié)果

      BERT—BiLSTM—CRF模型在V2版語料上,訓練集損失函數(shù)loss值和驗證集損失函數(shù)loss值均逐漸減小,趨于收斂,未見明顯過擬合(圖4a)。訓練后的模型在測試集上查準率P為91.83%,召回率R為91.67%,F(xiàn)1值為91.75%(表4),表現(xiàn)出較好的實體和關系聯(lián)合提取效果。表2為BERT—BiLSTM—CRF模型在V2版語料上對主要巖石關系的分項提取準確率。在“沉積物顏色”、“新鮮色”、“所具結(jié)構”、“所具構造”、“主要礦物”等關系提取方面均實現(xiàn)了超過95%的F1值。在“基質(zhì)與膠結(jié)物成分”、“斑晶成分”、“生物碎屑成分”等關系提取方面F1值均低于80%,明顯效果不理想。這些巖石與礦物之間的關系多存在于斑狀結(jié)構、陸源碎屑結(jié)構和粒屑結(jié)構的巖石描述之中。

      圖4 BERT—BiLSTM—CRF模型損失函數(shù)訓練曲線: (a)V2版語料訓練曲線;(b)V1版語料訓練曲線Fig. 4 Training loss curves of the BERT—BiLSTM—CRF model: (a) training loss curves on the second version corpus; (b) training loss curves on the first version corpus

      表2 BERT—BiLSTM—CRF模型在V2版語料上對主要巖石關系的分項提取準確率Table 2 Performance of the proposed BERT—BiLSTM—CRF model which was used to extract the major relations from the second version corpus

      表4 不同模型對測試集的預測結(jié)果

      為了與復雜的關系提取做對比,本次對BERT—BiLSTM—CRF模型在V1版語料上進行了主要巖石命名實體的識別試驗。訓練集損失函數(shù)loss值和驗證集損失函數(shù)loss值同樣逐漸減小,趨于收斂,未見明顯過擬合(圖4b)。訓練后的模型在測試集上查準率P為96.79%,召回率R為97.97%,F(xiàn)1值為97.38%。表3為BERT—BiLSTM—CRF模型在V1版語料上對主要巖石命名實體的分項提取準確率結(jié)果。所有命名實體均取得了超過95%的F1值,說明BERT—BiLSTM—CRF模型對現(xiàn)有語料中巖石命名實體表現(xiàn)出非常好的識別效果。也進一步說明模型是對復雜的巖石物質(zhì)成分描述知識的提取仍然存在不足。

      3.3 消融試驗

      為了檢驗BERT—BiLSTM—CRF模型中不同部分的作用,本次還開展了針對本文所提模型方法的消融試驗。消融試驗分別去掉雙向長短時記憶網(wǎng)絡模型層(BiLSTM Layer)和基于BERT的詞嵌入層(BERT—Embedding Layer),在V1版和V2版數(shù)據(jù)集上執(zhí)行BiLSTM—CRF模型和BERT—CRF模型的實體識別和巖石命名實體與關系聯(lián)合提取任務。消融試驗中的3 種模型的性能對比見表4所示。雙向長短時記憶網(wǎng)絡模型層(BiLSTM Layer)的去除對V2數(shù)據(jù)集上的實體關系聯(lián)合提取任務性能稍有影響,F(xiàn)1值從91.75%降低到89.45%。但該層的刪除對V1版數(shù)據(jù)集上的實體識別任務性能影響不大。去除基于BERT的詞嵌入層后的BiLSTM—CRF模型在兩項任務性能上均明顯降低,說明此層非常重要。由此可推斷,在小規(guī)模的地學語料庫上,模型中加入大規(guī)模預訓練中文語言模型BERT,能夠豐富詞向量語義,更好的學習巖石描述語句中每個字和符號到對應的巖石命名實體和關系標簽的規(guī)律,可以很好的提升模型的性能。

      4 結(jié)論

      地質(zhì)調(diào)查正在從“數(shù)字化”走向“智能化”,需要在大數(shù)據(jù)思維的指導下,面向非結(jié)構化數(shù)據(jù)開展機器閱讀和地質(zhì)知識的自動提取。在地質(zhì)調(diào)查智能空間平臺中,巖石描述文本是除照片、地質(zhì)報告文檔外重要的非結(jié)構化數(shù)據(jù)之一。巖石描述文本中巖石命名實體的識別,特別是關系提取是本次的研究對象。由于中文地學領域詞嵌入技術尚未發(fā)布,本文采用通用中文詞嵌入技術,針對中文巖石描述語料,開展了基于大規(guī)模預訓練中文語言模型BERT—BiLSTM—CRF方法的巖石領域命名實體識別以及實體與關系聯(lián)合提取試驗研究。試驗結(jié)果顯示,大規(guī)模預訓練中文語言模型(BERT)對巖石語料知識提取具有較高的適用性,特別是針對巖石描述語料中巖石命名實體提取表現(xiàn)出了較好的識別效果。

      由于BERT—BiLSTM—CRF模型在斑狀結(jié)構、陸源碎屑結(jié)構和粒屑結(jié)構的巖石描述命名實體和關系的聯(lián)合提取任務上表現(xiàn)出不足,同時模型在單一命名實體識別任務上的良好性能,后續(xù)需要繼續(xù)開展基于流水線模式的實體與關系聯(lián)合提取研究,并與聯(lián)合模型方法開展對比。巖石描述標注語料庫的數(shù)據(jù)規(guī)模也需要后續(xù)進一步提升。大規(guī)模中文地學語料庫的欠缺制約著地學領域中文詞向量技術的開發(fā)。共建共享中文地學語料庫也是行業(yè)內(nèi)研究者與管理者需要積極推動的工作方向之一。

      致謝:感謝審稿專家周永章教授和責任編輯章雨旭研究員提出的寶貴修改意見。感謝安徽省地質(zhì)調(diào)查院王翔高級工程師、吳衡高級工程師、鄧佳良高級工程師和黃蒙高級工程師在巖石描述語料收集和標注工作中提供的大力幫助。

      (The literature whose publishing year followed by a “&” is in Chinese with English abstract; The literature whose publishing year followed by a “#” is in Chinese without English abstract)

      杜志強,李鈺,張葉廷,譚玉琪,趙文豪. 2020. 自然災害應急知識圖譜構建方法研究. 武漢大學學報(信息科學版), 45(9):1344~1355.

      黃敬軍,趙增玉,姜素,楊磊,高立,許書剛.2020.自然資源管理視角下江蘇城市地質(zhì)調(diào)查工作新思考. 地質(zhì)論評,66(6):1609~1618.

      蔣璟鑫,李超,胡修棉.2020.沉積學數(shù)據(jù)庫建設與沉積大數(shù)據(jù)科學研究進展:以Macrostrat數(shù)據(jù)庫為例. 高校地質(zhì)學報,26(1):27~43.

      李超嶺,李豐丹,呂霞,李健強,劉暢,劉園園.2015.地質(zhì)調(diào)查智能空間體系與架構. 測繪學報,44(增刊1):143~151,159.

      李豐丹,劉暢,劉園園,呂霞.2019.地質(zhì)調(diào)查智能空間框架構建與實踐. 地質(zhì)論評,65(增刊1):317~320.

      齊浩,董少春,張麗麗,胡歡,樊雋軒.2020.地球科學知識圖譜的構建與展望. 高校地質(zhì)學報,26(1):2~10.

      劉傳正,陳春利.2020.中國地質(zhì)災害成因分析. 地質(zhì)論評,66(5):1334~1348.

      劉鵬,葉帥,舒雅,鹿曉龍,劉明明.2020.煤礦安全知識圖譜構建及智能查詢方法研究. 中文信息學報,34(11):49~59.

      任偉,張盛,喬計花,黃金明.2021.基于深度學習的巖石礦物智能識別. 地質(zhì)論評,67(增刊1):281~282.

      王萬良.2020.人工智能及其應用(第4版). 北京:高等教育出版社:1~66.

      徐述騰,周永章.2018.基于深度學習的鏡下礦石礦物的智能識別實驗研究. 巖石學報,34(11):3244~3252.

      張雪英,葉鵬,王曙,杜咪.2018.基于深度信念網(wǎng)絡的地質(zhì)實體識別方法. 巖石學報,34(2):343~351.

      張野,李明超,韓帥.2018.基于巖石圖像深度學習的巖性自動識別與分類方法. 巖石學報,34(2):333~342.

      周國玉,張明明,沈樂,張淑虹,袁峰,李曉暉,季斌,周宇章.2020.銅陵礦集區(qū)姚家?guī)X鋅金多金屬礦床深部地質(zhì)空間信息相關性數(shù)據(jù)挖掘. 大地構造與成礦學,44(2):242~250.

      周永章,王俊,左仁廣,肖凡,沈文杰,王樹功.2018.地質(zhì)領域機器學習、深度學習及實現(xiàn)語言. 巖石學報,34(11):3173~3178.

      周永章,左仁廣,劉剛,袁峰,毛先成,郭艷軍,肖凡,廖杰,劉艷鵬.2021a.數(shù)學地球科學跨越發(fā)展的十年:大數(shù)據(jù)、人工智能算法正在改變地質(zhì)學. 礦物巖石地球化學通報,40(3):556~573,777.

      周永章,張前龍,黃永健,楊威,肖凡,吉俊杰,韓楓,唐磊,歐陽沖,沈文杰.2021b.欽杭成礦帶斑巖銅礦知識圖譜構建及應用展望. 地學前緣,28(3):67~75.

      Abu-Salih B. 2021. Domain—specific knowledge graphs: A survey[J][OL]. Journal of Network and Computer Applications, 185: 103076; https://doi.org/https://doi.org/10.1016/j.jnca.2021.103076

      Devlin J, Chang Mingwei, Lee K, Toutanova K. 2018. BERT: Pre-training of deep bidirectional transformers for language understanding[OL]. Retrieved from http://arxiv.org/abs/1810.04805.

      Du Zhiqiang, Li Yu Zhang Yeting, Tan Yuqi, Zhao Wenhao. 2020&. Knowledge graph construction method on natural disaster emergency. Geomatics and Information Science of Wuhan University, 45(9):1344~1355.

      Fan Runyu, Wang Lizhe, Yan Jining, Song Weijing, Zhu Yingqian, Chen Xiaodao. 2019. Deep learning-based named entity recognition and knowledge graph construction for geological hazards[J][OL]. ISPRS international Journal of Geo-Information, 9(1); https://doi.org/10.3390/ijgi9010015.

      Fuentes I, Padarian J, Iwanaga T, Willem Vervoort R. 2020. 3D lithological mapping of borehole descriptions using word embeddings[J][OL]. Computers & Geosciences, 141: 104516; https://doi.org/https://doi.org/10.1016/j.cageo.2020.104516.

      Goutte C, Gaussier E. 2005. A probabilistic interpretation of precision, recall and F-score, with implication for evaluation. In: Losada D E, Fernández-Luna J M. eds. Advances in Information Retrieval. ECIR 2005. Lecture Notes in Computer Science, vol 3408. Berlin: Springer; https://doi.org/10.1007/978-3-540-31865-1_25.

      Huang Jingjun, Zhao Zengyu, Jiang Su, Yang Lei, Gao Li, Xu Shugang. 2020&. New thoughts on urban geological survey concerning natural resource management in Jiangsu Province. Geological Review, 66(6): 1609~1618.

      Ji Shaoxiong, Pan Shirui, Cambria E, Marttinen P, Yu P S. 2021. A survey on knowledge graphs: Representation, acquisition, and applications[J〗[OL]. IEEE Transactions on Neural Networks and Learning Systems: 1~21; https://doi.org/10.1109/TNNLS.2021.3070843.

      Jiang Jingxin, Li Chao, Hu Xiumian. 2020&. Advances on sedimentary database building and related research: Macrostrat as an example. Geological Journal of China Universities, 26(1): 27~43.

      Li Chaoling, Li Fengdan, Lü Xia, Li Jianqiang, Liu Chang, Liu Yuanyuan. 2015&. The architecture of geological survey intelligent space. Acta Geodaetica et Cartographica Sinica, 44(S1): 143~151; 159.

      Li Fengdan, Liu Chang, Liu Yuanyuan, Lü Xia. 2019#. Construction and application of the geological survey intelligent space. Geological Review, 65(S1): 317~320.

      Liu Chuanzheng, Chen Chunli. 2020&. Research on the origins of geological disasters in China. Geological Review, 66(5): 1334~1348.

      Liu Peng, Ye Shuai, Shu Ya, Lu Xiaolong, Liu Minging. 2020&. Coalmine safety: Knowledge graph construction and its QA approach. Journal of Chinese Information Processing, 34(11): 49~59.

      Mikolov T, Chen Kai, Corrado G, Dean J. 2013. Efficient sstimation of word representations in vector space. In ICLR.

      Padarian J, Fuentes I. 2019. Word embeddings for application in geosciences: Development, evaluation, and examples of soil-related concepts[J][OL]. Soil, 5(2): 177~187; https://doi.org/10.5194/soil-5-177-2019.

      Peters S E, Zhang Ce, Livny M, Ré C. 2014. A machine reading system for assembling synthetic paleontological databases[J][OL]. Plos One, 9(12): e113523; https://doi.org/10.1371/journal.pone.0113523

      Peters S E, Husson J M, Wilcots J. 2017. The rise and fall of stromatolites in shallow marine environments[J][OL]. Geology, 45(6): 487~490; https://doi.org/10.1130/G38931.1.

      Qi Hao, Dong Shaochun, Zhang Lili, Hu Huan, Fan Junxuan. 2020&. Construction of earth science knowledge graph and its future perspectives. Geological Journal of China Universities, 26(1): 2~10.

      Ren Wei, Zhang Sheng, Qiao Jihua, Huang Jinming. 2021. The rock and mineral intelligence identification method based on deep learning. Geological Review, 67(S1): 281~282.

      Ruder S. 2016. An overview of gradient descent optimization algorithms[OL]. Retrieved from http://arxiv.org/abs/1609.04747.

      Stenetorp P, Pyysalo S, Topíc G, Ohta T, Ananiadou S, Tsujii J. 2012. BRAT: A web-based tool for NLP-assisted text annotation. In: EACL 2012 - Proceedings of the Demonstrations at the 13th Conference of the European Chapter of the Association for Computational Linguistics: 102~107.

      Wang Chengbin, Ma Xiaogang, Chen Jianguo, Chen Jingwen. 2018. Information extraction and knowledge graph construction from geoscience literature[J][OL]. Computers and Geosciences, 112: 112~120; https://doi.org/10.1016/j.cageo.2017.12.007.

      Wang Wanliang. 2020#. Artificial Intelligence (4th edition). Beijing: Higher Education Press: 1~66.

      Wu Liang, Xue Lei, Li Chaoling, Lv Xia, Chen Zhanlong, Jiang Baode, Guo Mingqiang, Xie Zhong. 2017. A knowledge-driven geospatially enabled framework for geological big data[J][OL]. ISPRS International Journal of Geo-Information, 6(6); https://doi.org/10.3390/ijgi6060166.

      Xu Shuteng, Zhou Yongzhang. 2018&. Artificial intelligence identification of ore minerals under microscope based on deep learningalgorithm. Acta Petrologica Sinica, 34(11): 3244~3252.

      Zhang Xueying, Ye Peng, Wang Shu, Du Mi. 2018&. Geological entity recognition method based on deep belief networks. Acta Petrologica Sinica, 34(2): 343~351.

      Zhang Ye, Li Mingchao, Han Shuai. 2018&. Automatic identification and classification in lithology based on deep learning in rock images. Acta Petrologica Sinica, 34(2): 333~342.

      Zhou Guoyu, Zhang Mingming, Shen Le, Zhang Shuhong, Yuan Feng, Li Xiaohui, Ji Bin, Zhou Yuzhang. 2020&. Data mining of deep geological spatial information of the Yaojialing Zinc—gold polymetallic deposit. Geotectonica et Metallogenia, 44(2): 242~250.

      Zhou Yongzhang, Wang Jun, Zuo Renguang, Xiao Fan, Shen Wenjie, Wang Shugong. 2018&. Machine learning, deep learning and python languagein field of geology. Acta Petrologica Sinica, 34(11): 3173~3178.

      Zhou Yongzhang, Zuo Renguang, Liu Gang, Yuan Feng, Mao Xiancheng, Guo Yanjun, Xiao Fan, Liao Jie, Liu Yanpeng. 2021a&. The great-leap-forward development of mathematical geoscience during 2010~2019 : Big Data and Artificial Intelligence Algorithm are Changing Mathematical Geoscience. Bulletin of Mineralogy,Petrology and Geochemistry, 40(3): 556~573; 777.

      Zhou Yongzhang, Zhang Qianlong, Huang Yongjian, Yang Wei, Xiao Fan, Ji Junjie, Han Feng, Tang Lei, Ouyang Chong, Shen Wenjie. 2021b&. Construction knowledge graph for the porphyry copper deposit in the Qingzhou—Hangzhou Bay area: Insight into knowledge graph based mineral resource prediction and evalution. Earth Science Frontiers (China University of Geosciences (Beijing); Peking University), 28(3): 67~75.

      Zhu Yueqin, Zhou Wenwen, Xu Yang, Liu Ji, Tan Yongjie. 2017. Intelligent learning for knowledge graph towards geological data[J][OL]. Scientific Programming; https://doi.org/10.1155/2017/5072427.

      猜你喜歡
      語料命名巖石
      第五章 巖石小專家
      命名——助力有機化學的學習
      3深源巖石
      一種叫做煤炭的巖石
      海藻與巖石之間
      有一種男人以“暖”命名
      東方女性(2018年3期)2018-04-16 15:30:02
      為一條河命名——在白河源
      散文詩(2017年17期)2018-01-31 02:34:08
      基于語料調(diào)查的“連……都(也)……”出現(xiàn)的語義背景分析
      華語電影作為真實語料在翻譯教學中的應用
      《苗防備覽》中的湘西語料
      绥德县| 九寨沟县| 修水县| 清水县| 玉田县| 临洮县| 平阴县| 桑日县| 定襄县| 南阳市| 丁青县| 西乌| 北辰区| 逊克县| 遵义县| 崇礼县| 呼玛县| 油尖旺区| 海门市| 靖江市| 招远市| 大洼县| 万年县| 京山县| 石狮市| 肥城市| 平原县| 清新县| 观塘区| 阿城市| 梅河口市| 旬阳县| 紫阳县| 象州县| 正安县| 凌源市| 宁津县| 乐陵市| 平安县| 青岛市| 武冈市|