王彬彬 周可法 王金林 汪瑋 李超 程寅益
摘? ?要:地球科學(xué)的研究成果通常記錄在技術(shù)報(bào)告、期刊論文、書籍等文獻(xiàn)中,但許多詳細(xì)的地球科學(xué)報(bào)告未被使用,這為信息提取提供了機(jī)遇。為此,我們提出了一種名為GMNER(Geological Minerals named entity recognize,MNER)的深度神經(jīng)網(wǎng)絡(luò)模型,用于識(shí)別和提取礦物類型、地質(zhì)構(gòu)造、巖石與地質(zhì)時(shí)間等關(guān)鍵信息。與傳統(tǒng)方法不同,本次采用了大規(guī)模預(yù)訓(xùn)練模型BERT(Bidirectional Encoder Representations from Transformers,BERT)和深度神經(jīng)網(wǎng)絡(luò)來(lái)捕捉上下文信息,并結(jié)合條件隨機(jī)場(chǎng)(Conditional random field,CRF)以獲得準(zhǔn)確結(jié)果。實(shí)驗(yàn)結(jié)果表明,MNER模型在中文地質(zhì)文獻(xiàn)中表現(xiàn)出色,平均精確度為0.898 4,平均召回率0.922 7,平均F1分?jǐn)?shù)0.910 4。研究不僅為自動(dòng)礦物信息提取提供了新途徑,也有望促進(jìn)礦產(chǎn)資源管理和可持續(xù)利用。
關(guān)鍵詞:礦物信息提取;深度神經(jīng)網(wǎng)絡(luò);礦物文獻(xiàn);命名實(shí)體識(shí)別
地球科學(xué)的研究成果通常記錄在技術(shù)報(bào)告、期刊論文、書籍等文獻(xiàn)中。近年來(lái),開放數(shù)據(jù)倡議促使政府機(jī)構(gòu)和科研機(jī)構(gòu)將數(shù)據(jù)在線發(fā)布以供再利用[1-3]。許多國(guó)家地質(zhì)調(diào)查機(jī)構(gòu)(如USGS和CGS)已將地質(zhì)調(diào)查成果在線發(fā)布。地球科學(xué)文獻(xiàn)作為開放數(shù)據(jù)的重要組成部分,為地質(zhì)礦物信息提取研究提供了巨大機(jī)遇。
從地質(zhì)科學(xué)文本數(shù)據(jù)中提取結(jié)構(gòu)化信息、發(fā)現(xiàn)知識(shí)的研究在數(shù)字地球科學(xué)領(lǐng)域尚未深入探討。特別是在處理中文地質(zhì)科學(xué)文獻(xiàn)時(shí)更為困難,因?yàn)橹形膯卧~之間無(wú)空格,計(jì)算機(jī)難以識(shí)別有意義的詞匯或短語(yǔ)的邊界[4-5]?;谏疃葘W(xué)習(xí)的命名礦產(chǎn)實(shí)體識(shí)別是實(shí)現(xiàn)礦產(chǎn)信息自動(dòng)提取的重要方法,也是構(gòu)建礦產(chǎn)領(lǐng)域知識(shí)圖的前提條件。
目前,地質(zhì)礦物命名實(shí)體識(shí)別領(lǐng)域的研究相對(duì)較少,在地質(zhì)命名實(shí)體識(shí)別方面,一些學(xué)者已將深度學(xué)習(xí)應(yīng)用于該領(lǐng)域,并取得一定成果。Zhang等 針對(duì)地質(zhì)文獻(xiàn)特點(diǎn)[6],設(shè)計(jì)了一種基于深度信念網(wǎng)絡(luò)的地質(zhì)命名實(shí)體識(shí)別模型。Qiu等提出了一種將雙向長(zhǎng)短時(shí)記憶網(wǎng)絡(luò)(Bi-directional Long Short-Term Memory,BiLSTM)與CRF相結(jié)合的模型[7],該模型利用注意機(jī)制捕捉單詞之間的關(guān)聯(lián)信息,并從地質(zhì)報(bào)告中提取地質(zhì)實(shí)體,如地質(zhì)歷史和地質(zhì)結(jié)構(gòu)。Li等構(gòu)建了一種基于地質(zhì)領(lǐng)域本體的中文分詞算法[8],并輔以自循環(huán)方法,以更好地分割地質(zhì)領(lǐng)域文本。礦物信息的提取有以下3個(gè)難點(diǎn):①礦物信息來(lái)源廣泛,包括文獻(xiàn)、專利、報(bào)告、新聞等多種類型的文本[9];②礦物信息的命名規(guī)范不統(tǒng)一,不同地區(qū)、不同領(lǐng)域、不同時(shí)間的命名方式可能存在差異,需進(jìn)行多樣化命名實(shí)體識(shí)別;③礦物信息的語(yǔ)言表達(dá)復(fù)雜,包括詞匯多樣、語(yǔ)法復(fù)雜、語(yǔ)義模糊等問題。
為解決這些挑戰(zhàn),我們提出了一種基于深度神經(jīng)網(wǎng)絡(luò)的地質(zhì)礦物命名實(shí)體識(shí)別模型,基于5份區(qū)域礦產(chǎn)領(lǐng)域報(bào)告,據(jù)礦產(chǎn)文本的特點(diǎn),提取了礦產(chǎn)類型、地質(zhì)構(gòu)造、巖石和地質(zhì)時(shí)間、成礦區(qū)域等信息。與前人所采用的方法相比,結(jié)合大規(guī)模預(yù)訓(xùn)練模型BERT和深度神經(jīng)網(wǎng)絡(luò)來(lái)學(xué)習(xí)上下文信息,使用條件隨機(jī)場(chǎng)來(lái)獲取最優(yōu)全局標(biāo)簽序列[10],最終實(shí)現(xiàn)地質(zhì)礦物命名實(shí)體識(shí)別。
1? 方法
本文采用的大規(guī)模預(yù)訓(xùn)練模型BERT和深度神經(jīng)網(wǎng)絡(luò)的總體結(jié)構(gòu)如圖1。整個(gè)模型分為BERT層、BiLSTM層、全連接層和CRF層。首先,BERT預(yù)訓(xùn)練層在大規(guī)模無(wú)標(biāo)注地質(zhì)礦物數(shù)據(jù)集上進(jìn)行無(wú)監(jiān)督訓(xùn)練,提取豐富的語(yǔ)法和語(yǔ)義特征,得到詞向量表示;然后將訓(xùn)練好的詞向量輸入長(zhǎng)短期記憶網(wǎng)絡(luò)進(jìn)行特征提取,并將兩個(gè)神經(jīng)網(wǎng)絡(luò)的輸出特征進(jìn)行融合;最后,通過一個(gè)全連接層進(jìn)行降維并將輸出的特征輸入到CRF層進(jìn)行校正。
1.1? BERT
Devlin等提出了BERT模型[11],與OpenAI GPT中的從左到右Transformer和ELMo中的拼接雙向LSTM不同[12-13],BERT使用雙向Transformer模型架構(gòu)[14](圖2)?!癟rm”代表Transformer塊。該模型使用注意力機(jī)制將任意位置的兩個(gè)單詞之間的距離轉(zhuǎn)換為1,使模型能夠充分考慮更長(zhǎng)距離的上下文語(yǔ)義,有效解決了NLP中單詞和句子的長(zhǎng)期依賴問題,并更全面地捕捉語(yǔ)句中的雙向關(guān)系。[]
該模型的輸入層是詞嵌入、位置嵌入和分段嵌入的組合。Transformer Block是基于注意力機(jī)制的編碼結(jié)構(gòu)(圖3),是BERT的重要組成部分。在Transformer編碼單元中使用自注意力機(jī)制的工作原理主要是計(jì)算文本序列中單詞之間的相關(guān)性。其主要功能是引導(dǎo)神經(jīng)網(wǎng)絡(luò)將注意力集中在能夠更好地影響輸出的特征上,并區(qū)分輸入對(duì)輸出的不同部分的影響。其中,編碼器由6個(gè)相同模塊堆疊而成。計(jì)算輸出公式(1)和公式(2)所示。
outputAtt=LayerNorm(x+Attention(x)) (1)
outputFnn=LayerNorm(outputAtt+FNN(outputAtt))…(2)
解碼器同樣堆疊有6個(gè)相同模塊。與編碼器模塊不同,在底層注意力層中添加了遮蔽,其目的是防止模型接觸未來(lái)時(shí)刻點(diǎn)上信息而影響訓(xùn)練。單個(gè)頭的縮放點(diǎn)注意力計(jì)算公式如下:
其中,[xt]為當(dāng)前的輸入,[ht-1]為上一步的隱藏狀態(tài),[ft]為遺忘門,[it]為輸入門,[Ot]為輸出門,b為偏置,[Ct]為神經(jīng)元在時(shí)間t記憶的信息,[Ct]為當(dāng)前神經(jīng)元要存儲(chǔ)的信息,[ht]為最終LSTM單元的輸出。
在將BiLSTM應(yīng)用于命名實(shí)體識(shí)別時(shí),將BERT獲得的地質(zhì)礦物文本中每個(gè)單詞的向量表示作為輸入。通過使用LSTM,網(wǎng)絡(luò)可自動(dòng)學(xué)習(xí)上下文特征,然后計(jì)算當(dāng)前時(shí)間步的最佳分類結(jié)果。雖然仍為一個(gè)分類模型,但該網(wǎng)絡(luò)能夠獲取更好的上下文特征表示。
1.3? CRF
盡管BiLSTM和IDCNN神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)能捕捉上下文信息,但忽略了實(shí)體標(biāo)簽之間的順序和關(guān)聯(lián)。在命名實(shí)體識(shí)別中,根據(jù)標(biāo)注規(guī)則,如果某些標(biāo)簽連續(xù)出現(xiàn),則可能不符合語(yǔ)言邏輯。CRF可考慮標(biāo)簽之間的邏輯關(guān)系,以獲得全局最優(yōu)的標(biāo)簽序列,因此在模型最后一層使用它來(lái)修改識(shí)別結(jié)果。其原理如下:
定義[Pij]為第i個(gè)符合第j個(gè)標(biāo)簽的概率,輸入的句子序列[x={x1,x2,x3,…,xn}]與其預(yù)測(cè)序列[y=][{y1,y2,y3,…,yn}]得分計(jì)算公式如下:
公式(15)-(17)中,[y*]表示正確標(biāo)簽的對(duì)數(shù)概率,[y]表示所有可能標(biāo)記的集合,最優(yōu)序列分類通過[K(x,y)]函數(shù)完成。
2? 實(shí)體識(shí)別實(shí)驗(yàn)
2.1? 數(shù)據(jù)集
本研究使用的標(biāo)注語(yǔ)料庫(kù)來(lái)自不同地區(qū)的5份中國(guó)區(qū)域調(diào)查報(bào)告,共計(jì)約50萬(wàn)字。由于原始文本中有諸多干擾信息,如標(biāo)題號(hào)、圖片和表格,這將使文本識(shí)別變得困難,因此首先對(duì)文本進(jìn)行預(yù)處理,主要檢查文本格式和內(nèi)容,去除圖片和表格,將連續(xù)的文本劃分為只包含單詞、標(biāo)點(diǎn)符號(hào)、數(shù)字和空格的標(biāo)記,且無(wú)地質(zhì)礦物實(shí)體信息的句子已被刪除,最終得到了8 000個(gè)有效句子。對(duì)這些有效數(shù)據(jù),本文按隨機(jī)選擇方法,按8∶1∶1的比例劃分為訓(xùn)練集、驗(yàn)證集和測(cè)試集。
2.2? 標(biāo)注策略和評(píng)價(jià)指標(biāo)
文本標(biāo)注是指對(duì)文本中的實(shí)體和非實(shí)體進(jìn)行標(biāo)記。我們采用了“BIO”(Beginning、Inside、Outside)標(biāo)注策略,其中“B”表示實(shí)體詞匯的第一個(gè)字符,“I”表示實(shí)體詞匯的所有中間字符,“O”表示非實(shí)體詞匯。我們共標(biāo)注18 783個(gè)實(shí)體,包括礦產(chǎn)資源的6個(gè)主要特征:礦產(chǎn)地、巖石、地層、礦物類型、地質(zhì)構(gòu)造、地質(zhì)時(shí)間(表1)。對(duì)于復(fù)雜實(shí)體,我們分別標(biāo)注多個(gè)實(shí)體,例如“巖(B-LOC)金(I-LOC)礦(I-LOC)山(I-LOC)潛(B-ROC)火(I-ROC)山(I-ROC)巖(I-ROC)白(B-SG)山(I-SG)組(I-SG)”,“巖金礦山”、“潛火山巖”和“白山組”分別被標(biāo)記為礦產(chǎn)地、巖石和地層。在實(shí)驗(yàn)中,復(fù)雜實(shí)體也被單獨(dú)匹配。
命名實(shí)體識(shí)別的評(píng)價(jià)指標(biāo)包括:精確率(P)、召回率(R)和F值。具體的定義如下:Tp表示模型正確識(shí)別的實(shí)體數(shù)量,F(xiàn)p表示模型誤識(shí)別的實(shí)體數(shù)量,F(xiàn)n表示模型漏掉的實(shí)體數(shù)量,即模型未能正確標(biāo)識(shí)的實(shí)際存在的實(shí)體數(shù)量。這3個(gè)指標(biāo)在NER評(píng)價(jià)標(biāo)準(zhǔn)中被廣泛使用[17-18]。
2.3? 實(shí)驗(yàn)參數(shù)設(shè)置
實(shí)驗(yàn)環(huán)境和參數(shù)設(shè)置模型在Python 3.7.3和TensorFlow 1.14.1中進(jìn)行訓(xùn)練和測(cè)試。實(shí)驗(yàn)使用BERT-Base模型進(jìn)行,該模型包含12個(gè)轉(zhuǎn)換層、768個(gè)維隱藏層和12頭注意機(jī)制。BiLSTM網(wǎng)絡(luò)有一個(gè)128維的隱藏層。注意機(jī)制層被設(shè)置為50維,且最大序列長(zhǎng)度被設(shè)置為256,所有模型均在4×RTX 2080 Ti GPU上進(jìn)行訓(xùn)練(表2)。
2.4? 實(shí)驗(yàn)和分析
在進(jìn)行深度學(xué)習(xí)模型訓(xùn)練前,合理設(shè)置超參數(shù)至關(guān)重要。學(xué)習(xí)率作為深度學(xué)習(xí)模型中的一個(gè)關(guān)鍵參數(shù),對(duì)于目標(biāo)函數(shù)的收斂速度及是否能夠收斂到局部最小值均有顯著影響。針對(duì)BERT-LSTM-CRF模型進(jìn)行了學(xué)習(xí)率調(diào)整實(shí)驗(yàn)。從實(shí)驗(yàn)結(jié)果可以明顯看出(表3),將學(xué)習(xí)率設(shè)置為4e-5時(shí)獲得了最優(yōu)的性能表現(xiàn)。
另一個(gè)在BERT模型中常用的正則化技術(shù)是dropout。該技術(shù)會(huì)隨機(jī)地將部分神經(jīng)元輸出設(shè)為零,有助于降低模型過擬合風(fēng)險(xiǎn)。在BERT-LSTM-CRF模型中,我們對(duì)dropout率進(jìn)行調(diào)整實(shí)驗(yàn)。結(jié)果表明(表4),在實(shí)驗(yàn)中將dropout設(shè)置為0.1時(shí),能夠獲得最佳性能效果。
實(shí)驗(yàn)結(jié)果進(jìn)一步強(qiáng)調(diào)了超參數(shù)選擇的重要性,凸顯了在BERT-LSTM-CRF模型中的學(xué)習(xí)率和dropout率對(duì)模型性能影響的關(guān)鍵性。這些參數(shù)的優(yōu)化可在一定程度上提高模型性能和泛化能力。實(shí)驗(yàn)的命名實(shí)體識(shí)別模型結(jié)果見表5。
所有考慮的模型中,BERT-LSTM-CRF表現(xiàn)最佳,其精確度、召回率和F1值分別達(dá)0.898 4、0.992 7和0.910 4。在使用BERT與CRF結(jié)合的情況下,精確度、召回率和F1值分別為0.880 7、0.902 9和0.891 7。在引入雙向LSTM網(wǎng)絡(luò)后,F(xiàn)1值出現(xiàn)下降,可能是因?yàn)锽ERT已具良好的詞向量表示,而引入BiLSTM后導(dǎo)致過擬合現(xiàn)象。
當(dāng)使用RoBERTa預(yù)訓(xùn)練模型時(shí),識(shí)別效果普遍下降。盡管RoBERTa和BERT均基于Transformer架構(gòu)的預(yù)訓(xùn)練語(yǔ)言模型,但在預(yù)訓(xùn)練細(xì)節(jié)、超參數(shù)等方面可能存在差異。BERT的架構(gòu)和超參數(shù)設(shè)置更適合地質(zhì)礦物領(lǐng)域的命名實(shí)體識(shí)別任務(wù)。值得注意的是,在中文文本中,巖石和礦物類型相對(duì)容易辨別,且其標(biāo)簽數(shù)量在所有實(shí)體中占比超過50%,因此,所有模型均表現(xiàn)出對(duì)“巖石”和“礦物類型”實(shí)體的良好識(shí)別效果,F(xiàn)1得分均超過90%。此外,表現(xiàn)較好的另外兩種實(shí)體類型是“地層”和“地質(zhì)時(shí)間”,且它們對(duì)應(yīng)的標(biāo)簽數(shù)量也相對(duì)較多。
上述結(jié)果表明,在礦物實(shí)體識(shí)別任務(wù)中,BERT-LSTM-CRF模型的表現(xiàn)最佳,而RoBERTa預(yù)訓(xùn)練模型表現(xiàn)一般。不同類型的礦物實(shí)體在各模型的識(shí)別效果也呈現(xiàn)出一定差異。
3? 結(jié)論和展望
本研究主要致力于運(yùn)用深度學(xué)習(xí)構(gòu)建命名實(shí)體識(shí)別模型,即從大量地質(zhì)礦物相關(guān)文檔中提取命名實(shí)體。該工作為構(gòu)建地質(zhì)礦物知識(shí)圖譜提供了重要數(shù)據(jù)支持。基于BERT-LSTM-CRF模型,筆者團(tuán)隊(duì)從地質(zhì)礦物文獻(xiàn)中提取出6種類型實(shí)體,實(shí)現(xiàn)了平均精確度0.898 4,平均召回率0.922 7,平均F1分?jǐn)?shù)0.910 4。從實(shí)驗(yàn)結(jié)果中得出以下結(jié)論:
(1) 在命名實(shí)體識(shí)別任務(wù)中,BERT-LSTM-CRF模型表現(xiàn)最佳,但引入BiLSTM會(huì)導(dǎo)致過擬合,從而降低模型性能。
(2) 當(dāng)中文實(shí)體的語(yǔ)義區(qū)別明確且標(biāo)簽充足時(shí),實(shí)體識(shí)別效果更好。
(3) 在地質(zhì)礦物領(lǐng)域命名實(shí)體識(shí)別任務(wù)中,RoBERTa不如BERT表現(xiàn)出色。BERT的架構(gòu)和超參數(shù)設(shè)置更適合地質(zhì)礦物領(lǐng)域命名實(shí)體識(shí)別任務(wù)。
盡管本研究在礦物命名實(shí)體識(shí)別方面取得了良好效果,仍有待進(jìn)一步改進(jìn)的空間:
(1) 針對(duì)標(biāo)注較少的實(shí)體類型,有進(jìn)一步提升其識(shí)別性能的空間。我們計(jì)劃通過擴(kuò)充數(shù)據(jù)集中的礦物實(shí)體數(shù)量來(lái)解決此問題。
(2) 未來(lái)將針對(duì)地質(zhì)礦物領(lǐng)域的特點(diǎn)進(jìn)行模型調(diào)整和優(yōu)化,以提高模型的領(lǐng)域適應(yīng)性。
(3) 根據(jù)從地質(zhì)礦物文本中所提取的信息構(gòu)建地質(zhì)礦物相關(guān)的領(lǐng)域知識(shí)圖譜。
參考文獻(xiàn)
[1] Ali S H,Giurco D,Arndt N,et al.Mineral supply for sustainable development requires resource governance[J].Nature,2017,543(7645):367-372.
[2] Cernuzzi L,Pane J.Toward open government in Paraguay[J].It Professional,2014,16(5):62-64.
[3] Ma X.Linked Geoscience Data in practice:Where W3C standards meet domain knowledge,data visualization and OGC standards[J].Earth Science Informatics,2017,10(4):429-441.
[4] Gao J,Li M,Huang C N,et al.Chinese word segmentation and named entity recognition:A pragmatic approach[J].Computational Linguistics,2005,31(4):531-574.
[5] Huang L,Du Y,Chen G.GeoSegmenter:A statistically learned Chinese word segmenter for the geoscience domain[J].Computers & geosciences,2015,76:11-17.
[6] Zhang X,F(xiàn)an D,Xu J,et al.Sedimentary laminae in muddy inner continental shelf sediments of the East China Sea:Formation and implications for geochronology[J].Quaternary International,2018,464:343-351.
[7] Qiu Q,Xie Z,Wu L,et al.BiLSTM-CRF for geological named entity recognition from the geoscience literature[J].Earth Science Informatics,2019,12:565-579.
[8] Li W,Ma K,Qiu Q,et al.Chinese Word Segmentation Based on Self-Learning Model and Geological Knowledge for the Geoscience Domain[J].Earth and Space Science,2021,8(6):1673.
[9] Wang B,Ma K,Wu L,et al.Visual analytics and information extraction of geological content for text-based mineral exploration reports[J].Ore Geology Reviews,2022,144:104818.
[10] Sobhana N,Mitra P,Ghosh S K.Conditional random field based named entity recognition in geological text[J].International Journal of Computer Applications,2010,1(3):143-147.
[11] Devlin J,Chang M W,Lee K,et al.Bert:Pre-training of deep bidirectional transformers for language understanding[J].arXiv preprint arXiv:2018,1810.
[12] Radford A,Narasimhan K,Salimans T,et al.Improving language understanding by generative pre-training[J].2018.
[13] Peters M E,Neumann M,Iyyer M,et al.Deep contextualized word representations[J].arXiv preprint arXiv,2018,1802.
[14] Vaswani A,Shazeer N,Parmar N,et al.Attention is all you need[J].Advances in neural information processing systems,2017,30.
[15] Bengio Y,Simard P,F(xiàn)rasconi P.Learning long-term dependencies with gradient descent is difficult[J].IEEE transactions on neural networks,1994,5(2):157-166.
[16] Hochreiter S,Schmidhuber J.Long short-term memory[J].Neural computation,1997,9(8):1735-1780.
[17] 莊云行,季鐸,馬堯,等.基于Bi-LSTM的涉恐類案件法律文書的命名實(shí)體識(shí)別研究[J].網(wǎng)絡(luò)安全技術(shù)與應(yīng)用,2023 (7):36-39.
[18] 邱芹軍,田苗,馬凱,等.區(qū)域地質(zhì)調(diào)查文本中文命名實(shí)體識(shí)別[J].地質(zhì)論評(píng),2023,69(04):1423-1433.
Geological Mineral Attribute Recognition Method Based on
Large-Scale Pre-Trained Model and Its Application
Wang Binbin1,2,4, Zhou Kefa2,3,5, Wang Jinlin1,2,3,4, Wang Wei1,2,3,4, Li Chao5, Cheng Yinyi2
(1.Xinjiang Research Center for Mineral Resources,Xinjiang Institute of Ecology and Geography,Chinese Academy
of Sciences,Urumqi,Xinjiang,830011,China;2.University of Chinese Academy of Sciences,Beijing,100049,China;
3.Technology and Engineering Center for Space Utilization, Chinese Academy of Sciences,Beijing,100094,China;
4.Xinjiang Key Laboratory of Mineral Resources and Digital Geology,Urumqi,Xinjiang,830011,China;
5.Institute of Geological Survey,China University of Geosciences,Wuhan,Hubei,430074,China)
Abstract: Geoscience research results are usually documented in technical reports, journal papers, books, and other literature; however, many detailed geoscience reports are unused, which provides challenges and opportunities for information extraction. To this end, we propose a deep neural network model called GMNER (Geological Minerals named entity recognize, MNER) for recognizing and extracting key information such as mineral types, geological formations, rocks, and geological time. Unlike traditional methods, we employ a large-scale pre-trained model BERT (Bidirectional Encoder Representations from Transformers, BERT) and deep neural network to capture contextual information and combine it with a conditional random field (CRF) to obtain more accurate and accurate information. The experimental results show that the MNER model performs well in Chinese geological literature, achieving an average precision of 0.8984, an average recall of 0.9227, and an average F1 score of 0.9104. This study not only provides a new way for automated mineral information extraction but also is expected to promote the progress of mineral resource management and sustainable utilization.
Key words: Mineral information extraction; Deep neural network; Mineral documentation; Named entity recognition
項(xiàng)目資助:新疆維吾爾自治區(qū)重大科技專項(xiàng)(2021A03001-3)、新疆科學(xué)考察項(xiàng)目(2022xjkk1306)、深空大數(shù)據(jù)智能建設(shè)(292022000059)聯(lián)合資助
收稿日期:2023-09-18;修訂日期:2024-01-09
第一作者簡(jiǎn)介:王彬彬(1998-),男,陜西咸陽(yáng)人,中國(guó)科學(xué)院大學(xué)地球探測(cè)與信息技術(shù)專業(yè)在讀碩士,研究方向?yàn)榈刭|(zhì)大數(shù)據(jù);
E-mail: wangbinbin21@mails.ucas.ac.cn