王宏 朱學(xué)立 曾濤 喬?hào)|玉 郭甲騰
摘要:中文分詞是地質(zhì)大數(shù)據(jù)智能化知識(shí)挖掘難以回避的第一道基本工序?;诮y(tǒng)計(jì)的分詞方法受語(yǔ)料影響,跨領(lǐng)域適應(yīng)性較差?;谠~典的分詞方法可以直接利用領(lǐng)域詞典進(jìn)行分詞,但不能解決未登錄詞識(shí)別問題。在領(lǐng)域語(yǔ)料不足的情況下,為提高地質(zhì)文本分詞的準(zhǔn)確率和未登錄詞識(shí)別率,提出一種基于統(tǒng)計(jì)的中文地質(zhì)詞語(yǔ)識(shí)別方法。該方法基于質(zhì)串思想構(gòu)建了地質(zhì)基本詞典庫(kù),用以改善統(tǒng)計(jì)分詞方法在地質(zhì)文本分詞上的適應(yīng)性。采用重復(fù)串查找方法得到地質(zhì)詞語(yǔ)候選集,并使用上下文鄰接以及基于位置成詞的概率詞典,對(duì)地質(zhì)詞語(yǔ)候選集進(jìn)行過濾,最終實(shí)現(xiàn)地質(zhì)詞語(yǔ)識(shí)別。實(shí)驗(yàn)結(jié)果表明,使用該方法對(duì)地質(zhì)專業(yè)詞語(yǔ)識(shí)別準(zhǔn)確率達(dá)到81.6%,比通用統(tǒng)計(jì)分詞方法提高了近60%。該方法能夠識(shí)別地質(zhì)文本中的未登錄詞,并保證地質(zhì)分詞的準(zhǔn)確率,可以應(yīng)用到地質(zhì)文本分詞工作中。
關(guān)鍵詞:地質(zhì)文本;中文分詞;質(zhì)串;重復(fù)串;上下文鄰接;位置成詞概率
DOI: 10. 11907/rjdk.191648
開放科學(xué)(資源服務(wù))標(biāo)識(shí)碼(OSID):
中圖分類號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):1672-7800( 2020)004-0211-08
0 引言
地質(zhì)大數(shù)據(jù)是信息時(shí)代背景下大數(shù)據(jù)理念、技術(shù)和方法在地質(zhì)領(lǐng)域的應(yīng)用與實(shí)踐,地質(zhì)調(diào)查工作是獲取地質(zhì)大數(shù)據(jù)的主要途徑。地質(zhì)調(diào)查工作產(chǎn)生了諸如地質(zhì)圖件、文本、表格等類型資料。目前,基于大數(shù)據(jù)平臺(tái)的非結(jié)構(gòu)化地質(zhì)數(shù)據(jù)組織、存儲(chǔ)和快速發(fā)現(xiàn)問題已基本得到解決,但在此基礎(chǔ)上構(gòu)建智能化的地質(zhì)知識(shí)挖掘系統(tǒng)仍需探索。
文本是地質(zhì)大數(shù)據(jù)重要的數(shù)據(jù)形式,自然語(yǔ)言是文本信息的重要載體。詞是最小的能夠獨(dú)立運(yùn)用的語(yǔ)言單位…,但由于中文詞匯之間沒有明確的分界符,需要先進(jìn)行分詞才能作進(jìn)一步的自然語(yǔ)言處理[2]。從信息處理角度看,地質(zhì)文本是利用自然語(yǔ)言編寫的地質(zhì)特點(diǎn)鮮明的語(yǔ)義數(shù)據(jù)[3]。中文分詞是智能化地質(zhì)知識(shí)挖掘基礎(chǔ),對(duì)地質(zhì)文檔全文檢索、文本分類、自動(dòng)文摘、地質(zhì)文檔信息抽取及自動(dòng)翻譯等應(yīng)用具有重大意義。
在通用領(lǐng)域分詞中,基于統(tǒng)計(jì)的分詞方法應(yīng)用廣泛。隱馬爾科夫模型( Hidden Markov Model,HMM)[4]、條件隨機(jī)場(chǎng)模型( Conditional Random Fields,CRFs)[5]和最大熵馬爾科夫模型( Maximum Entropy Markov Model,MEMM)[6]等是統(tǒng)計(jì)分詞方法中主要的分詞模型。在專業(yè)領(lǐng)域分詞中往往存在大量的專業(yè)詞匯,使得分詞效果不佳。為了改進(jìn)專業(yè)領(lǐng)域中文分詞效果,學(xué)者們開展了大量研究工作。如Huan等[7]采用一種新型的個(gè)性化分詞詞典對(duì)網(wǎng)絡(luò)個(gè)性化服務(wù)中用戶的瀏覽文檔進(jìn)行分詞。該方法受專業(yè)詞典所限,對(duì)未被收錄進(jìn)詞典中的詞匯識(shí)別率較低;Qi等[8]將專業(yè)詞典特征與字向量相結(jié)合,使用神經(jīng)網(wǎng)絡(luò)模型解決跨領(lǐng)域分詞適應(yīng)性問題,但該方法受訓(xùn)練語(yǔ)料影響較大。Bao等[9]通過使用雙向馬爾科夫鏈對(duì)正向最大匹配算法和詞頻統(tǒng)計(jì)算法進(jìn)行改進(jìn),實(shí)現(xiàn)對(duì)特定領(lǐng)域文本快速、較為準(zhǔn)確的分詞,但沒有考慮詞語(yǔ)的上下文信息,分詞效果仍有改進(jìn)空間。
中文分詞技術(shù)在地質(zhì)領(lǐng)域應(yīng)用不夠廣泛,相關(guān)研究不多。Lan等[10]基于條件隨機(jī)場(chǎng)模型構(gòu)建了針對(duì)地學(xué)領(lǐng)域的分詞方法,較好地識(shí)別出地質(zhì)礦產(chǎn)類術(shù)語(yǔ),但其采用自定義的方法對(duì)訓(xùn)練語(yǔ)料進(jìn)行標(biāo)注,在語(yǔ)料庫(kù)標(biāo)注、定義規(guī)范程度方面有待提高。陳婧汶等[11]使用一種基于雙語(yǔ)料庫(kù)條件隨機(jī)場(chǎng)模型方法對(duì)地質(zhì)礦產(chǎn)文本進(jìn)行分詞,取得了較好的分詞效果,但所采用的語(yǔ)料規(guī)模較小,分詞性能仍有改進(jìn)空間。通常情況下,獲取大量、規(guī)范的領(lǐng)域語(yǔ)料進(jìn)行模型訓(xùn)練較為困難。因此,針對(duì)地質(zhì)領(lǐng)域語(yǔ)料不足的情況,如何準(zhǔn)確識(shí)別出地質(zhì)專業(yè)詞語(yǔ)從而獲得較好的分詞效果值得研究。本文基于質(zhì)串思想構(gòu)建地質(zhì)基本詞典庫(kù),對(duì)通用分詞器的核心詞典庫(kù)進(jìn)行擴(kuò)充,在此基礎(chǔ)上提出一種基于統(tǒng)計(jì)的中文地質(zhì)詞語(yǔ)識(shí)別方法。采用重復(fù)串查找方法得到地質(zhì)詞語(yǔ)候選集,使用上下文鄰接以及基于位置成詞的概率詞典對(duì)地質(zhì)詞語(yǔ)候選集進(jìn)行過濾,最終實(shí)現(xiàn)對(duì)地質(zhì)詞語(yǔ)的識(shí)別。
1 中文地質(zhì)文本分詞
1.1 中文分詞技術(shù)
漢語(yǔ)中的漢字是書面表達(dá)的最小單位,但在含義表達(dá)和相關(guān)信息處理中,詞才是最小的語(yǔ)言成分。在漢語(yǔ)文本中,將詞與詞之間加上區(qū)分標(biāo)記是中文分詞的主要目的,也是任何中文自然語(yǔ)言應(yīng)用都必須進(jìn)行的第一道基本工序[12]。只有完成了漢語(yǔ)文本的自動(dòng)分詞,才能采用各種后續(xù)語(yǔ)言分析手段實(shí)現(xiàn)相應(yīng)的智能應(yīng)用。目前中文分詞已被應(yīng)用在信息檢索、自動(dòng)文摘、機(jī)器翻譯、同音字和多音字識(shí)別、文本校對(duì)、搜索引擎等方面。
基于詞典的機(jī)械分詞、基于語(yǔ)法和規(guī)則的分詞以及基于統(tǒng)計(jì)的分詞,是中文分詞領(lǐng)域的3種分詞方法?;谠~典的機(jī)械分詞在分詞過程中利用詞典作為主要資源,將文檔中的字符串在詞典中進(jìn)行查找。如果找到,則進(jìn)行切分,否則不予切分。由于可以利用相關(guān)領(lǐng)域的專業(yè)詞典,因此該方法具有較高的領(lǐng)域自適應(yīng)性,但不能很好地解決未登錄詞識(shí)別以及分詞歧義問題,而且詞典的完備性不能得到保證?;谡Z(yǔ)法和規(guī)則的分詞法,其基本思想是在分詞的同時(shí)進(jìn)行句法、語(yǔ)義分析,利用句法信息和語(yǔ)義信息進(jìn)行詞性標(biāo)注,以解決分詞歧義現(xiàn)象。因?yàn)檎Z(yǔ)法知識(shí)、句法規(guī)則十分復(fù)雜,基于語(yǔ)法和規(guī)則的分詞法所能達(dá)到的精確程度遠(yuǎn)遠(yuǎn)不能令人滿意[13]?;诮y(tǒng)計(jì)的分詞法是目前自然語(yǔ)言處理領(lǐng)域的主流分詞方法,該方法在已經(jīng)切分好的分詞語(yǔ)料庫(kù)基礎(chǔ)上進(jìn)行統(tǒng)計(jì)訓(xùn)練,建立語(yǔ)言模型并最終實(shí)現(xiàn)分詞解碼。在跨領(lǐng)域使用統(tǒng)計(jì)分詞方法時(shí),必須根據(jù)相應(yīng)領(lǐng)域的分詞訓(xùn)練語(yǔ)料進(jìn)行語(yǔ)言模型訓(xùn)練,但是分詞訓(xùn)練語(yǔ)料需要大量專業(yè)人員參與,獲取代價(jià)高昂。
1.2 中文地質(zhì)文本特點(diǎn)
地質(zhì)文本指在各類地質(zhì)工作中產(chǎn)生的文字性材料,包括各類地質(zhì)報(bào)告、科技文獻(xiàn)、觀測(cè)記錄、質(zhì)量檢查記錄以及質(zhì)量體系運(yùn)行的相關(guān)材料等。本文的地質(zhì)文本包括各類地質(zhì)報(bào)告、地質(zhì)科技文獻(xiàn)等技術(shù)性文字材料。地質(zhì)報(bào)告是完成下達(dá)的地質(zhì)工作任務(wù)后,在系統(tǒng)整理和綜合研究各種相關(guān)資料基礎(chǔ)上編寫的反映地質(zhì)工作成果的重要技術(shù)文件。地質(zhì)科技文獻(xiàn)是分析、研究、闡述地質(zhì)科學(xué)技術(shù)問題的文章,是地質(zhì)研究成果的書面表達(dá),是地質(zhì)客觀事物和科學(xué)規(guī)律的總結(jié)與闡釋[14]。
地質(zhì)文本相較于一般技術(shù)性文本,不僅具有結(jié)構(gòu)嚴(yán)密、邏輯關(guān)系明顯、語(yǔ)言嚴(yán)謹(jǐn)、陳述客觀等特點(diǎn),還具有其自身特點(diǎn)。
(1)地質(zhì)文本內(nèi)容涉及知識(shí)面廣,領(lǐng)域眾多。地質(zhì)學(xué)涉及學(xué)科廣泛,理論知識(shí)龐大、紛繁復(fù)雜。諸如自然科學(xué)中的數(shù)學(xué)、物理、化學(xué),社會(huì)科學(xué)中的哲學(xué)、歷史等,都與地質(zhì)學(xué)研究緊密相關(guān),形成一系列交叉學(xué)科,如數(shù)學(xué)地質(zhì)、地球物理、地球化學(xué)、地史學(xué)等[15]。同樣,地質(zhì)工作涉及多種工作手段,如地質(zhì)填圖、鉆探工程、物探、化探、巖礦測(cè)試等。一項(xiàng)地質(zhì)工作往往需要通過多種工作手段的實(shí)施才能得以完成,因此所形成的地質(zhì)文本內(nèi)容涉及專業(yè)領(lǐng)域眾多,知識(shí)面廣。
(2)地質(zhì)文本形式多樣。地質(zhì)文本源于地質(zhì)工作的實(shí)施,地質(zhì)工作性質(zhì)決定著地質(zhì)文本的性質(zhì)。地質(zhì)工作實(shí)踐性很強(qiáng),在地質(zhì)工作實(shí)施過程中,會(huì)產(chǎn)生不同類型的地質(zhì)文本,如在固體礦產(chǎn)勘查工作實(shí)施過程中,會(huì)形成地質(zhì)填圖、剖面測(cè)量、探礦工程、采樣及樣品測(cè)試分析等工作手段相關(guān)的技術(shù)類文檔資料。在同一工作手段下,也往往包含不同種類的地質(zhì)文本,如在開展地質(zhì)填圖工作過程中會(huì)產(chǎn)生各類野外記錄,包括地質(zhì)觀察點(diǎn)記錄、實(shí)測(cè)剖面記錄、重砂取樣記錄、物化探測(cè)量記錄、物化探取樣記錄、礦產(chǎn)調(diào)查記錄等。
(3)地質(zhì)文本中包含了海量專業(yè)詞匯。地質(zhì)學(xué)作為自然科學(xué)的一大分支,經(jīng)過長(zhǎng)期的認(rèn)識(shí)和探索,形成了一個(gè)相對(duì)獨(dú)立的學(xué)科體系,包含了大量富有學(xué)科特色的專業(yè)術(shù)語(yǔ)。如文獻(xiàn)[16]在地質(zhì)專業(yè)詞匯中,礦物名稱、巖石名稱、化石(古生物)名稱占比很大。以巖石名稱為例,在沉積巖、變質(zhì)巖、巖漿巖基礎(chǔ)上細(xì)分而來的巖石種類有上千種。同時(shí),由于采用的分類方法不同而產(chǎn)生更加繁多的巖石命名。地質(zhì)學(xué)在與不同學(xué)科的交叉滲透中形成了眾多邊緣學(xué)科,這些學(xué)科的興起增加了地質(zhì)詞匯量[17]。
(4)地質(zhì)文本具有專業(yè)的表達(dá)形式。任何一門學(xué)科都有其特有的表達(dá)形式,如化學(xué)用分子式表述、電學(xué)用正負(fù)號(hào)表述、數(shù)學(xué)用方程式表述等。在地質(zhì)文本中,除了使用自然語(yǔ)言外,還需要大量使用圖、表、符號(hào)、公式等。其中,圖表是地質(zhì)文本常見的兩種表述方法。在地質(zhì)文本中,表格具有形式簡(jiǎn)潔、內(nèi)容豐富、信息可靠、層次清晰等特點(diǎn),常用來表達(dá)背景條件、比較前提、使用方法、實(shí)測(cè)(或?qū)嶒?yàn)數(shù)據(jù))、統(tǒng)計(jì)資料、誤差分析、對(duì)比分析等內(nèi)容。地質(zhì)圖件是地質(zhì)成果的載體,是地質(zhì)文本的核心內(nèi)容,也是地質(zhì)學(xué)最好的表述方式。只要有地質(zhì)工作,就必然要編繪地質(zhì)圖件,哪里有地質(zhì)工作,哪里就有地質(zhì)圖件[8]。很多實(shí)際應(yīng)用中,僅靠對(duì)文字報(bào)告的理解掌握相應(yīng)的地質(zhì)資料是比較困難的。相反,一張精確的圖件,再配以文字表述才能更好地理解資料。
(5)客觀陳述性描述(定性與定量描述)。觀察經(jīng)驗(yàn)事實(shí)并加以歸納的認(rèn)識(shí)方法是地質(zhì)學(xué)的基本方法[18],在地質(zhì)文本中存在大量的定性描述,如在描述一塊巖石時(shí),主要從巖石的顏色、結(jié)構(gòu)、構(gòu)造、主要礦物組成等方面進(jìn)行描述并獲得巖石定名。在地質(zhì)研究中,只做到定性描述地質(zhì)現(xiàn)象是不夠的,除定性敘述外,還應(yīng)該有嚴(yán)密的量化數(shù)據(jù),比如礦物成分、地質(zhì)體厚度、礦體品位等。在地質(zhì)工作過程中,定性描述與定量描述是相互統(tǒng)一、互為補(bǔ)充的。例如,在巖石描述與定名中,除了強(qiáng)調(diào)從巖石的各個(gè)特征進(jìn)行描述外,還需要對(duì)礦物成分做估算,這有助于提高巖石定名的準(zhǔn)確度。
1.3 地質(zhì)詞語(yǔ)特征
地質(zhì)學(xué)是完全由國(guó)外輸入的一門近代科學(xué)[19],因此地質(zhì)詞語(yǔ)中有相當(dāng)一部分詞來自外文直譯,如角閃巖、花崗巖、白堊、侏羅、三疊等。與此同時(shí),在地質(zhì)學(xué)發(fā)展過程中,有許多名詞實(shí)際上是物理化學(xué)生物及其它有關(guān)學(xué)科借用而來的,特別常見于礦物和古生物名詞,如礦物學(xué)中的大批化學(xué)名詞、結(jié)晶學(xué)中的幾何名詞。相關(guān)學(xué)科對(duì)地質(zhì)學(xué)影響很大,不但借用了許多名詞,甚至連造名詞方法也全部應(yīng)用。如古生物學(xué)上的命名法仍然完全采用生物學(xué)上的命名法,即用希臘文用作屬名拉丁文用作種名。
地質(zhì)學(xué)經(jīng)過不斷發(fā)展產(chǎn)生了大量地質(zhì)專業(yè)詞匯,形成了一套嚴(yán)密的命名原則和方法,具有明顯的專業(yè)性、科學(xué)性、簡(jiǎn)明性和系統(tǒng)性。例如,巖石地層單位可分為正式巖石地層單位(群、組、段、層等)和非正式地層單位(帶、凸鏡體、巖丘、礁等),非正式巖石地層單位的地理專名不能與“組”、“段”、“層”等術(shù)語(yǔ)連用,以區(qū)別正式地層單位。
中文地質(zhì)詞匯在構(gòu)成上遵循漢語(yǔ)規(guī)律,大部分詞語(yǔ)都是由單音節(jié)或雙音節(jié)構(gòu)成的,富有漢語(yǔ)特征,簡(jiǎn)明扼要而含意深刻。有的一字、一詞都確切反映出概念的分化原則,清晰地區(qū)分出一事物與它事物的不同,表達(dá)出事物的特征和屬性。地質(zhì)詞匯包含大量的復(fù)合詞,在這些復(fù)合詞中,絕大多數(shù)是復(fù)合名詞。在地質(zhì)詞匯中的復(fù)合名詞(如:地質(zhì)羅盤、鹽丘、鉆頭等)中,前一個(gè)組成部分通常是修飾詞,詞性多為形容詞、名詞、動(dòng)詞等,后一個(gè)組成部分為被修飾詞。除此之外,在地質(zhì)名詞中,往往包含地名、人名,如太原組、山西組、郯廬斷裂等。
1.4 地質(zhì)文本分詞粒度
文本應(yīng)用目標(biāo)不同,對(duì)分詞的要求也不同甚至是矛盾的,當(dāng)前技術(shù)水平還做不到百分之百的正確切分。漢語(yǔ)中詞語(yǔ)或詞組的界定還沒有統(tǒng)一確定的標(biāo)準(zhǔn),從而導(dǎo)致不同的信息處理場(chǎng)景對(duì)切分標(biāo)準(zhǔn)有不同要求。
一般將中文分詞分為兩個(gè)粒度:①粗粒度切分,將詞語(yǔ)作為語(yǔ)言處理最小的基本單位進(jìn)行切分;②細(xì)粒度切分,不僅對(duì)詞匯進(jìn)行切分,還要對(duì)詞匯內(nèi)的語(yǔ)素進(jìn)行切分。
例如:原始串:河南省西南部為南陽(yáng)盆地,具有明顯的環(huán)狀和階梯狀地貌特征。
粗粒度切分:河南省/西南部/為/南陽(yáng)盆地,具有/明顯的/環(huán)狀/和/階梯狀/地貌特征。
細(xì)粒度切分:河南省/西南部/為/南陽(yáng)/盆地,具有/明顯的/環(huán)狀/和/階梯狀/地貌/特征。
在實(shí)際應(yīng)用中,粗粒度切分和細(xì)粒度切分都有使用范圍。粗粒度切分主要用于自然語(yǔ)言處理的各種應(yīng)用,而細(xì)粒度切分常應(yīng)用于搜索引擎。對(duì)于地質(zhì)文檔檢索系統(tǒng),常用的方案是在索引時(shí)使用細(xì)粒度分詞以保證查全率,在查詢時(shí)使用粗粒度分詞以保證查準(zhǔn)率。
2 識(shí)別方法
基于統(tǒng)計(jì)的分詞方法在跨領(lǐng)域應(yīng)用方面存在較大缺陷,而基于詞典的方法由于可以直接使用相應(yīng)領(lǐng)域的詞典進(jìn)行分詞,具有較強(qiáng)的領(lǐng)域適應(yīng)性,且領(lǐng)域?qū)I(yè)詞典的獲取相比語(yǔ)料庫(kù)而言要容易很多。因此,如果把這兩種方法結(jié)合起來,采用統(tǒng)計(jì)的方法合理應(yīng)用詞典,則可實(shí)現(xiàn)對(duì)地質(zhì)專業(yè)詞語(yǔ)的正確切分。
基于統(tǒng)計(jì)的分詞方法是目前自然語(yǔ)言處理領(lǐng)域的主流分詞方法,比較有代表性的分詞系統(tǒng)為ICTCLAS分詞系統(tǒng)、Ansj中文分詞系統(tǒng)、結(jié)巴分詞等。如果直接使用通用分詞器對(duì)地質(zhì)專業(yè)文檔進(jìn)行分詞,分詞效果往往不佳,主要表現(xiàn)為以下3點(diǎn):①由于通用分詞器所使用的核心詞典對(duì)地質(zhì)專業(yè)詞匯覆蓋不全,即便是最基礎(chǔ)的地質(zhì)詞匯往往也不能正確切分,所以在這些切分錯(cuò)誤中往往會(huì)存在分詞碎片,如包含一些被切分開來的兩個(gè)或兩個(gè)以上的連續(xù)單字,一般情況下這些單字組合就是一個(gè)地質(zhì)詞匯;②新詞判別問題。地質(zhì)分詞是一個(gè)反復(fù)迭代過程,在這個(gè)過程中,需要不斷將發(fā)現(xiàn)的新詞收錄到詞典當(dāng)中。基于統(tǒng)計(jì)的中文分詞器往往具有新詞發(fā)現(xiàn)功能,需要解決如何判斷這些新詞是否正確;③有意義串的提取問題。在地質(zhì)領(lǐng)域中,重要的命名實(shí)體包括地層名、巖石命名、斷裂名、構(gòu)造名、礦體名、礦帶名等。地質(zhì)作為一門實(shí)踐性很強(qiáng)的自然科學(xué),其研究對(duì)象通常具有一定的空間特征,這種特征在地質(zhì)實(shí)體命名時(shí)也有所體現(xiàn),如“東昆侖山多金屬礦帶”、“中天山成礦帶”、“欒川鉬(鎢)礦床”、“龍河林場(chǎng)一滿歸斷裂”等,這些詞匯屬于地質(zhì)術(shù)語(yǔ)范疇,是對(duì)特定地質(zhì)體的表述,在語(yǔ)義上具有唯一性,在領(lǐng)域內(nèi)往往不能拆分理解,如“欒川鉬(鎢)礦床”往往不能理解為“欒川的鉬(鎢)礦床”。有意義串的提取對(duì)提高大數(shù)據(jù)環(huán)境下地質(zhì)文檔查準(zhǔn)率具有重要意義。
上述3個(gè)問題在自然語(yǔ)言處理領(lǐng)域?qū)儆谛略~識(shí)別問題。在地質(zhì)文檔中,具有地學(xué)意義的地質(zhì)詞語(yǔ)或短語(yǔ)在文檔中會(huì)多次使用,即會(huì)在文檔中反復(fù)出現(xiàn)。因此,找出文檔中的重復(fù)串,便可得到地質(zhì)詞語(yǔ)的候選集合?;诮y(tǒng)計(jì)的分詞法受統(tǒng)計(jì)模型影響,大多只能發(fā)現(xiàn)4個(gè)字以內(nèi)的詞語(yǔ)。基于規(guī)則的分析法領(lǐng)域局限性大,如果切換領(lǐng)域就需要重建規(guī)則,而通過重復(fù)串查找獲得的地質(zhì)詞語(yǔ)候選集合不局限于字?jǐn)?shù)和領(lǐng)域。
重復(fù)串查找分為基于字的重復(fù)串查找及基于詞的重復(fù)串查找,基于詞的重復(fù)串查找需要預(yù)先對(duì)文本進(jìn)行切分。本次地質(zhì)詞語(yǔ)識(shí)別建立在通用分詞器切分結(jié)果的基礎(chǔ)上,因此采用基于詞的重復(fù)串查找。在使用通用分詞器進(jìn)行切分時(shí),地質(zhì)詞語(yǔ)一般都是被切散,分為以下4種情況:①被切分為單字之間的組合。例如:“區(qū)調(diào)”被切為“區(qū)/調(diào)”,“水工環(huán)”被切分為“水/工/環(huán)”;②被切分為多字詞和單字的組合。例如:“古侵入體/”被切分成“古/侵入/體”,“三疊系”被切分成“三疊/系”,“倒轉(zhuǎn)背斜”被切分成“倒/轉(zhuǎn)/背斜”;③被切分為多字詞之間的組合。例如:“中國(guó)地調(diào)局”被切分成“中國(guó)/地調(diào)局”,“河南省地質(zhì)調(diào)查院”被切分成“河南省/地質(zhì)/調(diào)查院”;④在切分結(jié)果中,本應(yīng)組合成詞的多個(gè)字與其它字/詞組合。例如:“太古宇太華巖群”在切分時(shí)切成“太/古宇太華/巖群”,“煤窯溝組”切分成“煤窯/溝組”,“變長(zhǎng)石石英砂巖”切分為“變長(zhǎng)/石石英砂巖”。
對(duì)于前3種情況,當(dāng)新詞在文檔中出現(xiàn)不少于兩次時(shí),采用重復(fù)串查找就可得到。在少量文檔下進(jìn)行地質(zhì)詞語(yǔ)提取時(shí),第4種情況會(huì)影響詞語(yǔ)發(fā)現(xiàn),這種情況的發(fā)生與分詞器所使用的語(yǔ)言模型相關(guān)。地質(zhì)分詞是一個(gè)反復(fù)迭代的過程,在這個(gè)過程中,分詞結(jié)果也處于動(dòng)態(tài)修正狀態(tài)。
雖然重復(fù)串查找可以發(fā)現(xiàn)文檔中出現(xiàn)次數(shù)很少的新詞,但由于詞與詞之間的搭配非常多,因而在所獲得的集合中存在較多垃圾串。在地質(zhì)文檔中,重復(fù)串不僅包含了地質(zhì)術(shù)語(yǔ),還存在大量垃圾串。地質(zhì)專業(yè)詞語(yǔ)識(shí)別的實(shí)質(zhì)就是在重復(fù)串發(fā)現(xiàn)的基礎(chǔ)上過濾掉無意義的垃圾串。垃圾串一般分為3類:①冗余子串,例如“碳酸鹽”這樣的串包含在“碳酸鹽巖”中;②有意義串和常用字的組合,如“的地臺(tái)型基底”;③頻繁功能串,如“這是”、“其為”等。對(duì)于第一類垃圾串的判斷需要依賴它的外部使用環(huán)境,采用上下文鄰接分析識(shí)別。后兩類垃圾串的判斷要從串本身結(jié)構(gòu)著手,通過字的位置成詞概率進(jìn)行判斷、分析。
為解決上述3方面問題,本文基于統(tǒng)計(jì)方法對(duì)地質(zhì)命名實(shí)體進(jìn)行提取。分詞流程如圖1所示。
①首先對(duì)地質(zhì)報(bào)告進(jìn)行預(yù)處理,轉(zhuǎn)換為txt文本格式,使用Ansj分詞工具進(jìn)行分詞,并執(zhí)行第②步;②提取分詞中的新詞,并采用上下文鄰接分析和基于字的成詞概率詞典進(jìn)行新詞判別,并執(zhí)行第③步或第⑤步;③當(dāng)在第②步中判別為新詞時(shí),新詞入庫(kù),執(zhí)行第④步;④更新基于字的成詞概率詞典,執(zhí)行第⑤步;⑤當(dāng)在第②步中判別不是新詞時(shí),對(duì)該詞進(jìn)行分詞,并將結(jié)果寫入文檔切分結(jié)果中,執(zhí)行第⑥步;⑥在文檔切分結(jié)果中提取重復(fù)串,形成有意義串候選集合,執(zhí)行第⑦步;⑦對(duì)候選有意義串采用上下文鄰接分析和基于字的成詞概率詞典進(jìn)行判別;執(zhí)行第⑧步或第⑩步;⑧當(dāng)在第⑦步中判別為有意義串時(shí),更新詞典庫(kù),執(zhí)行第⑨步;⑨更新基于字的成詞概率詞典,執(zhí)行第⑩步;⑩當(dāng)所有候選有意義串判別完畢后,執(zhí)行第①步,迭代進(jìn)行下一次分詞。
3 基于質(zhì)串的地質(zhì)基本詞典庫(kù)構(gòu)建
詞語(yǔ)根據(jù)詞形可分為質(zhì)詞和合詞。質(zhì)詞不可再分解為更小的詞語(yǔ),例如“珠穆朗瑪”一詞,任何組合(“珠穆”或“朗瑪”等)都不是詞。合詞是由質(zhì)詞組合而成的詞語(yǔ),例如“社會(huì)保障體系”是由“社會(huì)”、“保障”和“體系”3個(gè)質(zhì)詞組合而成[20]。
在中文分詞系統(tǒng)中必須有一個(gè)核心詞典,無論是標(biāo)準(zhǔn)分詞還是命名實(shí)體識(shí)別都離不開詞典提供的詞匯和語(yǔ)言模型資源。核心詞典中包含的詞匯越多,能夠正確分詞的語(yǔ)料范圍就越大。地質(zhì)基本詞典庫(kù)是對(duì)核心詞典的補(bǔ)充,能夠保證通用分詞器對(duì)常用地質(zhì)詞匯的正確切分,便于后續(xù)處理。
在地質(zhì)基本詞典收錄方面并不是地質(zhì)術(shù)語(yǔ)越長(zhǎng)越好。正如前面所述,分詞單元粒度大小需要考慮到查全率和查準(zhǔn)率的矛盾。本文以《地質(zhì)礦產(chǎn)術(shù)語(yǔ)分類代碼》(GB9649-1988)為基礎(chǔ),構(gòu)建了一個(gè)地質(zhì)基本詞典庫(kù),用以滿足在智能地質(zhì)調(diào)查大數(shù)據(jù)應(yīng)用體系下對(duì)地質(zhì)文檔的查全率要求。通過重復(fù)串提取以及相關(guān)統(tǒng)計(jì)分析方法,提取地質(zhì)有意義串以滿足查準(zhǔn)率要求。
3.1《地質(zhì)礦產(chǎn)術(shù)語(yǔ)分類代碼》(GB 9649-1988)分析
《地質(zhì)礦產(chǎn)術(shù)語(yǔ)分類代碼》(CB 9649-1988)(以下簡(jiǎn)稱“CB9649”)分為35個(gè)部分,涵蓋了宇宙地質(zhì)學(xué)、地球物理學(xué)、火山地質(zhì)、地震地質(zhì)、外動(dòng)力地質(zhì)學(xué)等地質(zhì)學(xué)領(lǐng)域各個(gè)方面。GB9649共包含詞語(yǔ)102 433個(gè),地質(zhì)專業(yè)詞語(yǔ)可分為二字詞、三字詞以及多字詞(四字詞、五字詞等等),按詞長(zhǎng)進(jìn)行分類如圖2所示。
地質(zhì)詞典庫(kù)主要應(yīng)用方向是在大數(shù)據(jù)環(huán)境下的地質(zhì)文檔檢索,為提高地質(zhì)文檔查全率,傾向于分詞單位較小化。當(dāng)?shù)刭|(zhì)詞語(yǔ)長(zhǎng)度大于4時(shí),往往由多個(gè)二字詞或三字詞組成(例如:地質(zhì)勘探、俯沖構(gòu)造等)。本文采用質(zhì)串思想,對(duì)GB9649中的地質(zhì)詞語(yǔ)進(jìn)行分類,收錄符合質(zhì)串特征的地質(zhì)詞語(yǔ)用以構(gòu)建地質(zhì)基本詞典庫(kù)。
3.2 基于質(zhì)串的地質(zhì)基本詞典庫(kù)構(gòu)建
(5)合串。若串S有不少于3種的串分解時(shí)(自分解、單字分解、其它分解方式),則稱串S為合串。
由質(zhì)串的相關(guān)定義可知,質(zhì)串中不包含詞語(yǔ),只能分解為單字,多個(gè)質(zhì)串與單字的組合可以構(gòu)成合串。因此,符合質(zhì)串特征的地質(zhì)詞語(yǔ)經(jīng)過組合可以構(gòu)成其它地質(zhì)詞語(yǔ),將這些詞語(yǔ)收錄進(jìn)地質(zhì)基本詞典庫(kù)中,既能滿足查全率要求,又可通過重復(fù)串提取地質(zhì)有意義串,以滿足查準(zhǔn)率要求。本文使用通用分詞器對(duì)GB9649中的地質(zhì)詞語(yǔ)進(jìn)行分詞。如前文所述,當(dāng)?shù)刭|(zhì)詞語(yǔ)長(zhǎng)度大于4時(shí),往往是由多個(gè)粒度較小的詞語(yǔ)組成,因此,本次工作僅對(duì)長(zhǎng)度不大于4的地質(zhì)詞語(yǔ)使用通用分詞器進(jìn)行分詞,將符合質(zhì)串特征的地質(zhì)詞語(yǔ)收錄進(jìn)地質(zhì)基本詞典庫(kù)。
通用分詞器詞典中不包含地質(zhì)詞匯,在對(duì)地質(zhì)文本進(jìn)行分詞時(shí),往往只能將分詞器所包含的通用詞匯分出。對(duì)于二字術(shù)語(yǔ)(定義“A”、“B”為組成二字術(shù)語(yǔ)的單字),其切分方式只有AB(例“項(xiàng)目”一“項(xiàng)/目”)、A/B(例”心灘”一”心/灘”)兩種切分類型,”一”表示地質(zhì)詞語(yǔ)被通用分詞器切分,下同。
對(duì)于三字術(shù)語(yǔ)(定義“A”、“B”、“C”為組成三字術(shù)語(yǔ)的單字),其切分方式有4種,分別是ABC(例“淡水湖”一“淡水湖”),AB/C(例“安順組”一“安順/組”),A/BC(例“假整合”一“假/整合”),A/B/C(例“苦橄巖”一“苦/橄/巖”)。
同理,對(duì)于四字術(shù)語(yǔ)(定義“A”、“B”、“C”、“D”為組成四字術(shù)語(yǔ)的單字),其切分方式有8種,分別是ABCD(例“阿爾卑斯”一“阿爾卑斯”),ABC/D(例“重晶石化”一“重晶石/化”),AB/CD(例“鉆進(jìn)深度”一“鉆進(jìn)/深度”),AB/C/D(例“蚌殼蕨屬”一“蚌殼/蕨/屬”),A/BCD(例“堇長(zhǎng)角巖”一“堇/長(zhǎng)角巖”),A/B C/D(例“紙色譜法”一“紙/色譜/法”),AlB/CD(例“礫質(zhì)粘土”一“礫/質(zhì)/粘土”),A/B/C/D(例“采場(chǎng)突水”一“采/場(chǎng)/突/水”)。
以四字詞為例對(duì)基本詞典庫(kù)的收錄規(guī)則進(jìn)行說明:對(duì)于四字詞的分詞結(jié)果來說,ABCD型的切分說明該詞已被通用分詞器的核心詞典收錄;對(duì)于能被切分成A/B/C/D型的詞語(yǔ),雖然沒有被分詞器的核心詞典收錄,但由于其本身被CB9649收錄,說明該詞是一個(gè)地質(zhì)詞匯,符合質(zhì)串特征,所以該詞應(yīng)被地質(zhì)核心詞典庫(kù)收錄;對(duì)于能夠被切分成其余類型的詞語(yǔ),說明該詞是通用詞和字或詞的組合,這種類型的詞可以使用重復(fù)串方法進(jìn)行識(shí)別處理,因此沒有收錄進(jìn)基本詞典庫(kù)中。同理,對(duì)于能切分成A/B/C類型的三字詞以及能被切分成A/B/C/D的詞語(yǔ)都應(yīng)被地質(zhì)核心詞典庫(kù)收錄。
4 地質(zhì)專業(yè)詞語(yǔ)識(shí)別
4.1 重復(fù)串提取算法思想
本文地質(zhì)詞語(yǔ)識(shí)別建立在通用分詞器切分結(jié)果基礎(chǔ)上,因此采用基于詞的重復(fù)串提取,但基于詞的重復(fù)串提取算法與基于字的重復(fù)串提取算法一致,此處介紹基于字的重復(fù)串提取算法思想[21]。
(1)對(duì)處理好的字序列建立索引。例如,對(duì)于只有5個(gè)字符的文本“礦化物礦化體礦化礦井礦礦化物”文本建立單字索引如圖3所示。
(2)從單個(gè)字索引的信息開始擴(kuò)展得到所有重復(fù)串。因?yàn)閱巫炙饕^程中已記錄好語(yǔ)料中所有出現(xiàn)“礦”的地址集合A,而以“礦”打頭的所有重復(fù)串地址一定包含在集合A中,那么遍歷地址集合A,根據(jù)地址掃描語(yǔ)料進(jìn)行二字?jǐn)U展、三字?jǐn)U展……,可以發(fā)現(xiàn)以“礦”開頭的所有重復(fù)串。在上面例子中,掃描所有“礦”后面的第一個(gè)字符,擴(kuò)展得到以“礦”開頭的所有兩字串(見圖4)和三字串(見圖5)。
頻次為1的串(如“礦井”、“礦礦”)不是重復(fù)串,將其刪除;對(duì)于頻次大于1的重復(fù)串(如“礦化”),要將所有信息寫入重復(fù)串文件中且繼續(xù)對(duì)其擴(kuò)展,發(fā)現(xiàn)長(zhǎng)度增1的重復(fù)串。
(3)新產(chǎn)生的重復(fù)串寫入文件后繼續(xù)擴(kuò)展得到長(zhǎng)串,反復(fù)迭代,直到出現(xiàn)間隔符號(hào)或長(zhǎng)度達(dá)到指定的閾值。
4.2 重復(fù)串提取流程
基于重復(fù)串提取算法,需要記錄詞的ID索引。值得注意的是,在一段話中往往包含停用詞。停用詞主要包括副詞、助詞、連詞、介詞、標(biāo)點(diǎn)符號(hào)等,其本身并無明確意義,僅在句子中起一定作用,例如“在”、“的”、“且”等。采用串查找發(fā)現(xiàn)新詞時(shí),停用詞會(huì)導(dǎo)致垃圾串產(chǎn)生,例如:“官/道/口/群/在/測(cè)區(qū)/內(nèi)/出露/較/全/,/向/西/延伸/到/盧氏/,/靈寶/一帶/,/其/巖石/組合/和/沉積/建/造/特征/均/可/對(duì)比/。/”,這句話包含停用詞10個(gè)(標(biāo)點(diǎn)4個(gè)、“在”、“較”、“其”、“和”、“均”、“可”)。在建立詞的ID索引時(shí),需要將上面一段話分為8個(gè)部分:“官/道/口/群/”、“測(cè)區(qū)/內(nèi)/出露/”、“全/”、“/向/西/延伸/到/盧氏/”、“/靈寶/一帶/”、“巖石/組合/”、“沉積/建/造/特征/”和“對(duì)比/”,按照這8個(gè)部分建立詞的索引。因此,需要建立一個(gè)文檔用于記錄依據(jù)停用詞對(duì)文本分割后的結(jié)果,并以此為依據(jù)建立一個(gè)詞索引文檔,開辟一個(gè)緩沖棧用于存放當(dāng)前擴(kuò)展串及相關(guān)信息。根據(jù)索引地址鏈進(jìn)行擴(kuò)展,擴(kuò)展串中頻次大于1的串被認(rèn)為是重復(fù)串,統(tǒng)計(jì)詞頻和鄰接對(duì)信息后輸出到文件中,同時(shí)放人緩沖棧中用以后續(xù)擴(kuò)展。當(dāng)一次擴(kuò)展結(jié)束后再?gòu)臈V凶x取棧頂串進(jìn)行新一輪擴(kuò)展。第一次??諘r(shí)表示以第一個(gè)詞打頭的所有重復(fù)串發(fā)現(xiàn)完畢,然后讀取第二個(gè)詞的索引鏈并放人緩沖棧,依次反復(fù)直到所有重復(fù)串發(fā)現(xiàn)完畢。最后輸出一組文件,重復(fù)串文件用來存儲(chǔ)串的內(nèi)容、串長(zhǎng)、串頻、鄰接對(duì)頻次等信息。
4.3 地質(zhì)專業(yè)詞語(yǔ)識(shí)別方法
地質(zhì)專業(yè)詞語(yǔ)識(shí)別可以借助通用領(lǐng)域的新詞發(fā)現(xiàn)方法。新詞發(fā)現(xiàn)通過采用基于統(tǒng)計(jì)和規(guī)則過濾的方法對(duì)候選集進(jìn)行過濾得到最終結(jié)果[22]?;谝?guī)則的新詞發(fā)現(xiàn)依賴特定領(lǐng)域建立的規(guī)則庫(kù),其泛化性差,加之人工建立規(guī)則庫(kù)代價(jià)較大,規(guī)則之間多有沖突發(fā)生?;诮y(tǒng)計(jì)的新詞發(fā)現(xiàn)目前使用普遍,主要有上下文鄰接分析、位置成詞概率、雙字耦合度、頻率比和互信息等。本文主要采用上下文鄰接分析和位置成詞概率方法識(shí)別地質(zhì)專業(yè)詞語(yǔ)。
(1)上下文鄰接分析。通用的已知詞語(yǔ)作為頻繁使用的語(yǔ)言單元,在實(shí)際生活中具有一定的流通度和廣泛性。一般來說,一個(gè)詞語(yǔ)的內(nèi)部結(jié)合度較高,其與外部上下文中的詞語(yǔ)關(guān)系就較為松散,例如“斷層”、“產(chǎn)狀”中的兩個(gè)字總是一起出現(xiàn)。地質(zhì)詞語(yǔ)作為獨(dú)立使用的語(yǔ)言單元,在地質(zhì)文本中具有一定的流通度,能夠應(yīng)用于多種不同的上下文環(huán)境。上下文分析是從串的上下文人手分析其使用環(huán)境,主要通過上下文鄰接種類、臨界熵、鄰接對(duì)種類以及鄰接對(duì)熵等鄰接特征量判斷。本文受文本大小限制,采用鄰接種類進(jìn)行判斷。
對(duì)于一個(gè)串S,其鄰接種類V可分左鄰接種類VL和右鄰接種類VR,分別表示左、右鄰接集合中元素的數(shù)目,反映串S所處上、下文語(yǔ)境種類多少。當(dāng)VL≥n,VR≥n時(shí),該串為詞。鄰接種類在一定程度上反映字符串的語(yǔ)言環(huán)境。
(2)位置成詞概率分析。在漢語(yǔ)構(gòu)詞中,每個(gè)字都有自己特有的構(gòu)詞作用,并非所有的字都可作為詞首、詞中、詞尾的成分,某些字往往出現(xiàn)在合成詞的某個(gè)或某幾個(gè)特定位置上,例如“老虎”、“老師”中的“老”通常出現(xiàn)在詞首,“產(chǎn)狀”、“鮞狀”中的“狀”通常出現(xiàn)在詞尾,而另一些字總是不會(huì)出現(xiàn)在詞首或詞尾。
地質(zhì)命名實(shí)體開始是某個(gè)詞的詞首,串尾也一定是某個(gè)詞的詞尾。當(dāng)檢測(cè)到串首某個(gè)字的詞首成詞概率太低時(shí),該串可能是垃圾串;若串尾某個(gè)字的詞尾成詞概率太低時(shí),該串也可能是垃圾串。
在切分好的語(yǔ)料中統(tǒng)計(jì)每個(gè)漢字出現(xiàn)在詞語(yǔ)中的總次數(shù)N和出現(xiàn)在詞首、詞尾的N1和N2,那么詞首成詞概率是Nl和N的比值,詞尾成詞概率是N2和N的比值。
對(duì)地質(zhì)術(shù)語(yǔ)中單字成詞概率和多字成詞的詞首、詞尾概率進(jìn)行統(tǒng)計(jì),部分結(jié)果如表1所示。若某個(gè)字的詞首成詞概率太低,則認(rèn)為該字不能作為詞首;同樣,若某個(gè)字的詞尾成詞概率太低,則該字不能作為詞尾,這樣能有效過濾新詞和常用字組成的垃圾串。如判斷“主要巖性為”中的“為”,“在采樣過程中”的“在”即可將它們判斷為垃圾串而排除。此外,還有一部分頻繁功能串也能過濾掉,如“其為”、“這是”等高頻串。
5 實(shí)驗(yàn)與分析
5.1 測(cè)試集與評(píng)測(cè)指標(biāo)
中文分詞研究旨在提出一種擁有通用性、實(shí)用性以及開放性的現(xiàn)代書面漢語(yǔ)自動(dòng)分詞方法,而評(píng)測(cè)中文分詞方法性能優(yōu)劣的評(píng)測(cè)標(biāo)準(zhǔn)為分詞準(zhǔn)確率與分詞效率[23]。本文在通用分詞器基礎(chǔ)上建立地質(zhì)專業(yè)詞匯抽取方法,因此對(duì)分詞效率不作評(píng)測(cè)。
分詞準(zhǔn)確率是評(píng)估分詞方法有效性和合理性的核心評(píng)測(cè)標(biāo)準(zhǔn),包括正確率、召回率以及綜合指標(biāo)F值。
準(zhǔn)確率P=識(shí)別正確的新詞數(shù)目/ 識(shí)別結(jié)果的新詞數(shù)目上×100%
(1)
召回率R=識(shí)別正確的新詞數(shù)目/ 重復(fù)串中正確的新詞數(shù)目× 100% (2)
綜合指標(biāo)F=2×P×R/P+R
(3)
5.2 實(shí)驗(yàn)結(jié)果及分析
本文實(shí)驗(yàn)語(yǔ)料來自《1:25萬內(nèi)鄉(xiāng)縣幅區(qū)域地質(zhì)調(diào)查報(bào)告》,約33萬字。使用Ansj中文分詞器的分詞結(jié)果與本文提出的地質(zhì)專業(yè)詞匯識(shí)別方法的結(jié)果進(jìn)行對(duì)比,如表2所示。
本次結(jié)果抽取重復(fù)串14 070個(gè),去除單字、重復(fù)結(jié)果后,剩余3 704個(gè)。經(jīng)人工判別,正確結(jié)果2 513個(gè);經(jīng)過算法過濾后,重復(fù)串剩余2 496個(gè),本方法正確識(shí)別結(jié)果2 036個(gè)。使用分詞器進(jìn)行分詞后,分詞數(shù)量龐大,召回率難以評(píng)估。本次僅對(duì)Ansj中文分詞器所識(shí)別的新詞正確率進(jìn)行了計(jì)算,識(shí)別新詞4 478個(gè),正確識(shí)別1 050個(gè),正確率23.4%。
通過對(duì)比,本文方法對(duì)地質(zhì)詞語(yǔ)的識(shí)別遠(yuǎn)遠(yuǎn)高于通用領(lǐng)域分詞器。通過分析發(fā)現(xiàn),由于通用分詞器一般在新詞發(fā)現(xiàn)方面采用基于統(tǒng)計(jì)的分詞方法,對(duì)于出現(xiàn)頻率不高的詞語(yǔ),統(tǒng)計(jì)的分詞方法學(xué)習(xí)度不夠,從而引起錯(cuò)分。而本文方法經(jīng)過重復(fù)串算法,能夠?qū)⒊霈F(xiàn)頻率較低的詞語(yǔ)查找出來,經(jīng)過上下文鄰接以及基于位置成詞概率過濾后,可有效地將原本錯(cuò)分的詞語(yǔ)組合到一起。但本文方法對(duì)僅出現(xiàn)一次和出現(xiàn)語(yǔ)境完全相同的新詞無法識(shí)別,因此需要添加其它策略進(jìn)一步提高其識(shí)別性能。
6 結(jié)語(yǔ)
針對(duì)基于統(tǒng)計(jì)的分詞方法受語(yǔ)料影響跨領(lǐng)域適應(yīng)性較差,基于詞典的分詞方法雖然可以直接利用領(lǐng)域詞典進(jìn)行分詞但不能解決未登錄詞識(shí)別等問題,基于質(zhì)串思想構(gòu)建了地質(zhì)基本詞典庫(kù),對(duì)通用分詞器的核心詞典庫(kù)進(jìn)行擴(kuò)充,在此基礎(chǔ)上提出基于統(tǒng)計(jì)的中文地質(zhì)詞語(yǔ)識(shí)別方法。采用重復(fù)串查找方法得到地質(zhì)詞語(yǔ)候選集,使用上下文鄰接以及基于位置成詞的概率詞典,對(duì)地質(zhì)詞語(yǔ)候選集進(jìn)行過濾,實(shí)現(xiàn)地質(zhì)詞語(yǔ)識(shí)別。實(shí)驗(yàn)證明該方法提高了地質(zhì)詞語(yǔ)識(shí)別準(zhǔn)確率,可在地質(zhì)大數(shù)據(jù)中進(jìn)行相關(guān)應(yīng)用。
參考文獻(xiàn):
[1]黃昌寧.中文信息處理中的分詞問題[J].語(yǔ)言文字應(yīng)用,1997(1):72-78.
[2] 昊軍.數(shù)學(xué)之美[M].北京:人民郵電出版社,2014:41-49.
[3]
ZHU Y Q, ZHOU W W.XU Y,et al. Intelligent learning for knowledgegraph towards geological data[J].Scientific Programming, 2017(3):1-13.
[4]
ZEINALI H. SAMETI H. BURCET L,et al. Text-dependent speakerverification based on i-vectors, neural networks and hidden markovmodels[J].Computer Speech&Language, 2017( 46): 53-71.
[5]
SHUAI Z, JAYASUMANA S,ROMERA-PAREDES B,et al. Condi-tional random fields as recurrent neural networks[C].IEEE Interna-tional Conference on Computer Vision, 2016.
[6] MENCEL S,Y Q J.Extracting structured data from web pages withmaximum entropy segmental markov models[C].International Confer-ence on Web Information System Engineering, 2009.
[7]
JIANG H J,REN X. LIU K.Research on dictionary for personalizedChinese word segmentation[C].The 4th International Conference onIntelligent System and Applied Material, 2014: 1-4.
[8]
ZHENC Q, LIU X Y. FU J L Neural networks incorporating dictionar-ies for Chinese word segmentation[C].Proceedings of the ThirtV- Sec-ond AAAI Conference on Artificial Intelligence, 2018: 1-8.
[9]
PANC B M, SHI H S.Research on improved algorithm for Chineseword segmentation based on mMarkov chain[C].Xi'an: InternationalConference on Information Assurance and Security. 2009.
[10]
HUANC L,DU Y F,CHEN G Y.CeoSegmenter: a statisticallvlearned Chinese word segmenter for the geoscience domain[J].Com-puters&Geosciences, 2015( 76): 11-17.
[11] 陳婧汶,陳建國(guó),王成彬,等.基于條件隨機(jī)場(chǎng)的地質(zhì)礦產(chǎn)文本分詞研究[J].中國(guó)礦業(yè),2018.27( 9):69-74.101.
[12] 宗成慶.統(tǒng)計(jì)自然語(yǔ)言處理[M].北京:清華大學(xué)出版社,2013:129-134.
[13] 鄭捷.NLP漢語(yǔ)自然語(yǔ)言處理[M].北京:電子工業(yè)出版社,2017:88 -117
[14]趙慶.地質(zhì)科技論文中語(yǔ)言文字表達(dá)的幾個(gè)要求[J].地質(zhì)找礦論叢.2013, 28(3): 493-498.
[15] 鄭孝玉.地質(zhì)情報(bào)的特點(diǎn)及其服務(wù)工作的有關(guān)問題[J].情報(bào)雜志.1991. 10( 4):63-67.
[16] 冀倩,翁望飛.地質(zhì)學(xué)專業(yè)英語(yǔ)詞匯特點(diǎn)及構(gòu)詞研究[J].皖西學(xué)院學(xué)報(bào),2011,27(4):116-121.
[17]李廷棟,劉勇,王軍,等.略論地質(zhì)圖件的十大功能——紀(jì)念黃汲清先生誕辰110周年[J].地質(zhì)論評(píng),2014,60(3):473-485.
[18]雨巖.概念·定性·定量[J].水文地質(zhì)工程地質(zhì),1991(6):10-14.
[19]楊鍾健.地質(zhì)名詞的來源及統(tǒng)-[J].地質(zhì)論評(píng),1950( Z1):55-59.
[20]何婷婷,張勇.基于質(zhì)子串分解的中文術(shù)語(yǔ)自動(dòng)抽取[J].計(jì)算機(jī)工程,2006, 32( 23):188-190.
[21]張華平,高凱,黃河燕,等.大數(shù)據(jù)搜索與挖掘[M].北京:科學(xué)出版社,2014: 104-135.
[22]黃軒,李熔烽.博客語(yǔ)料的新詞發(fā)現(xiàn)方法[J].現(xiàn)代電子技術(shù),2013,36(2):144-146.
[23] 王威.基于統(tǒng)計(jì)學(xué)習(xí)的中文分詞方法的研究[D].沈陽(yáng):東北大學(xué),2015.
(責(zé)任編輯:杜能鋼)
基金項(xiàng)目:國(guó)家自然科學(xué)基金項(xiàng)目(41671404);中央高?;究蒲袠I(yè)務(wù)費(fèi)項(xiàng)目(N170104019);中國(guó)地質(zhì)調(diào)查局智能地質(zhì)調(diào)查支撐平臺(tái)建設(shè)項(xiàng)目(DD20160355)
作者簡(jiǎn)介:王宏(1987-),男,碩士,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點(diǎn)實(shí)驗(yàn)室工程師,研究方向?yàn)榈貙W(xué)信息處理與應(yīng)用;朱學(xué)立(1963-),男,碩士,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點(diǎn)實(shí)驗(yàn)室教授級(jí)高級(jí)工程師,研究方向?yàn)榈刭|(zhì)信息技術(shù)分析與應(yīng)用;曾濤(1977-),男,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點(diǎn)實(shí)驗(yàn)室高級(jí)工程師,研究方向?yàn)榈貙W(xué)空間數(shù)據(jù)庫(kù);喬?hào)|玉(1975-),男,河南省地質(zhì)調(diào)查院、河南省金屬礦產(chǎn)成礦地質(zhì)過程與資源利用重點(diǎn)實(shí)驗(yàn)室助理工程師,研究方向?yàn)榈貙W(xué)空間數(shù)據(jù)庫(kù);郭甲騰(1980-),男,博士,東北大學(xué)資源與土木工程學(xué)院講師,研究方向?yàn)閿?shù)字礦山、數(shù)字巖土、數(shù)字城市領(lǐng)域的三維地學(xué)建模與可視化、三維拓?fù)潢P(guān)系分析、并行地理計(jì)算。