摘要:國內(nèi)的地質(zhì)資料管理多存在保管分散、協(xié)同性差、“信息孤島”問題,很難實(shí)現(xiàn)其信息共享,而且難以從海量地質(zhì)資料中及時(shí)獲取有用的信息。數(shù)據(jù)挖掘等新興技術(shù)應(yīng)用于地質(zhì)資料管理中,有助于提高地質(zhì)資料服務(wù)水平。然而,目前地質(zhì)資料數(shù)據(jù)挖掘多基于目錄元數(shù)據(jù)庫,難以發(fā)現(xiàn)地質(zhì)資料全文間的相關(guān)性。為此,采用文本聚類分析方法提高推薦資料間的相關(guān)性,并從資料文本中提取指定關(guān)鍵信息,以此提高地質(zhì)資料的利用效率。
關(guān)鍵詞:地質(zhì)資料 數(shù)據(jù)挖掘 聚類分析 信息提取
Research and Implementation of the Data Mining System of Geological Data Mining System
HAO ShanPENG Wei
(Geological Survey Institute of Hunan Provinciale, Changsha,Hunan Province, 414000 China)
Abstract:The management of geological data in China often faces the problems such asof scattered storage, poor collaboration, and "information islandssilos", making it difficult to achieve information sharing and obtain useful information from massive geological data in time. The application of emerging technologies such as data mining to geological data management is helpful to improve the service level of geological data, but thecurrent data mining of at present,geological data mining is mostly based on catalog metadatabases, and itmaking it is difficult to find the correlation betweenamong the full text of geological data. Therefore, the text clustering analysis method is used to improve the correlation betweenamong the recommended data, and the specified key information is extracted from the data text, so as to improve the utilization efficiency of geological data.
KeyWords:Geological data;Data mining;Cluster analysis;Information extraction
地質(zhì)資料是地學(xué)工作的重要載體,同時(shí)也是反映國家地質(zhì)環(huán)境的重要數(shù)據(jù)。經(jīng)過幾十年的地學(xué)研究及勘探工作,國內(nèi)已經(jīng)積累了海量的地質(zhì)資料成果。地質(zhì)資料主要以PDF文件的形式保存,隨著其數(shù)量的不斷增長,如何快速而又有效地從海量地質(zhì)資料中獲取需要領(lǐng)域或?qū)n}的信息,成為地學(xué)工作者的重要研究課題。
傳統(tǒng)的地質(zhì)資料管理方式是用信息檢索技術(shù)為用戶提供查詢服務(wù),將用戶的查詢條件和地質(zhì)資料數(shù)據(jù)庫的目錄元數(shù)據(jù)進(jìn)行匹配,這樣返回的結(jié)果只是目錄元數(shù)據(jù)符合用戶要求的資料條目,無法判斷地質(zhì)資料整體的相關(guān)性,所以可能會(huì)給用戶推薦無關(guān)內(nèi)容。
數(shù)據(jù)挖掘技術(shù)是一種從海量數(shù)據(jù)中獲取隱含信息的知識發(fā)現(xiàn)技術(shù),將其應(yīng)用到地質(zhì)資料領(lǐng)域,可以有效促進(jìn)地質(zhì)資料的利用及共享,使地質(zhì)資料具有更高的經(jīng)濟(jì)價(jià)值。
1 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘任務(wù)中,最常見的兩種算法是分類分析和聚類分析[1],其中,分類分析的任務(wù)是從已有數(shù)據(jù)中得到給定數(shù)據(jù)的描述,產(chǎn)出物是一個(gè)稱為分類器的分類模型,利用此分類模型可以對未來數(shù)據(jù)進(jìn)行分類;聚類分析會(huì)將原本不存在類別描述的數(shù)據(jù)或樣本劃分成不同的類別,每一類別中的數(shù)據(jù)具有一定的關(guān)聯(lián)性或相似性,不同類別中的數(shù)據(jù)或樣本則極不相似。
不論哪種數(shù)據(jù)挖掘任務(wù),其首要目標(biāo)都是從海量數(shù)據(jù)中找到數(shù)據(jù)間的關(guān)聯(lián)規(guī)則,分析不同地質(zhì)資料間的關(guān)聯(lián)關(guān)系,這一過程稱為關(guān)聯(lián)分析。關(guān)聯(lián)分析后可能會(huì)得到多條關(guān)聯(lián)規(guī)則,這些規(guī)則并不是都有意義的,沒有意義的關(guān)聯(lián)規(guī)則需要丟棄。一般使用支持度及置信度兩個(gè)指標(biāo)對關(guān)聯(lián)規(guī)則進(jìn)行評價(jià),支持度表示事件組合出現(xiàn)的概率,置信度表示某種事件在另外事件已經(jīng)出現(xiàn)的情況下出現(xiàn)的概率,支持度和置信度需要結(jié)合使用,這兩個(gè)指標(biāo)都具有較高的關(guān)聯(lián)規(guī)則才是有效的關(guān)聯(lián)規(guī)則。
地質(zhì)資料數(shù)據(jù)挖掘任務(wù)是從海量地質(zhì)資料中找到相同主題、領(lǐng)域的地質(zhì)資料,并根據(jù)其相關(guān)性進(jìn)行個(gè)性化推薦,因此可以看出,這一過程是一個(gè)聚類分析的過程。由于地質(zhì)資料多數(shù)是文本信息,這就需要對其進(jìn)行文本聚類分析。
2 地質(zhì)資料聚類分析
地質(zhì)資料聚類分析實(shí)際上是一個(gè)文本聚類分析問題,這一過程需要根據(jù)不同地質(zhì)資料間的相似性把所有文本劃分為不同的子集合,不同的子集合表示不同的類別,并且同一子集合中的文本具有較大的相似性,不同子集合間的文本相似性盡量小。文本聚類分析的關(guān)鍵步驟包括[2]:“地質(zhì)資料預(yù)處理、建立文本模型、特征選擇以及聚類處理”。其中,地質(zhì)資料預(yù)處理會(huì)去掉無效、錯(cuò)誤的文本,并對地質(zhì)資料中的文本進(jìn)行分詞處理;建立文本模型過程中,將表示文本特征項(xiàng)的詞頻信息表示為特征向量;特征選擇在不影響模型精度的情況下從特征向量中選擇主要的特征,降低文本模型的計(jì)算復(fù)雜度;文本聚類會(huì)選擇合適的聚類算法對文本向量進(jìn)行聚類操作。
文本預(yù)處理一般包括去除冗余噪聲數(shù)據(jù)、提取文本信息、分詞等,由于地質(zhì)資料數(shù)據(jù)在錄入過程中已經(jīng)經(jīng)過嚴(yán)格的審查處理,幾乎具有完全可用及有效性,一般無須考慮去除噪聲數(shù)據(jù)操作。然而,地質(zhì)資料數(shù)據(jù)通常是以PDF文件的形式存在,這種文件類型中含有很多用于顯示控制的格式信息,它們只是起到顯示控制的作用,而和地質(zhì)資料內(nèi)容沒有任何關(guān)系,所以地質(zhì)資料預(yù)處理時(shí)會(huì)去掉這些格式信息。去除格式信息后的地質(zhì)資料文本接下來會(huì)進(jìn)行分詞處理,還有一些雖然出現(xiàn)頻率很高,但對地質(zhì)資料主題沒有任何幫助的指示代詞、連接詞等,這些稱為“停用詞”的無效詞匯也需要去除。
文本表示模型的典型方式是向量模型,也就是用文本的特征項(xiàng)表示向量空間的維度屬性,有幾個(gè)特征項(xiàng)就構(gòu)成幾維向量空間。中文文本特征項(xiàng)的表示方式包括字、詞語、短語等,使用單個(gè)的字表示文本特征項(xiàng)時(shí)會(huì)導(dǎo)致地質(zhì)資料中的文本都是相互獨(dú)立的,忽略了文本重要信息的同時(shí),會(huì)失去其表達(dá)的主題特征;由于前面預(yù)處理過程中已經(jīng)對地質(zhì)資料文本進(jìn)行了分詞操作,因此本文選擇使用地質(zhì)資料文本中的詞語來表示文本特征項(xiàng)。
一篇地質(zhì)資料文本組成的文本特征項(xiàng)可能多達(dá)數(shù)百個(gè),特征向量維度對應(yīng)也有數(shù)百維,這樣的特征向量在進(jìn)行聚類分析時(shí)復(fù)雜度較高。另外,聚類算法多采用距離度量來分析不同特征向量的相似性,距離度量方式一般都假定特征向量每個(gè)維度的重要性都是相同的,然而對于地質(zhì)資料而言,地質(zhì)相關(guān)詞匯的重要性明顯比其他領(lǐng)域詞匯高?;谏鲜隹紤],本文在進(jìn)行特征選擇時(shí)使用一種改進(jìn)的TF-IDF方法。傳統(tǒng)TF-IDF方法認(rèn)為如果某文檔中一個(gè)詞語出現(xiàn)的次數(shù)越多(即TF值越大),則這個(gè)詞匯在此文檔中越重要。本文對TF-IDF方法的改進(jìn)方法是:預(yù)先設(shè)置一個(gè)地質(zhì)詞匯表,當(dāng)計(jì)算出詞匯的TF-IDF權(quán)重后檢查詞匯是否在地質(zhì)詞匯表中,如果在表中則將其權(quán)重設(shè)置為原來的2倍,以提高地質(zhì)相關(guān)詞匯的重要性。
K-Means聚類算法比較簡單而且執(zhí)行效率高,因此本文選擇K-Means聚類算法對地質(zhì)資料進(jìn)行文本聚類分析。基本的K-Means聚類算法對孤立點(diǎn)比較敏感,如果初始聚類中心選擇了兩個(gè)或以上的孤立點(diǎn)就會(huì)導(dǎo)致初步的聚類劃分產(chǎn)生較大誤差,所以聚類之前需要先檢測孤立點(diǎn),檢測出的孤立點(diǎn)可以直接丟棄也可以就近分配到最近的聚類結(jié)果。優(yōu)化的K-Means聚類算法流程如圖1所示。
3 地質(zhì)資料的信息提取
各種地質(zhì)資料服務(wù)平臺中僅靠資料的簡單描述信息難以正確地理解地質(zhì)資料的整體內(nèi)容,因此描述地質(zhì)資料信息的目錄元數(shù)據(jù)就至關(guān)重要。需要注意的是目前多數(shù)目錄元數(shù)據(jù)是人工錄入方式產(chǎn)生的,這不僅存在效率問題而且可能產(chǎn)生人為錄入錯(cuò)誤。為了提高目錄元數(shù)據(jù)的準(zhǔn)確性,以此提升地質(zhì)資料數(shù)據(jù)挖掘的精度,本文自動(dòng)完成地質(zhì)資料的關(guān)鍵信息提取。
地質(zhì)資料服務(wù)方提供的最基本地質(zhì)資料服務(wù)是資料的目錄檢索,檢索對象是地質(zhì)資料的目錄元數(shù)據(jù)庫。在分析目錄元數(shù)據(jù)庫結(jié)構(gòu)以及地質(zhì)資料的著錄格式后,可以發(fā)現(xiàn)元數(shù)據(jù)一般都位于地質(zhì)資料的固定位置,并且格式一般是統(tǒng)一的,這為目錄元數(shù)據(jù)的自動(dòng)信息提取提供了可能。分析地質(zhì)資料的著錄格式后可以將地質(zhì)資料目錄元數(shù)據(jù)的信息提取步驟總結(jié)如下[3]。(1)確認(rèn)目錄元數(shù)據(jù)提取規(guī)則。按照地質(zhì)資料著錄格式,分析地質(zhì)資料各元數(shù)據(jù)及其位置信息、對應(yīng)關(guān)系,并確定所有元數(shù)據(jù)間的提取規(guī)則。(2)按照提取規(guī)則編程實(shí)現(xiàn),并將主要信息展現(xiàn)給用戶。(3)用戶反饋沒有問題后則把提取的信息保存到目錄元數(shù)據(jù)庫,如果反饋有問題則修正提取算法。(4)重復(fù)上述過程,直到所有元數(shù)據(jù)提取完成。需要注意的是,這種方式只能提取不在地質(zhì)資料正文中的目錄元數(shù)據(jù),對于經(jīng)緯度信息、礦產(chǎn)資源等出現(xiàn)在正文內(nèi)的元數(shù)據(jù)描述信息不適用。
提取地質(zhì)資料正文中的信息,可以使用GATE框架。GATE框架在自然語言處理領(lǐng)域尤其是文本處理方面有廣泛的應(yīng)用,它的一大優(yōu)勢在于可以處理任意數(shù)量規(guī)模的文本數(shù)據(jù),因此非常適合處理地質(zhì)資料。GATE框架中的元素被有效地分為不同的組件,主要包括語言資源組件、處理資源組件、可視化資源組件、重置組件、分詞組件等[4]。語言資源組件是指和地質(zhì)資料數(shù)據(jù)相關(guān)的組件,如詞典、語料庫、文本資源等,處理資源組件指的是GATE框架中程序算法實(shí)現(xiàn)的組件,如解析器、N元組模型,可視化資源組件可以將GATE框架的處理結(jié)果展現(xiàn)給前端用戶。GATE框架中還有一個(gè)專門用于提取文本中的英文信息的組件ANNIE,對于一些涉及英文內(nèi)容的地質(zhì)資料非常有用。地質(zhì)資料輸入GATE框架后會(huì)被轉(zhuǎn)換為GATE的內(nèi)部格式,以此為GATE框架提供統(tǒng)一的文件表示模型,然后重置組件會(huì)去除地質(zhì)資料中已經(jīng)存在的標(biāo)注信息。接下來GATE框架的分詞組件將文本切分為最簡單的token,相關(guān)聯(lián)的token被組織為詞表,詞表通過索引文件訪問。
4 地質(zhì)資料數(shù)據(jù)挖掘系統(tǒng)實(shí)現(xiàn)
本文設(shè)計(jì)的地質(zhì)資料數(shù)據(jù)挖掘系統(tǒng)主要分為兩大子系統(tǒng):系統(tǒng)管理子系統(tǒng)以及服務(wù)子系統(tǒng)。系統(tǒng)管理子系統(tǒng)采用B/S模式,采用響應(yīng)式頁面設(shè)計(jì)方案,能夠?qū)崿F(xiàn)地質(zhì)資料管理部門間的信息共享及業(yè)務(wù)協(xié)同。服務(wù)子系統(tǒng)前后端分離實(shí)現(xiàn),主要提供地質(zhì)資料服務(wù)目錄、地質(zhì)資料發(fā)布管理、地質(zhì)資料數(shù)據(jù)服務(wù)等功能,服務(wù)子系統(tǒng)的主要模塊包括文本聚類模塊、信息提取模塊。
地質(zhì)資料服務(wù)目錄功能實(shí)現(xiàn)地質(zhì)資料的原始文件、實(shí)物信息等的綜合查詢服務(wù),支持用戶根據(jù)傳統(tǒng)地質(zhì)資料的各元數(shù)據(jù)、資料分類、資料年代以及全文關(guān)鍵詞等進(jìn)行檢索;對于可公開的地質(zhì)資料還提供電子文檔在線服務(wù)。地質(zhì)資料發(fā)布模塊提供圖文發(fā)布、結(jié)構(gòu)化資料發(fā)布等方式,兩種方式都支持批量發(fā)布、批量檢索。
地質(zhì)資料數(shù)據(jù)服務(wù)功能可以支撐地質(zhì)資料的全生命周期,主要服務(wù)包括:匯交在線辦理、匯交監(jiān)管、委托管理、政務(wù)服務(wù)以及全流程關(guān)聯(lián)服務(wù)等,此系統(tǒng)應(yīng)用后地質(zhì)資料從采集、匯交,到受理、驗(yàn)收以及公示等都可以全流程管理。當(dāng)在礦產(chǎn)勘查及開采領(lǐng)域應(yīng)用時(shí),系統(tǒng)可以匯總勘查領(lǐng)域的地質(zhì)資料數(shù)據(jù)集,全面而又整體地反映區(qū)域內(nèi)的地質(zhì)資料分布、特征等信息,從而提供基礎(chǔ)信息支撐。當(dāng)應(yīng)用到油氣地質(zhì)資料領(lǐng)域時(shí),油氣地質(zhì)資料數(shù)據(jù)集可以再次細(xì)分,把不同區(qū)塊形成油氣成果、原始及實(shí)物地質(zhì)資料分別形成專題數(shù)據(jù)庫,為油氣礦業(yè)權(quán)的出讓、管理提供數(shù)據(jù)服務(wù)。
5 結(jié)語
本文對地質(zhì)資料數(shù)據(jù)挖掘系統(tǒng)進(jìn)行研究,首先簡要介紹數(shù)據(jù)挖掘技術(shù),然后采用文本聚類分析方法提高推薦資料間的相關(guān)性,并從地質(zhì)資料中提取關(guān)鍵信息,不僅可以從目錄元數(shù)據(jù)中獲取信息,還可以綜合反映地質(zhì)資料的全文主旨,以此提高地質(zhì)資料的利用效率。
參考文獻(xiàn)
[1] 張蕾,易錦俊,王楠,等.省級實(shí)物地質(zhì)資料管理與服務(wù)現(xiàn)狀研究[J].地質(zhì)論評. 2024(3):807-811.
[2] 喻孟良.數(shù)字化轉(zhuǎn)型背景下地質(zhì)資料信息化管理探究[J].信息與電腦(理論版). 2024,36(2):221-223.
[3] 劉炳菊.地質(zhì)資料檔案史料的挖掘與利用[J].上海國土資源.2022,43(1):93-96,102.
[4] 朱小龍.地質(zhì)文本中油氣藏特征提取及成藏知識圖譜構(gòu)建研究[D].北京:中國地質(zhì)大學(xué),2021.
[5]蔡金鑄.安徽省廬江縣岳山銀鉛鋅礦地質(zhì)特征及成礦預(yù)測[J].西部探礦工程. 2023,35(11):132-135,139.