何萬雙+尚功偉
摘要:水文地質數(shù)據(jù)復雜多樣,非結構化數(shù)據(jù)彼此孤立,不能共享,建立一個水文地質非結構化數(shù)據(jù)模型勢在必行,為資源共享,提高工作效率提供最大限度的可能性。
關鍵詞:水文地質;非結構化數(shù)據(jù);信息
一、非結構化數(shù)據(jù)的定義
相對于結構化數(shù)據(jù)(即行數(shù)據(jù),存儲在現(xiàn)的數(shù)據(jù))而言,不方便用數(shù)據(jù)庫二維邏輯表來表現(xiàn)的數(shù)據(jù)即稱為非結構化數(shù)據(jù),包括數(shù)據(jù)庫里,可以用二維表結構來邏輯表達式所有格式的辦公文檔、文本、圖片、XML、HTML、各類報表、圖像和音頻/視頻信息等等。據(jù)統(tǒng)計,非結構化數(shù)據(jù)占到現(xiàn)有數(shù)據(jù)總量的80%以上。
二、非結構化水文地質數(shù)據(jù)的特點
1、專業(yè)性強。水文地質數(shù)據(jù)涉及到的大部分是和水文地質相關的信息,如水文地質圖、物探、測井曲線、地質構造三維結構圖、各種水文視頻資料等內(nèi)容。對于這些數(shù)據(jù)的分析和解釋,不同的經(jīng)驗背景、不同分析方法得出的分析結論可能依然會有差異。
2、媒體形式多。水文地質資料包括數(shù)字化的文本、實物、照片、電子出版物、數(shù)字及三維地質圖、地質構造圖等各種各樣的水文地質相關資源。其存儲媒介已不限于印刷體,它包含文本、聲音、圖像、視頻等多種媒體形式,類型復雜。
3、存儲容量大。水文地質相關的各類資料非常多,要實現(xiàn)由計算機來進行處理分析,則需要對大量資料進行信息抽取和數(shù)字化,隨著資料的不斷完善,資料的積累導致的數(shù)據(jù)會成倍增長并將一直持續(xù)下去。
三、水文地質數(shù)據(jù)信息的管理及使用現(xiàn)狀
1、管理現(xiàn)狀。目前,在國內(nèi)各水文地質、勘察設計等單位之間沒有形成有效的資源共享,各單位的詳細信息資源基本都相互獨立,產(chǎn)生了信息孤島。同時,在單位內(nèi)部,除部分結構化的信息資料(如地質結構數(shù)據(jù)等)由計算機進行管理,大部分的應用系統(tǒng)中的非結構化數(shù)據(jù),如報告、報表、圖片等都是以二進制的格式保存在結構化數(shù)據(jù)庫的BLOB字段中。保存在BLOB字段中的好處是調(diào)用文件的速度很快,維護和管理簡單;缺點一是由于非結構化數(shù)據(jù)文件大,在數(shù)據(jù)量不斷增大的情況下,會使得結構化數(shù)據(jù)庫迅速膨脹,導致數(shù)據(jù)庫性能下降,進而影響整個應用系統(tǒng)的性能;二是由于各個應用系統(tǒng)相對封閉和獨立,其他應用無法共享相關文檔資料,信息之間的關聯(lián)程度低,不能有效發(fā)揮信息之間的關聯(lián)解釋作用,極大的降低了數(shù)據(jù)的價值。
2、使用現(xiàn)狀。由于上述的管理現(xiàn)狀,水文地質資料在使用上存在影響資料價值有效發(fā)揮及工作效率低的問題。例如,在本單位所掌握的資料區(qū)域內(nèi)執(zhí)行任務時,由于信息資料管理的自動化程度低,資料之間的關聯(lián)關系沒有有效建立,查閱資料時就需要翻閱不同存儲位置、不同存儲介質的大量信息,以便為制定決策提供依據(jù),極大的降低工作效率。如果到本單位所掌握的資料區(qū)域外執(zhí)行任務,所能得到的參考資料非常少,通常需要提前進行現(xiàn)場勘查或到當?shù)赜嘘P單位索取相關資料。
四、水文地質數(shù)據(jù)的應用分析
第一類決策指揮層:主要關心的是水源分布及施工進度情況,從宏觀上掌握控制水環(huán)境,以便能夠及時進行任務分派、調(diào)整、做出指揮決策。
第二類工程地質人員:主要關心如何利用現(xiàn)有水文地質資料及以往的知識和經(jīng)驗分析某一區(qū)域的水文地質情況,尋找水源位置,評估施工效率和施工成本,報表打印,為施工、鉆井設計以及水源偵查過程中所遇到的一些問題提供相關資料和解決辦法。
第三類施工技術人員:包括鉆井指揮人員、機臺管理人員、設備操作人員等,主要關心施工區(qū)域的地質構造,應采用的施工工藝,發(fā)生故障時應采取的處理辦法。
五、水文地質信息知識抽取模型的建立
1、對水文地質非結構化數(shù)據(jù)進行專業(yè)細分,使其作為一個獨立的專業(yè)領域來進行專門處理,從而極大縮小數(shù)據(jù)的管理范圍,提供管理的專業(yè)化水平。因此,集成行業(yè)的相關數(shù)據(jù),或者說為了搜索和分析而對這些數(shù)據(jù)進行專業(yè)細分,其實現(xiàn)的可能性就非常大。
2、在非結構化水文地質數(shù)據(jù)采集的方式上采用元數(shù)據(jù)管理和系統(tǒng)自動學習修正的技術,從而提高數(shù)據(jù)質量。對于非結構化的水文地質數(shù)據(jù),大部分都無法直接由計算機來進行統(tǒng)一管理和使用,必須對其本質信息進行抽取和總結,從而提取出便于計算機管理的有價值的信息。抽取的這些信息便是非結構化數(shù)據(jù)的元數(shù)據(jù)描述。這些元數(shù)據(jù)通常無法由計算機直接生成,需要由專業(yè)人員對其進行解釋分析生成。
3、在數(shù)據(jù)使用上采用全文檢索技術和信息自動關聯(lián)的方法。根據(jù)調(diào)查,地質工作者每天30%的工作時間,用于收集信息:72%的領導者認為,知識沒有在他們的組織得到重復利用。從這些異構、繁雜、豐富的內(nèi)容中,準確、快速地找到自己所需要的信息,減少信息搜尋時間,能夠創(chuàng)造巨大的價值。當非結構化的水文地質元數(shù)據(jù)庫建立好以后,信息查找就變的和處理結構化數(shù)據(jù)一樣簡單了。
六、非結構數(shù)據(jù)模型存在的問題
1、各水文地質單位之間的數(shù)據(jù)共享問題。由于這些水文地質數(shù)據(jù)可能涉及到國家利益和各單位的自身利益,因此有些數(shù)據(jù)通常屬于保密范疇,通常不便于聯(lián)網(wǎng)使用。因此,這些詳細的水文地質資料需要由國家相關部門來統(tǒng)一進行整合,統(tǒng)一管理使用,及時進行數(shù)據(jù)更新,從而方便相關部門執(zhí)行任務時進行查找使用。
2、結構化數(shù)據(jù)與非結構化數(shù)據(jù)之間的互通問題。以上模型的建立是基于非結構化的水文地質數(shù)據(jù)而得出的,對于結構化的水文地質數(shù)據(jù)依然保存在結構化的數(shù)據(jù)庫中,二者之間如果要建立關聯(lián),則需要一個中間的特殊紐帶來完成。紐帶的選擇非常重要,我們將地理坐標和區(qū)域名稱作為這一關鍵性的關聯(lián)紐帶,在結構化和非結構化水文地質數(shù)據(jù)之間建立聯(lián)系。
3、專業(yè)化解釋的問題。對于非結構化的水文地質數(shù)據(jù),由于其專業(yè)化程度較高,很多數(shù)據(jù)都需要進行分析解釋,因此,元數(shù)據(jù)構建的工作量非常大。