葛召華,張中坤,李 博
(山東省水利信息中心,山東 濟(jì)南 250014)
為解決水利信息資源開(kāi)發(fā)管理分散、基礎(chǔ)數(shù)據(jù)存儲(chǔ)零亂、標(biāo)準(zhǔn)化差、應(yīng)用服務(wù)適用性單一、難以共享等問(wèn)題,山東省建設(shè)了水利數(shù)據(jù)中心。通過(guò)水利數(shù)據(jù)中心建設(shè),將主要水利業(yè)務(wù)數(shù)據(jù)通過(guò)復(fù)制、抽取以及清洗等方式集中在數(shù)據(jù)中心,積累形成了水利大數(shù)據(jù)的雛形。但如何有效使用這些數(shù)據(jù),使其投入生產(chǎn)管理工作中,充分發(fā)揮價(jià)值,為推進(jìn)水利從粗放管理向精細(xì)管理、從傳統(tǒng)管理模式向現(xiàn)代管理模式轉(zhuǎn)變提供支撐,成為水利行業(yè)對(duì)大數(shù)據(jù)技術(shù)最客觀需求。
研究大數(shù)據(jù)環(huán)境下水利業(yè)務(wù)信息的一體化智能檢索(垂直檢索)關(guān)鍵技術(shù),借助人工智能,以水利大數(shù)據(jù)為基礎(chǔ),構(gòu)建水利知識(shí)圖譜,用主題爬蟲(chóng)、信息抽取、倒排索引和中文分詞等垂直搜索核心技術(shù),建立水利數(shù)據(jù)垂直搜索基礎(chǔ)模型,開(kāi)發(fā)山東省水利數(shù)據(jù)搜索引擎,對(duì)水利結(jié)構(gòu)化數(shù)據(jù)、網(wǎng)頁(yè)分析提取數(shù)據(jù)、非結(jié)構(gòu)化文獻(xiàn)影像圖像數(shù)據(jù)等進(jìn)行分析、整理和數(shù)據(jù)挖掘,實(shí)現(xiàn)水利信息資源的精準(zhǔn)檢索,更精準(zhǔn)、更深入地挖掘出高效的水利信息。
在建設(shè)山東水利數(shù)據(jù)中心的垂直搜索時(shí)遵循以下幾個(gè)基本原則:1)便捷實(shí)用。系統(tǒng)能夠?yàn)楦鱾€(gè)水利業(yè)務(wù)提供數(shù)據(jù)基礎(chǔ)支撐,根據(jù)用戶需求快速有效地檢索到關(guān)系的數(shù)據(jù),為用戶決策提供保障。2)交互性強(qiáng)。用戶能夠通過(guò)輸入關(guān)鍵詞與系統(tǒng)進(jìn)行交互。系統(tǒng)能夠給用戶提供一些專業(yè)性的水利數(shù)據(jù),協(xié)助用戶使用了解水利業(yè)務(wù)數(shù)據(jù)。3)易于擴(kuò)展、維護(hù)。系統(tǒng)接口設(shè)計(jì)開(kāi)放合理,支持外部應(yīng)用程序調(diào)用數(shù)據(jù)服務(wù)。可根據(jù)用戶需求對(duì)基礎(chǔ)水利業(yè)務(wù)信息的更新,對(duì)搜索引擎中的索引數(shù)據(jù)庫(kù)進(jìn)行管理和維護(hù)。
山東水利數(shù)據(jù)中心通過(guò)網(wǎng)絡(luò)爬蟲(chóng)、數(shù)據(jù)抽取、數(shù)據(jù)加工處理等技術(shù)對(duì)水利基礎(chǔ)數(shù)據(jù)、水利業(yè)務(wù)數(shù)據(jù)、水利年鑒等非結(jié)構(gòu)化數(shù)據(jù)、水利資訊等門戶類數(shù)據(jù)進(jìn)行數(shù)據(jù)資源整合。通過(guò)建立數(shù)據(jù)索引、運(yùn)用中文分詞、優(yōu)化權(quán)重排序算法等手段建立垂直搜索引擎,實(shí)現(xiàn)對(duì)水利數(shù)據(jù)的全文檢索、精準(zhǔn)查詢,運(yùn)用水利知識(shí)圖譜實(shí)現(xiàn)數(shù)據(jù)的關(guān)聯(lián)展示及分析。數(shù)據(jù)中心不僅實(shí)現(xiàn)了對(duì)數(shù)據(jù)的檢索和關(guān)聯(lián)分析查詢,還實(shí)現(xiàn)了水利概況、水資源、水文業(yè)務(wù)、水利移民、水利工程等業(yè)務(wù)的按主題分類查詢。
作為一種新興的知識(shí)發(fā)現(xiàn)方法,知識(shí)圖譜能夠全方位揭示知識(shí)的來(lái)源及其發(fā)展規(guī)律,可以客觀的揭示水利相關(guān)特點(diǎn)、業(yè)務(wù)實(shí)體之間的聯(lián)系、水利科技/工程等相關(guān)發(fā)展趨勢(shì)。水利知識(shí)圖譜利用人工智能技術(shù)、知識(shí)計(jì)算工具以及現(xiàn)有的業(yè)務(wù)數(shù)據(jù)進(jìn)行實(shí)體識(shí)別、屬性識(shí)別,并建立實(shí)體屬性鏈接集成。構(gòu)建了水庫(kù)、河湖、水文、水網(wǎng)工程、水資源、水利移民、農(nóng)村水利、水利概況、水土保持等水利工程和業(yè)務(wù)知識(shí)圖譜。
運(yùn)用JAVA WEB技術(shù)開(kāi)發(fā)實(shí)現(xiàn)業(yè)務(wù)數(shù)據(jù)表的分類查詢功能,將水利業(yè)務(wù)分成水利概況、水資源、水文業(yè)務(wù)、農(nóng)村水利、水土保持、防汛抗旱、水利移民、水網(wǎng)工程等八類,并實(shí)現(xiàn)水利業(yè)務(wù)的數(shù)據(jù)查詢功能,通過(guò)面向具體的主題業(yè)務(wù)區(qū)域來(lái)方便用戶快速了解相關(guān)數(shù)據(jù)。
主要提供所有水利業(yè)務(wù)數(shù)據(jù)的檢索功能,通過(guò)網(wǎng)頁(yè)爬蟲(chóng)技術(shù)檢索關(guān)鍵詞的相關(guān)匹配對(duì)展現(xiàn)相關(guān)的數(shù)據(jù)信息。
1)構(gòu)建索引。把抓取的水利信息建立類似書(shū)目的數(shù)據(jù)文件,以便實(shí)現(xiàn)高速檢索。索引系統(tǒng)涉及的關(guān)鍵技術(shù)點(diǎn)有分詞技術(shù)、增量索引與全索引、排序技術(shù)、熱點(diǎn)詞高速緩存、標(biāo)準(zhǔn)檢索語(yǔ)句解析等。首先解析文檔讀入文檔后,給文檔進(jìn)行編號(hào),賦予唯一的文檔ID,并對(duì)文檔內(nèi)容解析,為該文檔內(nèi)每個(gè)單詞建立一個(gè)(單詞ID,文檔ID,單詞頻率)三元組,將處理好的數(shù)據(jù)寫入磁盤臨時(shí)文件。其次對(duì)臨時(shí)文件在合并中間結(jié)果的過(guò)程中,系統(tǒng)為每個(gè)中間結(jié)果文件在內(nèi)存中開(kāi)辟一個(gè)數(shù)據(jù)緩沖區(qū),用來(lái)存放文件的部分?jǐn)?shù)據(jù)。最后當(dāng)所有中間結(jié)果文件都依次被讀入緩沖區(qū),在合并完成后,就形成了最終的索引文件。
2)搜索和中文分詞的應(yīng)用。水利術(shù)語(yǔ)繁多復(fù)雜、專業(yè)性強(qiáng),存在大量對(duì)檢索和鑒別無(wú)意義的詞匯。因此,為了提高檢索的效率和質(zhì)量,需要增加關(guān)鍵詞密度,構(gòu)建出水利領(lǐng)域停用詞典,建立相應(yīng)的水利詞庫(kù)。采用基于專業(yè)詞典的逆向最大匹配和統(tǒng)計(jì)的中文分析算法,通過(guò)算法的改進(jìn)可以較好地對(duì)水利信息專業(yè)詞匯進(jìn)行分次,提高了搜索的準(zhǔn)確率,根據(jù)搜索密度、信息關(guān)注度等對(duì)檢索信息進(jìn)行有效的權(quán)重處理,自定了排序,優(yōu)化了索引,提高了檢索效率。
通過(guò)索引中的關(guān)鍵字等進(jìn)行一定算法的權(quán)重設(shè)置為用戶檢索出匹配度更高,相關(guān)度更高,更加準(zhǔn)確、無(wú)誤的信息。
通過(guò)構(gòu)建好的水利知識(shí)圖譜,建立數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,實(shí)現(xiàn)在檢索到本身需要的信息外,又可以關(guān)聯(lián)出與該業(yè)務(wù)數(shù)據(jù)相關(guān)的數(shù)據(jù),便于用戶了解到數(shù)據(jù)的來(lái)源以及相關(guān)聯(lián)情況。
應(yīng)用網(wǎng)頁(yè)爬蟲(chóng)技術(shù),按照數(shù)據(jù)之間的關(guān)聯(lián)從水利數(shù)據(jù)中心信息源中抓取數(shù)據(jù),基于預(yù)先構(gòu)造的水利業(yè)務(wù)模板,抓取系統(tǒng)涉及的關(guān)鍵點(diǎn),包括有爬行路徑分析、增量抓取與全抓取、信息構(gòu)造完整性、信息唯一性識(shí)別、多網(wǎng)頁(yè)信息整合、自動(dòng)標(biāo)引(此功能也可以單獨(dú)提出)等。
選取抓取的網(wǎng)頁(yè)或者系統(tǒng)展示頁(yè)面種子URL;將這些URL放入待抓取URL隊(duì)列;從待抓取URL隊(duì)列中取出待抓取URL,解析DNS,并且得到主機(jī)的IP,將URL對(duì)應(yīng)的網(wǎng)頁(yè)下載下來(lái),通過(guò)模版分析得到主題關(guān)鍵詞內(nèi)容,建立索引存儲(chǔ)到已下載網(wǎng)頁(yè)庫(kù)中。將這些URL放進(jìn)已抓取URL隊(duì)列,分析已抓取URL隊(duì)列中的URL,分析其中的其他URL,并且將URL放入待抓取URL隊(duì)列,從而進(jìn)入下一個(gè)循環(huán)。
目前,山東省水利信息化已經(jīng)建設(shè)了防汛抗旱、農(nóng)村水利、水利工程管理、水利數(shù)據(jù)中心、電子政務(wù)、水資源管理、水利移民、水利門戶網(wǎng)站群等系統(tǒng),接入了水文、水資源、農(nóng)村水利、水利普查等相關(guān)數(shù)據(jù),完成了水利概況、水資源、水文業(yè)務(wù)、農(nóng)村水利、水土保持、防汛抗旱、水利移民、水網(wǎng)工程的數(shù)據(jù)索引,構(gòu)建了19張水利業(yè)務(wù)知識(shí)圖譜,完成29張水利業(yè)務(wù)基礎(chǔ)表的查詢檢索展示,96張表的關(guān)聯(lián)度查詢。統(tǒng)一的數(shù)據(jù),統(tǒng)一的搜索展現(xiàn)形式支撐起了垂直檢索技術(shù)在山東水利的應(yīng)用,為進(jìn)一步發(fā)揮數(shù)據(jù)的作用,滿足水利工作者快捷地了解水利相關(guān)知識(shí)信息提供了條件。