楊 琳,黃澤河,張東虞,何邦財
(銅仁職業(yè)技術(shù)學院,貴州 銅仁 554300)
隨著時代的發(fā)展進步,“綠水青山就是金山銀山”在人們的心中深深扎下根,做好水土保持是構(gòu)建和諧社會,改善生活質(zhì)量的必然要求。各地的水土保持預防監(jiān)督體系和監(jiān)測網(wǎng)絡(luò)在不斷完善中,各地水土保持部門積累了大量的水土流失原始信息,為全面規(guī)劃及綜合治理提供了科學依據(jù)。然而水土流失是自然和人為因素共同作用的結(jié)果,影響因子眾多,流失面積與強度也在不斷地變化,因此需要基于大數(shù)據(jù)技術(shù)來進行信息化建設(shè),對大量數(shù)據(jù)進行針對性處理。在本次研究中,采用的是開源大數(shù)據(jù)技術(shù)Hadoop 和Storm 集成構(gòu)架,以同時實現(xiàn)大數(shù)據(jù)的離線挖掘和實時計算。
銅仁市木寨河小江流域?qū)儆陂L江流域沅江水系錦江河支流,地處云貴高原邊緣侵蝕構(gòu)造中低山與湘西侵蝕構(gòu)造低山丘陵過渡的斜坡地帶,是典型的砂巖低山谷溝區(qū)。流域內(nèi)耕地水土流失嚴重,遇到大雨或暴雨,極易造成山體垮塌,破壞下游水利基礎(chǔ)設(shè)施,并對下游群眾生命財產(chǎn)造成威脅[1]。
造成水土流失包括人為因素和自然因素。人為因素一是歷史原因,廣大群眾的水土保持觀念淡薄,生產(chǎn)經(jīng)營、耕作管理方式落后;二是由于人口增長和社會經(jīng)濟的不斷發(fā)展,人地矛盾突出,陡坡開荒嚴重,能源緊缺,亂砍濫伐,造成嚴重水土流失;三是耕地坡度多在15°至20°之間,為提高單產(chǎn)量,當?shù)剞r(nóng)民在夏季對耕地進行耕種。自然原因一是地質(zhì)地貌,本區(qū)成土母質(zhì)以砂頁巖為主,物理風化強烈,加之山高坡陡,溝壑密度大,質(zhì)地疏松;二是降雨集中,暴雨強度大,疏松的表土易隨水下瀉。
為了監(jiān)測小江流域水土保持情況,在木寨河小流域的油房灣支毛溝內(nèi)新建坡面徑流小區(qū)16 個、恢復原有徑流小區(qū)9 個、1 座控制站和1 處簡易氣象場。坡面徑流小區(qū)是根據(jù)坡度、坡向、坡位、土地利用現(xiàn)狀的不同而布設(shè)??刂普静荚O(shè)在木寨河小流域油房灣支毛溝出口處,控制流域面積0.09km2。通過水位、流量、含沙量的測定,計算控制面積內(nèi)的年度徑流總量、徑流深、徑流系數(shù)及土壤侵蝕總量,從而推算整個木寨河小流域的水土流失的變化規(guī)律(如圖1 所示)。
圖1 木寨河小流域監(jiān)測點平面布設(shè)示意圖
同時,通過簡易氣象站監(jiān)測設(shè)備,全年連續(xù)不間斷監(jiān)測降水,了解水土流失的主要因子動態(tài),以小流域控制站監(jiān)測數(shù)據(jù)為依據(jù),對小流域水土流失量進行量化分析,推算小流域徑流量、泥沙量,從而掌握木寨河小流域年度動態(tài)監(jiān)測數(shù)據(jù)。通過設(shè)置不同土地利用、不同坡度的徑流小區(qū)開展對比試驗觀測,總結(jié)各項措施防治水土流失的效益。
通過基礎(chǔ)設(shè)施的建設(shè),監(jiān)測手段已具有多樣性特點,生成的基礎(chǔ)數(shù)據(jù)也呈現(xiàn)多樣性,對于數(shù)據(jù)評價方法也不相同。根據(jù)數(shù)據(jù)屬性,可以分為靜態(tài)數(shù)據(jù)和動態(tài)數(shù)據(jù)兩種。
靜態(tài)基礎(chǔ)數(shù)據(jù)是指能夠反映區(qū)域基本特征,在一定時間尺度內(nèi)變化幅度小,相對穩(wěn)定的數(shù)據(jù)。如屬于基本屬性數(shù)據(jù)的海拔、相對高差、面積、主要土壤類型、坡度、形狀等,其能夠反映的水土流失狀況有土壤侵蝕狀況、溝壑密度等信息;有可以基于長序列觀測的數(shù)據(jù),如屬于氣候特征的年平均溫度、年平均降雨量、年蒸發(fā)量等,其能夠反映年度土壤侵蝕的強度等信息;還有靜態(tài)相對穩(wěn)定數(shù)據(jù),如屬于土地結(jié)構(gòu)的耕地、林地、園地、草地、交通用地、居民點等,還有坡度、坡長等數(shù)據(jù)信息。
隨著物聯(lián)網(wǎng)的發(fā)展,動態(tài)數(shù)據(jù)成為大數(shù)據(jù)的重要組成部分,在水土保持監(jiān)測系統(tǒng)中實時觀測數(shù)據(jù)是動態(tài)數(shù)據(jù)的主要來源。主要有降雨量、風速、風向、含沙量,還有流量堰的流量、水位、含沙量、懸移質(zhì)等情況。
不管是什么時代的信息系統(tǒng),主要目的就是實現(xiàn)對數(shù)據(jù)的交互及應用。在大數(shù)據(jù)時代,數(shù)據(jù)更呈現(xiàn)出量大、多樣性、產(chǎn)生速度快、低價值密度的特性,這一點和水土保持監(jiān)測中產(chǎn)生數(shù)據(jù)是一致的。根據(jù)水土監(jiān)測數(shù)據(jù)特征,可以從兩個方向進行應用,一是區(qū)域水土流失監(jiān)測評價,一是自然災害預警。
在區(qū)域水土流失方面,研究區(qū)域水土流失的監(jiān)測數(shù)據(jù)以及對監(jiān)測數(shù)據(jù)進行數(shù)據(jù)挖掘和深層次的數(shù)據(jù)分析研究,獲取區(qū)域內(nèi)水土流失主要影響因子。在對水土流失影響因子進行綜合分析的基礎(chǔ)上采取有效的措施干預并對水土流失進行模擬預測,為研究區(qū)域水土保持提出合理的建議,進而保護研究區(qū)域生態(tài)環(huán)境。
在自然災害預警方面,如山洪、塌方等實時的預警信息和降雨量、徑流泥沙量、土壤含水量等數(shù)據(jù)緊密關(guān)聯(lián)。要實現(xiàn)對水土保持監(jiān)測動態(tài)更新數(shù)據(jù)的及時計算處理,發(fā)出預警信息,給人民做好防護措施的時間,及時保護人民生命財產(chǎn)安全,切實解決人民的生產(chǎn)生活需要。
數(shù)據(jù)挖掘是從大量低密度價值數(shù)據(jù)中提取先前未知的、隱含的具有潛在價值的信息。根據(jù)科學研究得知,水土流失的主要原因是土壤侵蝕,挖掘土壤侵蝕產(chǎn)生的規(guī)律,研究土壤侵蝕過程中各種因子的作用,是水土保持監(jiān)測數(shù)據(jù)挖掘的主要目標。
根據(jù)調(diào)查,影響土壤侵蝕的因素很多,如土壤類型、郁閉度、坡度、降雨量、風力、溝壑比,以及人的活動等因素。根據(jù)圖2 的數(shù)據(jù)挖掘流程所示,將多樣性的原始數(shù)據(jù)集成到系統(tǒng)中,通過數(shù)據(jù)清洗后以不同主題進行數(shù)據(jù)挖掘,最后通過應用層按需得到對應的應用。數(shù)據(jù)挖掘模型可以是多種,如:以不同植被條件下土壤侵蝕數(shù)據(jù)挖掘模型,不同地形條件下的土壤數(shù)據(jù)挖掘模型等[2]。
圖2 水土保持數(shù)據(jù)挖掘流程
隨著網(wǎng)絡(luò)和算力的進步,各種新興技術(shù)不斷涌現(xiàn),大量的數(shù)據(jù)呈幾何級增長,形成了現(xiàn)在的大數(shù)據(jù)時代。在大數(shù)據(jù)時代,很多技術(shù)獲得了新生,如:人工智能、數(shù)據(jù)挖掘等等。之前,數(shù)據(jù)挖掘更多是為一些高端行業(yè)提供技術(shù)支持,如金融行業(yè)中的商務智能。隨著大數(shù)據(jù)的飛速發(fā)展,各種開源資源可以免費使用,數(shù)據(jù)挖掘技術(shù)也得到了發(fā)展,獲取相關(guān)工具的手段和方式也越來越便捷。
怎樣選擇和大數(shù)據(jù)平臺相結(jié)合得到更好的數(shù)據(jù)挖掘技術(shù)呢?必須從大數(shù)據(jù)平臺入手。在本次研究中,選擇了開源的Hadoop 來實現(xiàn)大數(shù)據(jù)平臺,在Hadoop 的生態(tài)系統(tǒng)中有一系列的核心組件,其中Mahout 就是一個可擴展的機器學習和數(shù)據(jù)挖掘庫,它包含了許多實現(xiàn),包括聚類、分類、推薦過濾、頻繁子項挖掘。通過在Hadoop 大數(shù)據(jù)平臺上使用Mahout,可以有效地將Mahout 擴展到Hadoop 集群中,大大提高了運行效率,實現(xiàn)了大數(shù)據(jù)挖掘。
為了解決水土動態(tài)實時數(shù)據(jù)的處理,海量歷史數(shù)據(jù)的存儲,多樣性數(shù)據(jù)挖掘計算,使用了大數(shù)據(jù)技術(shù)構(gòu)建水土保持監(jiān)測系統(tǒng)。
Apache 軟件基金會(Apache Software Foundation,簡稱為ASF),是專門為支持開源軟件項目而辦的一個非盈利性組織。在本文中所使用的大數(shù)據(jù)技術(shù)來自該基金會下的頂級項目Hadoop,在Hadoop 項目中有很多子項目,形成一個完整的Hadoop 生態(tài)系統(tǒng),被用到各行各業(yè)。在此次研究中的小江流域處于基層,由于各種限制,大部分使用人工測量及分析手段,信息化技術(shù)及大數(shù)據(jù)實際應用并不完善。采用了開源技術(shù)Hadoop構(gòu)建水土保持監(jiān)測系統(tǒng)的計算框架,以其成本低、高效率、擴容能力強及可靠性的特性,不僅技術(shù)完善,而且節(jié)約了成本。
針對水土保持監(jiān)測系統(tǒng)主要實現(xiàn)區(qū)域水土流失監(jiān)測評價和自然災害預警兩個功能,根據(jù)現(xiàn)有的大數(shù)據(jù)技術(shù),采用了Hadoop 和Storm 融合的技術(shù)構(gòu)架(如圖3所示)。
圖3 水土保持監(jiān)測系統(tǒng)構(gòu)架
系統(tǒng)構(gòu)架分為數(shù)據(jù)采集、數(shù)據(jù)存儲、數(shù)據(jù)處理、數(shù)據(jù)應用四個層次,除了數(shù)據(jù)采集和數(shù)據(jù)應用外,中間兩層均是在Hadoop 集群中實現(xiàn)。
4.2.1 數(shù)據(jù)采集
靜態(tài)基礎(chǔ)數(shù)據(jù),可以根據(jù)實際情況批量導入Hadoop 集群。數(shù)據(jù)采集以實時監(jiān)測數(shù)據(jù)為主,即動態(tài)更新數(shù)據(jù)??刹杉臄?shù)據(jù)有網(wǎng)絡(luò)共享的氣象數(shù)據(jù),監(jiān)測點收集到的數(shù)據(jù)等??梢圆扇≡O(shè)備直連,或者通過GPS等信道交換數(shù)據(jù)到服務器中,通過Logstash 或Flume等數(shù)據(jù)采集工具將來自不同數(shù)據(jù)源的數(shù)據(jù)統(tǒng)一起來,并可以按照需求將數(shù)據(jù)標準化處理后,再傳到Hadoop平臺上。
4.2.2 數(shù)據(jù)存儲
數(shù)據(jù)存儲主要有適用于大數(shù)據(jù)Hadoop 的分布式文件系統(tǒng)和傳統(tǒng)的關(guān)系數(shù)據(jù)庫系統(tǒng)。因為水土保持數(shù)據(jù)除了實時及歷史監(jiān)測數(shù)據(jù)外,還有地理空間數(shù)據(jù)GIS,各種元數(shù)據(jù)等信息需要關(guān)系數(shù)據(jù)庫管理維護,這里采用的是MySQL 關(guān)系數(shù)據(jù)庫系統(tǒng)。由MySQL 和HDFS 共同支撐水土保持監(jiān)測數(shù)據(jù)存儲。
4.2.3 數(shù)據(jù)清洗
在水土保持監(jiān)測系統(tǒng)中,主要使用Hive 來實現(xiàn)離線數(shù)據(jù)清洗。Hive 是Hadoop 生態(tài)系統(tǒng)的一部分,必須依賴于Hadoop 而存在。Hive 以HDFS 為數(shù)據(jù)存儲介質(zhì),以關(guān)系數(shù)據(jù)庫,如MySQL 為元數(shù)據(jù)存儲。同時,Hive 對應的 HQL 執(zhí)行后,是交給 MapReduce 執(zhí)行,這樣就可以實現(xiàn)數(shù)據(jù)的分布式運行。
4.2.4 離線數(shù)據(jù)挖掘
同樣屬于Apache Hadoop 的項目Mahout,由于Mahout 是基于Hadoop 實現(xiàn)的,在以前很多運行在單機上的算法,可以在Hadoop 集群中交由MapReduce進行分布式計算,這樣大大提高了同樣算法下的可處理數(shù)據(jù)量和計算能力,所以說Mahout 進行數(shù)據(jù)挖掘的最大優(yōu)勢就是能在Hadoop 集群中進行計算,提升了處理能力。
4.2.5 實時數(shù)據(jù)處理
在本次研究中,選用的實時數(shù)據(jù)處理技術(shù)是Yahoo 開源的Storm-YARN,它是一個將實時計算Storm整合到Hadoop 項目。該框架借助YARN 為Storm 提供的接口,讓Storm 和MapReduce 以及YARN 上的其他應用程序共享整個集群資源,是能夠開放運行在Hadoop 集群上的Storm。實時處理的負載一般不恒定且不可預測,為了滿足峰值的需求,Storm 會需要更多的資源,將Storm 和Hadoop 的批處理MapReduce 搭配使用,Storm-YARN 可以通過YARN 進行統(tǒng)一的資源管理,為大數(shù)據(jù)系統(tǒng)提供了巨大的彈性。
在系統(tǒng)獲取數(shù)據(jù)過程中,特別是水土保持監(jiān)測動態(tài)更新的數(shù)據(jù),如流量、水位、含沙量、懸移質(zhì)等數(shù)據(jù),目前的做法是人工取值。這種情況直接影響實時數(shù)據(jù)處理,無法實現(xiàn)及時預警。解決方法是升級現(xiàn)有的水土保持監(jiān)測終端設(shè)施設(shè)備的感知識別功能,在基層實地布設(shè)多種用途的網(wǎng)絡(luò)傳感數(shù)據(jù)探測終端,完成對水土保持基礎(chǔ)數(shù)據(jù)進行智能化獲取,實現(xiàn)數(shù)據(jù)監(jiān)測全天候“即測即見”,調(diào)動監(jiān)測體系及時響應和聯(lián)動。
監(jiān)測人員專業(yè)技術(shù)水平不高,只能對數(shù)據(jù)進行采集及簡單整理,對數(shù)據(jù)缺乏深入分析。一些先進設(shè)施設(shè)備不能充分運用,遇有設(shè)備故障不能現(xiàn)場解決,只能逐級上報,影響監(jiān)測工作順利開展。建議業(yè)務主管部門多組織監(jiān)測技術(shù)的培訓或組織技術(shù)人員到比較優(yōu)秀的站點去參觀學習,相互交流,進一步提高觀測人員監(jiān)測技術(shù)水平。
水土保持監(jiān)測數(shù)據(jù)呈多樣性,既有歷史數(shù)據(jù),也有即時數(shù)據(jù),數(shù)據(jù)之間關(guān)系復雜,對土壤侵蝕的影響因子眾多,因此需要用大數(shù)據(jù)技術(shù)來實現(xiàn)。在本次研究中采用了開源的大數(shù)據(jù)技術(shù)Hadoop 項目及其子項目和Storm 實時計算框架,同時為了解決數(shù)據(jù)共享和資源調(diào)配的問題,通過Storm-YARN 項目,將Strom 集群融合到Hadoop 中,實現(xiàn)了高彈性、高效率的水土保持監(jiān)控系統(tǒng);同時,也為基層如何運用大數(shù)據(jù)技術(shù)提出了一種解決思路。