郭宇棟,李生林
(后勤工程學(xué)院,重慶 401331)
大數(shù)據(jù)關(guān)鍵技術(shù)在基建營(yíng)房綜合管理系統(tǒng)中的應(yīng)用
郭宇棟,李生林
(后勤工程學(xué)院,重慶 401331)
重點(diǎn)研究了大數(shù)據(jù)處理及分析挖掘等關(guān)鍵技術(shù),結(jié)合基建營(yíng)房綜合管理系統(tǒng)的應(yīng)用環(huán)境,論述大數(shù)據(jù)技術(shù)在基建營(yíng)房綜合管理系統(tǒng)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)處理、分析挖掘等方面的應(yīng)用情況。
大數(shù)據(jù)挖掘;基建營(yíng)房;信息管理系統(tǒng)
隨著信息系統(tǒng)的廣泛應(yīng)用和信息技術(shù)的高速發(fā)展,特別是地理信息系統(tǒng)、數(shù)據(jù)存儲(chǔ)技術(shù)和物聯(lián)網(wǎng)等技術(shù)的發(fā)展,使得“數(shù)據(jù)”規(guī)模呈現(xiàn)指數(shù)級(jí)別增長(zhǎng)。在工業(yè)、交通運(yùn)輸、醫(yī)療衛(wèi)生、電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域,都積累了TB級(jí)、PB級(jí)乃至EB級(jí)的大數(shù)據(jù)。這些大數(shù)據(jù)正在影響著人類認(rèn)識(shí)、理解社會(huì)的方式,推動(dòng)社會(huì)發(fā)展和管理模式變革,成為信息社會(huì)的重要財(cái)富[1]。
2011年5月,在麥肯錫全球研究院發(fā)布的《大數(shù)據(jù):創(chuàng)新、競(jìng)爭(zhēng)和生產(chǎn)力的下一個(gè)新領(lǐng)域》的研究報(bào)告中指出,大量數(shù)據(jù)作為重要的信息要素,已經(jīng)滲透到各行各業(yè)和業(yè)務(wù)職能領(lǐng)域,大數(shù)據(jù)的實(shí)際應(yīng)用將引領(lǐng)一波新的生產(chǎn)率增長(zhǎng)和商業(yè)利潤(rùn)浪潮的到來(lái)。2012年3月29日,美國(guó)政府在白宮網(wǎng)站發(fā)布了《大數(shù)據(jù)研究和發(fā)展倡議》,提出通過(guò)收集大量復(fù)雜的數(shù)據(jù)資料提升獲取知識(shí)的能力,并且將投資2億美元啟動(dòng)“大數(shù)據(jù)研究和發(fā)展計(jì)劃”。
人類進(jìn)入信息化時(shí)代以后,短短的數(shù)年時(shí)間,積累了大量的數(shù)據(jù),步入了“大數(shù)據(jù)時(shí)代”,使人類以前所未有的速度、厚度、細(xì)度和準(zhǔn)確度對(duì)信息的掌握成為可能。面對(duì)大量的數(shù)據(jù),基于充足的數(shù)據(jù)基礎(chǔ),對(duì)數(shù)據(jù)進(jìn)行挖掘與分析,并將其運(yùn)用于企業(yè)、軍隊(duì)等領(lǐng)域的精細(xì)管理,也就不僅成為可能而且勢(shì)在必行[2]。
隨著國(guó)家、軍隊(duì)建設(shè)發(fā)展和改革深入,基建營(yíng)房建設(shè)管理面臨著前所未有的挑戰(zhàn)和困難,工程建設(shè)“三超”(超規(guī)模、超投資、超面積)現(xiàn)象屢禁不止,房地產(chǎn)“管不住”問(wèn)題無(wú)法根治,國(guó)防工程維護(hù)管理消耗“不明確”問(wèn)題長(zhǎng)期存在,住房制度改革舉步維艱等,這些困難和挑戰(zhàn)靠現(xiàn)有的信息能力已無(wú)法支撐,靠傳統(tǒng)的管理模式難以解決。大數(shù)據(jù)關(guān)鍵技術(shù)及在基建營(yíng)房綜合管理系統(tǒng)中的應(yīng)用研究,是將大數(shù)據(jù)應(yīng)用到基建營(yíng)房綜合管理系統(tǒng)中,運(yùn)用大數(shù)據(jù)的理論、機(jī)制、模型和方法等解決基建營(yíng)房建設(shè)、管理、維護(hù)中的決策問(wèn)題,通過(guò)問(wèn)題分析原因、通過(guò)現(xiàn)象預(yù)測(cè)結(jié)果,并提供大數(shù)據(jù)關(guān)鍵技術(shù)在基建營(yíng)房綜合管理系統(tǒng)中的應(yīng)用方案,實(shí)現(xiàn)基建營(yíng)房信息主導(dǎo)、精確管控、工程透明、科學(xué)決策的目標(biāo),為提升信息保障能力、創(chuàng)新管理保障模式提供新的方法和手段[3]。
圖1 分布式文件存儲(chǔ)架構(gòu)
一般意義上,大數(shù)據(jù)是指無(wú)法在可容忍的時(shí)間內(nèi)用傳統(tǒng)IT技術(shù)和軟硬件工具對(duì)其進(jìn)行感知、獲取、管理、處理和服務(wù)的數(shù)據(jù)集合。大數(shù)據(jù)的特點(diǎn)可以總結(jié)為4個(gè)V,即Volume(體量巨大)、Variety(類型繁多)、Velocity(生成快速)和Value(價(jià)值巨大但密度很低)。大數(shù)據(jù)處理的關(guān)鍵技術(shù)主要是指能夠在容忍時(shí)間內(nèi)處理大量不同類型的數(shù)據(jù),而大數(shù)據(jù)分析挖掘的關(guān)鍵技術(shù)主要體現(xiàn)在運(yùn)用各種機(jī)器學(xué)習(xí)算法分析和挖掘數(shù)據(jù)中的價(jià)值。本文將分別介紹大數(shù)據(jù)處理和分析數(shù)據(jù)挖掘的關(guān)鍵技術(shù)[4]。
2.1 大數(shù)據(jù)處理關(guān)鍵技術(shù)
2.1.1 分布式計(jì)算架構(gòu)。大數(shù)據(jù)環(huán)境下的分布式計(jì)算架構(gòu)與傳統(tǒng)的分布式處理系統(tǒng)有所區(qū)別。傳統(tǒng)的分布式計(jì)算架構(gòu)通常采用縱向拓展的方式,其計(jì)算性能增長(zhǎng)速度無(wú)法跟上數(shù)據(jù)增長(zhǎng)速度,性能提升存在上限。大數(shù)據(jù)環(huán)境下的數(shù)據(jù)呈現(xiàn)指數(shù)級(jí)增長(zhǎng),傳統(tǒng)的數(shù)據(jù)處理架構(gòu)顯然已無(wú)法適應(yīng),所以采用橫向拓展方式的分布式計(jì)算架構(gòu)將成為大數(shù)據(jù)處理架構(gòu)的主流。
2006年Google首次提出大數(shù)據(jù)的分布式處理模式,包括分布式文件存儲(chǔ)系統(tǒng)、分布式計(jì)算編程模式等技術(shù)體系,同時(shí)還提出了一系列學(xué)術(shù)論文作為理論依據(jù)供研究學(xué)者進(jìn)行討論。在這種分布式計(jì)算思想的指導(dǎo)下,Hadoop等優(yōu)秀的分布式處理軟件框架應(yīng)運(yùn)而生,架構(gòu)如圖1所示。
分布式文件存儲(chǔ)架構(gòu)是通過(guò)大量普通PC機(jī)或廉價(jià)服務(wù)器集群而構(gòu)建的松耦合存儲(chǔ)系統(tǒng),能夠以分塊、分片等方式高效地存儲(chǔ)海量數(shù)據(jù)。其中,MapReduce是利用了分布式文件存儲(chǔ)架構(gòu)而設(shè)計(jì)的大數(shù)據(jù)存儲(chǔ)與計(jì)算編程模型,主要思想是搭建廉價(jià)的中低端服務(wù)器集群,對(duì)每個(gè)服務(wù)器節(jié)點(diǎn)性能要求不高,提供整體的松耦合性、擴(kuò)展性和容錯(cuò)性等。當(dāng)發(fā)生服務(wù)器宕機(jī)或者節(jié)點(diǎn)從集群中移除時(shí),整個(gè)集群依然能夠保持良好的運(yùn)行狀態(tài)和計(jì)算性能,幾乎不受單個(gè)節(jié)點(diǎn)的影響。在電子商務(wù)、社交網(wǎng)絡(luò)等領(lǐng)域,分布式存儲(chǔ)和計(jì)算架構(gòu)已經(jīng)成功得到了實(shí)際驗(yàn)證,其開(kāi)源模式更為程序開(kāi)發(fā)人員提供了二次開(kāi)發(fā)的可能,以鍵值對(duì)<key,value>形式存儲(chǔ)數(shù)據(jù)格式不受限定;在MapReduce編程模式中,Map和Reduce函數(shù)為用戶提供了計(jì)算編程接口,可以自定義實(shí)現(xiàn)較復(fù)雜的數(shù)據(jù)處理邏輯,為海量半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)處理提供了高效的處理方式,也為大規(guī)模數(shù)據(jù)集機(jī)器學(xué)習(xí)與挖掘等技術(shù)的實(shí)現(xiàn)提供了基礎(chǔ)架構(gòu)[5]。
2.1.2 并行數(shù)據(jù)庫(kù)技術(shù)。分布式計(jì)算架構(gòu)為大規(guī)模數(shù)據(jù)集的處理提供了技術(shù)基礎(chǔ),但是由于所有的數(shù)據(jù)處理邏輯必須由用戶自定義開(kāi)發(fā),原本應(yīng)該由數(shù)據(jù)庫(kù)完成的任務(wù)移交給了程序開(kāi)發(fā)人員,導(dǎo)致應(yīng)用程序的使用成本增長(zhǎng)。所以,并行數(shù)據(jù)庫(kù)技術(shù)的出現(xiàn)則針對(duì)這方面的缺陷提供了一個(gè)優(yōu)勢(shì)的解決方案。
并行數(shù)據(jù)庫(kù)技術(shù)經(jīng)過(guò)幾十年的研究發(fā)展,技術(shù)水平有了長(zhǎng)足的進(jìn)步。早在20世紀(jì)70年代,并行數(shù)據(jù)庫(kù)技術(shù)在數(shù)據(jù)庫(kù)機(jī)的研究領(lǐng)域中逐漸走進(jìn)人們的視野,主要研究?jī)?nèi)容是關(guān)系數(shù)據(jù)庫(kù)的并行操作與專用硬件設(shè)備的開(kāi)發(fā),旨在通過(guò)硬件設(shè)備實(shí)現(xiàn)分布式操作關(guān)系型數(shù)據(jù)庫(kù)。上世紀(jì)80年代,并行數(shù)據(jù)庫(kù)技術(shù)摒棄了原來(lái)的硬件設(shè)備的研發(fā),轉(zhuǎn)移到從組織調(diào)度策略層面構(gòu)建并行數(shù)據(jù)庫(kù)機(jī)。90年代后,隨著多核處理器、大容量存儲(chǔ)、高速計(jì)算能力等信息技術(shù)的發(fā)展,并行數(shù)據(jù)庫(kù)技術(shù)的研究得到了質(zhì)的飛躍,其研究的重心變?yōu)闀r(shí)間、空間數(shù)據(jù)的并行化方面,如圖2所示。
圖2 并行數(shù)據(jù)庫(kù)架構(gòu)圖
在處理大規(guī)模數(shù)據(jù)集的過(guò)程中采用并行數(shù)據(jù)庫(kù)技術(shù),目的是利用系統(tǒng)集群的高效運(yùn)算性能,實(shí)施時(shí)將關(guān)系數(shù)據(jù)庫(kù)的數(shù)據(jù)表中的數(shù)據(jù)分塊或分片,根據(jù)分配策略分發(fā)給各個(gè)節(jié)點(diǎn)進(jìn)行處理并執(zhí)行數(shù)據(jù)庫(kù)事務(wù)操作,最后將處理結(jié)果反饋給用戶,實(shí)現(xiàn)節(jié)點(diǎn)間的完全無(wú)共享,同時(shí)將各節(jié)點(diǎn)數(shù)據(jù)進(jìn)行鏡像備份,強(qiáng)化冗余并提升數(shù)據(jù)庫(kù)性能。此外,并行數(shù)據(jù)庫(kù)能夠建立在廉價(jià)的服務(wù)器集群上,節(jié)點(diǎn)間可保持很好的拓展性和容錯(cuò)性。
2.1.3 大數(shù)據(jù)處理模式。目前,為了滿足大數(shù)據(jù)在極短的時(shí)間內(nèi)處理海量數(shù)據(jù),獲取有價(jià)值信息的需求,在數(shù)據(jù)處理過(guò)程中主要采用流處理和批處理兩種方式。流處理是在不存儲(chǔ)數(shù)據(jù)情況下對(duì)實(shí)時(shí)數(shù)據(jù)進(jìn)行處理,批處理則是先將數(shù)據(jù)存儲(chǔ)至本地后再處理。
(1)流處理。流處理是指數(shù)據(jù)的來(lái)源是實(shí)時(shí)的,數(shù)據(jù)價(jià)值的時(shí)效性非常高,而隨著時(shí)間的增加價(jià)值不斷地減少,因此必須用最短的時(shí)間處理數(shù)據(jù)給出最優(yōu)結(jié)果。在大數(shù)據(jù)處理過(guò)程中需采用流數(shù)據(jù)處理模式的領(lǐng)域主要有數(shù)字化傳感器實(shí)時(shí)監(jiān)控、網(wǎng)站點(diǎn)擊量的實(shí)時(shí)統(tǒng)計(jì)、電子商務(wù)及社交網(wǎng)絡(luò)中的高頻通信等。在流處理的處理過(guò)程中,在一段時(shí)間內(nèi)的數(shù)據(jù)將被視為流,每次數(shù)據(jù)流到來(lái)時(shí)立即進(jìn)行處理并返回運(yùn)算結(jié)果。流處理模式中的數(shù)據(jù)流模型,如圖3所示。
圖3 基本數(shù)據(jù)流模型
在數(shù)據(jù)流處理的實(shí)際過(guò)程中,由于數(shù)據(jù)來(lái)源是源源不斷的且數(shù)據(jù)量巨大,對(duì)時(shí)效性要求極高,所以只對(duì)數(shù)據(jù)本身進(jìn)行處理運(yùn)算,而不會(huì)對(duì)數(shù)據(jù)進(jìn)行持久化儲(chǔ)存,所有的計(jì)算都在內(nèi)存中完成,所以系統(tǒng)這種處理方式具有較高的運(yùn)算效率。但是,流處理方式更多地依賴內(nèi)存設(shè)備的性能,內(nèi)存容量成為限制流處理的一個(gè)瓶頸。目前,多核處理器與相變存儲(chǔ)器等設(shè)備的出現(xiàn),為流處理模式的發(fā)展提供了更好的平臺(tái)。
經(jīng)過(guò)幾十年的研究發(fā)展,數(shù)據(jù)流處理模式不僅在理論層面有較為深入的研究,在各個(gè)領(lǐng)域也得到了廣泛的應(yīng)用,一些代表性的開(kāi)源流處理框架如Twitter的Storm、Yahoo的S4以及Linkedin的Kafka等。
(2)批處理。2004年Google公司首先提出分布式計(jì)算思想和并行批處理編程模型MapReduce,處理過(guò)程如圖4所示。
MapReduce模型利用了分布式計(jì)算的思想,處理過(guò)程是首先將數(shù)據(jù)源進(jìn)行分塊、分片處理,然后分別傳遞至Map任務(wù)區(qū)進(jìn)行任務(wù)分配。Map過(guò)程能夠從各自的輸入數(shù)據(jù)中解析獲取鍵值對(duì)<key,value>集合,然后調(diào)用用戶自定義的Map函數(shù)執(zhí)行,將計(jì)算結(jié)果持久化存儲(chǔ)至本地硬盤文件系統(tǒng)或數(shù)據(jù)庫(kù)系統(tǒng)中。在執(zhí)行Reduce任務(wù)過(guò)程時(shí),從本地硬盤讀取數(shù)據(jù),根據(jù)Key值索引排序,執(zhí)行用戶自定義的Reduce函數(shù),將Key對(duì)應(yīng)的Value值合并返回結(jié)果。
圖4 MapReduce處理過(guò)程圖
從上述處理過(guò)程可以看出,以MapReduce為代表的批處理模式主要設(shè)計(jì)思想是:(1)將復(fù)雜計(jì)算分散化,再將計(jì)算結(jié)果合并返回;(2)以數(shù)據(jù)為驅(qū)動(dòng)旨在解決任務(wù)分配,而不是以運(yùn)算為中心,這樣可以有效地減少數(shù)據(jù)通信過(guò)程中的開(kāi)銷。批處理模式架構(gòu)部署方便快捷,在很多領(lǐng)域都得到了廣泛應(yīng)用,如輿情分析、文本挖掘、數(shù)據(jù)預(yù)測(cè)等。
流處理和批處理作為大數(shù)據(jù)處理的兩種主流方法,各有利弊。在實(shí)際數(shù)據(jù)處理過(guò)程中應(yīng)該按照用戶的需求選擇使用其中一種,亦或二者結(jié)合。海量數(shù)據(jù)的一個(gè)重要的來(lái)源是互聯(lián)網(wǎng)(包括網(wǎng)站流量、電子商務(wù)和社交網(wǎng)絡(luò)等),很多互聯(lián)網(wǎng)大數(shù)據(jù)解決方案都是根據(jù)具體業(yè)務(wù)處理的時(shí)效性需求定制擬采用的處理模式。如著名的職場(chǎng)社交平臺(tái)Linkedin將自身的業(yè)務(wù)劃分為在線處理、近線處理和離線處理三種方式,每一種處理方式所需的時(shí)間消耗是不同的。其中,在線處理時(shí)間范圍是秒級(jí)甚至是毫秒級(jí),所以采用上述的流處理方式;近線處理的時(shí)間范圍在分鐘級(jí)或者小時(shí)級(jí),用戶可自定義采用任何一種處理模式,實(shí)際應(yīng)用較多采用批處理或者傳統(tǒng)的OLAP等;離線處理的時(shí)間范圍是24小時(shí),即1天之內(nèi)的數(shù)據(jù),可以采用批處理方式有效地節(jié)約內(nèi)存消耗,提升磁盤利用率[6]。
2.2 大數(shù)據(jù)分析挖掘關(guān)鍵技術(shù)
2.2.1 大數(shù)據(jù)機(jī)器學(xué)習(xí)方法。傳統(tǒng)的數(shù)據(jù)分析方法有很多,包括數(shù)據(jù)倉(cāng)庫(kù)、多維在線分析(OLAP)和經(jīng)典的數(shù)據(jù)挖掘算法等。隨著信息產(chǎn)業(yè)的發(fā)展,數(shù)據(jù)量的劇增,傳統(tǒng)數(shù)據(jù)分析方法已經(jīng)無(wú)法滿足大數(shù)據(jù)環(huán)境下的數(shù)據(jù)分析需求。相比之下,大數(shù)據(jù)分析的核心需求就是從數(shù)據(jù)量巨大、結(jié)構(gòu)種類繁多、高速變化的數(shù)據(jù)中挖掘出隱藏的規(guī)律,進(jìn)而使數(shù)據(jù)發(fā)揮出最大化的價(jià)值,這些需求使得傳統(tǒng)的數(shù)據(jù)分析方法不再適用,大數(shù)據(jù)機(jī)器學(xué)習(xí)方法的優(yōu)勢(shì)逐漸展現(xiàn)出來(lái)。
大數(shù)據(jù)時(shí)代根據(jù)用戶數(shù)據(jù)量、時(shí)效性和價(jià)值等的需求選擇機(jī)器學(xué)習(xí)算法,并對(duì)其加以改造,例如數(shù)據(jù)分類與預(yù)測(cè)(決策樹(shù)、神經(jīng)網(wǎng)絡(luò)算法等)、聚類分析(KMeans、SOM、FCM算法等)、關(guān)聯(lián)規(guī)則(Apriori、FPGrowth算法等)、時(shí)序分析(平穩(wěn)時(shí)序分析、非平穩(wěn)時(shí)序分析算法等)。機(jī)器學(xué)習(xí)的監(jiān)督、半監(jiān)督式學(xué)習(xí)方法是獲取大量數(shù)據(jù)中隱藏價(jià)值的核心,這些數(shù)據(jù)既包括結(jié)構(gòu)化的文本數(shù)據(jù)、關(guān)系型數(shù)據(jù)庫(kù),又包括圖片、視頻等非結(jié)構(gòu)化的數(shù)據(jù)。對(duì)于大數(shù)據(jù)處理架構(gòu)編程中還需考慮采用時(shí)空亞線性算法、外存索引算法、并行算法和眾包算法等來(lái)提高分析處理的時(shí)空效能、存儲(chǔ)能力、運(yùn)算能力和信息協(xié)調(diào)能力。
2.2.2 大數(shù)據(jù)可視化方法。傳統(tǒng)的數(shù)據(jù)可視化是通過(guò)圖表、報(bào)表、儀表盤等方式進(jìn)行展現(xiàn),這種圖文集合的方式能夠直觀體現(xiàn)數(shù)據(jù)價(jià)值。但是這些數(shù)據(jù)價(jià)值往往是一次性的,而不是實(shí)時(shí)的分析結(jié)果,更無(wú)法與用戶做出實(shí)時(shí)交互式查詢,對(duì)于一些復(fù)雜的數(shù)據(jù)分析需求可能還需更改程序。傳統(tǒng)的可視化方法在大數(shù)據(jù)環(huán)境下難以適用,因此需借助SPSS、SAS、Weka、Gephi、R等專業(yè)數(shù)據(jù)分析與可視化工具來(lái)進(jìn)行數(shù)據(jù)展現(xiàn)。
R作為大數(shù)據(jù)分析可視化的一款常用工具,本身屬于GNU系統(tǒng)的一個(gè)開(kāi)源軟件,不僅用于統(tǒng)計(jì)計(jì)算和數(shù)據(jù)繪圖,更包含了大量數(shù)據(jù)挖掘算法,如線性和非線性回歸、統(tǒng)計(jì)檢驗(yàn)、時(shí)空序列分析、分類與聚類分析等。開(kāi)源的R語(yǔ)言插件能夠部署運(yùn)行在Hadoop集群中,實(shí)現(xiàn)跨平臺(tái)部署,能夠?qū)DFS分布式文件系統(tǒng)中的非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析和對(duì)HBase中的非關(guān)系型數(shù)據(jù)進(jìn)行分析,以滿足大數(shù)據(jù)環(huán)境下的數(shù)據(jù)挖掘與可視化需求[7]。
圖5 大數(shù)據(jù)環(huán)境下基建營(yíng)房綜合管理系統(tǒng)架構(gòu)圖
3.1 基建營(yíng)房綜合管理系統(tǒng)概述
為了切實(shí)貫徹總后首長(zhǎng)“要建立基礎(chǔ)數(shù)據(jù)庫(kù),實(shí)行信息化聯(lián)網(wǎng)管理”,“通過(guò)信息手段,實(shí)現(xiàn)房地產(chǎn)保障資源可視掌控、基本建設(shè)投向投量精確合理”的指示要求,積極推進(jìn)軍隊(duì)基建營(yíng)房向信息化轉(zhuǎn)型發(fā)展,基建營(yíng)房綜合管理系統(tǒng)擬綜合運(yùn)用信息化手段構(gòu)建涵蓋基建營(yíng)房各業(yè)務(wù)領(lǐng)域、滿足各使用對(duì)象需求,能為實(shí)現(xiàn)工程透明、資產(chǎn)可視、營(yíng)區(qū)感知、全域管控提供支撐,能形成基于信息系統(tǒng)體系作戰(zhàn)基建營(yíng)房保障能力,提高基建營(yíng)房保障效能提供技術(shù)手段的基建營(yíng)房大系統(tǒng)。
在基建營(yíng)房綜合管理系統(tǒng)中引入大數(shù)據(jù)關(guān)鍵技術(shù),重點(diǎn)解決基建營(yíng)房各業(yè)務(wù)領(lǐng)域信息系統(tǒng)數(shù)據(jù)標(biāo)準(zhǔn)不一致、業(yè)務(wù)覆蓋不全面、流程管控不透明、輔助決策水平低等問(wèn)題,實(shí)現(xiàn)基建營(yíng)房信息主導(dǎo)、精確管控、工程透明、科學(xué)決策的目標(biāo),形成基于計(jì)算機(jī)網(wǎng)絡(luò)環(huán)境下通過(guò)信息系統(tǒng)開(kāi)展?fàn)I房保障和管理的工作模式。
3.2 系統(tǒng)架構(gòu)設(shè)計(jì)
大數(shù)據(jù)環(huán)境下的基建營(yíng)房綜合管理系統(tǒng)架構(gòu)如圖5所示,主要采用分布式計(jì)算架構(gòu),結(jié)合并行數(shù)據(jù)庫(kù)技術(shù),有效地搭載基建營(yíng)房各類數(shù)據(jù)(包括業(yè)務(wù)數(shù)據(jù)、控制數(shù)據(jù)等),支持大數(shù)據(jù)的流處理模式和批處理模式,能夠?qū)崿F(xiàn)基建營(yíng)房海量數(shù)據(jù)存儲(chǔ)與維護(hù)和跨層級(jí)分布式業(yè)務(wù)處理,為系統(tǒng)功能的柔性重組提供一個(gè)松耦合的集成框架[8]。
3.3 數(shù)據(jù)標(biāo)準(zhǔn)編制
(1)基建營(yíng)房大數(shù)據(jù)的來(lái)源?;I(yíng)房大數(shù)據(jù)來(lái)源,一方面是全軍展開(kāi)的“兩項(xiàng)普查”數(shù)據(jù)作為大數(shù)據(jù)分析決策的基礎(chǔ),優(yōu)選出基建營(yíng)房相關(guān)的基礎(chǔ)數(shù)據(jù)項(xiàng)和數(shù)據(jù)庫(kù)表,建立了從計(jì)劃、建設(shè)、竣工、移交、住用、日常管理到輔助決策的數(shù)據(jù)關(guān)聯(lián),另一方面是基于軍隊(duì)基建營(yíng)房綜合管理系統(tǒng)實(shí)時(shí)動(dòng)態(tài)數(shù)據(jù)采集,包括對(duì)業(yè)務(wù)人員、指揮人員、系統(tǒng)訪問(wèn)人員的行為數(shù)據(jù)和數(shù)字化、智能化設(shè)施設(shè)備實(shí)時(shí)生成的數(shù)據(jù),這些數(shù)據(jù)是具有大數(shù)據(jù)4V特征的動(dòng)態(tài)數(shù)據(jù),是基建營(yíng)房大數(shù)據(jù)時(shí)效性和精準(zhǔn)性的保證。因此,解決基建營(yíng)房大數(shù)據(jù)的來(lái)源問(wèn)題是保證數(shù)據(jù)集成真實(shí)有效、數(shù)據(jù)分析實(shí)時(shí)精準(zhǔn)、數(shù)據(jù)挖掘科學(xué)合理的前提條件。
(2)基建營(yíng)房大數(shù)據(jù)的標(biāo)準(zhǔn)?;I(yíng)房數(shù)據(jù)標(biāo)準(zhǔn)的統(tǒng)一,是實(shí)現(xiàn)數(shù)據(jù)集中管理、融合共享的前提,是建立唯一的基建營(yíng)房中心數(shù)據(jù)庫(kù)與統(tǒng)一挖掘模型的基礎(chǔ)。首先,利用大數(shù)據(jù)并行數(shù)據(jù)庫(kù)技術(shù)建立分布式業(yè)務(wù)數(shù)據(jù)庫(kù),為基建營(yíng)房各個(gè)業(yè)務(wù)子系統(tǒng)提供高自由度的數(shù)據(jù)環(huán)境;然后,分別建立業(yè)務(wù)數(shù)據(jù)模型與標(biāo)準(zhǔn)模型的映射管理,這里包括結(jié)構(gòu)化數(shù)據(jù)的字段映射、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)的語(yǔ)義映射等大數(shù)據(jù)映射標(biāo)準(zhǔn);最后,分別將各業(yè)務(wù)子系統(tǒng)數(shù)據(jù)庫(kù)的數(shù)據(jù)按照時(shí)間節(jié)點(diǎn)橫向劃分,通過(guò)多個(gè)節(jié)點(diǎn)并行數(shù)據(jù)處理任務(wù),為實(shí)現(xiàn)基建營(yíng)房綜合管理系統(tǒng)大數(shù)據(jù)分析挖掘提供數(shù)據(jù)準(zhǔn)備。
3.4 數(shù)據(jù)處理應(yīng)用
基建營(yíng)房業(yè)務(wù)領(lǐng)域涵蓋面廣、部門交叉性強(qiáng)、處理過(guò)程中存在大量的大數(shù)據(jù)存儲(chǔ)與交換,例如包括營(yíng)房土地、國(guó)防工程、住房實(shí)力、環(huán)保綠化核防、空余房地產(chǎn)、物資裝備等房地產(chǎn)資源數(shù)據(jù)和包括建設(shè)項(xiàng)目、住用單位、營(yíng)區(qū)坐落、設(shè)施設(shè)備、室外管線、綠化資源、儲(chǔ)備營(yíng)區(qū)應(yīng)急保障能力以及五圖一影等的日常維護(hù)保障數(shù)據(jù)。這些數(shù)據(jù)規(guī)模遠(yuǎn)遠(yuǎn)超過(guò)GB級(jí),達(dá)到TB級(jí)。另外,這些數(shù)據(jù)結(jié)構(gòu)復(fù)雜,包括結(jié)構(gòu)化、半結(jié)構(gòu)化和非結(jié)構(gòu)化數(shù)據(jù)(如地理信息、衛(wèi)星影像、三維模型等數(shù)據(jù)),遠(yuǎn)遠(yuǎn)超出普通管理信息系統(tǒng)數(shù)據(jù)處理能力的范圍,必須借助大數(shù)據(jù)技術(shù)才能對(duì)其進(jìn)行有效的存儲(chǔ)和分析。因此,解決基建營(yíng)房大數(shù)據(jù)的處理問(wèn)題是保證數(shù)據(jù)存儲(chǔ)與交換的可靠性、數(shù)據(jù)分析與預(yù)測(cè)的科學(xué)性和先進(jìn)性的核心因素。
在基建營(yíng)房綜合管理系統(tǒng)中,所有的業(yè)務(wù)處理都是通過(guò)數(shù)據(jù)的流動(dòng)來(lái)實(shí)現(xiàn)的,包括子系統(tǒng)內(nèi)部數(shù)據(jù)流動(dòng)和跨系統(tǒng)分布式的數(shù)據(jù)流動(dòng)?;I(yíng)房綜合管理系統(tǒng)的業(yè)務(wù)數(shù)據(jù)中除了結(jié)構(gòu)化的業(yè)務(wù)數(shù)據(jù)表單外,還有很多文檔、方案等半結(jié)構(gòu)化數(shù)據(jù)和地理信息、圖片、視頻等非結(jié)構(gòu)化數(shù)據(jù)。而且各類的數(shù)據(jù)又存儲(chǔ)在不同系統(tǒng)、不同數(shù)據(jù)庫(kù)、不同服務(wù)器、不同的數(shù)字化裝備設(shè)備中。所以,在建立集成中心數(shù)據(jù)庫(kù)時(shí)采用服務(wù)器的分布式存儲(chǔ)與控制,這種方式會(huì)大大提高系統(tǒng)穩(wěn)定性且減少系統(tǒng)響應(yīng)時(shí)間,實(shí)現(xiàn)更穩(wěn)定的信息化保障方式和更好的用戶體驗(yàn)。同時(shí),還應(yīng)當(dāng)考慮服務(wù)器集群的分級(jí)、分類構(gòu)建,半結(jié)構(gòu)化與非結(jié)構(gòu)化數(shù)據(jù)在不同類型服務(wù)器中的分片存儲(chǔ)與處理,異地?cái)?shù)據(jù)加密與備份等。
由于基建營(yíng)房業(yè)務(wù)需求廣泛和數(shù)據(jù)多樣化的特點(diǎn),需要對(duì)基建營(yíng)房大數(shù)據(jù)處理策略進(jìn)行研究,目標(biāo)是構(gòu)建一個(gè)滿足能存儲(chǔ)海量數(shù)據(jù)、自主定時(shí)定量、高度適應(yīng)、容錯(cuò)一致性可調(diào)的大數(shù)據(jù)集成環(huán)境,明確數(shù)據(jù)動(dòng)態(tài)監(jiān)管過(guò)程中的數(shù)據(jù)粒度與數(shù)據(jù)實(shí)時(shí)性,不同的數(shù)據(jù)類型指定動(dòng)態(tài)監(jiān)管方式也不同。例如國(guó)防工程日常維護(hù)設(shè)施設(shè)備監(jiān)控?cái)?shù)據(jù)項(xiàng),這種數(shù)據(jù)粒度細(xì)、實(shí)時(shí)性極強(qiáng)。全軍各種設(shè)施設(shè)備每個(gè)參數(shù)每秒鐘的動(dòng)態(tài)變化是不可能記錄到系統(tǒng)數(shù)據(jù)庫(kù)中的,只能存在于智能設(shè)備的內(nèi)部存儲(chǔ)中。總部級(jí)既關(guān)注戰(zhàn)時(shí)保障數(shù)據(jù)的精確定位與實(shí)時(shí)反饋,又關(guān)注各戰(zhàn)區(qū)的年度、季度、任務(wù)消耗統(tǒng)計(jì)值的橫向比較與決策分析,所以如何利用智能設(shè)備接口調(diào)用實(shí)時(shí)數(shù)據(jù)是實(shí)現(xiàn)動(dòng)態(tài)數(shù)據(jù)監(jiān)管的基礎(chǔ),而且集成中心數(shù)據(jù)庫(kù)的動(dòng)態(tài)數(shù)據(jù)抽取、轉(zhuǎn)換、加載過(guò)程(ETL)的時(shí)間范圍須謹(jǐn)慎設(shè)計(jì)并加以控制。
3.5 數(shù)據(jù)分析與挖掘
解決大數(shù)據(jù)的挖掘問(wèn)題是解決數(shù)據(jù)之間聯(lián)系的問(wèn)題,通過(guò)問(wèn)題分析原因,通過(guò)現(xiàn)象預(yù)測(cè)結(jié)果,打破業(yè)務(wù)數(shù)據(jù)之間的屏障,使之統(tǒng)一化、透明化?;I(yíng)房各領(lǐng)域內(nèi)業(yè)務(wù)處理過(guò)程中,會(huì)出現(xiàn)許多決策問(wèn)題,例如通過(guò)對(duì)基建營(yíng)房工程項(xiàng)目三年滾動(dòng)計(jì)劃(建設(shè)、預(yù)備、儲(chǔ)備)數(shù)據(jù)的挖掘分析,預(yù)測(cè)工程建設(shè)中的違規(guī)違紀(jì),實(shí)現(xiàn)工程項(xiàng)目定量、定向管控安排,防止工程建設(shè)項(xiàng)目中的腐敗問(wèn)題;通過(guò)對(duì)住房管理數(shù)據(jù)挖掘分析,提供年度、季度住房人員、房屋面積、房源租賃信息等計(jì)量值,提供住房管理的實(shí)時(shí)“陽(yáng)光維護(hù)”,有效解決并預(yù)防住房“三超”(超規(guī)模、超投資、超面積)問(wèn)題;通過(guò)對(duì)國(guó)防工程戰(zhàn)場(chǎng)設(shè)施實(shí)時(shí)動(dòng)態(tài)監(jiān)控?cái)?shù)據(jù)分析,預(yù)測(cè)不同環(huán)境下的各級(jí)工程維護(hù)管理費(fèi)年度消耗標(biāo)準(zhǔn),解決國(guó)防工程維護(hù)管理消耗“不明確”的問(wèn)題;通過(guò)對(duì)軍隊(duì)基建營(yíng)房綜合管理系統(tǒng)中業(yè)務(wù)人員、指揮人員、系統(tǒng)訪問(wèn)人員的行為(包括瀏覽、留言等操作)數(shù)據(jù)挖掘分析,提供可靠的各類人群數(shù)據(jù)模型,分析不同人群對(duì)房地產(chǎn)資源政策制度的觀點(diǎn)和對(duì)未來(lái)住房政策的期望,科學(xué)有效地推進(jìn)軍隊(duì)住房制度改革等。這些問(wèn)題類型復(fù)雜,專業(yè)性強(qiáng),計(jì)算量大,傳統(tǒng)的解決方式是依靠經(jīng)驗(yàn)判斷和人工完成,然而這種方式過(guò)多依賴于業(yè)務(wù)人員和決策人員的能力素質(zhì),缺乏客觀的數(shù)據(jù)定量分析作為支持,局限于主觀性、盲目性和偶然性。因此,解決基建營(yíng)房大數(shù)據(jù)的挖掘問(wèn)題是解決基建營(yíng)房業(yè)務(wù)領(lǐng)域現(xiàn)實(shí)問(wèn)題的決定因素。
在確定基建營(yíng)房綜合管理系統(tǒng)的系統(tǒng)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)和數(shù)據(jù)處理的基礎(chǔ)上,完成對(duì)數(shù)據(jù)的智能化處理,即建立分級(jí)索引庫(kù)和挖掘模型庫(kù),實(shí)現(xiàn)對(duì)海量數(shù)據(jù)抽取、轉(zhuǎn)換、加載、搜索、挖掘、分析和預(yù)測(cè)。
著眼新時(shí)期軍隊(duì)基建營(yíng)房發(fā)展,按照全面建設(shè)現(xiàn)代后勤總體部署,本文以大數(shù)據(jù)為技術(shù)基礎(chǔ),通過(guò)對(duì)大數(shù)據(jù)關(guān)鍵技術(shù)在基建營(yíng)房綜合管理系統(tǒng)中應(yīng)用研究,介紹分布式計(jì)算架構(gòu)、并行數(shù)據(jù)庫(kù)技術(shù)、大數(shù)據(jù)處理模式等大數(shù)據(jù)處理關(guān)鍵技術(shù)和大規(guī)模機(jī)器學(xué)習(xí)、統(tǒng)計(jì)分析可視化等大數(shù)據(jù)分析挖掘關(guān)鍵技術(shù),提出大數(shù)據(jù)環(huán)境下基建營(yíng)房綜合管理系統(tǒng)架構(gòu)、數(shù)據(jù)標(biāo)準(zhǔn)、數(shù)據(jù)處理、分析挖掘等應(yīng)用,實(shí)現(xiàn)充分有效地利用基建營(yíng)房數(shù)據(jù)資源并提供資源動(dòng)態(tài)分析預(yù)測(cè),為優(yōu)化基建營(yíng)房資源配置、強(qiáng)化營(yíng)房業(yè)務(wù)科學(xué)管理、加快推進(jìn)建設(shè)現(xiàn)代營(yíng)房、切實(shí)轉(zhuǎn)變基建營(yíng)房保障模式提供理論基礎(chǔ),進(jìn)一步增強(qiáng)核心保障能力和提升質(zhì)量效益。
[1]李國(guó)杰,程學(xué)旗.大數(shù)據(jù)研究:未來(lái)科技及經(jīng)濟(jì)社會(huì)發(fā)展的重大戰(zhàn)略領(lǐng)域—大數(shù)據(jù)的研究現(xiàn)狀與科學(xué)思考[J].中國(guó)科學(xué)院院刊,2013,27(6):647-657.
[2]孟小峰,慈祥.大數(shù)據(jù)管理:概念、技術(shù)與挑戰(zhàn)[J].計(jì)算機(jī)研究與發(fā)展,2013,50(1):146-169.
[3]馬建光,姜巍.大數(shù)據(jù)的概念、特征及其應(yīng)用[J].國(guó)防科技,2013,34(2):10-77.
[4]Frankel F,Reid R.Big Data:Distilling meaning from data[J]. Nature,2008,455(7 209):1-136.
[5]Silva Y N,Reed J M.Exploiting MapReduce-based similarity joins[A].Proc of SIGMOD 2012[C].New York,2012.
[6]Yang Lai,Shi Zhongzhi.An efficient data mining framework on Hadoop using Java persistence API[A].Proc of CIT 2010[C]. Piscataway,NJ,2010.
[7]Apache.Apache Mahout:Scalable machine learning and data mining[EB/OL].http://mahout.apache org.
[8]賈俊芳,張日權(quán).基于分布式的大數(shù)據(jù)集聚類分析[J].計(jì)算機(jī)工程與應(yīng)用,2008,44(28):133-135.
Study on Application of Key Big Data Technologies in Capital Construction and Barrack Comprehensive Management System
GuoYudong,LiShenglin
(LogisticalEngineeringUniversity,Chongqing 401331,China)
In this paper,we mainly studied the key big data processing and mining technologies,then in connection with the application environment of the capital construction and barrack comprehensive management system,elaborated on the application of the big data technologiesinthearchitecture,datastandard,dataprocessing,anddatamining,etc.,ofthesystem.
bigdatamining;capitalconstructionandbarrack;informationmanagementsystem
E235
A
1005-152X(2016)05-0169-07
10.3969/j.issn.1005-152X.2016.05.037
2016-04-14
郭宇棟(1987-),男,遼寧遼陽(yáng)人,后勤工程學(xué)院研究生五隊(duì)博士研究生,研究方向:后勤信息化。