師明 王保豐 曹玉娟 高宇輝
(1 北京航天飛行控制中心,北京 100094) (2 北京航天飛行控制中心,航天飛行動(dòng)力學(xué)技術(shù)國防科技重點(diǎn)實(shí)驗(yàn)室,北京 100094)
自2008年谷歌公司公開其分布式文件系統(tǒng)(GFS)和分布式計(jì)算引擎(MapReduce)的設(shè)計(jì)思想開始,云計(jì)算在學(xué)術(shù)、商業(yè)等領(lǐng)域迅速發(fā)展,海量數(shù)據(jù)存儲(chǔ)管理、實(shí)時(shí)流數(shù)據(jù)處理、多源異構(gòu)數(shù)據(jù)的融合分析、知識(shí)驅(qū)動(dòng)的應(yīng)用技術(shù)等研究成果與行業(yè)需求相結(jié)合,催生出互聯(lián)網(wǎng)+時(shí)代大數(shù)據(jù)技術(shù)發(fā)展的浪潮。
在航天領(lǐng)域,美國國家航空航天局(NASA)構(gòu)建了大數(shù)據(jù)組織管理與數(shù)據(jù)處理系統(tǒng)[1]實(shí)時(shí)處理來自火星探測器的原始數(shù)據(jù);NASA的氣候模擬中心存儲(chǔ)了有關(guān)天氣與氣候的數(shù)據(jù)超過37 PB;NASA的星云超級(jí)計(jì)算機(jī)[2-3]支持高性能計(jì)算處理,進(jìn)行行星科學(xué)計(jì)算,為多任務(wù)、多用戶提供復(fù)雜的計(jì)算能力。
隨著我國航天試驗(yàn)任務(wù)的不斷推進(jìn),試驗(yàn)數(shù)據(jù)正以前所未有的速度不斷增長和累積,具備了大量(Volume)、多類型(Variety)、高速(Velocity)、高價(jià)值(Value)的大數(shù)據(jù)4V特征,對(duì)試驗(yàn)數(shù)據(jù)的管理與應(yīng)用提出了更高更迫切的需求。目前,我國一些在軌航天器管理單位運(yùn)用數(shù)據(jù)挖掘和可視化技術(shù)開展在軌航天器故障診斷方面的預(yù)先研究,取得了階段性成果,但是其產(chǎn)品尚未應(yīng)用在工程任務(wù)中。總體而言,國內(nèi)滿足航天工程任務(wù)需求的大數(shù)據(jù)研究成果較少,尚缺技術(shù)落地。
航天工程數(shù)據(jù)指航天試驗(yàn)任務(wù)在準(zhǔn)備、實(shí)施和總結(jié)過程中所涉及的各類數(shù)據(jù)。不同階段的任務(wù)生成的數(shù)據(jù)類型也不同,在任務(wù)準(zhǔn)備階段生成的數(shù)據(jù)包括試驗(yàn)文書、工作計(jì)劃、站點(diǎn)的氣象參數(shù)表、聯(lián)調(diào)聯(lián)試過程數(shù)據(jù),以及試驗(yàn)信息系統(tǒng)的狀態(tài)復(fù)查復(fù)核信息等。在任務(wù)執(zhí)行階段生成的數(shù)據(jù)包括外測數(shù)據(jù)、遙測數(shù)據(jù)、遙控?cái)?shù)據(jù)、語音調(diào)度、航天器飛行實(shí)況以及信息安全和運(yùn)行管理系統(tǒng)產(chǎn)生的狀態(tài)數(shù)據(jù)。其中,外測數(shù)據(jù)主要包括光學(xué)測量數(shù)據(jù)、雷達(dá)測量數(shù)據(jù)、衛(wèi)星導(dǎo)航數(shù)據(jù);遙控?cái)?shù)據(jù)主要包括用于航天器飛行姿態(tài)軌道控制和各類載荷工作狀態(tài)控制的遙控指令和注入數(shù)據(jù);信息安全系統(tǒng)包括病毒查殺、病毒預(yù)警、主機(jī)管控、網(wǎng)絡(luò)攻擊等信息;運(yùn)行管理系統(tǒng)包括設(shè)備監(jiān)視、系統(tǒng)運(yùn)行態(tài)勢、資源調(diào)度等信息;任務(wù)完成后生成的數(shù)據(jù)包括試驗(yàn)評(píng)估報(bào)告、測控設(shè)備使用報(bào)告、事后數(shù)據(jù)處理結(jié)果(包括通過各種處理得到的軌道參數(shù)、遙測關(guān)鍵參數(shù)挑點(diǎn)數(shù)據(jù)、遙測量綱復(fù)原數(shù)據(jù)、全球?qū)Ш叫l(wèi)星系統(tǒng)(GNSS)原始測量數(shù)據(jù)與自定位數(shù)據(jù)等)、信息安全和運(yùn)行管理系統(tǒng)評(píng)估信息。
從數(shù)據(jù)類型上可以分為文本、語音、圖像和數(shù)據(jù)等4類信息;從時(shí)效性上可以分為事前、實(shí)時(shí)、準(zhǔn)實(shí)時(shí)和事后數(shù)據(jù);從數(shù)據(jù)形態(tài)上可分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。
在任務(wù)窗口期,我國航天任務(wù)系統(tǒng)將面臨多任務(wù)高并發(fā)的局面,對(duì)數(shù)據(jù)的組織管理提出嚴(yán)峻挑戰(zhàn),當(dāng)前系統(tǒng)性能與任務(wù)需求之間的矛盾日益突出,主要表現(xiàn)為以下幾點(diǎn)。
1)數(shù)據(jù)存儲(chǔ)架構(gòu)伸縮性不好
歷次任務(wù)對(duì)數(shù)據(jù)裝訂的要求均有差異,導(dǎo)致不同任務(wù)均需要單獨(dú)數(shù)據(jù)庫的支持。隨著試驗(yàn)任務(wù)的不斷推進(jìn),任務(wù)系統(tǒng)數(shù)據(jù)存儲(chǔ)壓力急速增大。傳統(tǒng)數(shù)據(jù)存儲(chǔ)架構(gòu)采用雙集群熱備+關(guān)系型數(shù)據(jù)庫(RDMS)主備的管理方式,不同任務(wù)階段的數(shù)據(jù)庫獨(dú)立存儲(chǔ),以滿足系統(tǒng)的高可靠性要求。在結(jié)構(gòu)上,缺乏對(duì)歷史任務(wù)分類存儲(chǔ)能力。后續(xù)隨著任務(wù)活動(dòng)的并發(fā)執(zhí)行,現(xiàn)行存儲(chǔ)架構(gòu)將面臨較大的執(zhí)行壓力。
2)數(shù)據(jù)集中管理能力不足
現(xiàn)有RDMS服務(wù)在強(qiáng)制保證數(shù)據(jù)一致性的同時(shí),又對(duì)數(shù)據(jù)高可用性形成約束。系統(tǒng)內(nèi)部也尚未有一套數(shù)據(jù)管理系統(tǒng)對(duì)不同數(shù)據(jù)庫以及海量異構(gòu)數(shù)據(jù)進(jìn)行統(tǒng)一管理,性能上難以滿足高效檢索的使用需求,以及跨任務(wù)、跨型號(hào)的數(shù)據(jù)共享和應(yīng)用需求,對(duì)海量異構(gòu)數(shù)據(jù)的管理能力不足,造成了數(shù)據(jù)孤島現(xiàn)象。
3)數(shù)據(jù)應(yīng)用模式單一
傳統(tǒng)RDMS數(shù)據(jù)管理模式下,對(duì)任務(wù)全周期內(nèi)單點(diǎn)數(shù)據(jù)的查詢分析效率低下,無法完成各類數(shù)據(jù)間的深層次關(guān)聯(lián)分析,歷史任務(wù)數(shù)據(jù)分析應(yīng)用模式比較單一,無法充分發(fā)揮歷史數(shù)據(jù)對(duì)當(dāng)前和今后任務(wù)的指導(dǎo)作用,未能實(shí)現(xiàn)大規(guī)模數(shù)據(jù)的資源效益。
由此可見,傳統(tǒng)的數(shù)據(jù)應(yīng)用技術(shù)體系已經(jīng)不能滿足試驗(yàn)任務(wù)對(duì)數(shù)據(jù)存儲(chǔ)、實(shí)時(shí)處理、科學(xué)分析等需求。
傳統(tǒng)數(shù)據(jù)組織管理平臺(tái)主要采用的是“主-從”式架構(gòu),面對(duì)海量數(shù)據(jù)處理的任務(wù)場景在處理速度、存儲(chǔ)空間、容錯(cuò)性和文件讀寫(IO)等方面都面臨嚴(yán)峻的考驗(yàn),需要一個(gè)能夠管理海量數(shù)據(jù)整個(gè)生命周期的通用的、技術(shù)生態(tài)閉環(huán)的大數(shù)據(jù)平臺(tái)。此外,需要解決現(xiàn)有系統(tǒng)在數(shù)據(jù)存儲(chǔ)管理、一致性、可用性等問題上存在的固有缺陷,滿足航天工程數(shù)據(jù)對(duì)系統(tǒng)的要求,具體分析見表1。需要考慮與現(xiàn)有系統(tǒng)的接口關(guān)系,設(shè)計(jì)數(shù)據(jù)采集功能模塊。
表1 航天工程數(shù)據(jù)特征及對(duì)系統(tǒng)的要求
分布式文件系統(tǒng)具有大容量、高可靠性、易擴(kuò)展等特點(diǎn),把被求解的問題分解成若干部分,協(xié)同多個(gè)計(jì)算資源完成數(shù)據(jù)處理,通過擴(kuò)大問題求解規(guī)模來解決復(fù)雜計(jì)算問題,成為事實(shí)上設(shè)計(jì)大數(shù)據(jù)應(yīng)用技術(shù)架構(gòu)的主要方法。
本文所設(shè)計(jì)的技術(shù)架構(gòu)由3部分組成:①Hadoop平臺(tái)開源組件,開源組件的組合方案在數(shù)據(jù)存儲(chǔ)、處理和應(yīng)用等方面不能滿足航天工程任務(wù)系統(tǒng)多樣化的需求,需要做進(jìn)一步的分析優(yōu)化,包括Kafka、Mahout、Storm、Hbase、Hive、Zookeeper、Sqoop等;②第三方組件,前期的研究工作中,主要基于業(yè)務(wù)使用需求設(shè)計(jì)實(shí)現(xiàn)Hadoop平臺(tái)上的第三方組件,可作為單獨(dú)軟件,兼容Hadoop平臺(tái);③中間件,形成jar工具包供Hadoop接口調(diào)用,完成數(shù)據(jù)格式整理、格式轉(zhuǎn)換等數(shù)據(jù)預(yù)處理。所有開源組件均需使用中間件技術(shù)調(diào)用接口函數(shù)進(jìn)行二次開發(fā)??傮w技術(shù)架構(gòu)見圖1。
圖1 面向航天工程大數(shù)據(jù)處理的一種通用型應(yīng)用技術(shù)架構(gòu)Fig.1 A general application technology architecture of big data processing in aerospace engineering
由圖1可知,本文所設(shè)計(jì)的大數(shù)據(jù)應(yīng)用技術(shù)架構(gòu)由數(shù)據(jù)采集、數(shù)據(jù)預(yù)處理、數(shù)據(jù)存儲(chǔ)、分布式計(jì)算、數(shù)據(jù)查詢和數(shù)據(jù)挖掘等功能組成,具有資源管理調(diào)度、組件協(xié)調(diào)、作業(yè)調(diào)度等云平臺(tái)所必備的屬性,構(gòu)成一個(gè)完整、通用的技術(shù)架構(gòu)。
(1)數(shù)據(jù)采集,由Kafka、Zookeeper實(shí)現(xiàn)基礎(chǔ)架構(gòu),Java接口實(shí)現(xiàn)導(dǎo)入外部RDMS、離散文本數(shù)據(jù)。
(2)數(shù)據(jù)預(yù)處理,由中間件實(shí)現(xiàn),完成數(shù)據(jù)抽取、轉(zhuǎn)換和加載等功能。針對(duì)不同類型數(shù)據(jù),區(qū)分設(shè)計(jì)指標(biāo),實(shí)現(xiàn)對(duì)任務(wù)數(shù)據(jù)的整理。
(3)數(shù)據(jù)存儲(chǔ),由Hadoop分布式文件系統(tǒng)(HDFS)實(shí)現(xiàn)對(duì)離線數(shù)據(jù)、實(shí)時(shí)流式數(shù)據(jù)的分布式存儲(chǔ)。
(4)分布式計(jì)算,由Hadoop分布式計(jì)算引擎MapReduce為Hive、Hbase等上層應(yīng)用提供分布式計(jì)算服務(wù)。
(5)數(shù)據(jù)查詢,由第三方組件Hyperbase實(shí)現(xiàn),采用SQL語言實(shí)現(xiàn)對(duì)非結(jié)構(gòu)化數(shù)據(jù)的統(tǒng)計(jì)分析和復(fù)雜的交互式查詢。
(6)數(shù)據(jù)挖掘,由Mahout軟件實(shí)現(xiàn)基礎(chǔ)架構(gòu),針對(duì)航天器應(yīng)用場景進(jìn)行數(shù)據(jù)建模和算法優(yōu)化。
針對(duì)數(shù)據(jù)應(yīng)用中的問題分析,在本文的設(shè)計(jì)中,分布式系統(tǒng)架構(gòu)可以通過水平擴(kuò)展,增加更多的計(jì)算單元和存儲(chǔ)單元來解決,并具有良好的容錯(cuò)性和伸縮性,避免了傳統(tǒng)存儲(chǔ)架構(gòu)在垂直擴(kuò)展應(yīng)用中遇到的性能瓶頸和系統(tǒng)穩(wěn)定性隱患。Hbase的列式結(jié)構(gòu)適用于海量異構(gòu)數(shù)據(jù)的存儲(chǔ),可以規(guī)避不同任務(wù)的字段定義調(diào)整帶來的重復(fù)性工作;Hive可以讓開發(fā)人員通過SQL來計(jì)算和處理HDFS上的結(jié)構(gòu)化數(shù)據(jù),二者配合使用,適用于任務(wù)背景下海量離線數(shù)據(jù)的批處理任務(wù),以及任務(wù)電文數(shù)據(jù)的入庫管理。將Mahout應(yīng)用于航天器健康狀態(tài)診斷等工程領(lǐng)域則是目前較為前沿的研究。
1)數(shù)據(jù)采集
為規(guī)避數(shù)據(jù)丟失風(fēng)險(xiǎn),保證系統(tǒng)靈活性,以及保證峰值數(shù)據(jù)處理能力,技術(shù)架構(gòu)中引入消息隊(duì)列框架,采用極簡的數(shù)據(jù)結(jié)構(gòu)和應(yīng)用模式。設(shè)計(jì)特性如下:①以時(shí)間復(fù)雜度為O(1)(O(1)是數(shù)據(jù)結(jié)構(gòu)中衡量算法復(fù)雜度的標(biāo)記方法)的方式提供消息持久化能力,對(duì)GB級(jí)以上數(shù)據(jù)也能保證常數(shù)時(shí)間復(fù)雜度的訪問性能;②高吞吐率,即使在廉價(jià)的商用機(jī)器上也能做到單機(jī)支持每秒5000條以上消息的傳輸速度;③支持消息分區(qū)及分布式消費(fèi),同時(shí)保證單臺(tái)機(jī)器內(nèi)的消息順序傳輸組件的接口。
2)數(shù)據(jù)預(yù)處理
外部數(shù)據(jù)源主要針對(duì)兩類場景:一類結(jié)構(gòu)化數(shù)據(jù),存儲(chǔ)在關(guān)系型數(shù)據(jù)庫,如Oracle、Excel、SQL Server、SqlLite、MySQL等;一類是半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù),任務(wù)數(shù)據(jù)中以DAT、XML、DOC等離散文本數(shù)據(jù)為主要類型。該部分主要采用中間件技術(shù),設(shè)計(jì)特性如下:①支持?jǐn)?shù)據(jù)補(bǔ)缺、替換、格式規(guī)范化、主鍵約束、去重、緩變參數(shù)整合等數(shù)據(jù)清洗;②能夠?qū)崿F(xiàn)數(shù)據(jù)的合并、拆分和驗(yàn)證等數(shù)據(jù)轉(zhuǎn)換操作;③支持時(shí)間戳、日志表、全表對(duì)比、全表刪除插入等方式的數(shù)據(jù)加載;④對(duì)網(wǎng)絡(luò)異常、原數(shù)據(jù)結(jié)構(gòu)改變、接口改變等引起的數(shù)據(jù)加載異常有處理手段。
3)數(shù)據(jù)存儲(chǔ)
對(duì)于非結(jié)構(gòu)化數(shù)據(jù),采用分布式文件系統(tǒng)直接存儲(chǔ)的方式。任務(wù)下數(shù)據(jù)密集型文件處理應(yīng)用場景廣泛存在,HDFS提供兩種方法,以改善大量小文件(單個(gè)文件小于Block 64 M)造成元數(shù)據(jù)管理效率低下的問題:一是通過生成SequenceFile[4]文件而合并大量的小文件;二是采用CombineFi1eInputFormat[5]小文件合并方式,將多個(gè)文件合并成一個(gè)單獨(dú)的分塊文件(split)。本文設(shè)計(jì)中,采用一種對(duì)上層應(yīng)用透明的啟發(fā)式文件預(yù)取方法,在HDFS建立預(yù)取線程池,響應(yīng)上層應(yīng)用程序所有的文件訪問請求。該方法主要基于程序局部性原理設(shè)計(jì),使用了最近成功訪問(Last Success, LS)模型。程序以組成文件塊的數(shù)據(jù)存儲(chǔ)文件為預(yù)取單位,通過記錄文件訪問信息構(gòu)建LS模型,申明Posix_fadvise系統(tǒng)調(diào)用完成文件訪問與內(nèi)核函數(shù)的交互。該方法部署在Hadoop存儲(chǔ)節(jié)點(diǎn)(DataNode)。
對(duì)于結(jié)構(gòu)化、半結(jié)構(gòu)化數(shù)據(jù),經(jīng)過數(shù)據(jù)預(yù)處理后直接轉(zhuǎn)存至分布式數(shù)據(jù)倉庫和NoSQL數(shù)據(jù)庫。分布式數(shù)據(jù)倉庫能夠支持上千臺(tái)服務(wù)器的規(guī)模,支持對(duì)大規(guī)模靜態(tài)數(shù)據(jù)的批處理操作;NoSQL使用松耦合類型、可擴(kuò)展的數(shù)據(jù)模式來對(duì)數(shù)據(jù)進(jìn)行邏輯建模(Map文件,列,文檔,圖表等),具有非關(guān)系型、分布式、輕量級(jí)、支持水平擴(kuò)展等特點(diǎn)。本文設(shè)計(jì)中采用Hive作為數(shù)據(jù)倉庫,Sqoop實(shí)現(xiàn)數(shù)據(jù)傳遞,Hbase作為NoSQL數(shù)據(jù)庫。對(duì)開源軟件的參數(shù)進(jìn)行優(yōu)化,其中建表過程不再贅述。
設(shè)計(jì)特性如下:①具備高可靠在線擴(kuò)容集群存儲(chǔ)架構(gòu),能夠處理從GB到PB的數(shù)據(jù),動(dòng)態(tài)擴(kuò)容;②實(shí)現(xiàn)對(duì)重復(fù)數(shù)據(jù)的壓縮存儲(chǔ);③支持?jǐn)?shù)據(jù)的離線歸檔。
實(shí)時(shí)流數(shù)據(jù)主要是指任務(wù)執(zhí)行中的遙測數(shù)據(jù),數(shù)據(jù)量大且格式復(fù)雜,帶有明顯的時(shí)序特性。以載人交會(huì)對(duì)接任務(wù)為例,遙測數(shù)據(jù)來自于觀測弧段內(nèi)最大數(shù)目的地基觀測站(3個(gè))、(神舟十號(hào)+天宮一號(hào))天基中繼測控,遙測數(shù)據(jù)規(guī)模約149.59 Mbit/s。數(shù)據(jù)量較大,是一種典型的時(shí)間序列。
本文設(shè)計(jì)中采用Storm開源技術(shù),分析處理數(shù)據(jù)流中的規(guī)律和知識(shí)。設(shè)計(jì)特性如下:①支持實(shí)時(shí)告警流處理業(yè)務(wù),提供對(duì)異常檢測的處理支持;②支持高吞吐低時(shí)延的時(shí)間窗口統(tǒng)計(jì)挖掘流處理業(yè)務(wù);③支持在線自動(dòng)分類、關(guān)鍵事件判斷等實(shí)時(shí)事件的處理機(jī)制。
4)數(shù)據(jù)查詢
索引的實(shí)質(zhì)是另一種編排形式的數(shù)據(jù)冗余,高效的檢索源自于面向查詢特別設(shè)計(jì)的編排形式,如果再輔以分布式的計(jì)算框架,就可以支撐起高性能的大數(shù)據(jù)查詢。基于上述設(shè)計(jì)思想,本文設(shè)計(jì)實(shí)現(xiàn)可獨(dú)立運(yùn)行的Hyperbase組件,支持在線聯(lián)機(jī)事務(wù)處理(OLTP)應(yīng)用、高并發(fā)聯(lián)機(jī)分析處理(OLAP)應(yīng)用、批處理應(yīng)用、全文搜索或高并發(fā)圖形數(shù)據(jù)庫檢索應(yīng)用。
設(shè)計(jì)特性如下:①除主鍵索引外,支持非主鍵的多維索引;②支持全局、局部、高維索引和高級(jí)過濾器,可用于高并發(fā)低延時(shí)的OLAP查詢;③支持SQL命令進(jìn)行跨表跨行的分布式事務(wù)處理以及事務(wù)回滾,保證數(shù)據(jù)更新的一致性;④支持文檔型數(shù)據(jù)的存儲(chǔ)、索引和搜索,支持對(duì)象數(shù)據(jù)(圖片、音視頻、二進(jìn)制文檔等)的存儲(chǔ)、檢索和自動(dòng)回收。
5)數(shù)據(jù)挖掘
數(shù)據(jù)挖掘通過測控事件進(jìn)行狀態(tài)判斷、趨勢預(yù)測和關(guān)聯(lián)分析,可為航天器設(shè)計(jì)的合理性與可靠性驗(yàn)證、測控資源的管理與調(diào)配、科學(xué)實(shí)驗(yàn)任務(wù)安排的合理性與可行性驗(yàn)證、測控系統(tǒng)的安全與可靠性驗(yàn)證、載人環(huán)境建設(shè)的改進(jìn)等起到重要的輔助決策作用。
根據(jù)挖掘目標(biāo)和數(shù)據(jù)形式可以分為分類與預(yù)測、聚類分析、關(guān)聯(lián)規(guī)則等模型,生成智能診斷、行為分析、故障診斷、參數(shù)優(yōu)化等具體的數(shù)據(jù)應(yīng)用產(chǎn)品。在航天任務(wù)中的應(yīng)用場景分析如下。
(1)分類和預(yù)測。分類主要是預(yù)測分類標(biāo)號(hào)(離散屬性),而預(yù)測主要是建立連續(xù)值函數(shù)模型,預(yù)測給定自變量對(duì)應(yīng)的因變量的值。分類和預(yù)測可用于構(gòu)建航天器故障診斷自適應(yīng)門限模型,其核心思想是利用歷史積累的測控?cái)?shù)據(jù),通過合適的機(jī)器學(xué)習(xí)算法動(dòng)態(tài)生成實(shí)際測控參數(shù)合適的上下門限。由于機(jī)器學(xué)習(xí)算法充分利用了歷史數(shù)據(jù)中的可用信息,因而所確定的門限具有更好的適用性,可以有效地減少門限檢測的誤報(bào)率[6-7]。常用的分類和預(yù)測算法包括回歸分析、決策樹、隨機(jī)森林、貝葉斯網(wǎng)絡(luò)和支持向量機(jī)等。
(2)聚類分析。與分類模型需要使用有類標(biāo)記樣本構(gòu)成的訓(xùn)練數(shù)據(jù)不同,聚類模型可以建立在無類標(biāo)記的數(shù)據(jù)上,根據(jù)數(shù)組相似度進(jìn)行樣本分組。對(duì)歷史測控?cái)?shù)據(jù)進(jìn)行規(guī)則挖掘,從海量的樣本數(shù)據(jù)中獲取故障診斷的規(guī)則,及時(shí)發(fā)現(xiàn)故障征兆并采取有效措施就可能避免航天器出現(xiàn)重大的故障。NASA 阿姆斯研究中心(ARC)的歸納式推理系統(tǒng)(Inductive Monitoring System,IMS)[8]主要采用聚類的方式對(duì)數(shù)據(jù)進(jìn)行自動(dòng)狀態(tài)分類。文獻(xiàn)[9]根據(jù)遙測數(shù)據(jù)的時(shí)序特性,將聚類分析方法應(yīng)用于航天器故障診斷決策研究。常用聚類方法包括K-means算法、基于層次分析的BIRCH算法、基于密度的DBSCAN算法、基于網(wǎng)絡(luò)的STING算法和基于模型的神經(jīng)網(wǎng)絡(luò)方法等。
(3)關(guān)聯(lián)分析。關(guān)聯(lián)分析可以有效發(fā)現(xiàn)測控?cái)?shù)據(jù)中的有用知識(shí),將其應(yīng)用于專家系統(tǒng)中實(shí)現(xiàn)知識(shí)的自動(dòng)獲取[10]。知識(shí)庫不是提前編寫好的靜態(tài)知識(shí),而是通過數(shù)據(jù)挖掘技術(shù)生成的動(dòng)態(tài)知識(shí)。常用的關(guān)聯(lián)算法包括Apriori、FP-Growth、Eclat、灰色關(guān)聯(lián)法等。
本章重點(diǎn)圍繞應(yīng)用技術(shù)需求設(shè)計(jì)測試用例。其中,數(shù)據(jù)集中管理能力包括數(shù)據(jù)接口能否滿足任務(wù)場景下的指標(biāo)要求、數(shù)據(jù)入庫效率與現(xiàn)有電文軟件的橫向比較,以及對(duì)復(fù)雜查詢需求的支持等。數(shù)據(jù)應(yīng)用模式測試體現(xiàn)在對(duì)航天器工程數(shù)據(jù)進(jìn)行數(shù)據(jù)挖掘應(yīng)用。對(duì)系統(tǒng)伸縮性的論證依托于分布式系統(tǒng)的架構(gòu)設(shè)計(jì),不做專項(xiàng)測試。
使用4臺(tái)曙光服務(wù)器部署4個(gè)節(jié)點(diǎn)的云平臺(tái)測試環(huán)境, Hadoop版本為 2.6.5,操作系統(tǒng)環(huán)境為Centos 7、JDK1.8。按照圖1所示系統(tǒng)架構(gòu)在各個(gè)節(jié)點(diǎn)分別部署軟件。此外,為進(jìn)行性能橫向比較,在Hadoop1節(jié)點(diǎn)部署任務(wù)收發(fā)信軟件和MySql數(shù)據(jù)庫。軟件部署見表2。
采用自研的數(shù)據(jù)模擬發(fā)生器構(gòu)建任務(wù)場景,生成DBMS、離線數(shù)據(jù)等不同應(yīng)用格式的數(shù)據(jù)。該程序擔(dān)任Kafka數(shù)據(jù)生產(chǎn)者的角色,通過調(diào)用Kafka Producer API建立應(yīng)用程序到Hodoop平臺(tái)的數(shù)據(jù)流。在Hadoop1節(jié)點(diǎn)shell終端完成數(shù)據(jù)采集效率、入庫效率、查詢能力、數(shù)據(jù)挖掘等各項(xiàng)測試結(jié)果的統(tǒng)計(jì)。其中,對(duì)數(shù)據(jù)挖掘的決策樹、回歸分析的測試調(diào)用Mahout自帶jar完成,不生成新的算法工具包。
表2 測試環(huán)境下的軟件部署信息
構(gòu)建任務(wù)場景,測試接口軟件是否滿足任務(wù)指標(biāo)要求,結(jié)果見表3。
表3 數(shù)據(jù)采集效率測試
由表3分析可知,以Kafka架構(gòu)為核心構(gòu)建的接口完全滿足任務(wù)需求。
根據(jù)任務(wù)場景生成不同頻率的數(shù)據(jù),測試數(shù)據(jù)預(yù)處理程序性能,并與任務(wù)系統(tǒng)收發(fā)信軟件進(jìn)行橫向比較。結(jié)果見表4。
在單目標(biāo)2測站、單目標(biāo)5測站這兩類常規(guī)任務(wù)場景下,采用大數(shù)據(jù)應(yīng)用系統(tǒng)與傳統(tǒng)任務(wù)軟件的性能表現(xiàn)基本持平,隨著多目標(biāo)、多測站任務(wù)壓力的增大,采用大數(shù)據(jù)應(yīng)用技術(shù)的系統(tǒng)表現(xiàn)明顯優(yōu)于傳統(tǒng)軟件,尤其在壓力測試下(相當(dāng)于37個(gè)目標(biāo)5個(gè)站同時(shí)跟蹤),大數(shù)據(jù)應(yīng)用軟件的入庫效率高效,能夠應(yīng)對(duì)后續(xù)任務(wù)并行執(zhí)行的要求。
表4 入庫效率測試
項(xiàng)目組模擬了雙目標(biāo)運(yùn)行289天,單測站不間斷跟蹤的工程遙測數(shù)據(jù)量,約5000萬行工程遙測數(shù)據(jù)(3000個(gè)參數(shù)/行)入庫,然后使用數(shù)據(jù)模擬發(fā)生器,按照雙目標(biāo)兩測站跟蹤的數(shù)據(jù)頻率模擬發(fā)送數(shù)據(jù)。數(shù)據(jù)格式參照不同型號(hào)任務(wù)執(zhí)行情況,進(jìn)行差異化定制。Hbase、Hive接收數(shù)據(jù)的同時(shí)以時(shí)間為過濾條件進(jìn)行查詢,返回結(jié)果全集。結(jié)果見表5。
從表5測試結(jié)果可知:雙目標(biāo)2測站、雙目標(biāo)5測站數(shù)據(jù)入庫的同時(shí)提交查詢請求,是一類跨任務(wù)的復(fù)雜查詢,處理結(jié)果均優(yōu)于任務(wù)指標(biāo),結(jié)果全集證明該系統(tǒng)在數(shù)據(jù)查詢功能設(shè)計(jì)的高效性。
表5 查詢能力測試
2013年11月11日在天宮一號(hào)偏航動(dòng)力飛行模式期間,當(dāng)天第一圈跟蹤過程中,遙測監(jiān)視發(fā)現(xiàn)3號(hào)控制力矩陀螺(CMG3)出現(xiàn)工作異常現(xiàn)象,具體表現(xiàn)為制導(dǎo)、導(dǎo)航與控制(GNC)分系統(tǒng)遙測參數(shù)DKS0088(CMG3轉(zhuǎn)子脈沖數(shù))由正常值1424或1425逐漸下降至0,遙測參數(shù)DKS0090(CMG3自檢狀態(tài))由0CH切換為04H(異常),VKZ019(CMG3轉(zhuǎn)子電極電流)由4.0變?yōu)?(轉(zhuǎn)子停轉(zhuǎn))。
上述問題屬于一種典型的分類與預(yù)測場景。在用例測試中,提取天宮一號(hào)CMG3發(fā)生故障時(shí)的15 min數(shù)據(jù)、故障切換后為CMG5的30 min數(shù)據(jù),以及CMG3故障前6天的數(shù)據(jù),進(jìn)行人工標(biāo)注。標(biāo)簽為TYPE1(CMG3正常)、TYPE2(CMG3故障)成為訓(xùn)練集,模擬中心故障數(shù)據(jù)與正常數(shù)據(jù)嚴(yán)重失衡的特點(diǎn)。挑選CMG3故障前50天,CMG3發(fā)生故障時(shí)6 h及故障切換為CMG5的10 h數(shù)據(jù)作為測試集,并將訓(xùn)練集去除標(biāo)簽后放入測試集中。使用訓(xùn)練集對(duì)相對(duì)性分析與分類算法進(jìn)行訓(xùn)練。采用決策樹進(jìn)行相關(guān)性分析,可以識(shí)別與故障相關(guān)的字段;采用回歸分析進(jìn)行分類,可以識(shí)別故障發(fā)生時(shí)間。
1)決策樹
采用基尼系數(shù)(Gini Index)判別候選字段對(duì)于目標(biāo)類別的重要性,最小的系數(shù)值作為節(jié)點(diǎn)劃分決策樹(見表6)。
隨機(jī)抽取故障訓(xùn)練數(shù)據(jù)中60%用于建模,其余40%用于模型驗(yàn)證。采用二叉樹構(gòu)建決策樹,按照置信邊界=0.2進(jìn)行剪枝,結(jié)果如下:
DKS0090(>8.0)→TYPE=1(267275,100.0%,3)
DKS0090(≤8.0)→DKS0100(>6.0)→TYPE=3(44180,100.0%,2)
DKS0090(≤8.0)→ DKS0100(≤6.0)→TYPE=2(2175,100.0%,1)
檢驗(yàn)結(jié)果表明:目標(biāo)評(píng)估指標(biāo)的準(zhǔn)確率、覆蓋率都達(dá)到了100%。
表6 決策樹基尼系數(shù)分析
2)回歸分析
采用相關(guān)系數(shù)確定字段重要性,基于最優(yōu)候選字段作為建模字段,候選子集包括DKS019、DKS0021、DKS0087、DKS0088、DKS0090、VKZ019、VKZ021、VKZ039、DRZ088。誤差控制參數(shù)設(shè)置為10-4,最大迭代次數(shù)200,建立故障回歸模型。決策樹如下:
VKZ019(>0.620000005)→TYPE=1(442409,100.0%,3)
VKZ019(≤0.620000005)→VKZ037(≤1.090000035)→TYPE=2(1200,100.0%,2)
VKZ019(≤0.620000005)→VKZ037(>1.090000035)→TYPE=3(39875,100.0%,3)
檢驗(yàn)結(jié)果表明:目標(biāo)評(píng)估指標(biāo)的準(zhǔn)確率、覆蓋率都達(dá)到了100%。
所構(gòu)建的單目標(biāo)2測站、單目標(biāo)5測站任務(wù)場景,是當(dāng)前載人航天和深空探測任務(wù)中應(yīng)用最為廣泛的一類場景,雙目標(biāo)2測站,是后續(xù)多任務(wù)并發(fā)執(zhí)行的場景,均具有典型代表性。在4個(gè)集群節(jié)點(diǎn)下的數(shù)據(jù)采集效率、入庫效率、查詢能力測試,指標(biāo)完全滿足航天試驗(yàn)任務(wù)需求。取樣天宮一號(hào)故障點(diǎn)數(shù)據(jù),進(jìn)行數(shù)據(jù)挖掘功能測試,結(jié)果符合預(yù)期指標(biāo)。測試結(jié)果驗(yàn)證了本文所設(shè)計(jì)的大數(shù)據(jù)應(yīng)用技術(shù)架構(gòu)的有效性。
本文研究任務(wù)數(shù)據(jù)特點(diǎn),提出面向航天工程大數(shù)據(jù)處理的一種通用型應(yīng)用技術(shù)架構(gòu),以開源組件為主完成系統(tǒng)實(shí)現(xiàn),并基于任務(wù)場景對(duì)數(shù)據(jù)采集效率、入庫效率、查詢能力以及數(shù)據(jù)挖掘能力進(jìn)行測試驗(yàn)證,結(jié)果滿足工程任務(wù)需求。
大數(shù)據(jù)應(yīng)用技術(shù)與航天試驗(yàn)任務(wù)系統(tǒng)結(jié)合,還面臨很多挑戰(zhàn)。
(1)數(shù)據(jù)復(fù)雜性。試驗(yàn)任務(wù)數(shù)據(jù)典型的特征即類型多樣、關(guān)聯(lián)關(guān)系復(fù)雜、信息維度高,使得系統(tǒng)在數(shù)據(jù)的感知、表達(dá)、理解和計(jì)算等多個(gè)環(huán)節(jié)面臨著巨大的挑戰(zhàn)。在傳統(tǒng)全量數(shù)據(jù)計(jì)算模式下,時(shí)空維度上計(jì)算復(fù)雜度的激增,導(dǎo)致數(shù)據(jù)分析與挖掘任務(wù)如檢索、主題發(fā)現(xiàn)、語義分析等變得異常困難。鑒于航天任務(wù)的復(fù)雜性,人們對(duì)復(fù)雜數(shù)據(jù)內(nèi)在機(jī)理及其背后的物理意義缺乏理解,極大地制約了人們對(duì)大數(shù)據(jù)高效計(jì)算模型和方法的設(shè)計(jì)能力。因此,需要研究航天器、測控系統(tǒng)多模態(tài)關(guān)聯(lián)關(guān)系下的數(shù)據(jù)分布理論和模型,理清數(shù)據(jù)復(fù)雜度和時(shí)空計(jì)算復(fù)雜度之間的內(nèi)在聯(lián)系,通過對(duì)大數(shù)據(jù)復(fù)雜性規(guī)律的研究理解任務(wù)數(shù)據(jù)的本質(zhì)特征和生成機(jī)理,進(jìn)而指導(dǎo)大數(shù)據(jù)計(jì)算模型和算法的設(shè)計(jì)。
(2)高緯度計(jì)算。試驗(yàn)任務(wù)大數(shù)據(jù)多源異構(gòu)、規(guī)模巨大、快速多變等特性使得傳統(tǒng)的數(shù)據(jù)存儲(chǔ)、信息檢索、數(shù)據(jù)挖掘等計(jì)算方法不能有效支持大數(shù)據(jù)的處理、分析和計(jì)算。特別是大數(shù)據(jù)計(jì)算不能像小樣本數(shù)據(jù)集那樣依賴于對(duì)全局?jǐn)?shù)據(jù)的統(tǒng)計(jì)分析和迭代計(jì)算,需要著眼于航天任務(wù)全生命周期,基于航天器的基本特征及其良好指標(biāo),突破傳統(tǒng)計(jì)算對(duì)數(shù)據(jù)的獨(dú)立同分布和采樣充分性的假設(shè)。
(3)高性能系統(tǒng)。任務(wù)處理系統(tǒng)是以高效能為目標(biāo)的系統(tǒng)架構(gòu)設(shè)計(jì),突出的問題是計(jì)算框架、處理方法和測試基準(zhǔn)的效能評(píng)價(jià)和性能優(yōu)化,不但要求理清大數(shù)據(jù)的復(fù)雜性、可計(jì)算性與系統(tǒng)處理效率、能耗間的關(guān)系,還要綜合度量系統(tǒng)中如系統(tǒng)吞吐率、并行處理能力、作業(yè)計(jì)算精度、作業(yè)單位能耗等多種效能因素。