陳 沖,徐清宇,程 欣,李克奇,甄 磊
(北方自動控制技術研究所,太原 030006)
現今的模擬仿真訓練系統中,對于溫度、風力、云、霧、沙塵、降雨量等氣象環(huán)境的仿真主要是以復現歷史戰(zhàn)場氣象環(huán)境數據來實現的。主要是通過對歷史戰(zhàn)場氣象環(huán)境數據的挖掘進行復現,主要方法包括基于K 均值聚類算法的氣象數據挖掘、基于蟻群算法的戰(zhàn)場氣象環(huán)境數據挖掘,和基于氣象預測相關數據挖掘模型的戰(zhàn)場氣象環(huán)境數據挖掘。其中最常用的是氣象預測相關數據挖掘模型的戰(zhàn)場氣象環(huán)境數據挖掘方法。
在模擬仿真訓練過程中,單一的對歷史戰(zhàn)場氣象環(huán)境的再現,已經遠遠不能滿足對于多變戰(zhàn)場環(huán)境的仿真需求。針對陸軍模擬仿真訓練系統其在訓練過程中對虛擬戰(zhàn)場氣象環(huán)境的干預,需要在合理可控的預測區(qū)間內對調理作出響應。本文所提出的基于戰(zhàn)場氣象環(huán)境歷史數據的模糊預測算法,是在擬合區(qū)間內對氣象數據的模糊預測擬合,滿足陸戰(zhàn)場仿真系統中對多變戰(zhàn)場氣象環(huán)境的要求。
對于氣象環(huán)境預報來說,用到最多的是被廣為熟知的氣象預報專家系統。該系統是以氣象環(huán)境學知識為基礎,并以推理機系統產生的邏輯推斷為依據來預報氣象環(huán)境。通常包括知識獲取、知識庫、數據庫、推理機、輸出解釋和資料處理與預報參數采集等6 部分分系統。知識獲取分系統是利用壓縮后的預報因子和因子群,將從氣象環(huán)境預報員和氣象領域專家得到的知識轉變?yōu)橄到y可識別的形式,并將其寄存于知識庫分系統中。推理機分系統是利用氣象學知識產生的規(guī)則,對氣象環(huán)境數據進行邏輯判斷。知識庫分系統是氣象預報專家系統的核心部分,知識的獲取、解析、推理和預報都建立在知識庫分系統的基礎上。數據庫分系統是用來存儲氣象信息數據的,主要包括歷史氣象數據資料和實時氣象數據資料兩部分內容。輸出解釋分系統是通過人機互操作的形式將系統的各種信息提供給用戶,使系統具備一定的可理解性。資料處理與預報參數分系統又可以稱之為學習系統,通過與外界環(huán)境進行交互不斷完善自身的性能。
隨著數據處理技術的不斷發(fā)展,對氣象環(huán)境數據處理能力在不斷提高,獲取到的氣象環(huán)境數據量也在不斷增加,氣象環(huán)境數據的殘缺、冗余和混亂現象越來越明顯。通過專家和人工獲取的知識已經不能滿足對復雜數據總體特性準確描述的需求,因數據量爆炸式增長而出現的知識匱乏現象也日漸顯露。在氣象環(huán)境數據量龐大的今天,知識獲取逐漸成為制約氣象預報專家系統發(fā)展的核心問題。
數據挖掘是利用多種分析工具在海量數據中尋求構建模型和數據之間關系的過程,并利用這些數據和模型間關系對數據更進一步預測。數據挖掘在氣象預報中首先要做的是對氣象數據的描述,并對統計變量進行計算。隨著數據庫和數據挖掘技術的發(fā)展,數據挖掘在氣象預報中的應用越來越多。從最早在氣象環(huán)境數據處理中用到的統計學回歸和聚類分析方法,到現今所用到的數據挖掘技術、氣象環(huán)境數據處理技術也在不斷變革。
由于氣象數據和電力負荷數據之間存在著極大的不確定性關系,在計算機系統中的電力負荷預測上,開始出現了大量的研究和試驗。大量研究表明,氣象變化是導致計算機系統電力負荷變化的因素之一。
雖然上面所提到的兩種方法對于戰(zhàn)場氣象環(huán)境數據都能起到預測作用,但是針對陸軍模擬仿真訓練系統,所要實現的不僅僅是對戰(zhàn)場氣象環(huán)境數據的準確預測,還有在仿真過程中在不影響整體系統環(huán)境數據的基礎上,對虛擬戰(zhàn)場氣象環(huán)境在合理范圍內的干預和調理。針對以上問題,本文提出了一種基于歷史戰(zhàn)場氣象環(huán)境數據的模糊預測算法設計。
對戰(zhàn)場氣象環(huán)境進行精準的預測,是在對戰(zhàn)場氣象環(huán)境數據進行準確分析后的基礎上完成的。原始氣象環(huán)境數據中所存在的數據冗余、雜亂和不完整等問題,會直接影響到數據挖掘和模糊預測的效果,所以在對氣象數據進行挖掘和模糊預測前,要根據氣象數據特性,利用現有的數據清理、集成、變換和規(guī)約等預處理技術,可以提升戰(zhàn)場氣象環(huán)境數據的質量,提高挖掘和預測的效率。
數據清理主要是用來填補遺漏數據、消除異常數據和平滑噪聲數據,能有效糾正錯誤數據。
數據集成是指將不同數據源的數據整合到一起,形成一個統一的數據集合,為數據挖掘和模糊預測提供完整的數據基礎。以給出的兩個屬性A 和B 數據集合為例,其中n 是集合A、B 的元素個數,A與B 是集合A、B 的均值,σA與σB是集合A、B 的標準差。根據集合A、B 的數值屬性,使用下式分析集合A、B 數值屬性間的互相關關系:
數據變化是指采用規(guī)范化和屬性構造等方法,將原始氣象環(huán)境數據轉變?yōu)檫m合挖掘和預測的形式。常用的規(guī)范化方法有最小-最大規(guī)范化、零均值規(guī)范化和十基數變換規(guī)范化。
1)最小-最大規(guī)范化法:假設minA和maxA為A 屬性的最小值與最大值。最小-最大規(guī)范化是對A 的值線性變換,將其映射到區(qū)間[newminA,newmaxA]中,其映射公式如下:
2)零均值規(guī)范化法:將集合A 的數值屬性值v基于A 的平均值和標準差進行處理,其中A、σA為集合A 的均值和標準差,利用下式規(guī)范為v':
3)十基數變換規(guī)范化法:通過移動集合A 的小數點位置,將集合A 的屬性值v 規(guī)范化為v',其中j 是使得max(|v'|)<1 的最小整數。而小數點的移動位數取決于A 的最大絕對值。
數據歸約技術是對氣象環(huán)境原始數據集進行屬性選擇和部分采樣等處理,得到原數據集的精簡集合。該精簡數據集不僅減小了原始數據集的數據量,還保持了原數據集的完整性。
對于模糊預測在歷史氣象數據挖掘應用來說,主流的是在K 均值聚類算法的基礎上,引入隸屬關系形成的模糊K 均值聚類的氣象數據挖掘算法,其在一定程度上增加了數據挖掘的準確率。以主從隸屬的依附關系,根據隸屬度關系進行分類模糊,提高某幾類數據挖掘的準確率。但在氣象數據模糊預測中,所要求的是對于整個時間段內氣象數據的挖掘預測,不存在隸屬關系,就需要來尋求其他的關于氣象數據挖掘的模糊預測。
本文所提出的基于模擬訓練歷史數據的氣象環(huán)境數據模糊預測算法,其通過時間序列分析氣象環(huán)境數據之間的關聯性,通過模擬訓練的歷史氣象環(huán)境數據挖掘時間序列變化的規(guī)律,來對未來氣象環(huán)境數據進行模糊預測。模型計算的模糊帶包絡覆蓋了實際值變化的曲線,能夠在模擬仿真訓練過程中滿足用戶在真實可能性的基礎上,實現對虛擬戰(zhàn)場環(huán)境數據定制。模糊時間序列曲線擬合預測過程主要包括以下內容。
以某一虛擬戰(zhàn)場環(huán)境數據來說,假設該戰(zhàn)場環(huán)境某月的歷史平均數據為一組實數x1,x2,…xT,利用它們構造一組模糊數,設當t=1 和T 時,
在給出的歷史年份T 內取不同的正整數k 值,計算趨勢方程:
設pi為三角模糊函數,則它的估計值p^i可以設為:
得到pi的估計值p^i,則得到趨勢方程為:
此時可代入未來時間,SVt*()也是一個三角模糊數,當時間變動時SVt*(t)不是一條曲線,而是一個曲線帶,曲線帶的上下兩條邊界曲線分別為f1(t)=β(t)+S(t)和f2(t)=β(t)-S(t),中心線為f0(t)=β(t),
Box-Muller 算法核心是先產生一組服從均勻分布的隨機數,再將該組均勻分布的隨機數通過變化轉換為正態(tài)分布的隨機數。
在(0,1]值域內生成u1和u2,且u1、u2為相互獨立的兩個隨機數:
u1=rand()*1.0/RAND_MAX;
u2=rand()*1.0/RAND_MAX;
其中,RAND_MAX 為定義的字符常量,rand()為產生在0-RAND_MAX 區(qū)間值的函數,由此算出一個正態(tài)分布的隨機數字Z:
Z=R*cos(a);
其中,R=sqrt(-2*log(u2));a=2*π*u1;
得到一個均值為0,標準差為1 統計量,映射到一個均值為β(t),標準偏差為S(t)的統計量X:
X =β(t)+ Z * S(t),即為默認的預測值函數。
為了驗證算法的可行性和有效性,本文采取戰(zhàn)場環(huán)境中的天氣溫度數據來進行算法的可行性實現,并與歷史數據挖掘到的溫度數據進行比較,驗證該算法的有效性。利用MATLAB 工具以虛擬仿真訓練戰(zhàn)場氣象環(huán)境中的氣溫為例,來繪制戰(zhàn)場環(huán)境的歷史氣溫挖掘數據和本文設計算法得到的預測溫度數據。
本文以中部戰(zhàn)區(qū)某戰(zhàn)場2020 年7 月份的日平均溫度作為樣本數據來進行預測,以1999-2019 年前20 年的該戰(zhàn)場7 月份日平均氣溫數據進行挖掘獲得7 月份日平均溫度的歷史數據,氣溫數據來源于中國氣象數據網。由于數據繁多復雜,這里直接給出原始數據經過預處理后的2020 年7 月份和前20 年中部某戰(zhàn)場的日平均氣溫數據,如表1 和表2所示。
表1 2020 年中部某戰(zhàn)場7 月日平均溫度
對于所要預測擬合的2020 年7 月份太原市的日平均氣溫本文以前20 年的溫度為樣本,利用本文算法給出預測擬合區(qū)間,并在該區(qū)間內進行預測擬合,同時與常用的歷史數據挖掘得到的數據進行比較,分析該算法的有效性,所得到的結果如圖1~圖4 所示。
表2 前20 年7 月份中部某戰(zhàn)場日平均溫度
圖1 2020 年7 月份日平均氣溫
圖3 歷史氣溫數據挖掘曲線
從上圖中可以看出本文所提出的利用歷史數據來進行戰(zhàn)場環(huán)境的模糊預測模擬,相比歷史數據挖掘所得到的環(huán)境數據更加貼合實際戰(zhàn)場環(huán)境數據,且其在擬合區(qū)間內進行戰(zhàn)場環(huán)境的數據預測擬合思想,更加符合在模擬仿真訓練過程中對虛擬戰(zhàn)場環(huán)境的實時戰(zhàn)場干預和調理。
圖4 擬合區(qū)間內算法預測擬合的曲線
虛擬戰(zhàn)場環(huán)境仿真數據通過模糊時間序列算法預測得出的是一個可能性區(qū)間,在該合理區(qū)間內可以進行預測擬合曲線的自定義。預測方程系數不是確定的數,而是一組模糊數;預測的是一個區(qū)間,而不是一個確定值,在該區(qū)間內可以對陸軍模擬仿真訓練過程中的虛擬戰(zhàn)場氣象環(huán)境進行合理的干預調理。